Spaces:

vincenthugging
/

MOSS-TTSD-Enhanced

Running

vincenthugging commited on Aug 8

Commit

81ba8ab

1 Parent(s): 88ea080

🔧 修复默认音频文件路径错误

🐛 主要修复:
1. **文件路径问题**
- 移除UI初始化时的音频文件预设，避免无效路径
- 修改为只预填充对话文本，音频需要用户主动加载
- 添加音频文件存在性检查和日志输出

2. **用户体验优化**
- 更新提示信息：指导用户点击'默认音频'按钮
- 改进错误提示：友好引导而非简单的错误信息
- 保持开箱即用体验：文本预填充 + 一键音频加载

3. **交互流程调整**
- 页面打开：自动填充对话文本 ✅
- 用户点击'🎧 默认音频'：加载参考音频和文本 ✅
- 点击'🎬 开始合成'：生成音频 ✅

🎯 解决问题:
- 消除 'No such file or directory' 错误
- 避免 Gradio 临时文件路径冲突
- 确保文件系统访问安全性
- 提供清晰的用户操作指导

✨ 新的用户流程:
1. 打开页面 → 看到预填充的对话文本
2. 点击'默认音频' → 加载示例音频和参考文本
3. 点击'开始合成' → 生成对话音频

现在用户有两种体验方式：快速体验(默认音频)或自定义(上传音频)！

Files changed (1) hide show

app.py +18 -25

app.py CHANGED Viewed

@@ -199,7 +199,7 @@ def load_scenario_data(scenario_key: str):
 def load_default_audio():
-    """加载默认音频和文本"""
     audio1 = DEFAULT_AUDIO_CONFIG["speaker1"]["audio"]
     text1 = DEFAULT_AUDIO_CONFIG["speaker1"]["text"]
     audio2 = DEFAULT_AUDIO_CONFIG["speaker2"]["audio"]
@@ -213,11 +213,17 @@ def load_default_audio():
         "[S2]是的，让我们开始今天的精彩内容吧！"
     )
     return (
         default_text,
-        audio1 if os.path.exists(audio1) else None,
         text1,
-        audio2 if os.path.exists(audio2) else None,
         text2
     )
@@ -288,9 +294,9 @@ def generate_dialogue_audio(
         if not dialogue_text or not dialogue_text.strip():
             return None, "❌ 请输入对话文本"
-        # 允许只提供一个音频：会自动退化为单音频模式
         if not speaker1_audio and not speaker2_audio:
-            return None, "❌ 请上传至少一个参考音频文件"
         # 初始化模型，显示进度
         tokenizer, model, spt, device = initialize_model()
@@ -459,9 +465,8 @@ def create_space_ui() -> gr.Blocks:
                 with gr.Group():
                     gr.Markdown("### 📝 对话文本")
-                    # 获取默认内容以实现开箱即用
-                    default_content = load_default_audio()
-                    default_text = default_content[0] if default_content else (
                         "[S1]大家好，欢迎收听今天的节目，我是主播小雨。"
                         "[S2]大家好，我是嘉宾阿明，很高兴和大家见面。"
                         "[S1]今天我们要聊的话题非常有趣，相信大家会喜欢的。"
@@ -502,37 +507,25 @@ def create_space_ui() -> gr.Blocks:
                 with gr.Row():
                     with gr.Group():
                         gr.Markdown("### 🎵 说话者1 (女声)")
-                        # 设置默认音频和文本，实现开箱即用
-                        default_audio1 = default_content[1] if len(default_content) > 1 else None
-                        default_text1 = default_content[2] if len(default_content) > 2 else ""
                         speaker1_audio = gr.Audio(
                             label="参考音频",
-                            type="filepath",
-                            value=default_audio1
                         )
                         speaker1_text = gr.TextArea(
                             label="参考文本",
                             lines=2,
-                            placeholder="请输入与参考音频内容完全匹配的文本...",
-                            value=default_text1
                         )
                     with gr.Group():
                         gr.Markdown("### 🎵 说话者2 (男声)")
-                        # 设置默认音频和文本，实现开箱即用
-                        default_audio2 = default_content[3] if len(default_content) > 3 else None
-                        default_text2 = default_content[4] if len(default_content) > 4 else ""
                         speaker2_audio = gr.Audio(
                             label="参考音频",
-                            type="filepath",
-                            value=default_audio2
                         )
                         speaker2_text = gr.TextArea(
                             label="参考文本",
                             lines=2,
-                            placeholder="请输入与参考音频内容完全匹配的文本...",
-                            value=default_text2
                         )
                 with gr.Group():
@@ -540,7 +533,7 @@ def create_space_ui() -> gr.Blocks:
                     with gr.Row():
                         use_normalize = gr.Checkbox(label="✅ 文本标准化（推荐）", value=True)
                     btn_generate = gr.Button("🎬 开始合成", variant="primary", size="lg")
-                    gr.Markdown("💡 **开箱即用**: 页面已自动填充��认内容，您可以直接点击开始合成体验！")
             # 右侧：输出与说明
             with gr.Column(scale=2):

 def load_default_audio():
+    """加载默认音频和文本，确保音频文件存在"""
     audio1 = DEFAULT_AUDIO_CONFIG["speaker1"]["audio"]
     text1 = DEFAULT_AUDIO_CONFIG["speaker1"]["text"]
     audio2 = DEFAULT_AUDIO_CONFIG["speaker2"]["audio"]
         "[S2]是的，让我们开始今天的精彩内容吧！"
     )
+    # 检查音频文件是否存在，不存在则返回None
+    audio1_path = audio1 if os.path.exists(audio1) else None
+    audio2_path = audio2 if os.path.exists(audio2) else None
+    print(f"🔍 默认音频检查: audio1={audio1_path}, audio2={audio2_path}")
     return (
         default_text,
+        audio1_path,
         text1,
+        audio2_path,
         text2
     )
         if not dialogue_text or not dialogue_text.strip():
             return None, "❌ 请输入对话文本"
+        # 引导用户上传音频或使用默认音频
         if not speaker1_audio and not speaker2_audio:
+            return None, "💡 请先上传参考音频文件，或点击 '🎧 默认音频' 按钮快速加载示例音频！"
         # 初始化模型，显示进度
         tokenizer, model, spt, device = initialize_model()
                 with gr.Group():
                     gr.Markdown("### 📝 对话文本")
+                    # 预填充默认对话文本，实现开箱即用
+                    default_text = (
                         "[S1]大家好，欢迎收听今天的节目，我是主播小雨。"
                         "[S2]大家好，我是嘉宾阿明，很高兴和大家见面。"
                         "[S1]今天我们要聊的话题非常有趣，相信大家会喜欢的。"
                 with gr.Row():
                     with gr.Group():
                         gr.Markdown("### 🎵 说话者1 (女声)")
                         speaker1_audio = gr.Audio(
                             label="参考音频",
+                            type="filepath"
                         )
                         speaker1_text = gr.TextArea(
                             label="参考文本",
                             lines=2,
+                            placeholder="请输入与参考音频内容完全匹配的文本..."
                         )
                     with gr.Group():
                         gr.Markdown("### 🎵 说话者2 (男声)")
                         speaker2_audio = gr.Audio(
                             label="参考音频",
+                            type="filepath"
                         )
                         speaker2_text = gr.TextArea(
                             label="参考文本",
                             lines=2,
+                            placeholder="请输入与参考音频内容完全匹配的文本..."
                         )
                 with gr.Group():
                     with gr.Row():
                         use_normalize = gr.Checkbox(label="✅ 文本标准化（推荐）", value=True)
                     btn_generate = gr.Button("🎬 开始合成", variant="primary", size="lg")
+                    gr.Markdown("💡 **快速体验**: 页面已填充默认对话文本，点击 '🎧 默认音频' 按钮加载参考音频，然后即可开始合成！")
             # 右侧：输出与说明
             with gr.Column(scale=2):