Spaces:
Running
on
Zero
Running
on
Zero
A newer version of the Gradio SDK is available:
5.49.1
MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance
Read this in English.
📖 介绍
语音对话系统通常依赖于级联式流水线,将语音先转录、处理,再重新合成,这种设计限制了表达能力,并丢失了副语言信息。MOSS-Speech 能够直接理解和生成语音,无需依赖文本中间表示,实现端到端的语音交互,同时保留语调、韵律和情感信息。
我们的方法结合了 基于模态的层拆分架构 与 冻结预训练策略,在利用预训练文本大型语言模型的推理与知识能力的同时,扩展了原生语音处理能力。实验结果显示,该模型在语音问答任务上取得了最先进的性能,并在语音到语音生成任务中,相较于文本引导系统仍保持竞争力。
欢迎查看我们系统的演示视频。
🔑 核心特性
- 真正的语音到语音建模:无需文本引导。
- 层拆分架构:在预训练文本 LLM 的基础上整合模态特定层。
- 冻结预训练策略:保留 LLM 推理能力,同时增强语音理解和生成能力。
- 领先性能:在语音问答和语音到语音任务中表现出色。
- 表达丰富且高效:保留流水线中常丢失的副语言信息(如语调、情感、韵律)。
📂 仓库内容
gradio_demo.py– 基于 Gradio 的在线演示脚本,用于快速体验语音到语音模型的功能。generation.py– 核心生成脚本,用于从输入语音生成输出语音,可作为推理和批量处理工具。
🛠️ 安装
# Clone the repository
git clone https://github.com/OpenMOSS/MOSS-Speech
cd MOSS-Speech
# Install dependencies
pip install -r requirements.txt
🚀 使用
启动网页demo
python3 gradio_demo.py
协议
- 本开源仓库的代码遵循 Apache 2.0 协议。
致谢
- Qwen: 我们以Qwen3-8B-Instruct作为基座模型。
- 感谢一位匿名的同事给我们提供声音!
📜 引用
如果在研究中使用本仓库或模型,请引用如下文献:
@article{moss_speech2025,
title={MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance},
author={SLM Team},
institution={Shanghai Innovation Institute, Fudan University, MOSI},
year={2025},
note={Official implementation available at https://huggingface.co/fnlp/MOSS-Speech}
}
or
@misc{moss_speech2025,
author = {SLM Team},
title = {MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance},
year = {2025},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/OpenMOSS/MOSS-Speech}},
}