Spaces:

OpenMOSS-Team
/

MOSS-Speech

Running on Zero

App Files Files Community

MOSS-Speech / README_ZH.md

singularitys0

Initial Commit

f5abf67 about 1 month ago

preview code

raw

history blame contribute delete

5.3 kB

A newer version of the Gradio SDK is available: 5.49.1

Upgrade

MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance

Read this in English.

📖 介绍

语音对话系统通常依赖于级联式流水线，将语音先转录、处理，再重新合成，这种设计限制了表达能力，并丢失了副语言信息。MOSS-Speech 能够直接理解和生成语音，无需依赖文本中间表示，实现端到端的语音交互，同时保留语调、韵律和情感信息。

我们的方法结合了 基于模态的层拆分架构 与 冻结预训练策略，在利用预训练文本大型语言模型的推理与知识能力的同时，扩展了原生语音处理能力。实验结果显示，该模型在语音问答任务上取得了最先进的性能，并在语音到语音生成任务中，相较于文本引导系统仍保持竞争力。

欢迎查看我们系统的演示视频。

🔑 核心特性

真正的语音到语音建模：无需文本引导。
层拆分架构：在预训练文本 LLM 的基础上整合模态特定层。
冻结预训练策略：保留 LLM 推理能力，同时增强语音理解和生成能力。
领先性能：在语音问答和语音到语音任务中表现出色。
表达丰富且高效：保留流水线中常丢失的副语言信息（如语调、情感、韵律）。

📂 仓库内容

gradio_demo.py – 基于 Gradio 的在线演示脚本，用于快速体验语音到语音模型的功能。
generation.py – 核心生成脚本，用于从输入语音生成输出语音，可作为推理和批量处理工具。

🛠️ 安装

# Clone the repository
git clone https://github.com/OpenMOSS/MOSS-Speech
cd MOSS-Speech

# Install dependencies
pip install -r requirements.txt

🚀 使用

启动网页demo

python3 gradio_demo.py

协议

本开源仓库的代码遵循 Apache 2.0 协议。

致谢

Qwen: 我们以Qwen3-8B-Instruct作为基座模型。
感谢一位匿名的同事给我们提供声音!

📜 引用

如果在研究中使用本仓库或模型，请引用如下文献：

@article{moss_speech2025,
  title={MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance},
  author={SLM Team},
  institution={Shanghai Innovation Institute, Fudan University, MOSI},
  year={2025},
  note={Official implementation available at https://huggingface.co/fnlp/MOSS-Speech}
}

or

@misc{moss_speech2025,
  author = {SLM Team},
  title = {MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance},
  year = {2025},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/OpenMOSS/MOSS-Speech}},
}