小米XiaoMiTTS-Local-Skill


背景

1. 传统TTS的级联式架构

l 典型流程:文本规范化 → G2P(音素转换) → 声学建模 → 声码器生成

l 局限性:误差在各环节累积,难以捕捉复杂语义关系

l 代表技术:Tacotron+WaveNet、FastSpeech系列等

2. 基于LLM的TTS的语义驱动架构

l 核心创新:将大语言模型作为”语音意图解码器”,形成”文本→语义意图→声学特征”的闭环

l 典型架构:

文本预处理:分词+韵律预测+音素转换

语义-声学建模:结合LLM上下文理解生成梅尔频谱

情感控制器:注入情绪标签与强度参数

声码器:HiFi-GAN还原为高保真波形音频

配置

以Trae IDE工具为例,配置好Skill如何目录,在scripts目录放入可以执行文件,注意这个版本是windows 64版本

从这儿下载EXE文件

https://gitee.com/Megadotnet/XiaomiTTS/releases/download/v0.2/XiaomiTTS-Win64-Native.exe

需要从源码打包也可以

dotnet publish -c Release -r win-x64 –self-contained true /p:PublishSingleFile=true /p:IncludeNativeLibrariesForSelfExtract=true

目录结构

├─.trae

│ └─skills

│ └─xiaomi-local-tts

│ │ SKILL.md

│ │

│ └─scripts

│ XiaomiTTS.exe

在环境变量MIMO_API_KEY配置好APIKEY

测试

我们看到已经自动调用Skill, 当前使用的是Kimi2-0902模型,不需要太新LLM模型

已生成音频文件

l 传统TTS:

需为每个角色单独训练模型,成本高

音色固定,难以适配不同角色或风格需求

无法根据上下文保持语气一致性

l 基于LLM的TTS:

  通过文本提示(prompt)即时切换角色声线与性格,无需重训

  支持3秒音色克隆,快速学习说话人音色和习惯

  在角色一致性测试中,92%用户认为其”像真人开口”,远超传统TTS的58-73%

XiaoMiTTS-Local-Skill从这儿下载:

https://raw.giteeusercontent.com/Megadotnet/XiaomiTTS/raw/master/skill/xiaomi-local-tts/SKILL.md?metadata=eyJyIjoibWFzdGVyIiwiZnAiOiJza2lsbC94aWFvbWktbG9jYWwtdHRzL1NLSUxMLm1kIiwicGlkIjo0NjE2NzI2Miwic3RvIjoiZ2l0LXNoYXJkaW5nLXN0by00MnQtMDA1IiwicnAiOiJyZXBvcy9hZS9hOC9hZWE4ZGQ3MWZjNmFhOWM0ZmRjYzdmZWVlYThjZTU4YmM0ZWQyMjJiMGJlMTQ3NTVkNGM2MTA4MjY4YWRiY2M4LmdpdCIsImlzcCI6dHJ1ZSwiZXhwaXJlX2F0IjoxNzc2OTk2MDAwfQ&signature=1P1RnaZaXM8nAcH3q8jGUbTbO8R34QOaMmryOe09bk4

结论

    随着大语言模型与语音技术的深度融合,基于LLM的TTS正在推动语音合成从”机械发声”向”情感传递”的质变,为内容创作、智能硬件和无障碍服务等领域带来革命性变化。通过skill调用已集成的TTS API,开发者能够快速构建具备情感化、个性化语音交互能力的应用,不仅大幅降低技术门槛和开发成本,更能借助专业语音技术团队的持续优化,让应用始终保持行业领先的语音交互体验。这种”技术能力即服务”的模式,正在成为智能应用开发的新标准,让开发者能够专注于核心业务创新,而非底层技术实现。

文章摘自:https://www.cnblogs.com/wintersun/p/19920873