小米XiaoMiTTS-Local-Skill|flask|六狼博客|技术博客|技术论坛|六狼网络|六狼科技|六狼IT|六狼星球

2026年4月25日

| 没有评论

背景

1. 传统TTS的级联式架构

l 典型流程：文本规范化 → G2P(音素转换) → 声学建模 → 声码器生成

l 局限性：误差在各环节累积，难以捕捉复杂语义关系

l 代表技术：Tacotron+WaveNet、FastSpeech系列等

2. 基于LLM的TTS的语义驱动架构

l 核心创新：将大语言模型作为”语音意图解码器”，形成”文本→语义意图→声学特征”的闭环

l 典型架构：

文本预处理：分词+韵律预测+音素转换

语义-声学建模：结合LLM上下文理解生成梅尔频谱

情感控制器：注入情绪标签与强度参数

声码器：HiFi-GAN还原为高保真波形音频

配置

以Trae IDE工具为例，配置好Skill如何目录，在scripts目录放入可以执行文件，注意这个版本是windows 64版本

从这儿下载EXE文件

https://gitee.com/Megadotnet/XiaomiTTS/releases/download/v0.2/XiaomiTTS-Win64-Native.exe

需要从源码打包也可以

dotnet publish -c Release -r win-x64 –self-contained true /p:PublishSingleFile=true /p:IncludeNativeLibrariesForSelfExtract=true

目录结构

├─.trae

│ └─skills

│ └─xiaomi-local-tts

│ │ SKILL.md

│ │

│ └─scripts

│ XiaomiTTS.exe

在环境变量MIMO_API_KEY配置好APIKEY

测试

我们看到已经自动调用Skill, 当前使用的是Kimi2-0902模型，不需要太新LLM模型

已生成音频文件

l 传统TTS：

需为每个角色单独训练模型，成本高

音色固定，难以适配不同角色或风格需求

无法根据上下文保持语气一致性

l 基于LLM的TTS：

通过文本提示（prompt）即时切换角色声线与性格，无需重训

支持3秒音色克隆，快速学习说话人音色和习惯

在角色一致性测试中，92%用户认为其”像真人开口”，远超传统TTS的58-73%

XiaoMiTTS-Local-Skill从这儿下载：

https://raw.giteeusercontent.com/Megadotnet/XiaomiTTS/raw/master/skill/xiaomi-local-tts/SKILL.md?metadata=eyJyIjoibWFzdGVyIiwiZnAiOiJza2lsbC94aWFvbWktbG9jYWwtdHRzL1NLSUxMLm1kIiwicGlkIjo0NjE2NzI2Miwic3RvIjoiZ2l0LXNoYXJkaW5nLXN0by00MnQtMDA1IiwicnAiOiJyZXBvcy9hZS9hOC9hZWE4ZGQ3MWZjNmFhOWM0ZmRjYzdmZWVlYThjZTU4YmM0ZWQyMjJiMGJlMTQ3NTVkNGM2MTA4MjY4YWRiY2M4LmdpdCIsImlzcCI6dHJ1ZSwiZXhwaXJlX2F0IjoxNzc2OTk2MDAwfQ&signature=1P1RnaZaXM8nAcH3q8jGUbTbO8R34QOaMmryOe09bk4

结论

随着大语言模型与语音技术的深度融合，基于LLM的TTS正在推动语音合成从”机械发声”向”情感传递”的质变，为内容创作、智能硬件和无障碍服务等领域带来革命性变化。通过skill调用已集成的TTS API，开发者能够快速构建具备情感化、个性化语音交互能力的应用，不仅大幅降低技术门槛和开发成本，更能借助专业语音技术团队的持续优化，让应用始终保持行业领先的语音交互体验。这种”技术能力即服务”的模式，正在成为智能应用开发的新标准，让开发者能够专注于核心业务创新，而非底层技术实现。

文章摘自：https://www.cnblogs.com/wintersun/p/19920873

一	二	三	四	五	六	日
« 5月
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30