
背景
l 典型流程:文本规范化 → G2P(音素转换) → 声学建模 → 声码器生成
l 代表技术:Tacotron+WaveNet、FastSpeech系列等
l 核心创新:将大语言模型作为”语音意图解码器”,形成”文本→语义意图→声学特征”的闭环
语义-声学建模:结合LLM上下文理解生成梅尔频谱
情感控制器:注入情绪标签与强度参数
声码器:HiFi-GAN还原为高保真波形音频
配置
以Trae IDE工具为例,配置好Skill如何目录,在scripts目录放入可以执行文件,注意这个版本是windows 64版本
https://gitee.com/Megadotnet/XiaomiTTS/releases/download/v0.2/XiaomiTTS-Win64-Native.exe
dotnet publish -c Release -r win-x64 –self-contained true /p:PublishSingleFile=true /p:IncludeNativeLibrariesForSelfExtract=true
测试
我们看到已经自动调用Skill, 当前使用的是Kimi2-0902模型,不需要太新LLM模型
需为每个角色单独训练模型,成本高
音色固定,难以适配不同角色或风格需求
无法根据上下文保持语气一致性
通过文本提示(prompt)即时切换角色声线与性格,无需重训
支持3秒音色克隆,快速学习说话人音色和习惯
在角色一致性测试中,92%用户认为其”像真人开口”,远超传统TTS的58-73%
XiaoMiTTS-Local-Skill从这儿下载:
结论
随着大语言模型与语音技术的深度融合,基于LLM的TTS正在推动语音合成从”机械发声”向”情感传递”的质变,为内容创作、智能硬件和无障碍服务等领域带来革命性变化。通过skill调用已集成的TTS API,开发者能够快速构建具备情感化、个性化语音交互能力的应用,不仅大幅降低技术门槛和开发成本,更能借助专业语音技术团队的持续优化,让应用始终保持行业领先的语音交互体验。这种”技术能力即服务”的模式,正在成为智能应用开发的新标准,让开发者能够专注于核心业务创新,而非底层技术实现。
文章摘自:https://www.cnblogs.com/wintersun/p/19920873

