小米发布MiMo-V2.5-TTS / ASR语音大模型

AI快讯苏晓 2026-04-24 10:24:01 来源:中房网

扫描二维码分享

  中房网讯 4月24日,小米正式发布MiMo-V2.5-TTS Series与MiMo-V2.5-ASR 语音大模型。这是 一套面向Agent时代的全链路语音模型系列,覆盖识别与合成两大核心能力,让语音的输入与输出都可以被语言自由调度。

  其中,TTS系列包含三款模型,均支持通过自然语言指令精细调度声音表现。MiMo-V2.5-TTS:内置多款精品音色,开箱即用,支持语速、情绪控制。MiMo-V2.5-TTS-VoiceDesign:支持一句话从零生成全新音色,无需参考音频。MiMo-V2.5-TTS-VoiceClone:数秒参考音频即可高保真复刻目标音色,并保留原有风格指令控制能力。官方演示显示,模型能遵循“尖锐刻薄、狐假虎威”等复杂指令,并支持在文本中插入音频标签进行精细化控制。

  作为听觉基座,MiMo-V2.5-ASR也正式开源(包括模型权重与代码)。该模型面向复杂真实场景,支持吴语、粤语等中文方言,以及中英文混说、强噪音、多人对话等场景,并原生输出标点符号,转写结果即拿即用。

中国城市住房价格288指数

(2023-02)

1571.9

  • 0.13%
  • -0.91%
日期指数环比同比
2023.011569.9-0.97%-0.14%
2022.121572.1-0.92%-0.11%
2022.111573.9-0.12%-1.08%
2022.101575.8-0.20%-1.01%
2022.091579.0-0.02%-0.87%
2022.081579.3-0.04%-0.62%
返回顶部