小米推出三款自研大模型:MiMo-V2-Pro、Omni、TTS
3月19日凌晨,小米公司宣布推出三款自研大模型:MiMo-V2-Pro、MiMo-V2-Omni和MiMo-V2-TTS。这些模型现已上线Xiaomi miclaw、MiMo Studio、金山办公和小米浏览器,并通过OpenClaw、OpenCode、KiloCode、Blackbox和Cline平台接入,用户可以限时免费体验一周。
小米MiMo-V2-Pro:面向Agent时代的旗舰模型
MiMo-V2-Pro专为高强度的Agent工作场景而设计,拥有超过1万亿的总参数量,采用创新的混合注意力架构,支持1百万的超长上下文长度。小米在更广泛的Agent场景中持续扩展算力,进一步拓展了智能的动作空间,实现了从Coding到Claw的重要泛化。
在Artificial Analysis排行榜上,MiMo-V2-Pro位列全球第八,国内第二。在OpenClaw和Claude Code等智能体框架中,该模型能够在无人工干预的条件下完成复杂工作流编排、长程规划与精准工具调用,并持续可靠地交付最终结果。
“MiMo-V2-Pro的整体使用体验已超越Claude Sonnet 4.6,逼近Opus 4.6,但模型API定价仅为其1/5。”
MiMo-V2-Omni:全模态基座模型
MiMo-V2-Omni专为复杂的多模态交互与执行场景而生,能够无缝接入各种Agent框架,实现从理解到操控的跨越,大幅降低全模态Agent的落地门槛。
在音频理解方面,该模型支持从环境声分类、多说话人分离、音频-视觉联合推理,到超过10小时连续长音频的深度理解,综合表现超越Gemini 3 Pro。
图像理解方面,MiMo-V2-Omni展现出强大的多学科视觉推理与复杂图表分析能力,视频理解方面,支持原生音视频联合输入,实现真正的多模态视频理解。
“MiMo-V2-Omni能够跨模态理解复杂环境、自主制定并执行计划、在遇到异常时实时修正策略,最终端到端地交付完整结果。”
MiMo-V2-TTS:语音合成大模型
MiMo-V2-TTS是小米自主研发的语音合成大模型,基于自研Audio Tokenizer和多码本语音-文本联合建模架构。经过上亿小时语音数据的大规模预训练与多维度强化学习,MiMo-V2-TTS实现了高度可控的多粒度语音风格控制。
该模型支持从整体风格定调到局部情绪表达的精准调节,能够在同一句话内完成语气转折和情感递变,真实还原人类说话的自然韵律。
“MiMo-V2-TTS具备丰富的多元表达能力,支持多种方言的自然发音,能够进行角色扮演式的风格化演绎,并实现高质量的歌声合成。”
行业影响与未来展望
小米此次推出的三款大模型,标志着其在人工智能领域的进一步深耕。通过这些模型,小米不仅提升了自身产品的智能化水平,也为行业带来了新的技术标准。
专家认为,这些模型的推出将对智能体技术的发展产生深远影响,尤其是在多模态交互和语音合成领域。随着技术的不断迭代,未来这些模型有望在更广泛的应用场景中发挥作用。
小米表示,未来将继续优化这些模型,以满足不断变化的市场需求,并计划在全球范围内推广其应用。