阶跃星辰发布 Step-Audio 2 mini 语音模型，性能超越同类产品

IT之家 9 月 1 日消息，阶跃星辰今日正式发布了开源端到端语音大模型 Step-Audio 2 mini。这一最新模型在多个国际基准测试集上取得了 SOTA（State Of The Art）成绩，标志着语音技术领域的又一重大突破。Step-Audio 2 mini 现已上线阶跃星辰开放平台，供开发者和研究人员使用。

据官方介绍，Step-Audio 2 mini 通过统一建模实现了语音理解、音频推理与生成的整合，并率先支持语音原生的 Tool Calling 能力，这使得模型可以执行联网搜索等复杂操作。

性能卓越，超越同类模型

Step-Audio 2 mini 在多个关键基准测试中表现突出，尤其是在音频理解、语音识别、翻译和对话场景中，其综合性能超越了 Qwen-Omni、Kimi-Audio 等所有开源端到端语音模型，并在大部分任务上超越了 GPT-4o Audio。

“Step-Audio 2 mini 的发布标志着语音技术的又一次飞跃，其在多个测试中取得的 SOTA 成绩证明了其卓越的性能和广泛的应用潜力。”

解决语音模型的传统问题

长期以来，AI 语音技术常被批评为“智商、情商双低”。一方面是“没知识”，缺乏像文本大模型一样的知识储备和推理能力；另一方面是“冷冰冰”，难以理解潜台词、语气、情绪等“弦外之音”。

Step-Audio 2 mini 通过创新架构设计，有效解决了这些问题。其综合性能的提升不仅体现在技术指标上，也在实际应用中展现出更为人性化的交互体验。

技术背景与未来展望

阶跃星辰的这一发布正值全球对语音技术需求不断增长之际。随着智能设备的普及和语音交互的日益重要，语音模型的性能和应用场景成为行业关注的焦点。

业内专家指出，Step-Audio 2 mini 的推出不仅是技术上的突破，也为未来的语音交互应用奠定了基础。其在多语言支持、实时翻译和情感识别等领域的潜力将进一步推动语音技术的发展。

“未来，随着技术的不断进步，语音模型将更加智能化和人性化，为用户提供更自然的交互体验。”

目前，Step-Audio 2 mini 已在 GitHub、Hugging Face 和 ModelScope 等平台上线，开发者和研究人员可以通过这些平台获取和使用该模型。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

推荐阅读瑞声科技发布创新电动折叠手机方案 AutoFlip

Tags: GitHub, GPT-4o Audio, Hugging Face, IT之家, Kimi-Audio, ModelScope, Qwen-Omni, SOTA, Step-Audio 2 mini, 阶跃星辰

阶跃星辰发布 Step-Audio 2 mini 语音模型，性能超越同类产品

性能卓越，超越同类模型

解决语音模型的传统问题

技术背景与未来展望

赋能未来：2025最具社会责任雇主榜单揭晓

央视揭露手机回收平台价格陷阱引发消费者关注

深圳海关查获油箱暗格藏匿旧手机案，632台手机被截获

北京市2025年国有企业应用场景发布会揭示创新驱动未来

中国启动新稀土出口许可证，强调国际通行做法

泉金“小三通”航线年度客流量突破10万人次，促进两岸交流

赋能未来：2025最具社会责任雇主榜单揭晓

国际能源署预测2030年全球煤炭需求将略有下降

2025全球最佳大学排名揭晓：美国13所高校跻身前20

美光2000亿美元投资推动芯片回流政策

北京市2025年国有企业应用场景发布会揭示创新驱动未来

美国制裁中国公司及个人涉网络攻击基础设施

人权观察揭露全球汽车制造商铝供应链中的强迫劳动问题

北京市2025年国有企业应用场景发布会揭示创新驱动未来

中国启动新稀土出口许可证，强调国际通行做法

泉金“小三通”航线年度客流量突破10万人次，促进两岸交流

赋能未来：2025最具社会责任雇主榜单揭晓

国际能源署预测2030年全球煤炭需求将略有下降

北京市2025年国有企业应用场景发布会揭示创新驱动未来

中国启动新稀土出口许可证，强调国际通行做法

泉金“小三通”航线年度客流量突破10万人次，促进两岸交流

赋能未来：2025最具社会责任雇主榜单揭晓

国际能源署预测2030年全球煤炭需求将略有下降

性能卓越，超越同类模型

解决语音模型的传统问题

技术背景与未来展望

More Stories

You may have missed