6 11 月, 2025

月之暗面发布Kimi K2:开源思考模型的新突破

kimi-k2-

IT之家11月6日消息,月之暗面于今晚推出了其迄今为止能力最强的开源思考模型——Kimi K2 Thinking。该模型基于“模型即Agent”的理念进行训练,原生掌握“边思考,边使用工具”的能力。

据介绍,Kimi K2 Thinking在多个基准测试中表现优异,包括“人类最后的考试”(Humanity’s Last Exam)、自主网络浏览能力(BrowseComp)、复杂信息收集推理(SEAL-0)等,均达到了SOTA(state-of-the-art)水平。在Agentic搜索、Agentic编程、写作和综合推理能力等方面,Kimi K2也取得了全面提升。

突破性的自主思考与工具调用能力

Kimi K2 Thinking的一个显著特点是其无需人类干预即可自主实现高达300轮的工具调用和持续稳定的多轮思考能力。这一能力使其能够帮助用户解决更复杂的问题,提供了新的技术突破。

在“人类最后的考试”中,Kimi K2 Thinking在允许使用工具——如搜索、Python、网络浏览工具的情况下,取得了44.9%的SOTA成绩。这项考试涵盖了100多个专业领域,是一项终极封闭式学术测试。

“人类最后的考试”中,Kimi K2 Thinking取得了44.9%的SOTA成绩。

在信息过载环境中的表现

在复杂的搜索和浏览场景中,Kimi K2 Thinking同样表现出色。BrowseComp是由OpenAI发布的一个专门评估AI Agent网络浏览能力的基准测试,旨在衡量AI Agent在信息过载环境中展现出的坚持性与创造力。人类在这项测试中的平均成绩仅为29.2%,而Kimi K2 Thinking则以60.2%的成绩成为新的SOTA模型。

Kimi K2 Thinking在BrowseComp测试中以60.2%的成绩成为新的SOTA模型。

这种能力使Kimi K2 Thinking能够在长程规划和自主搜索能力的驱动下,借助多达上百轮的“思考 → 搜索 → 浏览网页 → 思考 → 编程”动态循环,持续地提出并完善假设、验证证据、进行推理,并构建出逻辑一致的答案。这种边主动搜索边持续思考的能力,使其能够将模糊且开放式的问题分解为清晰、可执行的子任务。

多领域能力的全面提升

在编码能力方面,Kimi K2 Thinking也得到了增强。在多语言软件工程基准SWE-Multilingual、SWE-bench验证集和Terminal终端使用等基准测试中,其表现有了进一步提升。月之暗面表示,Kimi K2 Thinking的通用基础能力也得到了全面升级。

这一发展标志着开源思考模型领域的一个新里程碑。随着AI技术的不断进步,Kimi K2 Thinking的推出不仅为研究人员提供了更强大的工具,也为未来的技术应用开辟了新的可能性。

月之暗面附上了Hugging Face和ModelScope的部署链接,为用户提供了便捷的访问方式。未来,随着更多用户的参与和反馈,Kimi K2 Thinking的能力和应用场景有望得到进一步拓展。

推荐阅读  美国FTC调查AI公司虚拟陪伴对青少年影响