月之暗面发布Kimi K2：开源思考模型的新突破

IT之家11月6日消息，月之暗面于今晚推出了其迄今为止能力最强的开源思考模型——Kimi K2 Thinking。该模型基于“模型即Agent”的理念进行训练，原生掌握“边思考，边使用工具”的能力。

据介绍，Kimi K2 Thinking在多个基准测试中表现优异，包括“人类最后的考试”（Humanity’s Last Exam）、自主网络浏览能力（BrowseComp）、复杂信息收集推理（SEAL-0）等，均达到了SOTA（state-of-the-art）水平。在Agentic搜索、Agentic编程、写作和综合推理能力等方面，Kimi K2也取得了全面提升。

突破性的自主思考与工具调用能力

Kimi K2 Thinking的一个显著特点是其无需人类干预即可自主实现高达300轮的工具调用和持续稳定的多轮思考能力。这一能力使其能够帮助用户解决更复杂的问题，提供了新的技术突破。

在“人类最后的考试”中，Kimi K2 Thinking在允许使用工具——如搜索、Python、网络浏览工具的情况下，取得了44.9%的SOTA成绩。这项考试涵盖了100多个专业领域，是一项终极封闭式学术测试。

“人类最后的考试”中，Kimi K2 Thinking取得了44.9%的SOTA成绩。

在信息过载环境中的表现

在复杂的搜索和浏览场景中，Kimi K2 Thinking同样表现出色。BrowseComp是由OpenAI发布的一个专门评估AI Agent网络浏览能力的基准测试，旨在衡量AI Agent在信息过载环境中展现出的坚持性与创造力。人类在这项测试中的平均成绩仅为29.2%，而Kimi K2 Thinking则以60.2%的成绩成为新的SOTA模型。

Kimi K2 Thinking在BrowseComp测试中以60.2%的成绩成为新的SOTA模型。

这种能力使Kimi K2 Thinking能够在长程规划和自主搜索能力的驱动下，借助多达上百轮的“思考 → 搜索 → 浏览网页 → 思考 → 编程”动态循环，持续地提出并完善假设、验证证据、进行推理，并构建出逻辑一致的答案。这种边主动搜索边持续思考的能力，使其能够将模糊且开放式的问题分解为清晰、可执行的子任务。

多领域能力的全面提升

在编码能力方面，Kimi K2 Thinking也得到了增强。在多语言软件工程基准SWE-Multilingual、SWE-bench验证集和Terminal终端使用等基准测试中，其表现有了进一步提升。月之暗面表示，Kimi K2 Thinking的通用基础能力也得到了全面升级。

这一发展标志着开源思考模型领域的一个新里程碑。随着AI技术的不断进步，Kimi K2 Thinking的推出不仅为研究人员提供了更强大的工具，也为未来的技术应用开辟了新的可能性。

月之暗面附上了Hugging Face和ModelScope的部署链接，为用户提供了便捷的访问方式。未来，随着更多用户的参与和反馈，Kimi K2 Thinking的能力和应用场景有望得到进一步拓展。

Tags: Agentic, BrowseComp, Humanity's Last Exam, Kimi K2 Thinking, OpenAI, Python, SEAL-0

月之暗面发布Kimi K2：开源思考模型的新突破

突破性的自主思考与工具调用能力

在信息过载环境中的表现

多领域能力的全面提升

真我手机回应裁员传闻：年底正常人员变动

2026年SSD和HDD市场增长预测：价格或回升至2022年水平

行政院推赴中審查制度引發藍營強烈反彈

2025年十大补水面膜推荐：揭秘最佳品牌

儿童营养新标准：inne携手上海交大推动科学补钙

胖东来新乡店开业，乔丹亲签球衣售价13.8万元引热议

《枪炮与修女:地狱风暴》试玩Demo上线，挑战恶魔的全新体验

真我手机回应裁员传闻：年底正常人员变动

2025全球最佳大学排名揭晓：美国13所高校跻身前20

美光2000亿美元投资推动芯片回流政策

2025年十大补水面膜推荐：揭秘最佳品牌

美国制裁中国公司及个人涉网络攻击基础设施

人权观察揭露全球汽车制造商铝供应链中的强迫劳动问题

2025年十大补水面膜推荐：揭秘最佳品牌

儿童营养新标准：inne携手上海交大推动科学补钙

胖东来新乡店开业，乔丹亲签球衣售价13.8万元引热议

《枪炮与修女:地狱风暴》试玩Demo上线，挑战恶魔的全新体验

真我手机回应裁员传闻：年底正常人员变动

2025年十大补水面膜推荐：揭秘最佳品牌

儿童营养新标准：inne携手上海交大推动科学补钙

胖东来新乡店开业，乔丹亲签球衣售价13.8万元引热议

《枪炮与修女:地狱风暴》试玩Demo上线，挑战恶魔的全新体验

真我手机回应裁员传闻：年底正常人员变动

突破性的自主思考与工具调用能力

在信息过载环境中的表现

多领域能力的全面提升

More Stories

You may have missed