27 10 月, 2025

美团发布 LongCat-Video 模型,开启长视频生成新纪元

longcat-video-

IT之家 10 月 27 日消息,今天上午,美团的 LongCat 团队宣布发布并开源 LongCat-Video 视频生成模型。该模型以其在文本生成和图像生成视频的基础任务上达到开源领域的最先进水平而备受关注。通过预训练和创新技术,LongCat-Video 能够稳定生成长达 5 分钟的视频内容,确保跨帧时序一致性与物理运动合理性。

近年来,”世界模型”的概念逐渐成为人工智能研究的热点。根据专家介绍,”世界模型”能够让人工智能真正理解、预测甚至重构现实世界,被视为通往下一代智能的核心引擎。视频生成模型被认为是构建世界模型的关键路径之一,通过压缩几何、语义、物理等多种形式的知识,人工智能得以在数字空间中模拟和预演真实世界的运行。

LongCat-Video 的技术创新

LongCat-Video 基于 Diffusion Transformer (DiT) 架构,作为多功能统一视频生成基座,创新地通过“条件帧数量”实现任务区分。具体而言,文本生成视频无需条件帧,图像生成视频则输入 1 帧参考图,而视频续写依托多帧前序内容。该模型原生支持三大核心任务,形成“文生 / 图生 / 视频续写”完整任务闭环,无需额外模型适配。

依托视频续写任务预训练、Block-Causual Attention 机制和 GRPO 后训练,LongCat-Video 能够稳定输出 5 分钟级别的长视频,且无质量损失。据美团团队介绍,该模型已达到行业“顶尖”水平。

视频生成模型的行业背景

视频生成技术近年来取得了显著进展,成为人工智能领域的重要研究方向。随着视频内容需求的增加,能够生成高质量长视频的技术被视为突破性发展。美团此次发布的 LongCat-Video 模型,正是顺应这一趋势,提供了更为高效和创新的解决方案。

“世界模型”赋予人工智能“看见”世界运行本质的能力,而视频生成模型有望成为构建世界模型的关键路径。

根据行业专家的观点,视频生成模型不仅能够应用于娱乐和媒体行业,还可以在教育、虚拟现实、模拟训练等领域发挥重要作用。通过生成逼真的视频内容,人工智能可以帮助人们更好地理解和预测复杂的现实世界。

未来展望与行业影响

LongCat-Video 的发布标志着视频生成技术的又一里程碑。随着技术的不断进步,预计将有更多企业和研究机构投入到视频生成模型的开发中。美团的这一举措不仅提升了自身在人工智能领域的影响力,也为整个行业的发展提供了新的思路。

未来,随着视频生成技术的普及,人工智能有望在更多领域实现突破,推动数字化转型和智能化升级。美团 LongCat 团队的创新努力,无疑为这一愿景的实现奠定了坚实的基础。

推荐阅读  英伟达发布新驱动优化游戏性能并修复显示问题