科技

美团发布 LongCat-Video 模型，开启长视频生成新纪元

Editorial 27 10 月, 2025

IT之家 10 月 27 日消息，今天上午，美团的 LongCat 团队宣布发布并开源 LongCat-Video 视频生成模型。该模型以其在文本生成和图像生成视频的基础任务上达到开源领域的最先进水平而备受关注。通过预训练和创新技术，LongCat-Video 能够稳定生成长达 5 分钟的视频内容，确保跨帧时序一致性与物理运动合理性。

近年来，”世界模型”的概念逐渐成为人工智能研究的热点。根据专家介绍，”世界模型”能够让人工智能真正理解、预测甚至重构现实世界，被视为通往下一代智能的核心引擎。视频生成模型被认为是构建世界模型的关键路径之一，通过压缩几何、语义、物理等多种形式的知识，人工智能得以在数字空间中模拟和预演真实世界的运行。

LongCat-Video 的技术创新

LongCat-Video 基于 Diffusion Transformer (DiT) 架构，作为多功能统一视频生成基座，创新地通过“条件帧数量”实现任务区分。具体而言，文本生成视频无需条件帧，图像生成视频则输入 1 帧参考图，而视频续写依托多帧前序内容。该模型原生支持三大核心任务，形成“文生 / 图生 / 视频续写”完整任务闭环，无需额外模型适配。

依托视频续写任务预训练、Block-Causual Attention 机制和 GRPO 后训练，LongCat-Video 能够稳定输出 5 分钟级别的长视频，且无质量损失。据美团团队介绍，该模型已达到行业“顶尖”水平。

视频生成模型的行业背景

视频生成技术近年来取得了显著进展，成为人工智能领域的重要研究方向。随着视频内容需求的增加，能够生成高质量长视频的技术被视为突破性发展。美团此次发布的 LongCat-Video 模型，正是顺应这一趋势，提供了更为高效和创新的解决方案。

“世界模型”赋予人工智能“看见”世界运行本质的能力，而视频生成模型有望成为构建世界模型的关键路径。

根据行业专家的观点，视频生成模型不仅能够应用于娱乐和媒体行业，还可以在教育、虚拟现实、模拟训练等领域发挥重要作用。通过生成逼真的视频内容，人工智能可以帮助人们更好地理解和预测复杂的现实世界。

未来展望与行业影响

LongCat-Video 的发布标志着视频生成技术的又一里程碑。随着技术的不断进步，预计将有更多企业和研究机构投入到视频生成模型的开发中。美团的这一举措不仅提升了自身在人工智能领域的影响力，也为整个行业的发展提供了新的思路。

未来，随着视频生成技术的普及，人工智能有望在更多领域实现突破，推动数字化转型和智能化升级。美团 LongCat 团队的创新努力，无疑为这一愿景的实现奠定了坚实的基础。

推荐阅读上海外卖市场新趋势：近四分之一用户接受“独立外卖专营店”

Tags: Block-Causual Attention, Diffusion Transformer (DiT), GRPO, LongCat, LongCat-Video, 美团

unnamed-file-553

博主“爱吃蛋”爆红网络：煮鸡蛋技巧引发流量热潮

Editorial 12 12 月, 2025

unnamed-file-552

天星医药智慧消防升级：筑牢安全管理新防线

Editorial 12 12 月, 2025

ai-ai-1-2

北京推出首个AI科普线上展厅，助力青少年AI教育

Editorial 12 12 月, 2025

unnamed-file-554

济南工业强市战略：激光与新材料项目的崛起

Editorial 12 12 月, 2025

featured-lonnews-com

Jefferies 因饮用水过滤市场增长上调 Zurn Water Solutions 股票评级

Editorial 12 12 月, 2025

featured-lonnews-com

印度批准煤炭出口拍卖，确保电厂煤炭供应充足

Editorial 12 12 月, 2025

unnamed-file-553

博主“爱吃蛋”爆红网络：煮鸡蛋技巧引发流量热潮

Editorial 12 12 月, 2025

2026-1-6

中国经济工作会议：2026年政策取向与发展目标解析

Editorial 12 12 月, 2025