【48812】我国首个“Sora级”视频大模型发布

发布时间：2024-04-30 09:45:48浏览次数：1作者：新闻动态

本年初，文生视频大模型Sora的露脸引发职业高度重视。4月27日上午，在2024先锋论坛”上，生数科技联合清华大学发布了我国首个长时长、高一致性、高动态性视频大模型Vidu。这在某种程度上预示着，可以完全对标Sora的我国自研视频大模型正式诞生。

视频大模型Vidu不仅仅可以模仿实在物理国际，还具有丰厚想象力，具有多镜头生成、时空一致性高级特色，这也是自Sora发布之后全球首先获得重大打破的视频大模型，功能全面临标国际顶尖水平，并在加快迭代提高中。

据介绍，这一模型选用团队原创的Diffusion与Transformer交融的架构U-ViT，支撑一键生成长达16秒、分辨率为1080P的高清视频内容。

从现场演示的作用来看，Vidu可以模仿实在的物理国际，可以生成细节杂乱并且契合实在物理规则的场景。例如合理的光影作用、细腻的人物表情等，它丰厚的想象力可以生成实在国际不存在的虚拟画面，创造出具有深度和杂乱性的超现实主义内容，例如“画室里的一艘船正在波浪中驶向镜头”这样的场景。

此外，Vidu可以生成杂乱的动态镜头，不再局限于简略的推、拉、移等固定镜头，而是可以环绕一致主体在一段画面里完成前景、近景、中景、特写等不同镜头的切换。

作为我国自研视频大模型，Vidu还能了解我国元素，可以在视频中生成例如熊猫、龙等特有的我国元素。值得一提的是，短片中的片段都是自始至终接连生成，无显着的插帧现象。据介绍，Vidu的快速打破源自于团队在贝叶斯机器学习和多模态大模型的长时间堆集和多项原创性效果。其核心技能 U-ViT 架构由团队于2022年9月提出，早于Sora选用的DiT架构，是全球首个Diffusion与Transformer交融的架构，完全由团队自主研制。“在Sora发布后，咱们得知刚好和咱们的技能道路是高度一致的，这也让咱们坚定地进一步推进了自己的研讨。”清华大学研讨院副院长、生数科技首席科学家朱军介绍。

自本年2月Sora发布推出后，团队根据对U-ViT 架构的深化了解以及长时间堆集的工程与数据经历，在短短两个月进一步打破长视频表明与处理关键技能，研制推出Vidu视频大模型，显着提高视频生成的连贯性与动态性。

上一篇：休闲游戏APP海外信息流广告创意制作下一篇：英特尔酷睿Ultra赋能AI视频制作！轻松开启Sora级别智能创作时代

【48812】我国首个“Sora级”视频大模型发布

联系

Contact