中国首个Sora级视频大模型Vidu发布生数科技与清华联合推出

4月27日，在中关村论(lùn)坛未来人工智能先锋论(lùn)坛上，生数科技联合(hé)清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。该模型采用团队原(yuán)创的Diffusion与Transformer融合的架构U-ViT，支持一键生成长达16秒、分辨率高达(dá)1080P的高清视频内容。Vidu不仅能(néng)够模拟真实物理世界，还(hái)拥有丰(fēng)富想(xiǎng)象(xiàng)力，具备多镜头生成、时空一致性高等特点。Vidu是(shì)自Sora发布之后全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平(píng)，并(bìng)在加速迭代提升中。

与Sora一致，Vidu能(néng)够根据提供的文本描述直接生成长达16秒的高质量视频。除了在时长方(fāng)面的突破(pò)外，Vidu中国首个Sora级视频大模型Vidu发布生数科技与清华联合推出在视(shì)频效果方面实现显著提升，主要体现在(zài)几个方面：第一(yī)、模拟真实物理世界：能够生成细节复杂(zá)的(de)场景，且符合真实的物理规律，例如合理的中国首个Sora级视频大模型Vidu发布生数科技与清华联合推出(de)光影(yǐng)效果、细腻的人物表(biǎo)情等；第二、具(jù)有丰富(fù)想象力：能够生成真实世界不存在的虚构画面，创造(zào)出(chū)具有深度和复杂性的超现实主义内容；第三、多镜头语言：能够生成复杂的动态镜头，不再局(jú)限于简单的推、拉、移等固定镜头，而是能够围绕统一主体在一(yī)段画面里就实现(xiàn)远景、近景、中景、特写等不同镜头的切换，包括能直接(jiē)生成长镜头、追焦、转场(chǎng)等效(xiào)果，给视频注入镜头语言；第四、时空一致性高：在(zài)16秒的时长上保持连贯(guàn)流(liú)畅，随着镜头的移动，人物和场景在时间、空(kōng)间中能够保持一致；第五、理解中国元素：能够(gòu)生成特有的中国元素，例如熊猫、龙等。

值得一提(tí)的是，短片中的片段都是(shì)从头到尾连续生(shēng)成(chéng)，没(méi)有明显的插帧现象(xiàng)，从这种 “一镜(jìng)到底”的表现能够推测出，Vidu采用的是“一(yī)步到位”的生成方式(shì)，与(yǔ)Sora一样，文本到视频的(de)转换(huàn)是直(zhí)接且连续的，在底层算(suàn)法实现上是基于单一(yī)模型完全端到(dào)端(duān)生成，不涉及中间的插帧和其他多步骤的处理。

Vidu的快速(sù)突破源自于团队在(zài)贝叶斯(sī)机(jī)器(qì)学习和(hé)多(duō)模态大模(mó)型的长期(qī)积累(lèi)和多项原创性成(chéng)果。其核心技术U-ViT架构(gòu)由团(tuán)队于(yú)2022年9月提出，早于Sora采用的(de)DiT架(jià)构(gòu)，是全球首个Diffusion与Transformer融合的(de)架构，完全由团(tuán)队自主研发。

2023年3月，团队开源全球首(shǒu)个基于U-ViT架构的多模态扩散大(dà)模型UniDiffuser，在全球范围内率先完成融合架构的大规(guī)模可扩展(zhǎn)性（Scaling Law）验证。UniDiffuser是在大规模图文数据集LAION-5B上(shàng)训练出的近 10亿参(cān)数量模型，支(zhī)持图文模态间的(de)任意生成和(hé)转换。在(zài)架构上，UniDiffuser比(bǐ)同样DiT架构的Stable Diffusion 3领先了一年。

自今年2月Sora发布推出后，团队基于对U-Vi中国首个Sora级视频大模型Vidu发布生数科技与清华联合推出T架构的深入理(lǐ)解以及长期积累的(de)工程与数据经验，在短短两个月进一步突破长视频表(biǎo)示与处(chù)理关键技(jì)术，研发推出Vidu视频大模型，显著提升视频的连贯(guàn)性与(yǔ)动态性。

从图文任务的(de)统一到融(róng)合(hé)视频能力(lì)，作为通用视觉模型，Vidu能够支持生成更加多(duō)样化、更长时长的(de)视(shì)频内容，同时面向(xiàng)未来，灵活架构也(yě)将能够兼容更广泛的模态，进一步拓展多模态通(tōng)用能力的(de)边界(jiè)。

Vidu的问世(shì)，不仅是U-ViT融合架构在大规模(mó)视觉任务中的又(yòu)一次成功验证，也代(dài)表了生数(shù)科技在多模态原生大模型领域的持续(xù)创新能力和领先性。同时生数科技表示，大模型的突(tū)破(pò)是一个多维度、跨领域(yù)的综合性过程，需要技术与产(chǎn)业应用的深(shēn)度融(róng)合。生数科技正式推出“Vidu大模型合作伙伴计划”，希望产业链上下游(yóu)企业、研究(jiū)机构能(néng)一起加入(rù)，共同(tóng)构建合作生态。

校对：廖胜超

未经允许不得转载：北京APP开发_微信小程序制作_公众号开发_新思络软件定制公司中国首个Sora级视频大模型Vidu发布生数科技与清华联合推出