中国首个Sora级 视频大模型Vidu发布 生数科技与清华联合推出
4月27日,在中关村论(lùn)坛未来人工智能先锋论(lùn)坛上,生数科技联合(hé)清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。该模型采用团队原(yuán)创的Diffusion与Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨率高达(dá)1080P的高清视频内容。Vidu不仅能(néng)够模拟真实物理世界,还(hái)拥有丰(fēng)富想(xiǎng)象(xiàng)力,具备多镜头生成、时空一致性高等特点。Vidu是(shì)自Sora发布之后全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平(píng),并(bìng)在加速迭代提升中。
与Sora一致,Vidu能(néng)够根据提供的文本描述直接生成长达16秒的高质量视频。除了在时长方(fāng)面的突破(pò)外,Vidu中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出在视(shì)频效果方面实 现显著提升,主要体现在(zài)几个方面:第一(yī)、模拟真实物理世界:能够生成细节复杂(zá)的(de)场景,且符合真实的物理规律,例如合理的中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出(de)光影(yǐng)效果、细腻的人物表(biǎo)情等;第二、具(jù)有丰富(fù)想象力:能够生成真实世界不存在的虚构画面,创造(zào)出(chū)具有深度和复杂性的超现实主义内容;第三、多镜头语言:能够生成复杂的动态镜头,不再局(jú)限于简单的推、拉、移等固定镜头,而是能够围绕统一主体在一(yī)段画面里就实现(xiàn)远景、近景、中景、特写等不同镜头的切换,包括能直接(jiē)生成长镜头、追焦、转场(chǎng)等效(xiào)果,给视频注入镜头语言;第四、时空一致性高:在(zài)16秒的时长上保持连贯(guàn)流(liú)畅,随着镜头的移动,人物和场景在时间、空(kōng)间中能够保持一致;第五、理解中国元素:能够(gòu)生成特有的中国元素,例如熊猫、龙等。
值得一提(tí)的是,短片中的片段都是(shì)从头到尾连续生(shēng)成(chéng),没(méi)有明显的插帧现象(xiàng),从这种 “一镜(jìng)到底”的表现能够推测出,Vidu采用的是“一(yī)步到位”的生成方式(shì),与(yǔ)Sora一样,文本到视频的(de)转换(huàn)是直(zhí)接且连续的,在底层算(suàn)法实现上是基于单一(yī)模型完全端到(dào)端(duān)生成,不涉及中间的插帧和其他多步骤的处理。
Vidu的快速(sù)突破源自于团队在(zài)贝叶斯(sī)机(jī)器(qì)学习和(hé)多(duō)模态大模(mó)型的长期(qī)积累(lèi)和多项原创性成(chéng)果。其核心技术U-ViT架构(gòu)由团(tuán)队于(yú)2022年9月提出,早于Sora采用的(de)DiT架(jià)构(gòu),是全球首个Diffusion与Transformer融合的(de)架构,完全由团(tuán)队自主研发。
2023年3月,团队开源全球首(shǒu)个基于U-ViT架构的多模态扩散大(dà)模型UniDiffuser,在全球范围内率先完成融合架构的大规(guī)模可扩展(zhǎn)性(Scaling Law)验证。UniDiffuser是在大规模图文数据集LAION-5B上(shàng)训练出的近 10亿参(cān)数量模型,支(zhī)持图文模态间的(de)任意生成和(hé)转换。在(zài)架构上,UniDiffuser比(bǐ)同样DiT架构的Stable Diffusion 3领先了一年。
自今年2月Sora发布推出后,团队基于对U-Vi中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出T架构的深入理(lǐ)解以及长期积累的(de)工程与数据经验,在短短两个月进一步突破长视频表(biǎo)示与处(chù)理关键技(jì)术,研发推出Vidu视频大模型,显著提升视频的连贯(guàn)性与(yǔ)动态性。
从图文任务的(de)统一到融(róng)合(hé)视频能力(lì),作为通用视觉模型,Vidu能够支持生成更加多(duō)样化、更长时长的(de)视(shì)频内容,同时面向(xiàng)未来,灵活架构也(yě)将能够兼容更广泛的模态,进一步拓展多模态通(tōng)用能力的(de)边界(jiè)。
Vidu的问世(shì),不仅是U-ViT融合架构在大规模(mó)视觉任务中的又(yòu)一次成功验证,也代(dài)表了生数(shù)科技在多模态原生大模型领域的持续(xù)创新能力和领先性。同时生数科技表示,大模型的突(tū)破(pò)是一个多维度、跨领域(yù)的综合性过程,需要技术与产(chǎn)业应用的深(shēn)度融(róng)合。生数科技正 式推出“Vidu大模型合作伙伴计划”,希望产业链上下游(yóu)企业、研究(jiū)机构能(néng)一起加入(rù),共同(tóng)构建合作生态。
校对:廖胜超
未经允许不得转载:北京APP开发_微信小程序制作_公众号开发_新思络软件定制公司 中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了