近日,在备受瞩目的2024中关村论坛年会未来人工智能先锋论坛上,生数科技与清华大学携手发布了中国首个长时长、高一致性、高动态性视频大模型——Vidu。这一创新成果的诞生,标志着中国在视频大模型领域取得了重大突破,达到了国际顶尖水平。
Vidu视频大模型的发布,是对此前全球人工智能领域掀起波澜的Sora文生视频大模型的进一步延伸与突破。与Sora相似,Vidu同样具备从文本到视频的直接转换能力,但其在视频长度、一致性和动态性方面表现更为出色。通过团队原创的Diffusion与Transformer融合的架构U-ViT,Vidu能够一键生成长达16秒、分辨率高达1080P的高清视频内容,为用户带来前所未有的视觉体验。
在演示环节,Vidu展现出了其强大的模拟真实物理世界的能力。无论是合理的光影效果,还是细腻的人物表情,Vidu都能生成细节复杂且符合真实物理规律的场景。同时,它还拥有丰富的想象力,能够创造出超越现实的虚构画面,为观众带来深邃而复杂的超现实主义内容。
值得一提的是,Vidu在镜头语言的运用上也达到了新的高度。它不再局限于简单的固定镜头,而是能够实现远景、近景、中景、特写等多种镜头的切换,甚至能够直接生成长镜头、追焦、转场等效果,为视频注入了丰富的镜头语言。
作为中国自研的视频大模型,Vidu还具有理解中国元素的能力。在生成的视频中,观众可以看到熊猫、龙等特有的中国元素,这使得Vidu在文化传承与创新方面也具有独特的价值。
此外,Vidu的生成方式也值得一提。它采用的是“一步到位”的生成方式,从文本到视频的转换过程直接且连续,没有中间插帧和其他多步骤的处理。这种“一镜到底”的表现方式,使得Vidu在视频连贯性和动态性方面表现出色。
Vidu的快速突破,离不开生数科技与清华大学团队在贝叶斯机器学习和多模态大模型领域的长期积累和多项原创性成果。核心技术U-ViT架构的提出,为Vidu的成功研发奠定了坚实的基础。清华大学人工智能研究院副院长、生数科技首席科学家朱军表示:“在Sora发布后,我们发现其技术路线与我们的研究方向高度一致,这进一步坚定了我们推进研究的决心。基于U-ViT架构的深入理解以及长期积累的工程与数据经验,我们在短短两个月内就突破了长视频表示与处理的关键技术,成功研发出Vidu视频大模型。”
随着Vidu视频大模型的发布,中国在人工智能领域的影响力将进一步提升。未来,我们期待看到更多基于Vidu的创新应用涌现,为人们的生活带来更多便利和惊喜。
资讯、工具、教程、IT服务!
扫描以下二维码加群
告诉管理员您遇到的问题
我们会第一时间为您挑选优质教程和帮您解决问题