AI模型高端桌只有 GPT、Gemini、Sora、SD、MJ等?不! 基于百万级视频与语言数据的世界模型构建与RingAttention技术应用发布(附地址)!

资讯10个月前更新 花花
4,259 0 1

加州大学伯克利分校近期推出了一项创新成果——大世界模型(Large World Model, 简称LWM),这是一种旨在处理超长视频和文本内容的多模态大语言模型。与当前市面上最先进的多模态模型如GPT-4和Gemini Pro相比,这些模型在处理小时级别长视频等大容量文件时往往显得力不从心,LWM模型却能够有效地识别视频中的人物和物体,展现了其在处理长达100万令牌的超长上下文和精确检索能力方面的卓越性能。AI模型高端桌只有 GPT、Gemini、Sora、SD、MJ等?不! 基于百万级视频与语言数据的世界模型构建与RingAttention技术应用发布(附地址)!

主要贡献如下:

  1. 最大的上下文大小神经网络:在长视频和语言序列上训练了具有最大上下文大小的转换器之一,为困难的检索任务和长视频理解设定了新的基准。
  2. 克服视觉语言训练挑战的解决方案,包括使用掩码序列打包混合不同长度的序列、平衡语言和视觉的损失加权,以及为长序列聊天生成模型问答数据集。
  3. 高度优化的实现,具有RingAttention、掩码序列打包和其他关键功能,可在数百万长度的多模态序列上进行训练。
  4. 完全开源了一系列7B参数模型,能够处理超过1M个标记的长文本文档(LWM-Text、LWM-Text-Chat)和视频(LWM、LWM-Chat)。这项工作为在大量的长视频和语言数据集上训练铺平了道路,以发展对人类知识和多模态世界的理解,并提供更广泛的能力。

体验地址:大型世界模型 (largeworldmodel.github.io)

长视频问答与事实检索

LWM模型能够回答关于超过1小时YouTube视频的问题,并在1M上下文窗口中实现高精度的事实检索,超越了GPT-4V和Gemini Pro等先进模型。这种能力使得LWM成为处理长视频和文本内容的理想选择。AI模型高端桌只有 GPT、Gemini、Sora、SD、MJ等?不! 基于百万级视频与语言数据的世界模型构建与RingAttention技术应用发布(附地址)!

长序列任意到任意AR预测

借助RingAttention技术,LWM模型能够在非常大的上下文窗口中进行训练,支持跨不同格式(如视频-文本、文本-视频、图像-文本、文本-图像、纯视频、纯图像和纯文本)的预测。此外,模型的关键功能还包括掩码序列打包和损失加权,这些功能使得视频语言训练更加有效。
AI模型高端桌只有 GPT、Gemini、Sora、SD、MJ等?不! 基于百万级视频与语言数据的世界模型构建与RingAttention技术应用发布(附地址)!

多样化视频与书籍的建模

通过使用RingAttention技术,将上下文大小从4K扩展到1M,在书籍上进行训练,并对各种形式的视觉内容进行视觉语言训练,长度为32K到1M。这使得模型能够理解并回应关于复杂多模态世界的查询,展现出强大的交互能力。
AI模型高端桌只有 GPT、Gemini、Sora、SD、MJ等?不! 基于百万级视频与语言数据的世界模型构建与RingAttention技术应用发布(附地址)!

文本到图像与视频生成

LWM模型还能够根据文本提示生成图像和视频。这种能力为创作者提供了无限的灵感和可能性,可以根据文本描述自动生成与之相对应的视觉内容。

AI模型高端桌只有 GPT、Gemini、Sora、SD、MJ等?不! 基于百万级视频与语言数据的世界模型构建与RingAttention技术应用发布(附地址)!

图像生成

 

基于图像的对话与长视频聊天

除了上述功能外,LWM模型还能够基于图像进行对话,并回答关于长视频的问题。这使得模型在实际应用中具有更广泛的适用性,可以满足用户在不同场景下的需求。
AI模型高端桌只有 GPT、Gemini、Sora、SD、MJ等?不! 基于百万级视频与语言数据的世界模型构建与RingAttention技术应用发布(附地址)!

总的来说,Large World Model在处理长视频和文本内容方面取得了显著的进展,为人工智能领域的发展注入了新的活力。随着技术的不断进步和完善,相信LWM将在未来的应用中发挥越来越重要的作用。

资讯、工具、教程、IT服务!

扫描以下二维码加群

告诉管理员您遇到的问题

我们会第一时间为您挑选优质教程和帮您解决问题

AI模型高端桌只有 GPT、Gemini、Sora、SD、MJ等?不! 基于百万级视频与语言数据的世界模型构建与RingAttention技术应用发布(附地址)!
© 版权声明

相关文章

分享