华人团队颠覆CV！全球首款SEEM视频/图像分割神器，一键分割「秒变宇宙」！

资讯1年前 (2023)更新花花

596 0 0

最近，威斯康辛麦迪逊大学、微软和香港科技大学的研究人员提出了一种SEEM模型，该模型能够对包含视觉、文本和语音提示的任何输入进行一次性分割。这种通用性使得SEEM能够应对各种不同类型的数据和任务，例如语义分割、实例分割、全景分割、动作捕捉等等。此外，SEEM还具有语义感知能力，可以在不需要提前学习的情况下进行任意组合的分割。

研究方法：

SEEM使用一种名为SEEM的编码器-解码器模型，它能够对包含多种输入的模型进行学习。SEEM模型采用了常见的卷积神经网络架构，并在其上加入了注意力机制和自注意力机制，以学习在各种输入数据中进行分割的最佳策略。

同时，SEEM模型也支持多种视觉和语音提示，并通过提供对不同提示类型的交互式建议来增强其多样性。

实验结果：

SEEM模型在多项分割任务中展现出了有效性和泛化能力。在变形金刚的合影中，SEEM能够将「擎天柱」与其他物体区分开来。

在视频分割任务中，SEEM能够将输入视频自动分割为图像和视频序列。

此外，SEEM还能够在不需要提前学习的情况下，对分割任务进行任意组合的优化。SEEM的出现为计算机视觉领域的分割研究提供了一种全新的方法和思路。

应用前景：

SEEM的出现将对计算机视觉、自然语言处理和多模态信息处理等领域产生深远的影响。其主要应用包括：图像分割、视频分割、实例分割、全景分割、动作捕捉等。这项工作为计算机视觉研究提供了一个全新的方向和起点，未来SEEM模型还将会在更多领域得到应用和发展。

论文链接：

https://arxiv.org/pdf/2304.06718.pdf

项目链接：

https://github.com/UX-Decoder/Segment-Everything-Everywhere-All-At-Once

# 资讯 # 【最新】AIGC行业应用资讯 # 资讯

文章版权归作者所有，未经允许请勿转载。

免费GPT！Hugging Face推出HuggingChat，拥有300亿参数的开源聊天机器人

花花

581

中国自研视频大模型Vidu突破国际水平，一键生成高清视频引领AI新潮流

万万

344

羊毛来了 | Midjourney充值账号福利，快上车！

花花

2,115

AI智能-无屏幕可穿戴设备，让交流无障碍

花花

476

重大突破：微软揭示挑战Apple Vision Pro的视频透视头戴式设备

花花

408

Claude 2发布：全新升级的AI助手助您事半功倍

花花

386

华人团队颠覆CV！全球首款SEEM视频/图像分割神器，一键分割「秒变宇宙」！

研究方法：

实验结果：

应用前景：

应该是全网第一个有自然表情的AI动画小姐姐吧？

救命！这才是我想要的ChatGPT办公方式啊

相关文章

热门标签

热门文章

相关文章