华人团队颠覆CV！全球首款SEEM视频/图像分割神器，一键分割「秒变宇宙」！

资讯1年前 (2023)更新花花

2,520 0 0

最近，威斯康辛麦迪逊大学、微软和香港科技大学的研究人员提出了一种SEEM模型，该模型能够对包含视觉、文本和语音提示的任何输入进行一次性分割。这种通用性使得SEEM能够应对各种不同类型的数据和任务，例如语义分割、实例分割、全景分割、动作捕捉等等。此外，SEEM还具有语义感知能力，可以在不需要提前学习的情况下进行任意组合的分割。

研究方法：

SEEM使用一种名为SEEM的编码器-解码器模型，它能够对包含多种输入的模型进行学习。SEEM模型采用了常见的卷积神经网络架构，并在其上加入了注意力机制和自注意力机制，以学习在各种输入数据中进行分割的最佳策略。

同时，SEEM模型也支持多种视觉和语音提示，并通过提供对不同提示类型的交互式建议来增强其多样性。

实验结果：

SEEM模型在多项分割任务中展现出了有效性和泛化能力。在变形金刚的合影中，SEEM能够将「擎天柱」与其他物体区分开来。

在视频分割任务中，SEEM能够将输入视频自动分割为图像和视频序列。

此外，SEEM还能够在不需要提前学习的情况下，对分割任务进行任意组合的优化。SEEM的出现为计算机视觉领域的分割研究提供了一种全新的方法和思路。

应用前景：

SEEM的出现将对计算机视觉、自然语言处理和多模态信息处理等领域产生深远的影响。其主要应用包括：图像分割、视频分割、实例分割、全景分割、动作捕捉等。这项工作为计算机视觉研究提供了一个全新的方向和起点，未来SEEM模型还将会在更多领域得到应用和发展。

论文链接：

https://arxiv.org/pdf/2304.06718.pdf

项目链接：

https://github.com/UX-Decoder/Segment-Everything-Everywhere-All-At-Once

# 资讯 # 【最新】AIGC行业应用资讯 # 资讯

文章版权归作者所有，未经允许请勿转载。

Bard VS Chat GPT &BING！谷歌计划通过AI聊天和视频剪辑使搜索更加“个性化”

花花

1,501

Dropbox推出AI智能搜索工具Dash和Dropbox AI

花花

1,324

"AI之巅！SDXL 1.0开放模型崭新时代，图像生成再进化"

花花

3,301

AI新星3D-GPT：用文字创造3D世界，一触即发！

花花

2,408

马克·扎克伯格揭示Meta宏伟蓝图：通用人工智能的探寻与布局

花花

1,616

谷歌广告大会：推出三大更新！利用生成式AI提升广告创造力和ROI

花花

1,949

华人团队颠覆CV！全球首款SEEM视频/图像分割神器，一键分割「秒变宇宙」！

研究方法：

实验结果：

应用前景：

应该是全网第一个有自然表情的AI动画小姐姐吧？

救命！这才是我想要的ChatGPT办公方式啊

相关文章

热门标签

热门文章

相关文章