只需输入想分割的对象如“擎天柱”,单个目标立刻就能被精准识别凯时运营商、快速切割: 多个物体也是手到擒来,像是指定天空、水、树、草、女孩、龙猫(Chinchilla),同样能火速分割: 这是来自厦门大学等机构的最新多模态基础感知大模型凯时运营商,一上来就在160个测试集上达成了SOTA或持平近似的结果,没有针对任何下游任务进行微调。 此前,视觉基础模型(Vision Foundation Models)方向一直在探索建立一个通用的视觉感知系统。 第一类采用自监督的训练方式凯时运营商,例如DINO和CLIP等,这类方法在做下游感知类任务的时候需要再训练单独的Head或者Adapter; 第二类方法是开集检测,对齐图像的局部区域和文本表达凯时运营商凯时运营商,例如GLIP凯时运营商、UNINEXT和GroundingDINO等,但这类方法在每次推理时只能检测非常有限数量的类别(例如lvis的1023类单词要拆分成30多次推理)或者单个句子,检测类别或者句子长度的提升会给计算量和性能带来巨大的挑战; 第三类方法是开集语义分割,例如SAM、Xdecoder和SEEM等,但这类方法在加上语义信息时面临着前景可数物体和背景不可数物体的粒度差异问题,导致性能下降凯时运营商,这类方法往往需要设计特定的网络结构或者训练策略来缓解前背景冲突。 给定多个目标类别,例如Girl和Sky等,以往的方法通常直接联结这些类别名组成一个单独的Prompt:“Girl. Sky. …”,这种构造方式是期望可以建模不同类别名之间的相互关系凯时运营商。 但论文发现,这种类别名之间的相互关系不是必须的,每种类别名独立建模就可以学习不同的实例。 GLIP等方法直接融合文本和视觉特征,在类别名很多的情况下融合的代价逐步提升。 论文则针对不同的Prompt类型来进行特征融合,对于纯类别名(Vocabulary Prompt)的文本特征凯时运营商,采用一种“zero”文本token来作为它们的替代。 过往经验表明,直接将Vocabulary Prompt和视觉特征融合容易导致过拟合现象凯时运营商,使得在新类别上的表现欠佳。 语言描述(Sentence Prompt)的文本特征则被融合到视觉特征中以实现语义级的理解凯时运营商凯时运营商。 分割任务的前景和背景的粒度是不同的,比如背景天空即使由好几块组成,但仍然被认为是同一个标签,而前景比如人则是单独的标签。 这种粒度差异会给模型训练带来挑战,为此论文提出统一前景和背景的粒度,对于不同块的背景论文将其视为独立的标签凯时运营商凯时运营商,如上图中的“天空”。 这使得模型可以采用统一的架构训练前景和背景数据凯时运营商凯时运营商,也可以方便地融入SA-1B这类大规模的Class-Agnostic数据凯时运营商凯时运营商。 实验表明,这种方法在160种测试集上普遍取得了当前SOTA或具有竞争性的结果。 值得注意的是凯时运营商凯时运营商凯时运营商,论文只采用了一个模型架构和一套参数凯时运营商,没有针对下游任务进行微调。 整体上看,APE方法在各个检测、分割和指向性检测数据集上都比之前的方法好,特别是在D3数据集上。 此前不少方法都在Objects365上预训练过凯时运营商,例如GLIP、OWL和UNINEXT,但是它们在这些训练过的数据集上效果也并不是很好。 另外,实验还比较了RoboFlow100和ODinW评测基准凯时运营商凯时运营商。RoboFlow100和ODinW分别由100和35个独立的小数据集组成凯时运营商,专门用于开集评测,APE在这两个数据集上取得了新SOTA。 在开集分割评测基准上,当类别数量较多时候,例如PC-459、ADE20K和SegInW分别有459、150和85个类,APE的效果比其他方法好不少。 其中,SegInW由25个差异很大的小数据集组成,专门用于开集分割评测。而在类别数量较少的数据集上,APE的效果相对差些凯时运营商。 在视觉定位D3评测基准上,APE取得的效果提升最明显。特别在inter-scenario的设定下,大部分方法的指标都低于6,而APE可以取得21.0。 因为在inter-scenario设定下,每张图都要用422个句子去查询,之前模型总是会每句话预测一个物体,因此效果不理想凯时运营商,而APE会拒绝不相关的查询。 在intra-scenario设定下,APE在各项指标上也取得了15+个点的提升。 原标题:《0微调搞定160个测试集凯时运营商!最强多模态分割一切大模型来了,架构参数全开源》 本文为澎湃号作者或机构在澎湃新闻上传并发布凯时运营商,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场凯时运营商,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问凯时运营商。 (责任编辑:admin) |