【arxiv】关于 SAM 的论文扫读（一）网站首页 技术杂谈

【arxiv】关于 SAM 的论文扫读（一）

旅途中的宽~ 2024-06-17 11:28:21

简介【arxiv】关于 SAM 的论文扫读（一）

文章目录

一、阴影检测
二、弱监督下的隐蔽物体分割：基于SAM的伪标签和多尺度特征分组
三、Instruct2Act：利用大型语言模型将多模态指令映射到机器人动作
四、OR-NeRF: Object Removing from 3D Scenes Guided by Multiview Segmentation with Neural Radiance Fields
五、PromptUNet: Toward Interactive Medical Image Segmentation
六、Explain Any Concept: Segment Anything Meets Concept-Based Explanation

一、阴影检测

论文地址：

https://arxiv.org/pdf/2305.11513.pdf

在这里插入图片描述

Segment Anything Model (SAM)作为一种可提示的通用目标分割模型，近期引起了极大的关注，并展示了强大的性能。然而，在面对某些任务时，例如医学图像分割、伪装对象检测等，SAM仍然面临困难。在本报告中，我们将SAM应用于一个未被探索的热门任务：阴影检测。具体而言，我们选择了四个基准数据集，并使用广泛使用的评估指标进行评估。实验结果表明，SAM在阴影检测方面的性能不令人满意，特别是与复杂模型相比较时。

在这里插入图片描述

二、弱监督下的隐蔽物体分割：基于SAM的伪标签和多尺度特征分组

在这里插入图片描述
论文地址：

https://arxiv.org/pdf/2305.11003.pdf

该论文提出了一种新的弱监督隐蔽目标分割（WSCOS）方法，旨在使用稀疏注释数据对与周围环境混合在一起的目标进行分割。

这是一项具有挑战性的任务，因为由于内在的相似性，很难区分隐蔽目标和背景，并且稀疏注释的训练数据只提供了弱监督来进行模型学习。

为了应对内在相似性的挑战，研究人员设计了一个多尺度特征组合模块，首先在不同粒度上对特征进行分组，然后聚合这些分组结果。

通过将相似的特征组合在一起，它鼓励分割的连贯性，有助于获取单个和多个目标图像的完整分割结果。

为了解决弱监督挑战，研究人员利用最近提出的视觉基础模型“Segment Anything Model (SAM)”，使用提供的稀疏注释作为提示生成分割掩码，用于训练模型。

为了减轻低质量分割掩码的影响，研究人员进一步提出了一系列策略，包括多增强结果集合、基于熵的像素级加权和基于熵的图像级选择。这些策略有助于为分割模型提供更可靠的监督。实验证实了该方法在各种WSCOS任务上的有效性，并且实验表明该方法在这些任务上达到了最先进的性能水平。

三、Instruct2Act：利用大型语言模型将多模态指令映射到机器人动作

这篇论文介绍了Instruct2Act，这是一个利用大型语言模型将多模态指令映射到机器人操纵任务的顺序动作的框架。具体而言，Instruct2Act利用语言模型生成Python程序，构建了包含感知、规划和执行环节的全面机器人任务循环。在感知部分，预定义的API用于访问多个基础模型，其中Segment Anything Model (SAM) 准确地定位候选对象，而CLIP对它们进行分类。这样，该框架利用基础模型的专业知识和机器人能力，将复杂的高级指令转化为精确的策略代码。我们的方法可调整和灵活，适应各种指令模态和输入类型，并满足特定任务需求。我们通过在桌面操纵领域的不同场景中进行机器人任务评估，验证了我们方法的实用性和效率。此外，我们的零样本方法在多个任务中优于许多最先进的基于学习的策略。

四、OR-NeRF: Object Removing from 3D Scenes Guided by Multiview Segmentation with Neural Radiance Fields

本文介绍了一种名为OR-NeRF的新型对象去除流程，旨在通过在单个视图上使用点或文本提示，从3D场景中移除对象，并在更短的时间内实现更好的性能。当前方法在去除对象时面临着一些挑战，例如耗时的对象标注、有限的去除特定目标能力以及去除后渲染质量的损失。本文提出的方法通过使用点投影策略将用户注释快速传播到所有视图，显著减轻了处理负担。该算法允许我们利用最近的2D分割模型Segment-Anything (SAM)以提高精度和效率预测掩模。此外，我们通过2D修复方法获取颜色和深度先验。最后，我们的算法通过深度监督和感知损失进行场景重建，以保持去除对象后的几何和外观一致性。实验结果表明，与之前的方法相比，我们的方法在质量和数量上都实现了更好的编辑质量，并且用时更短。

五、PromptUNet: Toward Interactive Medical Image Segmentation

最近，基于提示的分割方法，也被称为交互式分割，在图像分割领域中越来越受欢迎。一个名为Segment Anything Model (SAM)的设计良好的提示模型展示了其在广泛的自然图像分割中的能力，引起了社区的广泛讨论。然而，最近的研究表明，SAM在医学图像上的表现不佳。这促使我们设计一种专门用于医学图像分割的新型基于提示的分割模型。在本文中，我们将基于提示的分割范式与UNet相结合，UNet是一种被广泛认可的成功的医学图像分割架构。我们将得到的模型命名为PromptUNet。为了适应实际的临床应用，我们扩展了SAM中现有的提示类型，包括新的支持性提示和En-face提示。我们使用各种图像模态，包括CT、MRI、超声、眼底和皮肤镜图像，在19个医学图像分割任务上评估了PromptUNet的能力。我们的结果显示，PromptUNet优于一系列最先进的医学图像分割方法，包括nnUNet、TransUNet、UNetr、MedSegDiff和MSA。

六、Explain Any Concept: Segment Anything Meets Concept-Based Explanation

解释性人工智能（Explainable AI，XAI）是改善人类对深度神经网络（DNN）的理解的重要主题，因为DNN内部是黑盒子。对于计算机视觉任务，主流的基于像素的XAI方法通过识别重要像素来解释DNN的决策，而新兴的基于概念的XAI方法则探索使用概念（例如图像中的头部）来形成解释。然而，像素通常难以解释，并对XAI方法的不精确性敏感，而先前的工作中的"概念"需要人工注释或仅限于预定义的概念集。另一方面，受大规模预训练的推动，Segment Anything Model (SAM)已被证明是一种强大且可推广的框架，可进行精确而全面的实例分割，从而能够从给定图像中自动准备概念集。本文首次探讨了使用SAM增强基于概念的XAI。我们提供了一种有效且灵活的基于概念的解释方法，即Explain Any Concept (EAC)，它可以用任何概念来解释DNN的决策。

风语者！平时喜欢研究各种技术，目前在从事后端开发工作，热爱生活、热爱工作。