柚子快報邀請碼778899分享：SAM-Med3D論文閱讀筆記

Bestone百購網(wǎng)綜合2025-05-05530

http://yzkb.51969.com/

前言

CodeLink:?https://github.com/uni-medical/SAM-Med3D.

Motivation:目前醫(yī)學領域的SAM采用逐切片方式處理3D醫(yī)學圖像，忽略了重要的3D空間信息，導致性能受限。此外也嘗試通過2D到3D的適配來捕獲3D空間信息, 但受限于較小的數(shù)據(jù)規(guī)模和固有的2D架構(gòu)，限制了其全面建模3D空間信息的能力。因此為解決2D到3D適應方法的局限，我們提出SAM-Med 3D，采用全新可學習的3D架構(gòu)，并在大規(guī)模、多類別的醫(yī)學圖像數(shù)據(jù)集上訓練

Contribution:????????

? ? ? ?1)?本文介紹了一種名為SAM-Med 3D的三維空間注意力模型。該模型通過從頭開始訓練大規(guī)模的三維醫(yī)學圖像數(shù)據(jù)集。

? ? ? ? 2)此外，該SAM-Med 3D模型還經(jīng)過驗證，可作為3D醫(yī)學圖像Transformer的強大預訓練模型。雖然3D模型增強了可用性，但體積圖像內(nèi)的提示稀疏性對模型捕獲空間信息和有效利用稀疏提示的能力提出了挑戰(zhàn)。

不足之處：盡管SAM-Med 3D在醫(yī)學圖像分割任務中取得了顯著成果，但未來的研究仍需要探索新的3D提示形式和更適合3D環(huán)境的訓練策略。

? ? ? ? 一、Abstract

? ? ? ? 盡管SAM在2D自然圖像分割上取得了令人驚嘆的成果，但是其在3D體素醫(yī)學圖像的分割上的應用仍然存在重大的缺陷，也就是次優(yōu)性能以及不穩(wěn)定的預測。該問題很難通過在醫(yī)學圖像數(shù)據(jù)集中微調(diào)SAM來解決，因為原有的SAM 2D結(jié)構(gòu)本身就忽略了3D空間信息。因此本文提出了SAM-Med3D, 用與3D醫(yī)學圖像分割的修改版SAM的最全面研究。首先，通過全面地將SAM重新制定為在全面處理的大規(guī)模體積醫(yī)學數(shù)據(jù)集上訓練的徹底的3D架構(gòu)。其次，提供了關于其性能的全面評估。在15個數(shù)據(jù)集上評估了其性能并且分析它從多個角度，包括解剖結(jié)構(gòu)，模態(tài)，目標和泛化能力。該方法與SAM相比，展示了顯著增強的效率和用于廣泛的三維體積醫(yī)學圖像分割的能力。

? ? ? ? 二、 Introduction

????????醫(yī)學圖像分割是醫(yī)療保健領域的關鍵任務，但現(xiàn)有技術往往局限于特定器官或病變的分割，這限制了其臨床適用性。由于3D解剖結(jié)構(gòu)復雜性和注釋數(shù)據(jù)有限，開發(fā)通用性強且精確的分割方法仍是一大挑戰(zhàn)。

????????SAM作為一種強大的視覺基礎模型(VFM)在多個領域展現(xiàn)了出色的zero-shot分割性能，但其對醫(yī)學領域的適用性受限。通過微調(diào)，如MedSAM和SAM-Med2D，可以提升其醫(yī)學圖像分割能力。然而，這些方法采用逐切片方式處理3D醫(yī)學圖像，忽略了重要的3D空間信息，導致性能受限。此外，近些年來一些研究人員為克服逐切片方法的局限性，研究人員嘗試通過2D到3D的適應來捕獲3D空間信息。但這些方法受限于較小的數(shù)據(jù)規(guī)模和固有的2D架構(gòu)，限制了其全面建模3D空間信息的能力。

? ? ? ? 上圖描述了SAM， SAM-Med2D與我們的方法SAM-Med3D在3D醫(yī)學圖像上的比較

????????為解決2D到3D適應方法的局限，我們提出SAM-Med 3D，采用全新可學習的3D架構(gòu)，并在大規(guī)模、多類別的醫(yī)學圖像數(shù)據(jù)集上訓練。此數(shù)據(jù)集遠超現(xiàn)有最大醫(yī)學圖像分割數(shù)據(jù)集，為模型提供了豐富的3D空間信息學習機會。

? ? ? ? 三、 Method

? ? ? ? 3.1 模塊改動

????????

? ? ? ? 上圖表示我們所修改后的SAM框架，把原生的2D組件都用對應的3D組件進行了替換，即3D Image Encoder， 3D Prompt Encoder與 3D Mask Decoder。

????????3D Image Encoder:

? ? ? ? ? ? ? ? patches首先使用了一個 16*16*16的3D卷積進行了embedding, 然后用3D 可學習的絕對位置編碼與其進行配對(3D?ABS PE)?。這一部分就是將SAM中的2D PE擴展了一個維度，讓其變成3D的絕對位置編碼。然后將其輸入到3D 注意力模塊中進行對應Q, K, V 的計算。 ? ? ? ? ?

? ? ? ????????3D Attention Block:

? ? ? ? ? ? ? ? ? ? ? ? 我們把一個3D相對位置編碼(3D relative PE)嵌入到了SAM中的多注意力(MHSA)機制中，讓其能夠直接捕獲空間信息的細節(jié)。除了擴展了一個維度外，其余與SAM中的多注意力模塊一致。

????????????????

????????3D Prompt Encoder:

? ? ? ? 對于稀疏prompt, 使用了3D Abs PE來讓其表示3D 空間信息，同時密集prompt使用3D卷積及逆行處理。

????????

????????3D Mask Decoder:

? ? ? ? 在這部分中，我們利用3D的反卷積技術，將3D的上采樣過程融入到了SAM的mask decoder中。

? ? ? ? 3.2 初步實驗

? ? ? ? ? ? ? ? 我們設計了一個初步實驗來比較預訓練好權重的SAM在我們SAM-Med3D上的效果。

????????????????在3D模型中重用SAM權重的直接解決方案是對這些層采用權重復制策略，其中權重的形狀表現(xiàn)出差異。以Conv為例，我們將2D卷積的內(nèi)核復制D次，并將它們堆疊以形成3D卷積，其中D表示第三維中內(nèi)核的大小。

??????????????使用和不使用預先訓練的權重，?我們在AMOS數(shù)據(jù)集上訓練了SAM-Med 3D，進行了25萬次迭代。

????????????????

? ? ? ? ? ? ? ? 從該表格可以看出，使用SAM中預訓練好的權重并未帶來顯著的性能提高，因此我們在一個大規(guī)模的3D醫(yī)學數(shù)據(jù)中從頭開始訓練我們的SAM-Med3D網(wǎng)絡。

? ? ? ? 3.2.1 大規(guī)模3D醫(yī)學數(shù)據(jù)集構(gòu)建

? ? ? ? ? ? ? 訓練集：? 我們構(gòu)建了一個基于大量公共以及私人的3D醫(yī)學圖片數(shù)據(jù)集用于訓練。

? ? ? ? ? ? ? ? 驗證集：

? ? ? ? ? ? ? ? 我們收集了13個公用數(shù)據(jù)集用來審查多臨床場景下的情況，并且也引入了來自MICCAI 2023的兩個私有數(shù)據(jù)集來驗證不同模型的性能。評估數(shù)據(jù)集包含了七個關鍵的解剖結(jié)構(gòu)(胸部和腹部器官、大腦結(jié)構(gòu)、骨骼等)以及還包括在醫(yī)學領域具有重要意義的五種病變類型(MRI, CT , US..)。此外，它還包含了具有挑戰(zhàn)性的、之前未知的目標，總共有153個不同的目標，分屬不同的類別。我們的驗證集可以分為三大部分：

????????????????器官分割基準：我們使用了包括Totalseg-Test、AMOS-Val、BTCV和HaN-Seg在內(nèi)的四個數(shù)據(jù)集，涵蓋了CT和MRI模式下的100多種器官掩模。其中，HaN-Seg數(shù)據(jù)集提供了器官風險注釋，增加了驗證集的挑戰(zhàn)性。我們通過利用這些數(shù)據(jù)集，進行了全面的測試和驗證。

? ? ? ? ? ? ? ? 腦部結(jié)構(gòu)分割基準：我們綜合使用了Totalseg-Test、AMOS-Val、BTCV和HaN-Seg四個數(shù)據(jù)集，這些數(shù)據(jù)集提供了100多種器官的掩模，包括CT和MRI模式。其中，HaN-Seg的器官風險注釋增加了驗證集的難度。我們利用這些數(shù)據(jù)集進行了全面測試，以驗證相關模型或算法的性能。

? ? ? ? ? ? ? ? 病灶分割基準：我們使用了包括FeTA 21、FeTA 22、iSeg 17、iSeg 19、MRBrains 13、MRBrains 18和cSeg 22在內(nèi)的七個數(shù)據(jù)集，涵蓋了MRI圖像中大腦、腦干和小腦結(jié)構(gòu)的注釋。同時，結(jié)合Totalseg-Test和HaN-Seg的CT圖像大腦結(jié)構(gòu)掩模，這些不同數(shù)據(jù)源和MRI序列差異的數(shù)據(jù)集共同構(gòu)成了一個具有挑戰(zhàn)性的測試基準。

????????????????3.2.1 數(shù)據(jù)處理

? ? ? ? 為了標準化這些多樣的數(shù)據(jù)，我們按照一下四個步驟來清洗和處理所有收集到的數(shù)據(jù)：

????????1)基于Meta信息的數(shù)據(jù)清洗。

????????????????

????????2)基于連通域的掩碼清理。

????????????????

????????3)基于連通域的標簽質(zhì)量改進。

????????

4)基于對稱性的標簽質(zhì)量改進。

? ? ??

? ? ? ? 3.3 評估基于SAM的模型

????????????????我們?nèi)嬖u估了SAM、SAM-Med 2D及我們提出的SAM-Med 3D，旨在為3D醫(yī)學圖像的可驗證分割任務設定基準。

????????????????我們構(gòu)建了一個包含13個不同公共數(shù)據(jù)集的3D體積分割驗證集，該數(shù)據(jù)集具有多樣性和代表性，包含各種目標和模態(tài)。這種評估方式將全方位地研究SAM-Med 3D在3D體積分割任務中的性能，從而加深我們對該算法的理解。

????????????????我們評估了SAM-Med 3D等模型的效率，并模擬了臨床場景中的互動分割與點提示模式。SAM-Med 3D使用基于塊的推斷方法，與目前先進的醫(yī)學圖像分割方法相比具有推理時間上的優(yōu)勢。在3D醫(yī)學圖像推斷中，2D方法缺乏切片間交互，導致性能上限，而3D方法則能進行全局交互，提高分割準確性。

四、 Experiments

? ? ? ? 4.1 定量評估

????????????????

? ? ? ? ? ? ? ? 該表列出了SAM、SAM-Med 2D和我們提出的SAM-Med 3D在驗證集上的性能指標。

???????????????實驗顯示，SAM-Med 2D(嵌入了醫(yī)學領域知識)在性能上明顯優(yōu)于SAM，SAM-Med 3D則表現(xiàn)更為出色，Dice評分提高了32.90%，且在不同提示點計數(shù)上均超越SAM和SAM-Med 2D。此外，SAM-Med 3D在計算效率上也具有顯著優(yōu)勢，推理時間僅為SAM的15%，同時保持較高的Dice評分。

????????

? ? ? ? 該表是從解剖結(jié)構(gòu)和病變角度進行比較。我們根據(jù)解剖結(jié)構(gòu)對SAM-Med 3D的性能進行了深入評估，發(fā)現(xiàn)其在各種器官和病變上均表現(xiàn)出色。相比SAM，SAM-Med 3D在僅提供有限提示點的情況下，更能準確定位目標，尤其是在復雜解剖結(jié)構(gòu)上。在所有解剖結(jié)構(gòu)的評估中，SAM-Med 3D與SAM-Med 2D性能相當，甚至在某些情況下Dice評分提升了17.71%。我們發(fā)現(xiàn)，腹部和胸部目標不遵循SAM-Med3D的這種領先趨勢（與SAM-Med2D相比）。這種情況可以歸因于這些目標的更簡單的3D結(jié)構(gòu)，這減少了對3D空間細節(jié)的依賴。

????????在評估中，我們還發(fā)現(xiàn)SAM-Med 3D在可見病變的分割上表現(xiàn)優(yōu)越。對于不可見病變，SAM-Med 3D在有限提示下表現(xiàn)良好，性能隨著提示增多而提升。在10個提示下，SAM-Med 3D的性能達到48.44%，超過SAM-Med 2D在200個提示下的47.66%。

? ? ? ? 除此之外，我們還對比了SAM, SAM-Med2D與我們的方法SAM-Med3D在三個主要模態(tài)上的DICE得分情況，如下所示。

? ? ? ? 我們發(fā)現(xiàn)SAM在三種模態(tài)下的DICE得分（1 point prompt情況下）都低于20%。對于CT圖像來說，隨著point點數(shù)的增加情況有所提升， 5 point時會提升到50%左右。而對于MRI以及US圖像則情況就不容樂觀了。

? ? ? ? SAM-Med2D在MRI圖像上當給定1 point的情況下，性能與我們的方法相比處于絕對的劣勢。而在CT與US的模態(tài)想，隨著point點數(shù)的增加， SAM-Med2D與SAM-Med3D的性能所差無幾。

? ? ? ? 4.2 定性評估

????????為了保持比較的公平性，我們在每個軸上將3D圖像均勻地重采樣到1.5 mm的間距，并使用每種方法的最佳分辨率（SAM為1024*1024，SAM-Med 2D為256*256，SAM-Med 3D為128*128?）進行測試。

????????對于每個可視化的情況，描繪了兩個視圖：（1）軸向：該水平橫截面將身體或器官分成上段和下段。它是觀察器官解剖學最常用的視角。(2)矢狀面/冠狀面：表示垂直橫截面，該視圖將身體或器官分為左/右或前/后部分。

? ? ? ?

????????基于上述兩幅圖我們發(fā)現(xiàn)：1）SAM-Med 3D需要的提示明顯更少。2) SAM-Med 3D具有更好的切片間一致性。

柚子快報邀請碼778899分享：SAM-Med3D論文閱讀筆記

http://yzkb.51969.com/

精彩內(nèi)容

評論可見，查看隱藏內(nèi)容