# TransUNet:Transformers Make Strong Encoders for Medical
# アブスト
医療画像セグメンテーションは,ヘルスケアシステムの開発に不可欠な要素技術である.特に疾患診断と治療方針の決定においてよく使われる.様々な医療画像セグメンテーションタスクでは,U 型の構造を有する U-Net が標準化された基準となり,大成功を収めているのである.しかし,畳み込み操作の固有的局所性のため,はっきり長距離依存関係をモデリングするには制限があると明らかに示す.sequence-to-sequence 推論に設計された Transformers は,自然に全局的 self-attention 機構を備えた代替アーキテクチャとして登場したが,低レベルの細部が不十分であるため,局所的機能が制限された.本研究では,医療画像セグメンテーションのための強い代替手段として,Transformers と U-Net のメリットをよく利用する TransUNet を提案する.一方,Transformer エンコーダは,畳み込みニューラルネットワーク(CNN)の特徴マップから画像パッチをトークン化した.これらの画像パッチが入力シークエンスとし,全局的文脈を抽出する.そして,デコーダはエンコーダされた特徴をアップサンプルする.それから,高い解像度の CNN 特徴マップとの結合により,高い精度の位置決めを実現する.我々は,Transformers が医療画像セグメンテーションの強力なエンコーダになれ,U-Net と組み合わせて局所的空間情報の復元による細部の精度向上をできることの根拠を示す.TransUNet は多臓器セグメンテーションや心臓セグメンテーションなど様々な医療アプリケーションの競合手法で優れた表現を実現する.コードとモデルが利用可能です.
# イントロ
畳み込みニューラルネットワーク(CNNs),特に完全畳み込みネットワーク(FCNs)は既に医療画像セグメンテーションの主要な手法となった.それに基づいた様々な手法の中で,細部保持を強化するためのスキップ接続を有する対称エンコーダ - デコーダネットワークからなる U-Net は標準化された選択となっている.このアプローチに基づいて,MR 画像内の心臓,CT 画像内の臓器,大腸内視鏡検査動画内のポリープのセグメンテーションなど様々な医療アプリケーションで大成功を収めた.これらの手法は優秀な代表的地位となっていても,畳み込み操作の固有的局所性で,CNN に基づいたアプローチは精確な長距離依存関係のモデルの作成に制限があることを示す.そのため,これらの構造は,特にテクスチャ,形状及びサイズに関して患者間の大きな変動を示すターゲット構造に対し,弱い性能をもたらす.そこで,複数の既有研究は CNN 特徴に基づいた self-attention 機構を提案している.一方,sequence-to-sequence 推論のために設計された Transformers が配布式畳み込み操作を利用し attention 機構のみに依存する代替アーキテクチャとして登場した.従来の CNN に基づいた手法と異なり,(つづき)
# 専門用語和英対照
日本語 | 英語 |
---|---|
標準化された基準 | de-facto standard |
完全畳み込みニューラルネットワーク | fully convolutional network |
細部保持を強化する | enhance detail retention |