- WTConv (Wavelet Transform Convolution) を提案し,畳み込みの受容野を効率的増加
- CNN (Convolutional Neural Network) では,深さ単位畳み込みを置き換えるに WTConv を設計
- WTConv を,CNN 拡張性,安定性,形状偏見と効率的受容野における貢献を解析
source code:https://github.com/BGU-CS-VIL/WTConv
論文概要: 時間 - 周波数分析においてよく使われるウェーブレット変換(Wavelet Transformer, WT)を用い,計算機視覚タスクで広範囲な特徴を抽出する.ここで,全局的受容野を獲得しながら,多重周波数分解により低周波成分に注目する.これによって,汎化能力と安定性が高まる.一方,テクスチャより,物体形状にさらに注目することで,認識能力は強くなっている.
# Introduction
計算機視覚の発展につれて,畳み込みニューラルネットワーク(CNN)は画像分類,目標検出,および領域分割の要素技術となっている.しかし,全局的特徴情報を捉えるには,CNN の局所的受容野に制限されている.したがって,CNN を用い,Vision Transformers(ViTs)のように,広範囲な特徴を捉えるのは困難である.解決策の一つは,畳み込みのカーネルサイズを増やす.しかし,全局的受容野になる前に,畳み込みの性能が退化する.そこで, WTConv(Wavelet Transformer Convolution)を提案し,ウェーブレット変換を用い CNN の受容野を広げる.また,パラメータ数の増加は指数級から対数級に減らし,モデルの効率と性能を維持する.
# Related Work
深層学習における WT: WT は入力信号を異なる周波数信号で分解できる.この技術は画像のディノイズ,特徴抽出,および特徴圧縮でよく使われる.この技術を用い,CNN の狭い受容野は改善される.
大きいカーネルによる畳み込み: 大きいカーネルを用い,さらに広い受容野を獲得できる.しかし,サイズを増やすのは,計算コストが激増していく.また,サイズの増加につれて,カーネルの特徴抽出性能が退化する.大きいカーネルの設計は課題となる.
# Method
WTConv を提案している.この手法では,4 つのウェーブレットベースによる WT と深さ単位畳み込みを用い,従来の畳み込み層の受容野を広げる.これによって,広範囲の空間方向を捉えながら,パラメータ数の増加を抑える.
具体的には,まずは,2D Haar WT を用い,4 つの成分に分解し,多重尺度からエッジやテクスチャ,形状などの情報を抽出する.ここで,4 つの成分は,低周波成分,水平成分,垂直成分,対角高周波成分となっている.次は,それぞれの成分を使い,小さいカーネルによる深さ単位畳み込みを行う.ここで,異なる周波数の特徴マップから特徴抽出をする.そして,WT の逆計算(IWT)により,全部の成分を組み合わせる.ここの出力は,多重尺度の特徴を融合する特徴マップとなる.
受容野をさらに拡大するため,WTConv はネスト構造で使うこともできる.ネストの回数は,WTConv のレベルという.
# Results
ここでは,ImageNet-1k データセットを用い,WTConv を有する ConvNeXt を学習する.そして,学習済みの ConvNeXt を用い,ダウンストリームタスクに応用する.
- 画像分類: ImageNet-1k データセットを用い,WTConv を有する ConvNeXt を学習し,テストを行う.パラメータの削減と Top-1 の精度向上を確認できた.
- 領域分割: ADE20K データセットを用い,画像分類で学習済みの ConvNeXt をバックボーンにし,UperNet を学習し,テストを行う.パラメータの削減と mIoU の精度向上を確認できた.
- 目標検出: COCO データセットを用い,画像分類で学習済みの ConvNeXt をバックボーンにし,Cascade Mask R-CNN を学習し,テストを行う.検出四角形とマスクの平均 Precision(AP)の精度向上を確認できた.
WTConv は 4 つの面から,CNN の性能を改善された. - 拡張性: WTConv はカーネルのサイズを増やしながら,性能が退化せずに受容野を拡大できたことを確認した.従来の CNN に基づいた手法に比べ,パラメータを削減できた.
- 安定性: ノイズ,ぼやける効果を加える劣化した画像のデータセットを用い,安定性を検証した.
- 形状偏見: WTConv は従来の CNN より,さらに物体形状に注目している.これは,人間の視覚感知方法と似ている.
- 効果的受容野: 従来の CNN より,少ないパラメータで,全局的受容野に近い性能がある.
WT レベル,カーネルサイズ,成分周波数とウェーブレットベースは,結果に影響している.具体的な仕事は将来の研究でやる.
# Limitations
WTConv はパラメータ数を削減したが,WT-Conv-IWT 操作で,稼働効率が低くなっている.
# Conclusion
- 本研究では,WTConv を提案し,大きい受容野を達成し,低周波成分の特徴抽出はさらに優れている.WTConv を用い,畳み込みで全局的受容野を捉えることができる.
- WTConv は,CNN の効率的受容野を広げ,形状偏見を改善した.様々な視覚タスクでいいパフォーマンスができた.