LaMa: Resolution-robust Large Mask Inpainting with Fourier Convolutions

來自 Samsung AI Center https://saic-mdal.github.io/lama-project/

關鍵字:AI, Inpainting, Fourier, GAN, FFC
論文作者: Roman Suvorov, Elizaveta Logacheva, Anton Mashikhin, Anastasia Remizova, Arsenii Ashukha, Aleksei Silvestrov, Naejin Kong, Harshith Goka, Kiwoong Park, Victor Lempitsky
時間:2021 / 09 / 15
實作:https://github.com/saic-mdal/lama

內容目前施工中

LaMa

Inpainting 中文稱 圖像修復,意味著修復圖片中的某個區塊,例如:將路人從照片中移除,不過現有的圖像修復技術難以重建 大面積複雜結構高解析度 圖片。原因在於,演算法與損失函數無法獲取全域的圖片特徵。本篇論文透過運用 Fast Fourier Convolution,來讓網路獲得全域的感知能力,得到更好的圖像修復結果。

核心貢獻:

  • 結合 Fast Fourier Convolution,去加強圖片的感知能力。
  • 設計了一個具有全域高感知能力的 loss function。
  • Large mask 的訓練方式去提升 model 的能力。

Fast Fourier Convolution

那麼首先來看到這篇論文的核心 - Fast Fourier Convolution。
FFC 能夠讓 Network 在訓練初期即具有整張圖的感知能力,並且在高解析度的圖片中仍表現出超群的效果。他的主要概念,是透過 Fourier Transform 對於頻率的分析,結合傳統 convolution,讓網路一開始就是在分析整張圖的特徵。

那它的網路架構主要分為兩個 Branch。

FFC

  • Local branch:傳統的 Convolution
  • Glocal branch:Fast Fourier Transform

其中,Local branch 萃取 local 特徵;global branch 萃取 global 特徵。