オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】Feature Pyramid Network / FPN

Index

Feature Pyramid Network / FPN とは

Feature Pyramid Network は、物体検出向けに、
マルチスケールの (大きさの異なる) 画像特徴量の集約を効率的に行うためのネットワークアーキテクチャである.

Feature Pyramid (Featurized Image Pyramid) は、物体検出を行うための基本的なテクニックである.

計算量とメモリを消費せずに、Feature Pyramid を CNN の導入する方法を考えたい.

Featurized Image Pyramid

画像処理で利用される考えであり、同じ画像の異なるスケールを入力する仕組みのこと.

CNN の特性

CNN は、より高度な情報を含んだまま、スケール(情報)を小さくしていく手法である.

スケール変化にロバストな特性を持つ (多少スケールが変わっても同様の特徴量を抽出できる)ため、 すべての入力画像の大きさを単一にできる.



SSD の登場

Single Shot Detector / SSD は、CNN の特徴量 (= Pyramidal Feature Hierarchy) を Featurized Image Pyramid のように利用最初の試みの一つであった.



SSD では、CNN の枠組みに、Featurized Image Pyramid の考えを導入することで、 複数の大きさの物体の情報を取得できるようにした.

Feature Pyramid Network の完成

この論文の目的は、CNN の構造に、途中の特徴量 (=Pyramidal Feature Hierarchy) を どのように自然に活用しながら、複数のスケールの情報を持つネットワークアーキテクチャを作ることであるのだ.

そこで、Bottom Up (Down Sampling)している途中の特徴量を、 Top Down (Up Sampling) の経路に接続することで、 低解像度で情報の多い特徴量と高解像度で情報の少ない特徴量を統合できるネットワークアーキテクチャが作成できる.

U-Net との類似

似たようなネットワークアーキテクチャに U-Net がある.

違いとしては、U-Net は、単一の情報量の多い特徴マップを予測に使っている.

一方、FPN は、各スケールサイズの情報を、独立して (スケールごとに)、物体検出などの予測を行える.

接続部分

まず、粗い(低い)解像度の特徴マップを入力として、Up Sampling され、サイズが大きくなる.

その出力は、Bottom Up (Down Sampling) している特徴マップとマージされる.

(その前に、 1\ \times\ 1 の畳み込み層を経て縮小される.)

ここでの、マージは、要素ごとの加算演算を表す.

応用アルゴリズム

参考

Web サイト