Index
TrackFormer
Multi Object Tracking (MOT) のアルゴリズム.
- Object Tracking #まとめ編
MOT では、追跡している物体についていくつかの事項を同時に予測しなければならない.
- 新しい物体かどうか / もうすでに存在していない物体かどうか (Initialization)
- 前の時刻のどの物体を、次の時刻の物体に紐付けるかどうか (Identity)
- 前の時刻の物体の空間的な移動 (Spatiotemporal Trajectory)
このように予測するべき項目をフレームワークに落とし込み、
Encoder-Decoder 形式の Transformer を使用して、End-To-End で予測する.
- Transformer
フレームワーク
MOT の問題を Transformer に適用するためのフレームワークを考える.
- 問題の定式化
- Track Query
- フレーム間を関連付けた学習
問題の定式化
まずは、変数の紹介.
- : ある動画像データの映っている物体の ID の件数
- : ある ID が割り当てられている物体の Bounding Box の集合
- : ある ID が割り当てられている物体の ある時刻 の Bounding Box
この手法では、4つの処理を行うことで、
ID に紐づけられた物体の BB とクラスを予測する.
- CNN を利用した フレームレベルの特徴量抽出
- フレームの特徴量を Encoding
- Decoding
- MLP を利用した BB と Class の予測
Decoder Query
Object は、Decoder Query で表現される.
Decoder Query は Decoder が 物体の BB と Class を予測するための、Embedding されたベクトル.
Decoder Attention
Decoder は 2 つの種類の Attention 処理を交互に繰り返す.
- Self Attention
- Object Query を通じて、すべての時刻の物体の情報に接触する
- Encoder-Decoder Attention
- Encoder からの画像情報を参照する
そして、Decoder は予測結果の情報を内包した Object Query を出力する.
順序的な情報を維持するために、
フレームの特徴量には Positional Encoding、
Object Query にはObject Encoding が必要.
Track Initialization / Track Query
出力された Embedding ベクトルは、2 種類の Query Embedding で初期化される.
- Static Object Query / Track Initialization
- Autoregressive Track Query
Track Initialization
検出された物体は、固定値 個 の Object Query として初期化された状態で追加される.
各 Object Query は、前のフレームの情報からあらかた予測をつけた場所から BB の位置を予測することができる.
Track Query
フレーム間の追跡の実現に欠かせない概念 Track Query.
Track Query は、自己回帰的な方法で、位置情報を予測しながら、ID 情報を引き継ぐ.
新しい物体
新しい物体が検出されるたびに、前のフレームにおける Decoder の出力から対応する Object Query を初期化する.
Decoding
フレーム画像の特徴量と Decoder への入力である Object Query に Attention を適用して、
各 Track Query の情報を更新する.
Self Attention を通じて、Object Query / Tracking Query の情報共有を行うことで
新しい検出を可能にすると同時にすでに検出されている物体の再検出を回避できる.
時刻 (フレーム) にて、
閾値 を超えるスコアを持つ検出された物体の集合、
は初期化される.
追跡の削除
Track Query の数 は、新しい物体が検出されるか
追跡している物体が削除されると、フレーム間で変化する.
検出のスコアが、閾値 [tex: \sigma{track}] を下回るか、
Non-Maximum Suppression (NMS) の計算時に IoU の閾値 [tex: \sigma{NMS}] を下回った場合、
追跡物体を削除する.
- Non-Maximum Suppression / NMS
Track Query Re-Identification
最大 フレームは、追跡対象として削除された物体でも追跡し続けてあげる.
この期間中に、追跡対象として復活するには、閾値 以上の検出スコアを出す必要がある.
フレーム間を関連付けた学習
Track Query で物体を次フレームまで追跡し、
Object Query に引き継ぐ様な作業をするため、
TrackFormer でフレーム間の関連を学習に適用する必要がある.
Ground Truth は、 個分必要になる.
Lossの計算
Loss の計算は 2 つのステップで算出される.
- 時刻 における 個の Object Query の計算
- ステップ 1 で検出された物体の追跡と の Query のフレーム における新しい物体の検出
Bipartite Matching
時刻 / フレーム の GT の ID の集合 は、以下を満たすことに注意.
また、前のフレーム で検出された物体の ID は で、
から結びつけられる.
Set Prediction Loss
精度評価
実装編
- TrackFormer #実装編
参考
- TrackFormer: Multi-Object Tracking with Transformers
Web サイト
-
- paper with code の paper のページ
- paper with code の paper のページ
コンピュータビジョン分野における世界最高峰の国際会議CVPR2022の論文紹介(後編)