オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】MOTR / Multiple-Object Tracking with Transformer #アルゴリズム編

Index

MOTR / Multiple-Object Tracking with Transformer

Transformer を利用した Object Tracking.

End-to-End な設計.

motion (動き) と appearance (見た目) のどちらの特徴量を利用する.

Iterative Sequence Prediction



DETR は、画像の特徴量と Object Query を Decoder に入力し、各 Query を更新させる.

その後、DETR は、 (NMS を利用せず)、Bipartite Matching (二部マッチング)を利用して、 Object Query と GT をマッチングしている.



Object Detection とは異なり MOT では、シーケンシャルな情報を利用できる.

そこで、シーケンシャルな情報を利用するために、Iterative Prediction を導入する.



Hidden Space に対して Target Sequence を更新する.

Track Query

DETR の Object Query を Track Query へ拡張した.

Tracklet Aware Label Assignment / TALA

Track Query によって物体を追跡するために、利用.

Entrance and Exit Mechanism

新しい物体に対する Track Query を作成したり、姿が無くなった物体に紐付いている Track Query を削除したりする仕組み.

Architecture



Encoder

Encoder には、ResNet-50 と Deformable DETR の Encoder を利用.

Decoder

Detect Query と Track Query を連結させたものを Deformable DETR の Decoder に入力.



Decoder は、Hidden State を出力する.

Hidden State は、予測や、Track Query の作成に使われる.

QIM / Query Interaction Module

Temporal Aggregation Network / TAN

Collective Average Loss / CAL

各フレームの情報を Encoder を通して、入力された Decoder が出力した予測から損失を計算する.

精度比較

MOT 17

DanceTrack

実装

参考

  • MOTR: End-to-End Multiple-Object Tracking with Transformer
    • [2021]
    • 2 Related Work
      • Transformer-based Architectures
      • Multiple-Object Tracking
      • Iterative Sequence Prediction
    • 3 Method
      • 3.1 Query in Object Detection
      • 3.2 Detect Query and Track Query
      • 3.4 MOTR Architecture
    • 4 Experiments
      • 4.1 Datasets and Metrics
    • arxiv.org