Index
MOTR / Multiple-Object Tracking with Transformer
Transformer を利用した Object Tracking.
Transformer #まとめ編
Object Tracking
End-to-End な設計.
motion (動き) と appearance (見た目) のどちらの特徴量を利用する.
Iterative Sequence Prediction
DETR は、画像の特徴量と Object Query を Decoder に入力し、各 Query を更新させる.
その後、DETR は、
(NMS を利用せず)、Bipartite Matching (二部マッチング)を利用して、
Object Query と GT をマッチングしている.
Object Detection とは異なり MOT では、シーケンシャルな情報を利用できる.
そこで、シーケンシャルな情報を利用するために、Iterative Prediction を導入する.
Hidden Space に対して Target Sequence を更新する.
Track Query
DETR の Object Query を Track Query へ拡張した.
Tracklet Aware Label Assignment / TALA
Track Query によって物体を追跡するために、利用.
Entrance and Exit Mechanism
新しい物体に対する Track Query を作成したり、姿が無くなった物体に紐付いている Track Query を削除したりする仕組み.
Architecture
Encoder
Encoder には、ResNet-50 と Deformable DETR の Encoder を利用.
ResNet
Deformable DETR
Decoder
Detect Query と Track Query を連結させたものを Deformable DETR の Decoder に入力.
Decoder は、Hidden State を出力する.
Hidden State は、予測や、Track Query の作成に使われる.
QIM / Query Interaction Module
Temporal Aggregation Network / TAN
Collective Average Loss / CAL
各フレームの情報を Encoder を通して、入力された Decoder が出力した予測から損失を計算する.
精度比較
MOT 17
DanceTrack
- DanceTrack
実装
- MOTR #実装編
参考
- MOTR: End-to-End Multiple-Object Tracking with Transformer
- [2021]
- 2 Related Work
- Transformer-based Architectures
- Multiple-Object Tracking
- Iterative Sequence Prediction
- 3 Method
- 3.1 Query in Object Detection
- 3.2 Detect Query and Track Query
- 3.4 MOTR Architecture
- 4 Experiments
- 4.1 Datasets and Metrics
- arxiv.org