Index
DINO
DETR の改善手法.
Mask DINO / 2022
- Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation
- [2022]
- arxiv.org
- github.com
ずっとウォッチしていましたが、先程重みとソースコードが公開されたようです。"Mask DINO"https://t.co/IwLFZHld4O pic.twitter.com/u6omgW7Ta1
— Super PINTO (@PINTO03091) December 6, 2022
DINO v2 / 2023
DINOv2: Learning Robust Visual Features without Supervision
- [2023]
- arxiv.org
DINOv2: State-of-the-art computer vision models with self-supervised learning
https://t.co/wpUrrQ16TW
— akira (@AkiraTOSEI) November 13, 2023
DiNOv2には、背景部分に異常に大きな値をもつトークンがあり、注意マップが解釈可能でなかった。そのトークンは大域情報をもっていることから、モデルが利用価値が低いトークンにその情報を押し込んだと推定し、捨てる前提のトークン "Register"を用意し、注意マップを改善 pic.twitter.com/FL3u57NqLH
Stable-DINO / 2023
- Detection Transformer with Stable Matching
- [2023]
- arxiv.org
- github.com
Grounding DINO / 2023
GLIP + DINO
- Grounding DINO
DINO v3 / 2025
- DINOv3
DINOv3は画像の高品質な密な特徴を生成する手法であり、従来手法を大きく改善。データ設計を改善するとともに学習を進めると表現が無関係なパッチ間も高い類似度を持つ問題を防ぐため、Gram Anchoringとよばれる、学習初期のパッチ間の類似度行列を維持する正則化を導入。蒸留で小さなモデル群も用意
— Daisuke Okanohara / 岡野原 大輔 (@hillbig) August 20, 2025
- 【論文】基盤モデル DINOv3 を読んで動かしてみた