オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】Deformable Attention Transformer / DAT

Index

Deformable Attention Transformer / DAT

参考

Web サイト

  • Swin Transformerを超える最先端画像認識モデルDeformable Attention Transformerを詳細解説!

  • Researchers from China Propose DAT: a Deformable Vision Transformer to Compute Self-Attention in a Data-Aware Fashion

【深層学習】MOTR / Multiple-Object Tracking with Transformer #実装編

Index

MOTR / Multiple-Object Tracking with Transformer

Transformer を利用した Object Tracking.

実装

処理の実行

【動画像処理】Transformer #まとめ編

Index

動画への応用

Transformer を動画へ応用した手法をまとめる.

アルゴリズム

VisTR / 2020

  • End-to-End Video Instance Segmentation with Transformers

ViViT / 2021

Memory-efficient Bidirectional Transformer / MeBT / 2023

Video 生成.

  • Towards End-to-End Generative Modeling of Long Videos with Memory-Efficient Bidirectional Transformers

TimeSformer / 2021

Video Taskformer / 2023

Streaming Vision Transformer / S-ViT / 2023

SVT / 2023

  • SVT: Supertoken Video Transformer for Efficient Video Understanding

Adaptive Matting / AdaM / 2023

  • Adaptive Matting for Dynamic Videos, termed AdaM

StepFormer / 2023

  • StepFormer: Self-supervised Step Discovery and Localization in Instructional Videos

タスク

Video Restoration

ReBotNet / 2023

参考

【深層学習】Deformable DETR

Index

Deformable DETR

DETR の改善手法.

Deformable Attention Module

Deformable Attention Module の提案.

Deformable CNN から着想.



Attention Module が、重点的に注意を払うポイントは、 入力される Feature Map のサイズに関わらず、基準点の周辺となる.

Deformable Attention Transformer との関連は?

Multi-scale Deformable Attention Module

その他の工夫

Iterative Bounding Box Refinement

  • Raft: Recurrent all-pairs field transforms for optical flow.

参考

  • Deformable DETR: Deformable Transformers for End-to-End Object Detection
    • [2020 SenseTime Research]
    • v4
    • 2 RELATED WORK
      • Efficient Attention Mechanism
      • Multi-scale Feature Representation for Object Detection
    • 3 REVISITING TRANSFORMERS AND DETR
      • Multi-Head Attention in Transformers
      • DETR
    • 4 METHOD
      • 4.1 DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION
        • Deformable Attention Module
        • Multi-scale Deformable Attention Module
        • Deformable Transformer Encoder
        • Deformable Transformer Decoder
      • 4.2 ADDITIONAL IMPROVEMENTS AND VARIANTS FOR DEFORMABLE DETR
        • Iterative Bounding Box Refinement
        • Two-Stage Deformable DETR
    • arxiv.org

Web サイト

【マルチモーダル】生成モデル / Generative Mode #まとめ編

Index

生成モデル

Vision Language における生成モデルをまとめる.

参考

【画像処理】Face Detection

Index

Face Detection

画像中から顔を検出する

アルゴリズム

ArcFace / 2018

Sub-center ArcFace / 2020

Face Recognition / 顔認識

AttenFace / 2022

FaceMAE / 2022

顔認識技術におけるプライバシー保護と認識性能の両立を目指す新しいフレームワーク FaceMAE. この技術は、マスク化されたオートエンコーダーを用いて、プライバシーを保護しつつ、顔認識のトレーニングに適した合成データセットを生成することに成功.

  • FaceMAE: Privacy-Preserving Face Recognition via Masked Autoencoders

  • Researchers Propose a Novel Framework ‘FaceMAE’, Where the Face Privacy and Recognition Performance are Considered Simultaneously

データセット

F2LA

参考

【深層学習】3D CNN #まとめ編

Index

3D CNN

基本手法

応用手法

C3D / 2014

  • Learning Spatiotemporal Features with 3D Convolutional Networks

I3D / 2017

参考