Index
自己教師あり学習 / Self Supervised Learning
ここでは、画像処理におけるTransformer を用いた Self Supervised Learning について述べる.
自己教師あり学習 / Semi Supervised Learning
- 機械学習における手法
- yhayato1320.hatenablog.com
自己教師あり学習 / Semi Supervised Learning
- 画像処理における手法
- yhayato1320.hatenablog.com
Transformer
- 画像における手法
- yhayato1320.hatenablog.com
SiT / Self-supervised vIsion Transformer / 2021
SiT: Self-supervised vIsion Transformer
- [2021]
- arxiv.org
Vision TransformerでGPT-3レベルを作る方法は?
SiT: Self-supervised vIsion Transformer
— AK (@_akhaliq) April 9, 2021
pdf: https://t.co/LUmX5fyCbn
abs: https://t.co/ms4ksWdHnD pic.twitter.com/0ALi1YPLTF
MoCo v3 / 2021
Vision Transformer (ViT) を自己教師あり学習で訓練するための基礎的な手法と、その際に生じる訓練の不安定性について調査した研究.
学習率やバッチサイズの設定によって精度が密かに低下する問題を発見し、最初のパッチ投影層を固定 (フリーズ) することで安定性が向上し、精度が改善することを明らかにした.
新たに改良されたMoCo v3フレームワークを導入し、従来の畳み込みニューラルネットワークに匹敵する性能をViTで実現.
また、モデルを大規模化しても過学習を抑制できる自己教師あり学習の利点を示し、転移学習においても高い効果を発揮することを実証.
最終的に、視覚分野における自己教師あり学習の標準的なレシピを確立し、言語モデルとの差を埋めるための重要な知見を提供.
- An Empirical Study of Training Self-Supervised Vision Transformers
- [2021]
- arxiv.org
https://t.co/x852WD6IQI
— akira (@AkiraTOSEI) April 22, 2021
A study of the experimental behavior of self-supervised learning using Vision Transformer. It says that ; When learning fails, CNNs diverge, but ViT only degrades accuracy by 1~3%, removing positional embedding does not degrade accuracy, etc. pic.twitter.com/nhuvh9ol5Z
1.https://t.co/x852WD6IQI
— akira (@AkiraTOSEI) April 22, 2021
Vision Transformerを用いた自己教師あり学習の実験的な挙動を調べた研究。学習に失敗するとCNNでは発散するがViTでは1~3%の精度劣化がおこるだけ、位置埋め込みを削除しても精度が劣化しない、など pic.twitter.com/sQgW08p9Sm
Masked Siamese Network / 2022
ラベル効率の高い学習のためのマスキングされたシャムネットワーク(MSN)と呼ばれる、画像表現を学習するための自己教師あり学習フレームワークを提案.
MSNは、ランダムにマスクされたパッチを含む画像ビューの表現を、元のマスクされていない画像の表現と一致させることにより、マスクによるデノイジングのアイデアを活用.
このアプローチは、特にVision Transformersに適用した場合に、未マスクのパッチのみがネットワークによって処理されるため、計算効率とスケーラビリティが向上.
- Masked Siamese Networks for Label-Efficient Learning
- [2022]
- arxiv.org
https://t.co/XhHavwZBsQ
— akira (@AkiraTOSEI) June 20, 2022
マスクを使った画像の自己教師あり学習手法MSN (Masked Siamese Networks) を提案。異なったデータ拡張をかけた画像を2つ作成し、片側のみにマスクをかけ、2つの画像表現が同じクラスターに割り振られるように学習させる。少ないデータで微調整した場合に、DINOを超える性能 pic.twitter.com/rZDdtFlp7B