オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】自己教師あり学習 / Self Supervised Learning

Index

自己教師あり学習 / Self Supervised Learning

ここでは、画像処理におけるTransformer を用いた Self Supervised Learning について述べる.

SiT / Self-supervised vIsion Transformer / 2021

MoCo v3 / 2021

Vision Transformer (ViT) を自己教師あり学習で訓練するための基礎的な手法と、その際に生じる訓練の不安定性について調査した研究. 学習率やバッチサイズの設定によって精度が密かに低下する問題を発見し、最初のパッチ投影層を固定 (フリーズ) することで安定性が向上し、精度が改善することを明らかにした. 新たに改良されたMoCo v3フレームワークを導入し、従来の畳み込みニューラルネットワークに匹敵する性能をViTで実現. また、モデルを大規模化しても過学習を抑制できる自己教師あり学習の利点を示し、転移学習においても高い効果を発揮することを実証. 最終的に、視覚分野における自己教師あり学習の標準的なレシピを確立し、言語モデルとの差を埋めるための重要な知見を提供.

  • An Empirical Study of Training Self-Supervised Vision Transformers



Masked Siamese Network / 2022

ラベル効率の高い学習のためのマスキングされたシャムネットワーク(MSN)と呼ばれる、画像表現を学習するための自己教師あり学習フレームワークを提案. MSNは、ランダムにマスクされたパッチを含む画像ビューの表現を、元のマスクされていない画像の表現と一致させることにより、マスクによるデノイジングのアイデアを活用. このアプローチは、特にVision Transformersに適用した場合に、未マスクのパッチのみがネットワークによって処理されるため、計算効率とスケーラビリティが向上.

  • Masked Siamese Networks for Label-Efficient Learning