オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【数学】分野一覧 #まとめ編

Index

数学基礎論

数理論理学

  • 命題
  • 論理記号



集合論



位相空間



基礎数学

代数学 / Algebra

解析学 / Analysis

幾何学 / Geometry

応用数学

確率論・統計学

グラフ理論

数値解析

数値計算によって解析学の問題を近似的に解く分野.

Monte Carlo Method / モンテカルロ法

参考

書籍

Web サイト

  • 大学数学のロードマップ ~ 分野一覧と学ぶ順序

動画

  • 数学にはどんな研究分野がある?数学の世界地図を一枚に描いて紹介してみた!

【データセット】マルチモーダルデータ #まとめ編

Index

マルチモーダルデータ

マルチモーダルなデータセットについてまとめる.

Flickr30k / 2015

Conceptual Captions / 2018

WebImageText / 2021

画像とテキストのペアのデータセット.

LAION-5B / 2022

画像とキャプションペアの大規模データセット.

  • LAION-5B: An open large-scale dataset for training next generation image-text models

  • LAION、50億の画像-テキストペア・データセットLAION-5Bを公開

LAION-115M / 2022

Outdoor Multimodal Dataset / OMMO Dataset / 2023

  • A Large-Scale Outdoor Multi-modal Dataset and Benchmark for Novel View Synthesis and Implicit Scene Reconstruction

WHOOPS! / 2023

CelebV-Text / 2023

Multimodal C4 / 2023

  • Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text

DataComp / 2023

128 億の画像とテキストのペア、300 以上の実験、14 億のサブセットをリリース.



MineDojo / 2022

Video / Text.

Speech Language

WavCaps / 2023

  • WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research

【深層学習】Model Compression

Index

Model Compression

Pruning / 枝刈り

  • A Fast Post-Training Pruning Framework for Transformers

Quantize / 量子化

  • LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

Distillation / 蒸留

  • AutoDistil: Few-shot Task-agnostic Neural Architecture Search for Distilling Large Language Models

その他

OTOV2 / 2023

参考

  • A Survey of Model Compression and Acceleration for Deep Neural Networks

Web サイト

【深層学習】Dataset Distillation #まとめ編

Index

Dataset Distillation / データセット蒸留

Dataset Distillation / データセット蒸留は、オリジナルとなる大規模なデータセットから 上手に、必要な情報のみを抽出した少量のデータセットを生成する.

そして、その生成したデータセットでモデルを学習することで学習コストを抑えたり、 データセットの蓄積・共有を容易にすることを目的とする.

Knowledge Distillation のひとつ.

「大規模な元データで学習したモデル」と同じくらいの精度を 「少ない生成された効率的なデータで学習したモデル」で達成することが目的.

  • データセット
    • 元 dataset :  x\ =\ \{\ x_{i}\ \}_{i=1}^{N} もしくは、 T\ =\ \{\ (x_{i},\ y_{i})\ \}_{i=1}^{|T|}
    • 生成した dataset :  S
  • Neural Net Parameter :  \theta
    • 初期パラメータ
  • Algorithm (Function) :  Alg
  • Loss Function :  l もしくは、 L
    •  L\ (\ Alg\ (\ \theta,\ S\ ),\ T)
      • inner-level で得たパラメータを持つ NN をオリジナルのデータセット  T に適用したときの損失
  • 損失の期待値 :  F
    •  F(S)\ =\ E_{\theta\ \sim\ P_{\theta}}\ \left[\ L\ (\ Alg\ (\ \theta,\ S\ ),\ T) \ \right]
      •  P_{\theta} : パラメータ空間


 S^{*}\ =\ \DeclareMathOperator*{\argmin}{arg\,min} \displaystyle \argmin_{S}\ F(S)


損失の期待値である  F(S) を最小化するようなデータセット  S^{*} (outer-level) を生成できればよい.

FRePo / 2022

上の  S^{*} を求めるためのプロセスにおける課題.

  1. outer-level を解くために、inner-level の勾配 (メタ勾配 :  \nabla_{S} ) を求める必要があり、計算コストとメモリが膨大
  2. 少量の生成データに対して、モデルパラメータの学習を行うため過学習しやすい

  3. FRePo

PRO2 / 2023

  • Project and Probe: Sample-Efficient Domain Adaptation by Interpolating Orthogonal Features

参考

  • Dataset Distillation
    • [2018]
    • 2 RELATED WORK
      • Knowledge distillation
    • arxiv.org

  • Dataset Distillation: A Comprehensive Review
    • [2023]
    • 2 RELAED WORKS
      • 2.1 Knowledge Distillation
      • 2.3 Generative Model
    • arxiv.org

【深層学習】LEGO-Net

Index

LEGO-Net

LEarning reGular rearrangement of Objects in messy roosm

タスク

Indoor Scene Synthesis

室内シーン内の物体のレイアウトを作成するタスク.

2D or 3D のタスク.

Training Dataset

3D-FRONT dataset

  • 3D-FRONT: 3D Furnished Rooms with layOuts and semaNTics

参考

  • LEGO-Net: Learning Regular Rearrangements of Objects in Rooms
    • [2023]
    • 2 Related Work
      • Indoor 3D Scene Synthesis
      • Scene Rearrangement
      • Denoising Diffusion Models
    • 3 Method
      • 3.4 Training and Inference
    • arxiv.org

【点群処理】Indoor Scene Synthesis

Index

Indoor Scene Synthesis

室内シーン内の物体のレイアウトを作成するタスク.

2D or 3D のタスク.

アルゴリズム

LEGO-Net / 2023

参考

【マルチモーダル】Transformer #まとめ編

Index

アルゴリズム

マルチモーダルにおける Transformer の手法をまとめる.

OSCAR / 2020

Perceiver / 2021

  • Perceiver: General Perception with Iterative Attention

WuDao 2.0 / 2021

2021年6月に北京智源人工知能研究院が 1兆7,500億 のパラメーターを持つ 悟道2.0 (WuDao2.0) を発表.

MultiModality-to-MultiModality Multitask Mega-transformer / M6 / 2021

2021年11月に中国のAlibaba DAMO Academy(達磨院、Alibabaの研究開発部門)が世界最大の10兆のパラメーターを持つ M6 を発表.

VATT / 2021

  • VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

DiT / 2022

  • DiT: Self-supervised Pre-training for Document Image Transformer

EVA / 2022

2023, CVPR] 一部をマスクした画像からCLIPの出力を予測するという方法で事前学習したEVAは、 画像認識や物体検出など各種下流タスクでSOTAを達成.



  • EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

Zorro / 2023

  • Zorro: the masked multimodal transformer

MAGVLT / 2023

  • MAGVLT: Masked Generative Vision-and-Language Transformer

VioLA / 2023

  • VioLA: Unified Codec Language Models for Speech Recognition, Synthesis, and Translation

参考

Web サイト

  • NeurIPS 2021 参加報告 後編

    • VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text
    • blog.recruit.co.jp

  • ML Papers Explained

    • Layout Transformers
      • DocFormer
      • ERNIE-Layout
      • Layout LM
      • Layout LM v2
      • Layout LM v3
      • LiLT
      • StructuralLM
    • github.com