2023-01-26

【数学】分野一覧 #まとめ編

#まとめ編一覧
- yhayato1320.hatenablog.com

Index

Index
数学基礎論
- 数理論理学
  - 集合論
- 位相空間論
基礎数学
応用数学
参考

数学基礎論

数学基礎論
- ja.wikipedia.org
集合・位相入門
- www.iwanami.co.jp
これからの集合と位相
- これからの集合と位相
  - 作者:梅原雅顕,一木俊助
  - 裳華房
  Amazon
「集合と位相」をなぜ学ぶのか
- 「集合と位相」をなぜ学ぶのか ―数学の基礎として根づくまでの歴史
  - 作者:藤田博司
  - 技術評論社
  Amazon

数理論理学

命題
論理記号

数理論理学
- ja.wikipedia.org

集合論

集合
写像

集合論
- yhayato1320.hatenablog.com

位相空間論

位相空間論
- yhayato1320.hatenablog.com

基礎数学

代数学 / Algebra

代数学
- yhayato1320.hatenablog.com

解析学 / Analysis

解析学
- yhayato1320.hatenablog.com

幾何学 / Geometry

幾何学
- yhayato1320.hatenablog.com

応用数学

確率論・統計学

統計学 #まとめ編
- yhayato1320.hatenablog.com

グラフ理論

グラフ理論
- yhayato1320.hatenablog.com

数値解析

数値計算によって解析学の問題を近似的に解く分野.

数値解析
- ja.wikipedia.org

Monte Carlo Method / モンテカルロ法

Monte Carlo Method / モンテカルロ法
- yhayato1320.hatenablog.com

参考

書籍

マグロウヒルシャウムアウトラインシリーズ　解きながら学ぶ完全独習応用数学
- マグロウヒルシャウムアウトラインシリーズ解きながら学ぶ完全独習応用数学
  - プレアデス出版
  Amazon
- マグロウヒルシャウムアウトラインシリーズ解きながら学ぶ完全独習応用数学マリー R. シュピーゲル(原著) - プレアデス出版 | 版元ドットコム
数学のかんどころ
- www.kyoritsu-pub.co.jp
「手を動かしてまなぶ」シリーズ
- www.shokabo.co.jp
大学数学入門教室
- 学んで解いて身につける大学数学入門教室
  - 作者:藤岡敦
  - 共立出版
  Amazon
数学書の読み方
- 数学書の読みかた
  - 作者:竹山美宏
  - 森北出版
  Amazon
数論入門事典
- www.asakura.co.jp
ガイダンス離散数学基礎から発展的な考え方へ
- ガイダンス離散数学: 基礎から発展的な考え方へ (ライブラリ新数学基礎テキスト TK 6)
  - 作者:中本敦浩,小関健太
  - サイエンス社
  Amazon
数学の世界地図
- 数学の世界地図
  - 作者:古賀真輝
  - KADOKAWA
  Amazon

Web サイト

大学数学のロードマップ～分野一覧と学ぶ順序

math-fun.net

動画

数学にはどんな研究分野がある？数学の世界地図を一枚に描いて紹介してみた！

www.youtube.com

2023-01-25

【データセット】マルチモーダルデータ #まとめ編

データサイエンスデータサイエンス-マルチモーダル

データセット #まとめ編
- yhayato1320.hatenablog.com

Index

Index
マルチモーダルデータ
Speech Language
- WavCaps / 2023

マルチモーダルデータ

マルチモーダルなデータセットについてまとめる.

マルチモーダル #まとめ編
- yhayato1320.hatenablog.com

Flickr30k / 2015

Flickr30k
- yhayato1320.hatenablog.com

Conceptual Captions / 2018

Conceptual Captions
- Google が制作している「画像」と「テキスト」(画像についての説明) のペアのデータセット.
- yhayato1320.hatenablog.com

WebImageText / 2021

画像とテキストのペアのデータセット.

WebImageText
- yhayato1320.hatenablog.com

LAION-5B / 2022

画像とキャプションペアの大規模データセット.

LAION-5B: An open large-scale dataset for training next generation image-text models
- [2022]
- arxiv.org
LAION、50億の画像-テキストペア・データセットLAION-5Bを公開
- www.infoq.com

LAION-115M / 2022

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- [2022]
- arxiv.org
LAION-115M
- crfm.stanford.edu

Outdoor Multimodal Dataset / OMMO Dataset / 2023

A Large-Scale Outdoor Multi-modal Dataset and Benchmark for Novel View Synthesis and Implicit Scene Reconstruction
- [2023]
- arxiv.org

WHOOPS! / 2023

Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images
- [2023]
- arxiv.org
- whoops-benchmark.github.io

CelebV-Text / 2023

CelebV-Text: A Large-Scale Facial Text-Video Dataset
- [2023]
- arxiv.org
- celebv-text.github.io

Multimodal C4 / 2023

Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text
- [2023]
- arxiv.org
- github.com

DataComp / 2023

128 億の画像とテキストのペア、300 以上の実験、14 億のサブセットをリリース.

DataComp: In search of the next generation of multimodal datasets
- [2023]
- arxiv.org
- github.com
- www.datacomp.ai

MineDojo / 2022

Video / Text.

MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge
- [2022]
- arxiv.org
MineDojo
- crfm.stanford.edu

Speech Language

WavCaps / 2023

WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research
- [2023]
- arxiv.org

2023-01-25

【深層学習】Model Compression

データサイエンスデータサイエンス-深層学習

深層学習 #まとめ編
- yhayato1320.hatenablog.com

Index

Index
Model Compression
参考
- Web サイト

Model Compression

Pruning / 枝刈り

A Fast Post-Training Pruning Framework for Transformers
- [2022]
- arxiv.org

Quantize / 量子化

LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale
- [2022]
- arxiv.org

Distillation / 蒸留

AutoDistil: Few-shot Task-agnostic Neural Architecture Search for Distilling Large Language Models
- [2022]
- arxiv.org

その他

OTOV2 / 2023

OTOV2: Automatic, Generic, User-Friendly
- [2023]
- arxiv.org
- github.com

参考

A Survey of Model Compression and Acceleration for Deep Neural Networks
- [2017]
- v9
- arxiv.org

Web サイト

ディープラーニングを軽量化する「モデル圧縮」３手法
- [2020]
- Pruning（枝刈り） / Quantize（量子化） / Distillation（蒸留）
- laboro.ai
NeurIPS 2022 参加報告後編
- 大規模言語モデル
  - 計算コストの削減
- blog.recruit.co.jp

2023-01-25

【深層学習】Dataset Distillation #まとめ編

データサイエンスデータサイエンス-深層学習

深層学習 #まとめ編
- yhayato1320.hatenablog.com

Index

Index
Dataset Distillation / データセット蒸留
- FRePo / 2022
- PRO2 / 2023
参考

Dataset Distillation / データセット蒸留

Dataset Distillation / データセット蒸留は、オリジナルとなる大規模なデータセットから上手に、必要な情報のみを抽出した少量のデータセットを生成する.

そして、その生成したデータセットでモデルを学習することで学習コストを抑えたり、データセットの蓄積・共有を容易にすることを目的とする.

Knowledge Distillation のひとつ.

「大規模な元データで学習したモデル」と同じくらいの精度を「少ない生成された効率的なデータで学習したモデル」で達成することが目的.

データセット

元 dataset : $x\ =\ \{\ x_{i}\ \}_{i=1}^{N}$ もしくは、 $T\ =\ \{\ (x_{i},\ y_{i})\ \}_{i=1}^{|T|}$
生成した dataset : $S$

Neural Net Parameter : $\theta$

初期パラメータ

Algorithm (Function) : $Alg$

$Alg\ (\ \theta,\ S\ )$

初期パラメータと生成したデータセットを入力として、何かしらの学習アルゴリズムにより、最適化された NN のパラメータセット
innter-level

Loss Function : $l$ もしくは、 $L$

$L\ (\ Alg\ (\ \theta,\ S\ ),\ T)$

inner-level で得たパラメータを持つ NN をオリジナルのデータセット $T$ に適用したときの損失

損失の期待値 : $F$

$F(S)\ =\ E_{\theta\ \sim\ P_{\theta}}\ \left[\ L\ (\ Alg\ (\ \theta,\ S\ ),\ T) \ \right]$

$P_{\theta}$ : パラメータ空間

$S^{*}\ =\ \DeclareMathOperator*{\argmin}{arg\,min} \displaystyle \argmin_{S}\ F(S)$

損失の期待値である $F(S)$ を最小化するようなデータセット $S^{*}$ (outer-level) を生成できればよい.

FRePo / 2022

上の $S^{*}$ を求めるためのプロセスにおける課題.

outer-level を解くために、inner-level の勾配 (メタ勾配 : $\nabla_{S}$ ) を求める必要があり、計算コストとメモリが膨大
少量の生成データに対して、モデルパラメータの学習を行うため過学習しやすい
FRePo
- yhayato1320.hatenablog.com

PRO2 / 2023

Project and Probe: Sample-Efficient Domain Adaptation by Interpolating Orthogonal Features
- [2023]
- arxiv.org

参考

Dataset Distillation
- [2018]
- 2 RELATED WORK
  - Knowledge distillation
- arxiv.org

Dataset Distillation: A Comprehensive Review

[2023]
2 RELAED WORKS

2.1 Knowledge Distillation
2.3 Generative Model

arxiv.org

2023-01-25

【深層学習】LEGO-Net

データサイエンスデータサイエンス-深層学習データサイエンス-点群処理

Index

Index
LEGO-Net
タスク
- Indoor Scene Synthesis
Training Dataset
- 3D-FRONT dataset
参考

LEGO-Net

LEarning reGular rearrangement of Objects in messy roosm

タスク

Indoor Scene Synthesis

室内シーン内の物体のレイアウトを作成するタスク.

2D or 3D のタスク.

Indoor Scene Synthesis
- yhayato1320.hatenablog.com

Training Dataset

3D-FRONT dataset

3D-FRONT: 3D Furnished Rooms with layOuts and semaNTics
- [2020]
- arxiv.org

参考

LEGO-Net: Learning Regular Rearrangements of Objects in Rooms
- [2023]
- 2 Related Work
  - Indoor 3D Scene Synthesis
  - Scene Rearrangement
  - Denoising Diffusion Models
- 3 Method
  - 3.4 Training and Inference
- arxiv.org

2023-01-25

【点群処理】Indoor Scene Synthesis

データサイエンスデータサイエンス-点群処理

Index

Index
Indoor Scene Synthesis
アルゴリズム
- LEGO-Net / 2023
参考

Indoor Scene Synthesis

室内シーン内の物体のレイアウトを作成するタスク.

2D or 3D のタスク.

点群処理 #まとめ編
- yhayato1320.hatenablog.com

アルゴリズム

LEGO-Net / 2023

LEGO-Net
- yhayato1320.hatenablog.com

参考

paperswithcode.com
- paper with code の task のページ

2023-01-24

【マルチモーダル】Transformer #まとめ編

データサイエンスデータサイエンス-マルチモーダルデータサイエンス-深層学習

Index

Index
アルゴリズム
参考
- Web サイト

アルゴリズム

マルチモーダルにおける Transformer の手法をまとめる.

マルチモーダル #まとめ編
- yhayato1320.hatenablog.com
Transformer #まとめ編
- yhayato1320.hatenablog.com

OSCAR / 2020

OSCAR
- yhayato1320.hatenablog.com

Perceiver / 2021

Perceiver: General Perception with Iterative Attention
- [2021]
- arxiv.org

WuDao 2.0 / 2021

2021年6月に北京智源人工知能研究院が 1兆7,500億のパラメーターを持つ悟道2.0 (WuDao2.0) を発表.

GPT-3 Scared You? Meet Wu Dao 2.0: A Monster of 1.75 Trillion Parameters
- towardsdatascience.com

MultiModality-to-MultiModality Multitask Mega-transformer / M6 / 2021

2021年11月に中国のAlibaba DAMO Academy（達磨院、Alibabaの研究開発部門）が世界最大の10兆のパラメーターを持つ M6 を発表.

M6: Multi-Modality-to-Multi-Modality Multitask Mega-transformer for Unified Pretraining
- [2021]
- https://keg.cs.tsinghua.edu.cn/jietang/publications/KDD21-Lin-et-al-M6.pdf

VATT / 2021

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text
- [2021]
- arxiv.org

DiT / 2022

DiT: Self-supervised Pre-training for Document Image Transformer
- [2022]
- arxiv.org

EVA / 2022

2023, CVPR] 一部をマスクした画像からCLIPの出力を予測するという方法で事前学習したEVAは、画像認識や物体検出など各種下流タスクでSOTAを達成.

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
- [2022]
- arxiv.org

Zorro / 2023

Zorro: the masked multimodal transformer
- [2023]
- arxiv.org

MAGVLT / 2023

MAGVLT: Masked Generative Vision-and-Language Transformer
- [2023]
- arxiv.org

VioLA / 2023

VioLA: Unified Codec Language Models for Speech Recognition, Synthesis, and Translation
- [2023]
- arxiv.org

参考

Web サイト

NeurIPS 2021 参加報告後編
- VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text
- blog.recruit.co.jp
ML Papers Explained
- Layout Transformers
  - DocFormer
  - ERNIE-Layout
  - Layout LM
  - Layout LM v2
  - Layout LM v3
  - LiLT
  - StructuralLM
- github.com