- データセット #まとめ編
Index
自然言語データ
Maluuba NewsQA
- Maluuba NewsQA
ATOMIC / 2018
- ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning
- [2018]
- arxiv.org
- allenai.org
ATOMIC ja
- COMET-ATOMIC ja
- 日本語版GPT2と日本語版T5をそれでfinetuningした日本語版COMET
- github.com
ROOTS / 2022
The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset
- [2022]
- openreview.net
ROOTS
NaturalInstructions-v2 / 2022
Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks
- [2022]
- arxiv.org
NaturalInstructions-v2
Anthropic Helpfulness dataset / 2022
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
- [2022]
- arxiv.org
Anthropic Helpfulness dataset
The BigScience ROOTS Corpus / 2023
- The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset
- [2023]
- arxiv.org
Baize / 2023
Chat GPT などを利用してデータセットを作成する.
- Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data
- [2023]
- arxiv.org
- github.com
RedPajama
huggingface
RedPajama の概要
オープンソースの大規模言語モデル開発プロジェクト「RedPajama」が最初のモデル「RedPajama-INCITE」をリリース、無料で商用利用も可能
LongForm / 2023
Instruction Tuning が可能なデータセット.
- LongForm: Optimizing Instruction Tuning for Long Text Generation with Corpus Extraction
- [2023]
- arxiv.org