オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【データセット】自然言語データ #まとめ編

Index

自然言語データ

自然言語データのデータセットについてまとめる.

Maluuba NewsQA

ATOMIC / 2018

ATOMIC ja

  • COMET-ATOMIC ja
    • 日本語版GPT2と日本語版T5をそれでfinetuningした日本語版COMET
    • github.com

ROOTS / 2022

NaturalInstructions-v2 / 2022

  • Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks

  • NaturalInstructions-v2

Anthropic Helpfulness dataset / 2022

The BigScience ROOTS Corpus / 2023

  • The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset

Baize / 2023

Chat GPT などを利用してデータセットを作成する.

  • Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data

RedPajama

LongForm / 2023

Instruction Tuning が可能なデータセット.

  • LongForm: Optimizing Instruction Tuning for Long Text Generation with Corpus Extraction

日本語

awesome-japanese-nlp-resources

研究