オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【データセット】Titanic Dataset

Index

Titanic Dataset

kaggle のコンペティションで利用されるデータセット.

1912 年 4 月 15 日、処女航海中のタイタニック号が、氷山に衝突して沈没した.

残念なことに、乗船した全員に十分な数の救命ボートがなく、2224 人の乗客と乗組員のうち 1502 人が死亡した.

生存には運の要素もあったが、一部の人々のグループは、他のグループよりも生き残る可能性が高かったよう.

この課題では、「どのような人が生き残る可能性が高いか」という質問に答える予測モデルを構築する.

データの取得

kaggle API を利用.

データの可視化

Polars を使ってみる.



参考

  • pandasから移行する人向け polars使用ガイド

  • 超高速…だけじゃない!Pandasに代えてPolarsを使いたい理由