2020-08-18

「データサイエンティストとして読んで役立った本たち@2020-07」を読んで

参考

データサイエンティストとして読んで役立った本たち@2020-07

モチベーション

データ解析が好きなものとして気になってしまう
書籍のリストだけ作って、あとで確認する用

書籍リスト

数学
- 解析入門 Ⅰ(基礎数学2) ;杉浦光夫
- 線型代数学 ;齋藤正彦
統計学基礎
- 統計学入門 (基礎統計学Ⅰ) ; 東京大学教養学部統計学教室
- 創文社現代経済学選書現代数理統計学 ; 竹村彰通
- 現代数理統計学の基礎 (共立講座数学の魅力) ; 久保川達也
トピック別
- 統計モデリング
  - 調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学) ; 星野崇宏
  - データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学) ; 久保拓弥
- 機械学習
  - はじめてのパターン認識 ; 平井有三
- 深層学習
  - ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装 ; 斎藤康毅
- 因果推論
  - 効果検証入門〜正しい比較のための因果推論／計量経済学の基礎 ; 安井翔太
- 画像
  - 画像認識 (機械学習プロフェッショナルシリーズ) ; 原田達也
- 言語
  - 言語処理のための機械学習入門 (自然言語処理シリーズ) ; 高村大也
- 時系列
  - 時系列解析入門 ; 北川源四郎
- SQL
  - ビッグデータ分析・活用のためのSQLレシピ ; 加嵜長門
- テスト？
  - サンプルサイズの決め方 (統計ライブラリー) ; 永田靖
ビジネス書
- 仮説思考 BCG流問題発見・解決の発想法 ; 内田和成
- 論点思考 ; 内田和成
- [新装版] 企業参謀戦略的思考とは何か ; 大前研一
- 確率思考の戦略論　ＵＳＪでも実証された数学マーケティングの力 ; 森岡毅 ,今西聖貴
- 東大生が書いた　問題を解く力を鍛えるケース問題ノート―５０の厳選フレームワークで、どんな難問もスッキリ「地図化」！ ; 東大ケーススタディ研究会
- ジョブ理論　イノベーションを予測可能にする消費のメカニズム ; クレイトン・Ｍ・クリステンセン

Note

ビジネス書、全然知らない書籍だったので、上から読んでいきます

リンク

解析入門 Ⅰ(基礎数学2)

作者:杉浦光夫
発売日: 1980/03/31
メディア: 単行本

齋藤正彦線型代数学

作者:齋藤正彦
発売日: 2014/04/01
メディア: 単行本

統計学入門 (基礎統計学Ⅰ)

発売日: 1991/07/09
メディア: 単行本

現代数理統計学 (創文社現代経済学選書)

作者:竹村彰通
発売日: 1991/12/01
メディア: 単行本

現代数理統計学の基礎 (共立講座数学の魅力)

作者:達也, 久保川
発売日: 2017/04/07
メディア: 単行本

調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学)

作者:星野崇宏
発売日: 2009/07/29
メディア: 単行本

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)

作者:久保拓弥
発売日: 2012/05/19
メディア: 単行本

はじめてのパターン認識

作者:平井有三
発売日: 2012/07/31
メディア: 単行本（ソフトカバー）

ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装

作者:斎藤康毅
発売日: 2016/09/24
メディア: 単行本（ソフトカバー）

ゼロから作るDeep Learning ❷ ―自然言語処理編

作者:斎藤康毅
発売日: 2018/07/21
メディア: 単行本（ソフトカバー）

ゼロから作るDeep Learning ❸ ―フレームワーク編

作者:斎藤康毅
発売日: 2020/04/20
メディア: 単行本（ソフトカバー）

効果検証入門〜正しい比較のための因果推論/計量経済学の基礎

作者:安井翔太
発売日: 2020/01/18
メディア: 単行本（ソフトカバー）

画像認識 (機械学習プロフェッショナルシリーズ)

作者:原田達也
発売日: 2017/05/25
メディア: 単行本（ソフトカバー）

言語処理のための機械学習入門 (自然言語処理シリーズ)

作者:高村大也
発売日: 2010/07/01
メディア: 単行本

時系列解析入門

作者:北川源四郎
発売日: 2005/02/24
メディア: 単行本

ビッグデータ分析・活用のためのSQLレシピ

作者:加嵜長門,田宮直人
発売日: 2017/03/27
メディア: 単行本（ソフトカバー）

サンプルサイズの決め方 (統計ライブラリー)

作者:永田靖
発売日: 2003/09/28
メディア: 単行本（ソフトカバー）

仮説思考―ＢＣＧ流　問題発見・解決の発想法内田和成の思考

作者:内田和成
発売日: 2013/05/02
メディア: Kindle版

論点思考内田和成の思考

作者:内田和成
発売日: 2013/05/02
メディア: Kindle版

[新装版] 企業参謀戦略的思考とは何か

作者:大前研一
発売日: 2013/02/04
メディア: Kindle版

確率思考の戦略論 USJでも実証された数学マーケティングの力

作者:森岡毅,今西聖貴
発売日: 2016/06/02
メディア: 単行本

東大生が書いた問題を解く力を鍛えるケース問題ノート 50の厳選フレームワークで、どんな難問もスッキリ「地図化」

作者:東大ケーススタディ研究会
発売日: 2010/09/17
メディア: 単行本

ジョブ理論　イノベーションを予測可能にする消費のメカニズム (ビジネスリーダー1万人が選ぶベストビジネス書トップポイント大賞第２位！　ハーパーコリンズ・ノンフィクション)

作者:クレイトン・Ｍ・クリステンセン
発売日: 2017/08/01
メディア: Kindle版

2020-08-17

ロジスティック回帰におけるNewton-Raphson 法と Fisher Scoring 法

Note

ロジスティクス回帰では、最尤法を利用してパラメータを推定する
- 対数尤度関数を最大（最小）にするパラメータを推定する
その際どのように最適化するかとなったときに、解析的に最小値を求められないので以下の２つのどちらで最適化する
- Newton-Raphson 法
- Fisher Scoring 法
Newton-Raphson 法よりは。Fisher Scoring 法の方が簡易に求められる？

ロジスティック回帰

2020/08/15

Note

回帰分析の一つ
被説明変数が量的（Quantitative）データではなく質的（Qualitative）データであるケースも多い

参考

「ロジスティック回帰」

統計分析を理解しよう-ロジスティック回帰分析の概要-
- 2019/07/19
多変量数値解析入門
- 4. ロジスティック回帰モデル
  - ここでは Fisher Scoring法を使用

Newton-Raphson法

Note

ニュートン・ラフソン法
ニュートン法

参考

「ニュートン・ラフソン法」

「ニュートン・ラフソン法　ロジスティック回帰」

ロジスティック回帰 - 人工知能に関する断創録
- PRML を参考
- 2010/04/30
- 反復重み付き最小二乗法（iterative reweighted least squares method: IRLS）

Fisher Scoring法

Note

フィッシャースコア法

参考

「フィッシャースコア法」

2020-08-14

tensorboard error 「directory_watcher.py file updated even though the current file is file」

Servey

20200814
「tensorboard directory_watcher updated even though the current file is」

環境

tensorflow 2.0

問題

tensorflow で学習ログが validation はでるが、train はでず、tensorboardに表示されない
「directory_watcher.py file updated even though the current file is file」のようなエラーがtensorboardからでる
trainログフォルダには、「xxx..profile-empty」のようなファイルが発生する

参考

Keras callback creating .profile-empty file blocks loading data #2084
- 完全に同様の現象
- 対応は callbackに引数 profile_batch=0をたす
  - リンク

2020-08-13

「could not select device driver "" with capabilities: [[gpu]].」エラー

Servey

2020/08/13

環境

Ubuntu 16.4
docker 19.03.12
cuda 10.2

参考

対応

nvidia-container-runtime-script.shを起動して、nvidia-container-runtime をインストールすることで対応

./nvidia-container-runtime-script.sh

sudo apt-get install nvidia-container-runtime

docker run -it --rm --gpus all ubuntu nvidia-smi

systemctl restart docker.service

2020-08-13

tensorflow v.2.x で tensorboard in keras

Servey

2020/08/13

参考

TensorBoardスカラー：Kerasでのトレーニング指標のロギング
- tensorflow 公式
- 「カスタムスカラーのロギング」を参考
- file_writer を作成して、tf.summary.xxx で書き込む

# writer を作成

file_writer = tf.summary.create_file_writer(logdir + "/metrics")

# 書き込む

tf.summary.scalar('learning rate', data=learning_rate, step=epoch)

TensorBoardでの画像データの表示
- tensorflow 公式
- training は fit function を使いたかったので、「画像分類器の作成」が参考になった
- TensorBoard class と writer (tf.summary.create_file_writer)をどちらも作成
- epoch ごと(もしくは batchごと)に実行したい処理を関数で作成
- keras.callbacks.LambdaCallback で使用できる形に
- fit 実行時に callback に含める

tensorboard_callback = keras.callbacks.TensorBoard(log_dir=logdir)

file_writer_cm = tf.summary.create_file_writer(logdir + '/cm')

# 実行する処理

cm_callback = keras.callbacks.LambdaCallback(on_epoch_end=log_confusion_matrix)

# callbackに含める

model.fit(

    train_images,

    train_labels,

    epochs=5,

    verbose=0, # Suppress chatty output

    callbacks=[tensorboard_callback, cm_callback],

    validation_data=(test_images, test_labels),

)

2020-08-12

Docker 環境で tensorboard 起動して外部IP からアクセスしたい

Servey

2020/08/12

iamge

参考

dockerのエラー。「ERROR: for コンテナ名 Cannot start service コンテナ名: network not found」の対処法
- 作業中にはまったエラー
- Exit しているdocker コンテナのプロセスが残っていて、docker network が見つけられない状態
- docker rm で解決した
- 「docker network not found」
Dockerで固定IPアドレスを使う。
- 参考にはしてないけど、使えそうな知識
- 「docker ip 指定」
docker/docker-composeにおけるコンテナ間通信を実装する
- docker コンテナ間の通信について
- host 名解決がコンテナ名でできると
- curl で検証していたにで参考になりました
- 「docker compose コンテナ間」
docker上のアプリにlocalhostでアクセスしたらERR_EMPTY_RESPONSEが出る
- docker コンテナとホスト間の通信のこと
- tensorboard コンテナに http 通信でアクセスしたい
- localhost がややこしくなる
- tensorboard を 0.0.0.0 で起動することで解決
- 助かりました
- 「docker http recv failure」

2020-08-10

【画像処理】セグメンテーション / Segmentation #まとめ編 #00

データサイエンスデータサイエンス-画像処理

画像処理 #まとめ編
- yhayato1320.hatenablog.com

Index

Index
Segmentation とは
- Segmentation の分類
処理の流れ
- Sliding Window + Markov Random Fields を用いたアプローチ
- ニューラルネットワークを用いたアプローチ
アルゴリズム
評価指標
ライブラリ
- PP Seg
参考
- 書籍
- Web サイト

Segmentation とは

画像処理のタスクの一つである領域検知.

画像を入力としてピクセルレベルで領域を分割しラベルを付けていくタスク.

Segmentation の分類

以下のように3つに分類することができる.

Semantic Segmentation : 画像上の全ピクセルをクラスに分類する
Instance Segmentation : 物体ごとの領域を分割しかつ物体の種類を認識する
Panoptic Segmentation : それらを組み合わせる

処理の流れ

Sliding Window + Markov Random Fields を用いたアプローチ

Sliding Window を用いて、局所領域を取得する.

スライディングウィンドウ法 / Sliding Window Method
- yhayato1320.hatenablog.com

また、Markov Random Fields を用いて、後処理でピクセル間の予測クラスを補完する.

ニューラルネットワークを用いたアプローチ

アルゴリズム

画像処理を利用したアルゴリズム

動的輪郭モデル等.

画像処理を利用したアルゴリズム
- yhayato1320.hatenablog.com

(画像処理 +) 機械学習を利用したアルゴリズム

深層学習を利用したアルゴリズム

深層学習を利用したアルゴリズム
- yhayato1320.hatenablog.com

評価指標

mIoU (mean intersection over union) が使用される.

ライブラリ

PP Seg

PP-MobileSeg: Explore the Fast and Accurate Semantic Segmentation Model on Mobile Devices
- [2023]
- arxiv.org
- github.com

参考

A Survey of Semantic Segmentation
- [2016]
- 評価方法 / データセット / アルゴリズムをまとめる
- Abstract
- 1 INTRODUCTION
- 2 TAXONOMY OF SEGMENTATION ALGORITHMS
- arxiv.org

論文メモ
Section 2 : segmentation アルゴリズムの分類
Section 3 : 精度評価とデータセット
(Section 4 : Segmentation の流れ)
Section 5 : 従来のアルゴリズム
Section 6 : NN を利用したアルゴリズム
Section 7 : 将来的な課題

書籍

画像認識
- 9 さらなる話題
  - 9.1 セマンティックセグメンテーション
- 画像認識 (機械学習プロフェッショナルシリーズ)
  - 作者:原田達也
  - 講談社
  Amazon

Web サイト

Semantic segmentation
- 2017
- Segmentation の大まかな流れ / データセット / 従来手法から深層学習の手法へ / 精度指標
- 「A Survey of Semantic Segmentation」を参考
- Semantic segmentation from Takuya Minagawa
  www.slideshare.net