1. 最小限の機械学習環境の構築

最小限の機械学習環境を構築します。

なぜ最小限かというと小さいほど環境の構築が簡単だからです。

環境の構築は一度だけではなく何度も繰り返し構築することになります。最小限の環境の構築方法を明確にしておけば、必要なものは必要なときに追加していくという対応が可能です。

この記事では

  1. 当記事で扱う環境

  2. 導入する4つのパッケージ

  3. 環境を構築

について順に説明していきます。

2. 当記事で扱う環境

  • Ubuntu 18.04

  • Python 3.6.9

Ubuntu上の環境構築を前提としていますがPipを使用できる環境があれば他の環境でも応用可能ではないでしょうか?(試してません)

3. 導入する4つのパッケージ

  • pandas

  • numpy

  • sklearn

  • lightgbm

最小限の明確な定義は無いです。ぼくの考える最小限。これら4つのパッケージを導入しておけば高精度のモデルを構築できます。

lightgbmだけが他の3つに比して異質だと感じるかもしれません。初見のデータを分析する場合にぼくはまずlightgbmを試みます。使いやすさ、精度の高さ、処理速度の速さに優れているからです。

機械学習の初心者は個々の分析手法の違いより分析の流れを把握することが大事だと考えています。この観点から使用しやすいlightgbmを導入します。たとえば線形回帰モデルは理論的にはシンプルで把握しやすいかもしれませんが変数の型や欠損値の扱いなど面倒な事が多い。lightgbmならこれらのことをそれほど意識しなくてもデフォルトの設定のままで高精度のモデルを簡単に構築できます。

4. 環境を構築

手順

  1. venvのインストール

  2. 仮想環境の作成

  3. requirements.txtの作成

  4. パッケージのインストール

4.1. venvのインストール

UbuntuのPythonはvenvが無効化されているのでaptコマンドでインストールします。

Terminal
sudo apt install python3-venv

4.2. 仮想環境の作成

Terminal
python3 -m venv work
cd work
source bin/activate

4.3. requirements.txtの作成

requirements.txt
pandas
scikit-learn
lightgbm

4.4. パッケージのインストール

Terminal
pip install -r requirements.txt

5. 環境構築のコマンドまとめ

Terminal
sudo apt install python3-venv
python3 -m venv work
cd work
source bin/activate
pip install -r requirements.txt

以上です。