1. 情報がすくない?
pysparkを試したいのでローカル環境にsparkをインストールすることに。
aptで簡単にインストールできるかな?と軽く考えていたのですが結構苦労しました。
検索しても情報が豊富というほどではなく、古い情報に惑わされるなどかなり苦戦。
公式のドキュメントにもインストールについてのページが見つからない。アーカイブをダウンロードするだけなのでインストールというほどでもないのでしょう。今ならわかりますが。初めはインストールページを探して時間を浪費してしまいました。
慣れれば簡単だけれでも慣れるまでが大変なので記録を整理しておきます。
2. 環境構築手順
2.1. sparkのインストール
手順は2つだけで簡単です。
-
javaのインストール
-
sparkのアーカイブデータのダウンロード、解凍
sparkの実行にはjavaの環境が必要です。
sparkアーカイブのダウンロードはこちらから。
ダウンロードするバージョンに注意しましょう。
できるだけ最新のものが良いでしょう。
古いバージョンだとpythonのバージョンによってはエラーが発生します。
参考として私が実行したコマンドです。
sudo apt-get install default-jre -y
wget https://ftp.riken.jp/net/apache/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
tar zxvf spark-3.1.1-bin-hadoop2.7.tgz
sparkのバージョンは更新されていくので適宜変更してください。 |
3. 環境構築
pysparkの実行環境を整えるために考慮したことを整理します。
3.1. sparkをダウンロードするディレクトリ
自分だけが使用することを前提に下記ディレクトリにダウンロードしました。
$HOME/.local
ダウンロードする前に上記ディレクトリに移動しておきます。
cd $HOME/.local
sudo apt-get install default-jre -y
wget https://ftp.riken.jp/net/apache/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
tar zxvf spark-3.1.1-bin-hadoop2.7.tgz
3.2. pyspark, ipythonのインストール
pysparkとipythonをpipを使用してインストールしておきます。
ipythonは個人的な好みでインストールしています。必須ではありません。 |
3.3. pysparkのエイリアスを登録
pysparkを実行しやすいようにaliasを登録しておきます。
alias pyspark=$HOME/.local/spark-3.1.1-bin-hadoop2.7/bin/pyspark
3.4. pyspark実行時にipythonで起動する
個人的な好みですがpysparkをipythonで起動できるように設定します。
PYSPARK_DRIVER_PYTHONを設定します。
export PYSPARK_DRIVER_PYTHON=ipython
sparkのバージョンによって設定方法が異なります。 |
ネット上には古い情報も多いので注意が必要です。 |
3.5. 諸々の設定を.bashrcに書き足しておく。
これらの内容を.bashrcに書き足しておきます。
export PYSPARK_DRIVER_PYTHON=ipython alias pyspark=$HOME/.local/spark-3.1.1-bin-hadoop2.7/bin/pyspark
これで環境構築の完了です。
4. pysparkの実行
pysparkと打ち込んで実行するだけです。
pyspark
無事ipythonで実行できることが確認できました。