1. 情報がすくない?

pysparkを試したいのでローカル環境にsparkをインストールすることに。

aptで簡単にインストールできるかな?と軽く考えていたのですが結構苦労しました。

検索しても情報が豊富というほどではなく、古い情報に惑わされるなどかなり苦戦。

公式のドキュメントにもインストールについてのページが見つからない。アーカイブをダウンロードするだけなのでインストールというほどでもないのでしょう。今ならわかりますが。初めはインストールページを探して時間を浪費してしまいました。

慣れれば簡単だけれでも慣れるまでが大変なので記録を整理しておきます。

2. 環境構築手順

2.1. sparkのインストール

手順は2つだけで簡単です。

手順
  1. javaのインストール

  2. sparkのアーカイブデータのダウンロード、解凍

sparkの実行にはjavaの環境が必要です。

sparkアーカイブのダウンロードはこちらから。

ダウンロードするバージョンに注意しましょう。

できるだけ最新のものが良いでしょう。

古いバージョンだとpythonのバージョンによってはエラーが発生します。

参考として私が実行したコマンドです。

example
sudo apt-get install default-jre -y
wget https://ftp.riken.jp/net/apache/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
tar zxvf spark-3.1.1-bin-hadoop2.7.tgz
sparkのバージョンは更新されていくので適宜変更してください。

3. 環境構築

pysparkの実行環境を整えるために考慮したことを整理します。

3.1. sparkをダウンロードするディレクトリ

自分だけが使用することを前提に下記ディレクトリにダウンロードしました。

$HOME/.local

ダウンロードする前に上記ディレクトリに移動しておきます。

example
cd $HOME/.local
sudo apt-get install default-jre -y
wget https://ftp.riken.jp/net/apache/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
tar zxvf spark-3.1.1-bin-hadoop2.7.tgz

3.2. pyspark, ipythonのインストール

pysparkとipythonをpipを使用してインストールしておきます。

ipythonは個人的な好みでインストールしています。必須ではありません。

3.3. pysparkのエイリアスを登録

pysparkを実行しやすいようにaliasを登録しておきます。

alias pyspark=$HOME/.local/spark-3.1.1-bin-hadoop2.7/bin/pyspark

3.4. pyspark実行時にipythonで起動する

個人的な好みですがpysparkをipythonで起動できるように設定します。

PYSPARK_DRIVER_PYTHONを設定します。

example
export PYSPARK_DRIVER_PYTHON=ipython
sparkのバージョンによって設定方法が異なります。
ネット上には古い情報も多いので注意が必要です。

3.5. 諸々の設定を.bashrcに書き足しておく。

これらの内容を.bashrcに書き足しておきます。

bashrc
export PYSPARK_DRIVER_PYTHON=ipython
alias pyspark=$HOME/.local/spark-3.1.1-bin-hadoop2.7/bin/pyspark

これで環境構築の完了です。

4. pysparkの実行

pysparkと打ち込んで実行するだけです。

.bashrc
pyspark

無事ipythonで実行できることが確認できました。