pysparkでメソッドチェーン内で自分自身を参照したい場合はtransform

pyspark.sql.DataFrame.transform

pandasのpipeと同様の処理を実現できるtransform、pandasのtransformとは処理内容が異なるので紛らわしい

🕒 Last mod: 2021-06-08


pyspark.sql.DataFrameで正規表現で列選択

正規表現モジュールとリスト内包表記を使用する方法が便利で簡単

専用のメソッドcolRegexがあるけれど使い勝手が良くないのでリスト内包表記が汎用的で便利で簡単

🕒 Last mod: 2021-06-02


Ubuntu20.04にpyspark実行環境を構築する

sparkのインストールからpyspark実行環境構築まで整理します

pyspark実行環境を整えるのに苦労したので記録を残しておきます

🕒 Last mod: 2021-05-28


pyspark入門として独学を進める

データサイエンス100本ノック(構造化データ加工編)をpysparkで解いてみる

「データサイエンティスト協会スキル定義委員」の「データサイエンス100本ノック(構造化データ加工編)」を利用しています

🕒 Last mod: 2021-01-11