やましなぶろぐ

最初の行から自分自身の行までの要素のユニークカウント

簡単そうだけれども地味に実装方法で悩んだexpanding nunique

expanding nuniqueの実装例と処理時間を考慮した実装方法のご紹介

🕒 Last mod: 2021-07-17


目的変数の対数変換を効率化するsklearn.compose.TransformedTargetRegressor

地味に面倒な目的変数の対数変換がTransformedTargetRegressorで楽になります

目的変数を変換して、予測値を逆変換して、のような面倒な処理を効率化する方法を実際に試して紹介します

🕒 Last mod: 2021-07-04


minicondaを使用してtmuxをインストールする

sudo権限がない場合にminicondaを使用してtmuxをインストールする方法

ソースコードからインストールするよりminicondaを使用する方法が簡単そうなので試してみた。

🕒 Last mod: 2021-06-19


pandas.core.groupby.GroupBy.aggのNamed Aggregation

使い勝手が良いNamed Aggregationを使いこなす

便利だけど情報が少ないNamed Aggregationについて調べたことを整理します

🕒 Last mod: 2021-06-17


seabornの2種の神器、relplotとcatplot

matplotlibやseabornは機能が多すぎるので使用する機能を限定する

relplotとcatplotで大方の個人的なグラフ化ニーズは満たせそう

🕒 Last mod: 2021-06-11


pysparkでメソッドチェーン内で自分自身を参照したい場合はtransform

pyspark.sql.DataFrame.transform

pandasのpipeと同様の処理を実現できるtransform、pandasのtransformとは処理内容が異なるので紛らわしい

🕒 Last mod: 2021-06-08


pyspark.sql.DataFrameで正規表現で列選択

正規表現モジュールとリスト内包表記を使用する方法が便利で簡単

専用のメソッドcolRegexがあるけれど使い勝手が良くないのでリスト内包表記が汎用的で便利で簡単

🕒 Last mod: 2021-06-02


pandas.qcutでデシル分析

簡単で使い勝手の良いビニング(離散化)

簡単なので便利なデシル分析をqcutで実装します

🕒 Last mod: 2021-05-30


Ubuntu20.04にpyspark実行環境を構築する

sparkのインストールからpyspark実行環境構築まで整理します

pyspark実行環境を整えるのに苦労したので記録を残しておきます

🕒 Last mod: 2021-05-28


シンボリックリンク作成時にバックアップファイルを作成する

ln -s -b --suffix=_$(date +%Y%m%d%H%M%S)

ファイルが存在するときにはバックアップファイルを作成します

🕒 Last mod: 2021-05-11