1. 「岩波データサイエンス Vol.3」の公開データセット
因果推論について特集している岩波書店の書籍が刊行されています。
そして、この書籍で使用しているサンプルコードとcsvファイルが公開されています。
使い勝手の良いデータセットを見つけるのは大変なのでこのようなデータセットをサンプルコード付きで公開してくれているのは本当にありがたいです。
2. pandasでcsvファイルを読み込む
read_csvするだけなのでとても簡単です。
3. データ内容の確認
3.1. データ概要
サンプルコードからデータ概要を確認します。
傾向スコアを用いた分析用のデータセットのようです。
CMを見た群と見ていない群でゲーム利用秒数を比較しています。
データの概要を整理します。
役割 | 概要 | 変数 |
---|---|---|
アウトカム |
ゲーム利用秒数 |
gamesecond |
割当変数 |
CM視聴有無 |
cm_dummy |
共変量 |
回答者属性情報など |
各変数 |
3.2. shape
(10000, 35)
10000行×35変数のデータセットです。
簡単な分析を試してみるには十分でバランスの良い魅力的なデータセットです。
3.3. columns : 変数一覧
変数名とdtypeの一覧です。すべて数値変数です。
cardinalityを確認すると大多数の変数は10以下なので度数分布で値の状況が確認できそうです。
variable | dtype | cardinality |
---|---|---|
cm_dummy |
int64 |
2 |
gamedummy |
int64 |
2 |
area_kanto |
int64 |
2 |
area_keihan |
int64 |
2 |
area_tokai |
int64 |
2 |
area_keihanshin |
int64 |
2 |
age |
float64 |
6 |
sex |
int64 |
2 |
marry_dummy |
int64 |
2 |
job_dummy1 |
int64 |
2 |
job_dummy2 |
int64 |
2 |
job_dummy3 |
int64 |
2 |
job_dummy4 |
int64 |
2 |
job_dummy5 |
int64 |
2 |
job_dummy6 |
int64 |
2 |
job_dummy7 |
int64 |
2 |
job_dummy8 |
int64 |
2 |
inc |
float64 |
10 |
pmoney |
float64 |
10 |
fam_str_dummy1 |
int64 |
2 |
fam_str_dummy2 |
int64 |
2 |
fam_str_dummy3 |
int64 |
2 |
fam_str_dummy4 |
int64 |
2 |
fam_str_dummy5 |
int64 |
2 |
child_dummy |
int64 |
2 |
T |
int64 |
2 |
F1 |
int64 |
2 |
F2 |
int64 |
2 |
F3 |
int64 |
2 |
M1 |
int64 |
2 |
M2 |
int64 |
2 |
M3 |
int64 |
2 |
TVwatch_day |
float64 |
10000 |
gamesecond |
int64 |
338 |
gamecount |
int64 |
185 |
3.4. 度数分布
cardinalityが10以下の変数の度数分布で値の状況を確認します。
variable | value | n | r |
---|---|---|---|
cm_dummy |
0.0 |
5856 |
0.5856 |
cm_dummy |
1.0 |
4144 |
0.4144 |
gamedummy |
0.0 |
9260 |
0.926 |
gamedummy |
1.0 |
740 |
0.074 |
area_kanto |
0.0 |
9088 |
0.9088 |
area_kanto |
1.0 |
912 |
0.0912 |
area_keihan |
0.0 |
4113 |
0.4113 |
area_keihan |
1.0 |
5887 |
0.5887 |
area_tokai |
0.0 |
8885 |
0.8885 |
area_tokai |
1.0 |
1115 |
0.1115 |
area_keihanshin |
0.0 |
7914 |
0.7914 |
area_keihanshin |
1.0 |
2086 |
0.2086 |
age |
19.0 |
132 |
0.0132 |
age |
24.5 |
1391 |
0.1391 |
age |
34.5 |
2986 |
0.2986 |
age |
44.5 |
3325 |
0.3325 |
age |
54.5 |
1656 |
0.1656 |
age |
60.0 |
510 |
0.051 |
sex |
0.0 |
3597 |
0.3597 |
sex |
1.0 |
6403 |
0.6403 |
marry_dummy |
0.0 |
3530 |
0.353 |
marry_dummy |
1.0 |
6470 |
0.647 |
job_dummy1 |
0.0 |
4338 |
0.4338 |
job_dummy1 |
1.0 |
5662 |
0.5662 |
job_dummy2 |
0.0 |
9458 |
0.9458 |
job_dummy2 |
1.0 |
542 |
0.0542 |
job_dummy3 |
0.0 |
9241 |
0.9241 |
job_dummy3 |
1.0 |
759 |
0.0759 |
job_dummy4 |
0.0 |
9877 |
0.9877 |
job_dummy4 |
1.0 |
123 |
0.0123 |
job_dummy5 |
0.0 |
8823 |
0.8823 |
job_dummy5 |
1.0 |
1177 |
0.1177 |
job_dummy6 |
0.0 |
9001 |
0.9001 |
job_dummy6 |
1.0 |
999 |
0.0999 |
job_dummy7 |
0.0 |
9601 |
0.9601 |
job_dummy7 |
1.0 |
399 |
0.0399 |
job_dummy8 |
0.0 |
9661 |
0.9661 |
job_dummy8 |
1.0 |
339 |
0.0339 |
inc |
0.0 |
1827 |
0.1827 |
inc |
103.0 |
927 |
0.0927 |
inc |
151.5 |
528 |
0.0528 |
inc |
249.5 |
1236 |
0.1236 |
inc |
349.5 |
1229 |
0.1229 |
inc |
449.5 |
1056 |
0.1056 |
inc |
549.5 |
893 |
0.0893 |
inc |
649.5 |
761 |
0.0761 |
inc |
749.5 |
577 |
0.0577 |
inc |
800.0 |
966 |
0.0966 |
pmoney |
0.0 |
282 |
0.0282 |
pmoney |
1.0 |
1712 |
0.1712 |
pmoney |
2.0 |
3705 |
0.3705 |
pmoney |
3.3 |
233 |
0.0233 |
pmoney |
4.0 |
2385 |
0.2385 |
pmoney |
6.5 |
834 |
0.0834 |
pmoney |
9.0 |
371 |
0.0371 |
pmoney |
12.5 |
269 |
0.0269 |
pmoney |
17.5 |
84 |
0.0084 |
pmoney |
20.0 |
125 |
0.0125 |
fam_str_dummy1 |
0.0 |
8520 |
0.852 |
fam_str_dummy1 |
1.0 |
1480 |
0.148 |
fam_str_dummy2 |
0.0 |
8552 |
0.8552 |
fam_str_dummy2 |
1.0 |
1448 |
0.1448 |
fam_str_dummy3 |
0.0 |
3796 |
0.3796 |
fam_str_dummy3 |
1.0 |
6204 |
0.6204 |
fam_str_dummy4 |
0.0 |
9301 |
0.9301 |
fam_str_dummy4 |
1.0 |
699 |
0.0699 |
fam_str_dummy5 |
0.0 |
9831 |
0.9831 |
fam_str_dummy5 |
1.0 |
169 |
0.0169 |
child_dummy |
0.0 |
5770 |
0.577 |
child_dummy |
1.0 |
4230 |
0.423 |
T |
0.0 |
9868 |
0.9868 |
T |
1.0 |
132 |
0.0132 |
F1 |
0.0 |
8722 |
0.8722 |
F1 |
1.0 |
1278 |
0.1278 |
F2 |
0.0 |
8267 |
0.8267 |
F2 |
1.0 |
1733 |
0.1733 |
F3 |
0.0 |
9478 |
0.9478 |
F3 |
1.0 |
522 |
0.0522 |
M1 |
0.0 |
8597 |
0.8597 |
M1 |
1.0 |
1403 |
0.1403 |
M2 |
0.0 |
6712 |
0.6712 |
M2 |
1.0 |
3288 |
0.3288 |
M3 |
0.0 |
8356 |
0.8356 |
M3 |
1.0 |
1644 |
0.1644 |
3.5. 傾向スコアのモデル構築時の共変量
サンプルコードでは下記の21変数を傾向スコアを算出するために使用しています。
変数 |
---|
TVwatch_day |
age |
sex |
marry_dummy |
child_dummy |
inc |
pmoney |
area_kanto |
area_tokai |
area_keihanshin |
job_dummy1 |
job_dummy2 |
job_dummy3 |
job_dummy4 |
job_dummy5 |
job_dummy6 |
job_dummy7 |
fam_str_dummy1 |
fam_str_dummy2 |
fam_str_dummy3 |
fam_str_dummy4 |
4. まとめ
この記事ではデータの詳細確認はここまでにしておきます。
実際のマーケティングに即した面白そうなデータです。
傾向スコア分析を実施しているサンプルプログラムもあるのでこちらも参考になりそうです。
今回は面白そうなデータのご紹介ということで
「岩波データサイエンス Vol.3」で使用している公開データセットを確認してみました。