1. 「岩波データサイエンス Vol.3」の公開データセット

因果推論について特集している岩波書店の書籍が刊行されています。

そして、この書籍で使用しているサンプルコードとcsvファイルが公開されています。

@github.com/iwanami-datascience

使い勝手の良いデータセットを見つけるのは大変なのでこのようなデータセットをサンプルコード付きで公開してくれているのは本当にありがたいです。

2. pandasでcsvファイルを読み込む

read_csvするだけなのでとても簡単です。

3. データ内容の確認

3.1. データ概要

サンプルコードからデータ概要を確認します。

傾向スコアを用いた分析用のデータセットのようです。

CMを見た群と見ていない群でゲーム利用秒数を比較しています。

データの概要を整理します。

Table 1. データ概要
役割 概要 変数

アウトカム

ゲーム利用秒数

gamesecond

割当変数

CM視聴有無

cm_dummy

共変量

回答者属性情報など

各変数

3.2. shape

shape
(10000, 35)

10000行×35変数のデータセットです。

簡単な分析を試してみるには十分でバランスの良い魅力的なデータセットです。

3.3. columns : 変数一覧

変数名とdtypeの一覧です。すべて数値変数です。

cardinalityを確認すると大多数の変数は10以下なので度数分布で値の状況が確認できそうです。

Example 1. 変数一覧
variable dtype cardinality

cm_dummy

int64

2

gamedummy

int64

2

area_kanto

int64

2

area_keihan

int64

2

area_tokai

int64

2

area_keihanshin

int64

2

age

float64

6

sex

int64

2

marry_dummy

int64

2

job_dummy1

int64

2

job_dummy2

int64

2

job_dummy3

int64

2

job_dummy4

int64

2

job_dummy5

int64

2

job_dummy6

int64

2

job_dummy7

int64

2

job_dummy8

int64

2

inc

float64

10

pmoney

float64

10

fam_str_dummy1

int64

2

fam_str_dummy2

int64

2

fam_str_dummy3

int64

2

fam_str_dummy4

int64

2

fam_str_dummy5

int64

2

child_dummy

int64

2

T

int64

2

F1

int64

2

F2

int64

2

F3

int64

2

M1

int64

2

M2

int64

2

M3

int64

2

TVwatch_day

float64

10000

gamesecond

int64

338

gamecount

int64

185

3.4. 度数分布

cardinalityが10以下の変数の度数分布で値の状況を確認します。

Example 2. 度数分布
variable value n r

cm_dummy

0.0

5856

0.5856

cm_dummy

1.0

4144

0.4144

gamedummy

0.0

9260

0.926

gamedummy

1.0

740

0.074

area_kanto

0.0

9088

0.9088

area_kanto

1.0

912

0.0912

area_keihan

0.0

4113

0.4113

area_keihan

1.0

5887

0.5887

area_tokai

0.0

8885

0.8885

area_tokai

1.0

1115

0.1115

area_keihanshin

0.0

7914

0.7914

area_keihanshin

1.0

2086

0.2086

age

19.0

132

0.0132

age

24.5

1391

0.1391

age

34.5

2986

0.2986

age

44.5

3325

0.3325

age

54.5

1656

0.1656

age

60.0

510

0.051

sex

0.0

3597

0.3597

sex

1.0

6403

0.6403

marry_dummy

0.0

3530

0.353

marry_dummy

1.0

6470

0.647

job_dummy1

0.0

4338

0.4338

job_dummy1

1.0

5662

0.5662

job_dummy2

0.0

9458

0.9458

job_dummy2

1.0

542

0.0542

job_dummy3

0.0

9241

0.9241

job_dummy3

1.0

759

0.0759

job_dummy4

0.0

9877

0.9877

job_dummy4

1.0

123

0.0123

job_dummy5

0.0

8823

0.8823

job_dummy5

1.0

1177

0.1177

job_dummy6

0.0

9001

0.9001

job_dummy6

1.0

999

0.0999

job_dummy7

0.0

9601

0.9601

job_dummy7

1.0

399

0.0399

job_dummy8

0.0

9661

0.9661

job_dummy8

1.0

339

0.0339

inc

0.0

1827

0.1827

inc

103.0

927

0.0927

inc

151.5

528

0.0528

inc

249.5

1236

0.1236

inc

349.5

1229

0.1229

inc

449.5

1056

0.1056

inc

549.5

893

0.0893

inc

649.5

761

0.0761

inc

749.5

577

0.0577

inc

800.0

966

0.0966

pmoney

0.0

282

0.0282

pmoney

1.0

1712

0.1712

pmoney

2.0

3705

0.3705

pmoney

3.3

233

0.0233

pmoney

4.0

2385

0.2385

pmoney

6.5

834

0.0834

pmoney

9.0

371

0.0371

pmoney

12.5

269

0.0269

pmoney

17.5

84

0.0084

pmoney

20.0

125

0.0125

fam_str_dummy1

0.0

8520

0.852

fam_str_dummy1

1.0

1480

0.148

fam_str_dummy2

0.0

8552

0.8552

fam_str_dummy2

1.0

1448

0.1448

fam_str_dummy3

0.0

3796

0.3796

fam_str_dummy3

1.0

6204

0.6204

fam_str_dummy4

0.0

9301

0.9301

fam_str_dummy4

1.0

699

0.0699

fam_str_dummy5

0.0

9831

0.9831

fam_str_dummy5

1.0

169

0.0169

child_dummy

0.0

5770

0.577

child_dummy

1.0

4230

0.423

T

0.0

9868

0.9868

T

1.0

132

0.0132

F1

0.0

8722

0.8722

F1

1.0

1278

0.1278

F2

0.0

8267

0.8267

F2

1.0

1733

0.1733

F3

0.0

9478

0.9478

F3

1.0

522

0.0522

M1

0.0

8597

0.8597

M1

1.0

1403

0.1403

M2

0.0

6712

0.6712

M2

1.0

3288

0.3288

M3

0.0

8356

0.8356

M3

1.0

1644

0.1644

3.5. 傾向スコアのモデル構築時の共変量

サンプルコードでは下記の21変数を傾向スコアを算出するために使用しています。

Table 2. 変数一覧
変数

TVwatch_day

age

sex

marry_dummy

child_dummy

inc

pmoney

area_kanto

area_tokai

area_keihanshin

job_dummy1

job_dummy2

job_dummy3

job_dummy4

job_dummy5

job_dummy6

job_dummy7

fam_str_dummy1

fam_str_dummy2

fam_str_dummy3

fam_str_dummy4

4. まとめ

この記事ではデータの詳細確認はここまでにしておきます。

実際のマーケティングに即した面白そうなデータです。

傾向スコア分析を実施しているサンプルプログラムもあるのでこちらも参考になりそうです。

今回は面白そうなデータのご紹介ということで

「岩波データサイエンス Vol.3」で使用している公開データセットを確認してみました。