Study Log

とある大学院生の勉強記録。

『Rによる統計的学習入門』第3章 勉強メモ

『Rによる統計的学習入門』の第3章 勉強メモを載せます。

http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Seventh%20Printing.pdf

上記から英語版が無料でダウンロード可能。併用がオススメ。

 

以降、本の説明が難しい点、輪読会でディスカッションのポイントとなった点について触れます。

 

3.線形回帰

3章全体としては、統計学で学ぶ回帰分析の理論とその限界・注意点について触れています。この限界を乗り越える上で機械学習の手法が役に立つという事を本の後半で(おそらく)述べると思われます。

本章はその伏線として、後半の理解に必要な基本事項を整理しています。これまで習った統計学の入門書では見た事のない残差プロットやRSSの値を示す等高線、K近傍回帰とか出てきて、基本事項のはずなのに説明のアプローチや深さが違い、僕は図を見るたびに「なんじゃこれ」と困惑しました(笑)。

 

3.1 線形単回帰

p60 最終段落「厳密には、以上の式が成り立つためにはそれぞれの観測値の誤差εiの間に相関がなく、共通の分散としてσ^2をもつことが必要である。図3.1を見ると明らかにこれが成り立たないことがわかる」

→共通の分散云々は、xの値を変えても誤差のばらつきが変わらないという事です。図3.1はxの値が増えるに従って誤差のばらつきが大きくなっているので、共通の分散をもっていないと考えられます。

また誤差εiの間に相関があるデータとしては、p88に出てくる時系列データのような場合が分かりやすいです。

 

同「これは直観的にはxiが広くにわたっていればそれだけ傾きを推定するのに適しているということである」

→p91のてこ比の説明につながっていきます。x軸方向に点が広がっていると傾きが推定しやすくなります。

 

p62 3.14式の「-0」は何か?

帰無仮説がβ1=0 を利用している為です。

そもそも帰無仮説がなぜβ1=0となるかというと、傾きが0かどうかを見ているからです。傾きが0であれば、xを増やしてもyは増えないという事なので、xとyには関係が無いと言えます。

 

3.2 線形重回帰

p66 1段落「βjは、他のすべての予測変数は固定させたまま〜」という点がポイント。係数の解釈を記述する際に、この表現を忘れがちです。 

 

p68  このあたりは教科書に書かれている通りです。実際に単回帰と重回帰でnewspaperの推定値を算出してみると、単回帰では0.055なのが、重回帰だと-0.001になります(単回帰の結果は表3.3参照)。また表3.5によるとnewspaperとradioの相関は0.354です。

newspaperの推定値は単回帰だと0.055ですが、newspaper→salesの結果というよりも、newspaper→radio→salesの関係があり、本当はnewspaperよりradioが影響していたのに、あたかもnewspaperの影響のように見えていただけだと考えられます(この事を教科書では「newspaperが"手柄を横取り"する」と書いています)

 

p71 p値だけではなく、F統計量も見る事が重要だと書かれています。p値は応答変数の数を考慮していない為、応答変数の数が大きいと確率的にp値がたまたま0.05以下になる事もあるわけです。そこで、応答変数の数をできるだけ少なくする為に、変数選択を行います。

 

後の箇所は、教科書に書かれている通りなのでメモは割愛(=手抜き)します。

 

3.3 回帰モデルにおける他の考察

p78 2段落「この場合、β0は(性別を考慮しない)全体のクレジットカードの平均債務残高〜(中略)この例ではβ0の推定値は男性$509.80と女性$529.53の平均$519.665となるであろう」

→実際に平均を計算すると、520.015となります。男性と女性の人数が等しければ519.665かもしれませんが、データ数はFemale:Male = 207:193なので、ズレはそこから来ているっぽいです。なのでここは教科書の記載に誤りがあると思われます。

 

p77 3.27式、3.28式、3.29式において、

  xi3 = 1(i番目の人が黒人である場合), 0(i番目の人が黒人でない場合)

 と書かないのはなぜか?

→水準数-1で作らないと、常に xi1 + xi2 + xi3 = 1 となり、完全な多重共線性が生じてしまう為。この辺は「ダミー変数 多重共線性」とかでググると出てきます。

 

※追記

余談ですが上記の多重共線性に気付かないままRでロジスティック回帰分析を行うと 

glm.fit: アルゴリズムは収束しませんでした glm.fit: 数値的に 0 か 1 である確率が生じました」というエラーメッセージが表示されます。

何か1つ説明変数を取り除く事でエラーの表示は無くなります(が、本質的には説明変数の分布が重なっていない事が原因です)。

 

p82 表3.9 p値は小さいとしても、TV×radioの係数が0.0011ととても小さいのは、効果があると言えるのか?

→単位の影響だと思われます。TV($)×radio($)なので、出てくる値が$^2(平方ドル?)のようになっており、TV($)、radio($)と同列に比較できない状態です。

 

p84 3.35式はRでどう表現するか?

→Studentの変数を入れて記述します。

 

p90, 91 外れ値とてこ比

・外れ値はyi、てこ比はxiに着目するのがポイントです。

https://slidesplayer.net/slide/11257690/

http://jun.artcompsci.org/kougi/jikken-jisshuu-2/eight.pdf

上記のページを参考にさせて頂きました。

3.37式の1/nについては、n数を考慮する為の項と思われます(ググってもよく分かりませんでした)。nが大きいとほとんど0になるので、影響は無視できます。

 

また、結局の所外れ値やてこ比の大きな点除外する事になるとしても、それによって何に影響があるのかが注意。

 

3.4 マーケティングプラン

p97 広告メディア間の相乗効果はあるか

→上述の 「p82 表3.9 p値は小さいとしても、TV×radioの係数が0.0011ととても小さいのは、効果があると言えるのか?」 で述べたのと同様です。

 

3.5 線形回帰

p97 2章で扱った最近傍法との違いは?

→目的、変数の種類が違います。

 2章は分類が目的、また応答変数は質的変数。

 3章は予測が目的、また応答変数は量的変数。

その為、2章ではK数の近傍データで多数決を取りますが、3章ではK数の近傍データの平均を取り、それが予測値になります(数式が平均値を求める式になっています)。

この辺は英語版の方が分かりやすいです。KNN regressionとKNN classifierという表記に加え、その表記の書き分けから段落が始まっているので、「あ、これまでとの違いについて書くのね(そこが重要なのね)」と直感できました。

 

(英語版p105 抜粋)

f:id:intrinsic_motivation:20190518174643p:plain

 

以上