Study Log

とある大学院生の勉強記録。

『Rによる統計的学習入門』解答(3.7 演習問題)

『Rによる統計的学習入門』の解答例・解答上のポイントを載せます。

 

解答の目次、他の方の解答は以下の記事にまとめてあります。 

intrinsic-motivation.hatenablog.com

 

3.7 演習問題

(1)※6/22追記

①p値に対応する帰無仮説

※以下全て「他の変数の影響を一定にした下で」←重回帰なのでここが重要

・モデルの切片は0である

・salesとTVには関係がない

・salesとradioには関係がない

・salesとnewspaperには関係がない

 

②p値から得られる結論

※以下全て「他の変数の影響を一定にした下で」

・モデルの切片は0ではなさそう

・salesとTVには関係がありそう

・salesとradioには関係がありそう

・salesとnewspaperには関係がなさそう

 

(2)応答変数が質的変数か量的変数か、またそれに伴って予測値の決定方法が違います(上記リンク先の解答と違う説明をします)。

 

分類:応答変数が質的。

ある正の整数Kとテストデータx0が与えられた下で、訓練データのうちx0に最も近いK個のデータを探す。そして、これらのK個のデータがどのクラスに属するのかを調べ、最も多いクラスにテストデータx0を分類する。(近隣K個のデータの多数決)

 

回帰: 応答変数が量的。

ある正の整数Kとテストデータx0が与えられた下で、訓練データのうちxiがx0に最も近いK個のデータの組(xi, yi)を探す。そして、これらのK個のデータのyiの平均値をy0の予測値とする。

 

(3)…上記記事の解答参照

(4)…以下、あくまでも「〜の傾向がある」という話です。

(a)3次式の回帰の方が訓練RSSが小さくなる。

 理由は、訓練データに対してモデルがよりフィットする為。 

(b)線形の回帰の方がテストRSSが小さくなる。

 理由は、3次式の回帰は訓練データに対して過学習が起こりうるが、線形の回帰はそれがない為。

(c)3次式の回帰の方が訓練RSSが小さくなる。

 理由は、訓練データに対してモデルがよりフィットする為。 

 (d)情報不足により判断できない。

 理由は、真の関係が線形ではない度合いによって、テストRSSの大小関係が変わりうる為。線形に近ければ、線形単回帰のテストRSSの方が小さく、3次多項式に近ければ、3次式の回帰のテストRSSの方が小さくなると思われます。

 

(補足)

(a)について、決定係数が1になるようなデータを生成して実験してみました。

x <- 1:100+rnorm(100) #rnorm(100)で正規分布に従う乱数100個を生成
y <- x
xy <- data.frame(x,y)
plot(xy)

f:id:intrinsic_motivation:20190601180239p:plain

lm.fitA <- lm(y~x, data=xy)
lm.fitB <- lm(y~x+I(x^2)+I(x^3), data=xy)
summary(lm.fitA)
deviance(lm.fitA) #残差平方和を求める
summary(lm.fitB)
deviance(lm.fitB)

 

で、実際に回帰した結果、

①lm.fitA(線形単回帰)

f:id:intrinsic_motivation:20190601180412p:plain

→残差平方和は2.172437e-27

 

②lm.fitB(3次多項式の回帰)

f:id:intrinsic_motivation:20190601180423p:plain

→残差平方和は2.037969e-27

 つまり、残差平方和は②の方が小さいことが分かりました。

ちなみにデータを10,000とかにすると、両者の差が小さくなりますが、それでも②の残差平方和の方が小さいことが確認できます。

 

(5)…上記記事の解答参照

 

(6)

最小2乗法による回帰直線をy=β'0+β'1x (※) とおく (β'はβハットのつもり)

この式のxにx'を代入した時、β'0, β'1の値に関わらずy=y'となれば、常に(x', y')を通ると言える。(x'はxバーのつもり)

※に(3.4)式のβ'0=y'-β'1x'を代入して、

y=y'-β'1x'+β'1x

このxにx'を代入するとβ'0, β'1の値に関わらずy=y'となる。よって示された。

 

…ブログ初心者すぎてハットとかバーの書き方が分かりません…。

 

(以下サイトを参考にさせて頂きました)

http://www.riruraru.com/cfv21/math/pinnedline.htm

 

(7)〜(10)…上記記事の解答参照

 

(11)…

(c)だけ補足

x軸方向の距離を最小にするか、y軸方向を最小にするかが違います。

(a)と(b)で推定値、RSEは違いますが、決定係数R^2とF値は同じ値になります。

f:id:intrinsic_motivation:20190601172611p:plain

 

(12)…(a)のみ解答

(a)xi'^2=yi'^2となる時。

(3.38)式から、xiをyiに入れ替えても値が同じか考えます。

分子はxiyiをyixiとしても値は同じです。

分母はxi'^2をyi'^2とすると値が同じになります。

※xi'=yi'ではなく、xi'^2=yi'^2です。

なので、(xi', yi')には(1, 1)や(1, -1)が考えられます。

 

(13)(14)…上記記事の解答参照

 

以上。

「上記記事の解答」参照とか言いながら、実は今回の輪読会で扱わなかったので解答を飛ばしているだけだったりします。

補足を書いた内容は「上記記事の解答」の内容と違ったりするので、リンク先の解答が合っている保証は無いです。

 

今回は手抜きしすぎなので、時間があれば追って解答を埋めます。