『Rによる統計的学習入門』第4章 勉強メモ
『Rによる統計的学習入門』の第4章 勉強メモを載せます。
http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Seventh%20Printing.pdf
上記から英語版が無料でダウンロード可能。併用がオススメ。
以降、本の説明が難しい点、輪読会でディスカッションのポイントとなった点について触れます。
4.分類
4章全体としては、応答変数が質的変数(カテゴリー変数)である場合に予測を行う方法として、ロジスティック回帰分析、線形判別分析(LDA:Liniear Discriminant Analysis)、2次判別分析(QDA:Quadratic Discriminant Analysis)が紹介されています。この3つに第2章で扱ったK最近傍法を合わせて、それぞれの手法の特徴を論じています。
4.1 分類問題の概要
ただの導入なので特筆すべき点はありません(手抜き)。
4.2 なぜ線形回帰を用いないのか
理由①:2カテゴリーであればダミー変数を使って表現できるが、3カテゴリー以上の名義尺度に用いると、カテゴリー間の距離の違いが問題になる為
例えば、患者の症状から病名(脳卒中、薬物過剰摂取、てんかん性発作のどれか)を予測したいとする。応答変数Yの取りうる値を
1:脳卒中の場合
2:薬物過剰摂取の場合
3:てんかん性発作の場合
とすると、1と2の距離と2と3の距離は同程度とは言えない。また、変数を違った割り振りにすると結果が変わってしまう(ダミー変数がダミーにならない)
理由②:予測される確率が0未満や1以上となる。(図4.2参照)
4.3 ロジスティック回帰
基本的な理論は割愛(手抜き)。
注目すべきは、p126表4.2とp127表4.3において、student[Yes]の係数が逆になっている事実。
表4.2だと、学生の方が学生でない人よりも債務不履行の確率が高いという意味。
表4.3だと、他の変数の影響を一定にした下で、学生の方が債務不履行の確率が低いという意味。
この違いはなぜ生まれるかというと、変数studentとbalanceの相関がある為。つまり、学生はクレジットカードの債務残高が大きく、その為債務不履行の可能性が高いという事。もし同じクレジット債務残高なら、学生の方がそうでない場合より債務不履行の確率が低い。
この辺の説明は、第3章のsalesのくだりと同様です。
ちなみに、今回の輪読会でのディスカッションポイントとして以下がありました。
・確かに同じクレジット債務残高なら、学生の方がそうでない場合より債務不履行の確率が低いかもしれません。でも仮に実務でこの分析を担当するとして、現実として学生の利用者が多い場合は、表4.2の結果も十分に役に立つのではないでしょうか?
つまり、そもそものリサーチの目的が何であるかが重要です。今回の例はどちらが優れているというよりは、単に「こんな事が起こり得るから注意が必要ですよ」と言っているだけなので、そこを間違って解釈すると良くなさそうです。
・あと本書では多項ロジスティク回帰分析は実用上あまり使われていないと言っていますが、僕の知る限り、マーケティングのブランド選択モデルでは多項ロジスティク回帰が非常によく使われるように思います。この違いは何なんでしょうか…。
4.4 線形判別分析(LDA:Linear Discriminant Analysis)
最初はこのLDAとQDAが覚えられなくて、何度もこの本をを見直しました。
LはLinear(線形)、QはQuadratic(二次)です。
4.4.1 分類におけるベイズの定理の応用
この本にはベイズの定理が突然出てくるので、最初から知っていないと普通に置いていかれます。笑
4.4.2 1変数の場合の線形判別分析
結局は(4.13)式と(4.17)式が尤度関数となっており、これを最大にするようなクラスに分類する(=最尤法を使っている)という事が理解できれば良いかと思います。尤度関数自体は既存の定義・定理から導けます。
また実際の計算については、(4.13)式における平均と分散が未知の場合(通常は未知)は(4.15)式を使って推定し、各クラスの確率πが未知の場合は(4.16)式を使って推定するようです。
まとめると、LDAを使う場合は
①(4.15)式と(4.16)式を使い、平均、分散、πを推定
②①を(4.17)式に投入し、これを最大にするクラスに分類する事で、決定境界を計算
③②で計算した境界より右か左かで各データを分類する
4.4.3 多変数の場合の線形判別分析
多変数の場合も考え方自体は同じなのでここでは割愛します。
ただ、(4.21)式と(4.22)式あたりの考え方は非常に重要です。分類基準として事後確率をどう設定するかは結局分析者が決められる事と、その判断材料の一つとしてROC曲線を使える事が書かれています。
4.4.4 二次判別分析(QDA:Quadratic Discriminant Analysis)
線形判別分析と二次判別分析の違いは以下です。
・線形判別分析(LDA)…
①判別関数:xについて線形 ※(4.17)式参照
②仮定される共分散行列:K個のクラスが全て共通
→②より、QDAと比較して推定するパラメータが少なくて済む
・二次判別分析(QDA)…
①判別関数:xについての2次関数 ※(4.23)式参照
②仮定される共分散行列:K個のクラスが各々の共分散行列をもつ
→②より、推定するパラメータが多くなる(LDAの場合のK倍)
この特徴がある為、LDAの方がQDAに比べ柔軟性に劣り、分散が小さいです。
LDAとQDAのどちらが良いかは分散とバイアスのトレードオフとなります。
大まかに言えば、
・訓練データが少ない場合…LDAの方がQDAより良い
・訓練データが多い場合や、K個のクラスの共分散行列が共通であるという仮定が明らかに正当化できない場合…QDAの方がLDAより良い
これまで習ってきたように、柔軟なモデルほど多くのデータを必要とするというのは LDAとQDAの関係においても言えそうです。
4.5 分類法の比較
使い分けの基準、特徴についてざっくりまとめるとこんな感じかと思われます。
シナリオ1〜6をきちんと頭に入れないとこの表だけでは理解できないので注意です。
特にロジスティック回帰とLDAはシナリオ1〜6のいずれにおいても、かなり予測が似通っていました。
というわけで、内容はここまで。
第3章までのメモと違って、ちゃんと書く所はちゃんと書いた気がします。
統計学の話ではなく、統計的学習の比重が高くなっているので、自分できちんとまとめ直さないと理解が追いつかなくなってきています…。