今さら何をと言われるかもですが、決定係数の話。
最小二乗法での線形回帰をおこない、決められた目的変数に対してどの説明変数が最も当てはまりが良いかを選ぶという解析をしてます。
その当てはまりの良さの指標としてとりあえず、相関係数・決定係数・AICをRに計算させていたのですが、決定係数の値を見てちょっと違和感が…。決定係数の定義から調べてみました。
下の井口先生のページが大変参考になりました。
決定係数R2は回帰のバラツキ指標ではない - Yahoo!知恵袋
色々な論点がありますが、特に関心があったことだけメモ。
- (回帰直線に良く適合しているように見えた場合でも)回帰の傾きが小さいと、決定係数も小さくなることがある。
これは回帰残差が小さくても、全変動(下式の分母)も小さいと結果としてR2が小さくなるからみたいです。
(AICを異なるデータの評価に用いているのはおかしいというコメントを頂きました。ご指摘ありがとうございました! 以下は削除。)
元記事ではAICでの評価をしてなかったので、とりあえず追加してみました。元記事のデータでRを動かしてみると、
> extractAIC (res1)
[1] 2.00000 10.12601
> extractAIC (res2)
[1] 2.000000 6.579876
となります。確かにB(res2)の方が適合度が高いです。これはAICが単純に下の式のように残差とパラメータ数から算出されるからだと思います。
- 定数項をモデルに入れるか入れないかは、そもそものモデルの原理や、回帰結果の標準偏差を考慮しておこなう。このあたりの話はみどり本での議論に似ていると思いました。