データ解析のための統計モデリング入門 4章メモ

4章を読んだ時のメモ。※から始まる文章が読んでる最中に思ったこと。

「良い」統計モデルとは何か

考える現象に対して予測を行うために統計モデルを構築・使用することを考えると、得られているデータに対しての、「あてはまりの良さ」は必ずしも「モデルの良さ」とは一致しない。※たとえば、(フィッティングパラメータの数を増やすなどの手段で)統計モデルの得られているデータへの適合度の上昇が可能になるが、それはいわゆるオーバーフィッティングの危険をはらむ。

例:逸脱度

データへの「あてはまりの悪さ」として以下の「逸脱度」がある。

もし、「あてはまりの良さ」を統計モデルの良さの指標にするならば、これを最小にするようなモデルを選択すれば良い。実は、データ数に対して同数のパラメータを含んだモデル(フルモデル)は逸脱度を最小にする。ある統計モデルを選んだ時、そのモデルの逸脱度とフルモデルの最小逸脱度の値との差を残差逸脱度と呼ぶ。
※しかし(当然ながら)逸脱度最小のフルモデルは、「限られたデータから未知の結果を予測する」という目的に対しては、何も指針を与えていないため(モデル決定の指針が既知のデータのみに依存するから)、効果を持たない。

モデル選択基準としてのAIC

「予測の良さ」の指標の一つとして、AICを導入する。AICの定義は

と書ける。ここでkはモデルで最尤推定するパラメータの個数。
AICの表式の意味の理解のために、次の例を考える。
ある(真の)統計モデルによって記述されるような現象があるとする。この現象から取得したデータセットに対して、(我々が新のモデルを知らないものとして)統計モデルを構築し、それによって現象を記述できることが望ましい。
構築した統計モデルに対して、その妥当性の検証のために次のことを考える。構築した統計モデル(はじめに取得したデータセットに対して最大対数尤度を与えるもの)を、新たに現象から取得したデータセットの組(アンサンブル)に対して適用し、それぞれのデータセットに対して対数尤度を計算し、アンサンブル平均(平均対数尤度と呼ぶ)を取る。
※この平均対数尤度と、最初に得たデータセットから求めた最大対数尤度の差が、統計モデル構築に使ったデータセット自体の性質(どの程度、現象にとって「ありふれた」データか)を反映する量と考えられる。
平均対数尤度と最初に得たデータセットから求めた最大対数尤度の差をバイアスと呼ぶ。平均対数尤度は、「統計モデルによる現象の説明の予測の良さ」と考えられるので、(アンサンブルを直接準備せずに)計算することができればそれを統計モデルの指標に使える。
ここで最尤推定のパラメータ個数がkの時に、平均対数尤度の推定量が

であることが一般的に導出されていることから(※証明は本書にはなし)、これとAICの定義を比べると、AICは平均対数尤度推定量の−2倍であることがわかる。
したがって、AICは「統計モデルによる予測の良さ」という意味で指標になるものであり、これが小さいほど統計モデルの予測が良いものと考えられる。

例:ネストしているGLMモデル間の比較

一例として、2つのモデルのAICによる比較を行う。ここでは特に予測子が線形のモデルAと、予測子が定数のモデルBの比較を考える。重要なのは予測子が線形のモデルAはもう片方のモデルBを含有する(ネストしている)ことである。
更に今説明したい現象(応答変数)は、予測子のうち線形の部分には依存しないと仮定する。すなわち、モデルAには応答変数の説明には不要な変数が含まれていることになる。
この時、AICを計算するとモデルAの方が高い値を示す。すなわちBの方が「良いモデル」である。ここで、「当てはまりの良さ」を表す最大対数尤度はAの方が値が高く、平均対数尤度はAの方が値が小さいことが重要である。今の例ではバイアスの値はばらつきも大きくなくネストの関係にあるモデル間の比較にはAICが有用であることが示唆される。
ネストの関係でない一般のモデル間でもAICが指標として使われているのが現状である。