データ解析のための統計モデリング入門 3章メモ

3章を読んだ時のメモ。※から始まる文章が読んでる最中に思ったこと。

考える問題

2章でやった問題の一般化。ここでは種子数のデータを表現する統計モデルをPoisson分布に基づき構築するが、今度は分布の平均値が個体ごとに異なると仮定する。個体を特徴づける値として、ここでは新たな変数として、「体サイズ」を導入する。また、同時に施肥処理の有無についても因子型データとして考慮する。

モデリング

Poisson分布のパラメータλを体サイズxの関数としてモデリング
ここでは(λの関数)=(線形予測子)という形を考える。
左辺を「リンク関数」と呼び、特に今はこれが対数関数の場合を扱う。この時のリンク関数を「対数リンク関数」と呼ぶ。
※(ここまではPoisson分布の例ばかりだが)確率分布とリンク関数の具体的な形を決めることを、(ここで扱う一般化線形モデルでの当面の)モデリングと考えて良さそう。
観測データに対して、Poisson分布を用いて対数尤度が最大となるパラメータ(線形予測子の係数)を決定する作業をPoisson回帰と呼ぶ。
※上でのモデリングを行った上で、得られているデータを最も良く説明するパラメータを決定する過程を回帰、と考えればよいだろうか。
Rでの関数glmを使うとこれらの一般化線形モデルでの回帰までサクッとやってくれる。この時パラメータの推定値は最尤推定値の周りで正規分布すると仮定して、誤差推定値などを算出している。z値は最尤推定値をSEで割った値。
※単純に考えると、これが大きければ各種最尤推定値が平均値0の分布の「外れ値」と考えられる可能性が高まるわけなので、現在の問題でパラメータに対してこれを適用すれば、考えているパラメータが平均値0の分布をしていない(説明変数として無意味でない)可能性が高まるということか。なのである種の指標として使える可能性がある。

リンク関数の選択(対数リンク関数と恒等リンク関数の違い)

対数リンク関数は各変数からの寄与が積で入るが、恒等リンク関数は和で入る。
今の例で言えば、体サイズが大きいほど肥料の効果が種子数に与える影響も大きくなる、というのが対数リンク。肥料効果は体サイズによらない、というのが恒等リンク。
※したがって当然のことだが、問題の具体的な性質に応じてリンク関数を適切に選ぶ必要がある(この辺りがモデリングの最重要な点か)。