有意検定と効果サイズ

tatsuamano2005-12-16

ども〜。
通学途中にふと横を向いたら、アネハブッケンをハッケンした、アマノでーす。(住所わかっちゃうな、これ)
今日はD論の結果の一部を少し書き変えてみました(いまさら^^;)。
というのも。。。
 昨日のこと。D論とは別のところでAICを使ったモデル選択を行おうとして、緑実のYMRさんに相談。これまでも「モデル選択」についてはなんとなくわかっているつもりだったのですが。。
 いろいろと話をすればするほど、「モデル選択」というものの考え方、「有意検定」の短所・長所、やはりこれらは何というか衝撃的。今まで無知なままで信じていた「常識」が根本から覆される驚き。研究を行っていくうえで、「科学的証拠」というものをどう捉えて結論を出していくべきかをもっと真剣に意識せねば、という責務とこれまでの自分のスタンスに対するちょっとした恥じらい。
 まぁ思えばこの辺が先日紹介した The Nature of Scientific Evidence の論点でもあるのですが、ちょっと順番が逆だったかも。。
 このYMRさんが自分の研究室のゼミ用にまとめた資料が、実に詳細に網羅していて、僕にとっては大変理解に役立ちました。そんでもって急いで、Johnson(1999)や、Anderson et al (2000)、Anderson & Burnham (2002)といった、恥ずかしながらまだ読んでいなかった有名な論文たちをコピって読み始めました。
 と、前置きは長くなりましたが、D論でシミュレーションによる予測について有意検定を行っていたんですね。この対策を行った場合はこっちよりも効果が有意に高い、みたいな。前から、検定を行うかどうかは迷っていたのですが。どうしても要因が二つあるシミュレーションでは、ただ予測の信頼限界を出すだけではどの要因の影響が強いとかよくわからないと思って。それでどうせそこでやるなら全部検定してしまえ!という感じで。
 ところが今回、こういった場合の効果サイズの評価の重要性を改めて認識しました。つまり、シミュレーションによる予測は、ただ繰り返しを増やせば結局有意な結果は出るわけで。その場合、有意水準がどうの、という議論はやはりナンセンスで、それよりはその要因の効果サイズを見るべきだ、と。これはJohnsonの論文でも述べられていました。モデル選択を行う場合でも、ただAICやAkaike weightを使って選択するだけでは相対的にすぎないので、やはりR2やAUC、Kappaを使ったモデルの絶対的評価が必要という点(これはYMRさんのウケウリですが。。)は、有意検定における効果サイズ評価の重要性と共通しているのではないでしょうか。
 というわけで、結局D論では、複数要因のシミュレーション結果については有意検定を行ったうえで各要因の効果サイズを評価し、要因がひとつだけで見た目で分かりやすい結果については信頼限界を示すだけ、という提示に変え、文での表現方法も気をつけることにしました。
このやり方で果たして本当に正しいのか、というのはまだ少し不安ではあるのですが。。。
というわけで、ずいぶんと長くなってしまいましたが、
きっかけはYMRさん!
ということで、どもでした!