読者です 読者をやめる 読者になる 読者になる

a record of inner life

やったことや考えたこと・本・論文・音楽の備忘録。 特に環境科学・生態毒性に関して。

最近読んだ論文のメモ: AFLPとGLM・q値

論文 AFLP 統計

AFLPのような0/1データ*1をどうやって量的データと関連付けようか、その参考にした論文。

 

「低木の燃焼性の違いを説明できる遺伝的要因」

Moreira B., Castellanos M.C. and Pausas J.G., 2014, Genetic component of flammability variation in a Mediterranean shrub, Mol. Ecol., 23(5), 1213-1223. 

「燃焼しやすさ」と関連のある遺伝子を選び出そうとした論文。

色んな形質を持つ集団を採集・AFLP解析し、AFLP座位の有無を被説明変数、「燃焼しやすさ」を説明変数として誤差が2項分布のGLMをおこなってます。全部の座位に関してGLM回帰の尤度比検定をおこない、統計的に有意とみなされた回帰(AFLP座位)をピックアップ。それらの座位は「燃焼しやすさ」と関連がありそうだと結論。しかし図を見ると、これで回帰が有意なのかなと思わされますね…。

サンプル数は169、GLMに用いた座位数は226個で、GLM回帰が有意とみなされた座位数は全29個。

 

 

Herrera C.M. and Bazaga P., 2009, Quantifying the genetic component of phenotypic variation in unpedigreed wild plants: tailoring genomic scan for within‐population use, Mol. Ecol., 18(12), 2602-2614. 

上の論文のデータ解析手法の元ネタ。上の論文での多重検定の補正方法(q value 云々)がよく理解できなかったので、読んでみました。しかしそれでも良く分からず、もう一つ論文を辿ってみました。

 

Storey J.D. and Tibshirani R., 2003, Statistical significance for genomewide studies, PNAS, 100(16), 9440-9445. 

しかしこの論文をいきなり読むのは大変なので、下のページの「大規模データの解析における問題点 DNAマイクロアレイによる遺伝子発現量の測定を例として」などを読んでq値というものが何か、ようやく漠然と理解できました。

正しい知識が捏造を防ぐ データを正確に解釈するための6つのポイント 

Herrera and Bazaga (2009) は要は、有意とみなされた回帰の中に偽物の回帰が1つも含まれていないようにp値を調整していたんですね。

 

 

これらの論文を読んで、試しに自分のデータでGLMを検討してみましたがサンプル数が少なすぎるかも…。今のところあまり説得力のある感じになってません。

*1:もっとも定量性があるとみなす研究もあるみたいですが。