論文のメモ： DEGの選択方法 - 備忘録 a record of inner life

発現が変動している遺伝子 DEG (Differentially expressed genes) を検出、選別する方法。マイクロアレイに関してはたくさんの手法が提案されていて、いくつか読んでみました。

「Rank Products法」

Breitling R. Armengaud P., Amtmann A. and Herzyk P., 2004, Rank products: a simple, yet powerful, new method to detect differentially regulated genes in replicated microarray experiments, FEBS Letters, 573 (1), 83-92.

fold changeの大きさで遺伝子をランク付けし、DEGを選び出すノンパラメトリック手法。すごいシンプルで面白いです。遺伝子があるランク以上になる確率はreplicatesの組み合わせから計算して、統計的に有意かどうかはpermutation testによって判断する。Rのパッケージもあります。

理由は理解できていないのですが、等分散を仮定しているようです。ばらつきの大きいデータでt検定との検出力の比較をおこなっているのがこの論文。

この手法だと、発現量の絶対値が低い遺伝子もDEGとして選択されますね。

「WAD法」

Kadota K., Nakai Y. and Shimizu, K., 2008, A weighted average difference method for detecting differentially expressed genes from microarray data, Algorithms Mol. Biol., 3 (1), 1.

こちらもfold changeをベースにDEGを選ぶ手法です。発現量の大きさで重み付けしたfold changeを基準に遺伝子を選ぶという手法。シンプルで面白いです。論文ではp値を出すような計算はしてませんが、上のRank Productと同様におこなえば計算できそう。RP法やt検定ベースの手法との比較論文も。

これらfold changeをベースにした手法より一般的に使用されているのが、t検定ベースのものですが、t検定ベースだとfold changeが小さくとも有意差が出るので実感と合わない結果が得られるんですね。

今は、t検定ベースの手法でlimmaパッケージのmoderated t testというのを勉強中。やはり仮定さえ合えばパラメトリックな手法を使用したいので。なんでも全遺伝子のばらつきをプールしてt検定をおこなう方法のようですが。