最近読んだ論文のメモ: SVMによる遺伝子の分類 -影響の大きさ予測-

「影響レベルを分類するエンドポイントとしての転写産物の解析」

de Boer T.E., Janssens T.K., Legler J., van Straalen N.M. and Roelofs D., 2015, Combined transcriptomics analysis for classification of adverse effects as a potential endpoint in effect based screening, Environ. Sci. Technol., 49(24), 14274-14281.

Effect levelを遺伝子発現で分類・識別できるか。

EC10レベルとEC10レベルの重金属などに曝露したトビムシの遺伝子発現データを使って、未知サンプルのeffect level を予測できる分類モデルを作成した研究。モデルはSVM (Support Vecotor Machine) で作成してます。

SVMの詳細は正直良く理解できてませんが、なんでもSVMで予測モデルを構築する前に用いる変数（＝遺伝子）を選択しないといけないようです。分類に関係しない変数が混ざっていると予測精度が落ちるのだとか。

その変数選択が予測の結果に効いてくる、というのが論文のポイント。変数選択法はRFE (Recursive Feature Elimination) とLimma パッケージとの2つを比較してます。どちらも詳細は把握してません…。とりあえず結果だけ書くと、線形モデルのLimmaの方が予測が正確で、GO (Gene ontology) で見てもまとまりのある遺伝子群を選択していたようです。衝撃なのは、RFEとLimmaで選択された遺伝子がほぼ重なっていないこと (Fig. 1)。おまけに既往文献で選択された遺伝子とも重なっていません。

この論文は遺伝子発現を調べる目的を「（将来）影響の予測」としていますが、自分の関心はむしろ「原因の推定」です（例えばGarcia-Reyero et al., 2012のような）。しかしこの著者らのグループも、始めは「原因の推定」のために遺伝子発現を使用していたっぽい記述が…。Results & Discussionの終盤。

Nota et al. *1 used an unshrunken centroid multiclass classifier (略) to select a set of 188 genes that was able to differentiate between six metals. (略) Although a multiclass aproach is better able to pinpoint the actual exposure type*2, it would be less suitable to predict unknown chemicals that were not present in the training set and therefore it will have less predictive power for future applications.

この問題は常について回っている本質的なものですが、未だにしっくり来る回答を自分は得られてません。AOPという概念が回答になるんでしょうか。そのあたり、もうちょっと勉強しないと。

ていうか、そもそも機械学習もしっかり勉強しないといけないし。SVMやらランダムフォレストやら。いやはや。

*1:この論文の著者グループと同じ。2010年の論文。

*2:毒性要因・曝露物質という意味で使われています。

備忘録 a record of inner life

やったことや考えたこと・本・論文・音楽の備忘録。特に環境科学・生態毒性に関して。

最近読んだ論文のメモ: SVMによる遺伝子の分類 -影響の大きさ予測-