a record of inner life

やったことや考えたこと・本・論文・音楽の備忘録。 特に環境科学・生態毒性に関して。

論文のメモ: 環境毒性分野での遺伝子発現データと機械学習

マイクロアレイやRNA-seqの遺伝子発現データから、機械学習を使って情報を引き出す話。例えば、発がん性物質に曝露したデータと曝露してないデータを与えて、発がん性の有無を識別できる遺伝子(バイオマーカー)を探索する研究などがあるかと思います。昔このブログでも、SVM (Support Vector Machine) をマイクロアレイデータ解析に適用した論文を紹介しました(これ)。

 

 

「汚染物質を分別する遺伝子バイオマーカーの探索

Wei X, Ai J, Deng Y, Guan X, Johnson DR, Ang CY,  Zhang C, Perkins EJ. 2014. Identification of biomarkers that distinguish chemical contaminants based on gene expression profiles. BMC Genomics 15 (1), 248.

ラットの肝細胞 (hepatocyte) を105種の物質に24h曝露させて、マイクロアレイ解析した論文。論文の目的は、発現プロファルを基にした機械学習で105物質を14クラス(コントロール・antimicrobial・cancer-related drugs・metals・pesticides・PPCPsなど)に分けられるかどうかの検証と、クラスを分類するバイオマーカー遺伝子の探索。各物質、最低3回以上のアレイ解析をしてます。曝露濃度はLC50の半分で一定。

分類アルゴリズムは決定木・ナイーブベイズ・ロジスティック回帰・SVM・ランダムフォレストを使用、特徴選択 (feature selection) は7種試してます。この特徴選択によってモデルの正確さが大きく変わるというのが、一つの主眼っぽい*1最終的にgradientという新しい特徴選択の手法提案し、それとSVMの組み合わせで訓練・テストデータともにaccuracyは80%前後。

化学物質のクラスを分類するという目的が面白そうだったけど、細部が少し雑な感じの論文でした。

 

「ミミズのマイクロアレイデータから分類子となる遺伝子を同定する

Li Y, Wang N., Perkins EJ, Zhang C, Gong P. 2010. Identification and optimization of classifier genes from multi-class earthworm microarray dataset. PloS One 5 (10), e13715.

上の論文と著者の一部は同じ。

 TNTRDXにミミズを曝露させて、control・TNTRDXを識別できるバイオマーカーの探索を、SVMクラスタリングを通じておこなおうという論文です。

上の論文もそうだけど、統計的な手法で探し出されたマーカー遺伝子は、この論文の後に検証されているのでしょうか。投げっぱなし感が強い。まあでも、この論文は曝露を繰り返したり、濃度区も5~6つ設定しているので良心的かもしれません。

 

「土壌中金属を識別する遺伝子セットを遺伝子発現解析によって明らかにする

Nota B, Verweij RA, Molenaar D, Ylstra B, van Straalen NM, Roelofs D. 2010. Gene expression analysis reveals a gene set discriminatory to different metals in soil. Toxicol Sci 115 (1), 34-40.

トビムシ (springtail) のマイクロアレイデータから金属6種 (Ba・Cd・Co・Cr・Pb・Zn) を識別できる遺伝子セットを探した論文。非相関収縮重心法(Uncorrelated Shrunken Centroid)法なるアルゴリズムを使用。ちゃんとは読んでない。

 

ピレスロイド系殺虫剤に対するomicsベースの曝露バイオマーカーセット

Biales AD, Kostich MS, Batt AL, See MJ, Flick RW, Gordon DA, Bencic DC. 2016. Initial development of a multigene ‘omics-based exposure biomarker for pyrethroid pesticides. Aquatic Toxicol 179, 27-35.

ファットヘッドミノー (Pimephales promelas) の幼体をピレスロイド系殺虫剤4種に曝露させてアレイ解析した論文。再現性に気を配っていて、複数濃度区で曝露させたり(phase I)、同一条件曝露を3回繰り返したり(phase II)してます。Randomforestで、遺伝子発現からどの農薬曝露かを識別するモデルを作成。

実験のrunが異なると識別精度が落ちてしまうが、アレイデータのノーマライズによってある程度精度向上するという結果。Cypermethrinがテストデータの場合、特に精度が悪い。謎なのは、なぜone-vs-oneの分類器(合ってるかな?)なのかという点。4種の殺虫剤のうちどれかを当てる分類器にしないのは何故。あと殺虫剤のTypeごとに分けるとか。自分が理解できてないだけかな?

あと文章が冗長。

 

 

*1:データ解析の元ネタはPirooznia et al., 2008, BMC Genomics