2017-09-10

論文のメモ: 環境毒性分野での遺伝子発現データと機械学習

マイクロアレイやRNA-seqの遺伝子発現データから、機械学習を使って情報を引き出す話。例えば、発がん性物質に曝露したデータと曝露してないデータを与えて、発がん性の有無を識別できる遺伝子（バイオマーカー）を探索する研究などがあるかと思います。昔このブログでも、SVM (Support Vector Machine) をマイクロアレイデータ解析に適用した論文を紹介しました（これ）。

「汚染物質を分別する遺伝子バイオマーカーの探索」

Wei X, Ai J, Deng Y, Guan X, Johnson DR, Ang CY, Zhang C, Perkins EJ. 2014. Identification of biomarkers that distinguish chemical contaminants based on gene expression profiles. BMC Genomics 15 (1), 248.

ラットの肝細胞 (hepatocyte) を105種の物質に24h曝露させて、マイクロアレイ解析した論文。論文の目的は、発現プロファルを基にした機械学習で105物質を14クラス（コントロール・antimicrobial・cancer-related drugs・metals・pesticides・PPCPsなど）に分けられるかどうかの検証と、クラスを分類するバイオマーカー遺伝子の探索。各物質、最低3回以上のアレイ解析をしてます。曝露濃度はLC50の半分で一定。

分類アルゴリズムは決定木・ナイーブベイズ・ロジスティック回帰・SVM・ランダムフォレストを使用、特徴選択 (feature selection) は7種試してます。この特徴選択によってモデルの正確さが大きく変わるというのが、一つの主眼っぽい*1最終的にgradientという新しい特徴選択の手法提案し、それとSVMの組み合わせで訓練・テストデータともにaccuracyは80%前後。

化学物質のクラスを分類するという目的が面白そうだったけど、細部が少し雑な感じの論文でした。

「ミミズのマイクロアレイデータから分類子となる遺伝子を同定する」

Li Y, Wang N., Perkins EJ, Zhang C, Gong P. 2010. Identification and optimization of classifier genes from multi-class earthworm microarray dataset. PloS One 5 (10), e13715.

上の論文と著者の一部は同じ。

TNT・RDXにミミズを曝露させて、control・TNT・RDXを識別できるバイオマーカーの探索を、SVMとクラスタリングを通じておこなおうという論文です。

上の論文もそうだけど、統計的な手法で探し出されたマーカー遺伝子は、この論文の後に検証されているのでしょうか。投げっぱなし感が強い。まあでも、この論文は曝露を繰り返したり、濃度区も5~6つ設定しているので良心的かもしれません。

「土壌中金属を識別する遺伝子セットを遺伝子発現解析によって明らかにする」

Nota B, Verweij RA, Molenaar D, Ylstra B, van Straalen NM, Roelofs D. 2010. Gene expression analysis reveals a gene set discriminatory to different metals in soil. Toxicol Sci 115 (1), 34-40.

トビムシ (springtail) のマイクロアレイデータから金属6種 (Ba・Cd・Co・Cr・Pb・Zn) を識別できる遺伝子セットを探した論文。非相関収縮重心法（Uncorrelated Shrunken Centroid）法なるアルゴリズムを使用。ちゃんとは読んでない。

「ピレスロイド系殺虫剤に対するomicsベースの曝露バイオマーカーセット」

Biales AD, Kostich MS, Batt AL, See MJ, Flick RW, Gordon DA, Bencic DC. 2016. Initial development of a multigene ‘omics-based exposure biomarker for pyrethroid pesticides. Aquatic Toxicol 179, 27-35.

ファットヘッドミノー (Pimephales promelas) の幼体をピレスロイド系殺虫剤4種に曝露させてアレイ解析した論文。再現性に気を配っていて、複数濃度区で曝露させたり(phase I)、同一条件曝露を3回繰り返したり(phase II)してます。Randomforestで、遺伝子発現からどの農薬曝露かを識別するモデルを作成。

実験のrunが異なると識別精度が落ちてしまうが、アレイデータのノーマライズによってある程度精度向上するという結果。Cypermethrinがテストデータの場合、特に精度が悪い。謎なのは、なぜone-vs-oneの分類器(合ってるかな？)なのかという点。4種の殺虫剤のうちどれかを当てる分類器にしないのは何故。あと殺虫剤のTypeごとに分けるとか。自分が理解できてないだけかな？

あと文章が冗長。

*1:データ解析の元ネタはPirooznia et al., 2008, BMC Genomics。

2017-09-05

第23回環境毒性学会@東洋大

日記学会

参加してきました。

面白い発表もあり、自分のポスターでも多くの人と深い議論ができて充実感がありました。ただあんな成果0の発表で賞をいただいて、申し訳ないです…。最後の海洋汚染に関するシンポジウムは所要のため参加できませんでした。

増えすぎても困るけど、あともう少しだけプレイヤーの数が増えて欲しいです。普及活動も頑張らねば。うちの研究室の学生も誘ったけど、結局誰も参加しなかったし…。自分が今後やりたいバイオインフォ的な研究とこれまで関わってきた底質毒性の研究は、どちらもそれに従事する人を増やさないと進展しない気がしてきました。一人で研究する限界をようやく感じ始めたところです。まずは初学者に向けて日本語で論文書こうかな。

2017-08-27

新モンスターになって欲しかった人 @フリスタダンジョン

音楽

フリースタイルダンジョン。2代目モンスターがようやく全員発表されましたね。

2代目もバランスの取れた良いメンバーだと思いますが*1、もう少し幅のある人選を期待してました。初代は漢とかサイプレス上野とか、楽曲面や人望？で既にプロップスを得てる人が居て良かった。

発表された後だけど、新モンスターについて希望してたこと書いてみます。

個人的にモンスターに欲しかった人1位は、板橋区の生き字引ことPunpee。「水曜日のダウンタウン」のテーマソングでもおなじみ。MCバトルでの実績はUMB2006東京予選優勝くらいかもしれませんが、HipHop好き（とサブカル好き？）からのプロップスは間違いないでしょう。キャラも立ってるし、あの楽しんでる感じが良い。人としてのスケールのデカさみたいなのをなんとなく感じさせますよね。二代目はコワモテな人多いし、そういう意味でもNERD代表としてP様は良い。

あとは鎮座DOPENESSとZorn *2。このあたりはYoutubeのコメント欄を見る限り、ダンジョン観てる人からも強く支持されてるっぽいです。

皆、今はもうバトルしてないし、スポーツ化したMCバトルでは正直そこまで勝てないだろうけど、こういう既に実績ある人がモンスターに入るだけで「格」が違うと思うんですよね。

まあでも、全員オファーあっても断りそう。実際鎮さんはチャレンジャーとしてのオファー断ってたっていう話どこかで読んだし…。

しかし、「もうMCバトルは面白くなくなるだろ」と毎度のように思ってるけど、ずっと面白い。中々観るのを辞められない。UMB2014でR-指定が三連覇した時には「もうこれ以上のバトルは見れないだろうな」と思ったけど（特にDOTAMA戦）、全然そんなことなかったです。焚巻vs般若、晋平太vs漢、ニガリvsT-Pablow@高校生ラップ選手権、あとダンジョンでのT-Pablowの成長とか、文脈込みの面白さもあるけど、名勝負は中々尽きません。

（追記 2017.09.05）

第12回高校生ラップ選手権もざっと観ました。第10回を境に盛り下がってきたかなと思ってたら、Red Eye最高。この先楽しみすぎる。

*1:偉そうですみません…。

*2:あとBESが全盛期のままだったら欲しかったけど。

2017-08-16

論文のメモ：ヨーロッパの新しい水質モニタリング（EDAや網羅的な化学分析）

生態毒性論文農薬化学分析リスク Mixtures Database AOP

年始に参加させてもらった、混合物・複合影響評価に関する勉強会。その内容に近い論文を読んでみました。

ヨーロッパでの水質モニタリングの話。

河川には人為起源の多数の化学物質が含まれるので、決められた少数の物質だけモニタリングの対象にしていては不十分なのではないか。もっと生態系への影響を反映したモニタリングの方法を考えよう、的な論文たちを読んだので簡単なまとめです。

「将来の水質モニタリング ~混合物に適したツール~」

Altenburger R, Ait-Aissa S, Antczak P, Backhaus T, Barceló D, Seiler T, Brion F, Busch W, Chipman K, de Alda M, de Aragão Umbuzeiro G, Escher B, Falciani F, Faust M, Focks A, Hilscherova K, Hollender J, Hollert H, Jäger F, Jahnke A, Kortenkamp A, Krauss M, Lemkine G, Munthe J, Neumann S, Schymanski E, Scrimshaw M, Segner H, Slobodnik J, Smedes F, Kughathas S, Teodorovic I, Tindall A, Tollefsen K, Walz K, Williams T, Van den Brink P, van Gils J, Vrana B, Zhang X, Brack W, 2016, Future water quality monitoring — Adapting tools to deal with mixtures of pollutants in water resource management, Sci Total Environ, 512-513, 540-551.

ヨーロッパでは、水域生態系の保全のためにWater Framwork Directive (WFD) なる指令?を2000年に施行したそうな。WFDの目標達成を目指して、EU各国は2003年から法律を策定して頑張ってきたみたいです。（ここまでは年始の勉強会で聞いた話。ここ以降は↑の論文の話+解釈込み。）が、WFDで定められた"good ecological status"は未だ達成されてない場所が多い。というか、その原因が化学物質汚染なのかどうかも良く分からん、という状況らしいです。

問題を難しくしている一つは、河川中に多数の化学物質が共存していることです。冒頭に書いた通り、少数の物質のみ測定の対象としていても影響を過小評価してしまうし、また、複数物質が共存するときには単一で存在するときと異なる影響を生物に及ぼす（Combined effects）こともあります。そんな複雑な環境における化学物質モニタリングのあるべき姿？を提案しているのが本論文です。

大きく3つのアプローチ、(i) 化学分析、(ii) Effect-ased tools、(iii) Effect-directed analysis (EDA) を使おう、と書いてます。

まず化学分析。検出される物質のパターンをクラスター分析などで解析し、「この物質とこの物質はよく一緒に検出されるね」みたいな傾向をつかむのが大事だと言っています。

次にEffect-base tools。化学分析だけだと本当に影響が出るかわからないので生物応答を指標にして、影響をしらべようねという話です。Whole effluent Toxicity (WET) 的な考えですね。指標とする生物応答は、重大な悪影響につながるものでないとダメなので、そこはAdverse Outcome Pathways (AOP) の考えを援用するそうです。ただ通常のAOPと違い、混合物を対象にしているので"individual initiating events"よりむしろ"common adverse outcome"を指標にするみたい。…これ、どういうこと？ AOPの個々の"molecular initiating events"に捉われないということかと理解したけど、具体的に何を見るのか…？表3とAOPの関係は？

最後にEDAを使って"driver chemicals"を同定する。多数の化学物質が共存すると言っても、実際には少数の物質が悪影響の引き金となっています。その少数の物質をdriversと呼び、それらを同定するのがEDAです。EDAは、環境水の分画と各画分に対するレポーターアッセイなどを繰り返して、どの画分（とどの物質）が悪影響の原因かを探る手法です。

勉強会の良い復習になりました。けど総説なので、やっぱりふわふわした読後感。

「ヨーロッパの河川中の微量汚染物質：effect-based toolsのためのMoA調査」

Busch W, Schmidt S, Kühne R, Schulze T, Krauss M, Altenburger R, 2016, Micropollutants in European rivers: A mode of action survey to support the development of effect-based tools for water monitoring, Environ Toxicol Chem, 35, 1887-1899.

ETCのFocus論文。面白かった。

基本的には、河川水中の化学物質を網羅的に分析した6つの論文を再解析した研究です。6つの論文で実際に検出された426物質を対象に、Hazard Quotient (HQ = 測定濃度/毒性値) を算出し、また文献情報をもとに各物質の作用機序（Mode of Action; MoA）をざっくり31種に分類してます。

たぶんこの論文のメイン部分で、かつ面白いのが、MoAごとにHQの合計値を求めている点。HQ合計値が大きいMoAは悪影響につながりやすいと見做して、そのMoAを検出できるbioassaysをモニタリングのツール（effect-based tools）に使おう、という議論をしています。EDA的な考え方ですね。ただ、割り当てられているMoAがobserved adersed effects（致死など毒性値を求めるベースとなったエンドポイント）の原因であるとは限らないんですよね…。そのちぐはぐ感は拭えません。

他にも手法上の課題はかなりあるみたいです。MoAをざっくり分けている点や、毒性値の実験データがない場合はQSARで予測していてそれが実際の値と離れている点など。

単純に読んだあと気になったのは、河川水に生物を曝露させたとき、そのMoAは何に分類されるのかなぁということ。各物質HQの合計値が高いMoAと一致しているのかどうか。

「水質モニタリングに用いる生物試験の組み合わせ：微量汚染物質による毒性への寄与」

Neale P, Altenburger R, Aït-Aïssa S, Brion F, Busch W, de Aragão Umbuzeiro G, Denison M, Du Pasquier D, Hilscherová K, Hollert H, Morales D, Novák J, Schlichting R, Seiler T, Serra H, Shao Y, Tindall A, Tollefsen K, Williams T, Escher B, 2017, Development of a bioanalytical test battery for water quality monitoring: Fingerprinting identified micropollutants and their contribution to effects in surface water, Water Res, 123, 734-750.

34個の化学物質に対して、in vivo・invitro含む20種類のバイオアッセイをおこなった研究（化学物質は、↑のBuschら(2016) のHQをもとに選定）。データが膨大過ぎて、詳細は正直追えてません。Water Res 誌でも最近はこういう論文多いです。NatureとかScience並みのSupporting Info。査読者も大変ですね…。

結論は「bioassayの種類によって検出できる毒性の得手不得手があるから、色々な試験を組み合わせよう（意訳）」で、無難な感じ。

個人的には、次のような結果を示してくれているのが嬉しい。

・Daphnia magnaの遊泳阻害試験やfish embryo toxicity test (FET) などのwhole-organism試験は、大部分の化学物質の影響を検出できる。ただし、その濃度レベルはin vitroの試験に比べると高め。

また、この論文で得られたデータを、既往の河川の化学分析結果に適用してmixture toxicity modelingもしてます。

なんとなく、彼らがやろうとしていることが理解できました。

水質モニタリングでの化学分析をもっと網羅的におこなう、モニタリングに導入するbioassayの種類はメカニズムベースで考える（なるべくin vitroでやりたい）、測定した物質で毒性影響が説明できるかどうかはmixture toxicity modelingで確かめる、EDAで毒性のdriversを探索する。そんなところでしょうか。

ただEDAはルーティーンでやるのかな？かなり面倒な気が…。

2017-08-10

海外ポスドク目指して就活中～メール・Skype編～

日記研究生活・研究者・論文執筆など英語

去年学位をとったポスドクです。

今の契約は今年度末までなので、そろそろ次のポジションを確定させておきたいところです。

何も考えず自由に海外へ行けるのは今ぐらいしかなさそうだし、一度は行ってみたいので、海外就活を目指すことにしました（適当）。

本当は海外学振に出せればよかったのですが、応募時点では色々あって海外という選択肢の可能性が低かったため、出さず…。5月くらいにようやく「海外行くか」と意識が固まりました。

探してみると、海外学振以外にも応募できるfellowshipが複数。Marie-Curie Fellowshipとか。まずは受け入れてくれるボスにメールで打診することから始めました。メール作成には、次の2つのサイトを参考にしました（良い印象をもたれるポスドク応募メールを書く４つのポイント - アメリカポスドクの歩き方，Going abroad）。

下が送ったメール。

Dear Prof. XXXX,

My name is XXXX, a post-doctoral researcher at XXXXX, Japan. I would like to know is there an available post-doctoral position in your laboratory?

I received a Ph. D. degree last XXXX, and currently continue to work under the supervision of Dr. XXXX, as a postdoctoral fellow. During the Ph. D. period, I have gained professional experiences of XXXX, XXXX, and XXXX. After receiving Ph. D, I started to XXXX (and now submitted a paper on XXXX).

Prof. XXXX, I have read many papers by you and your co-workers, and am impressed with your academic works. I especially admire your works on XXXX (e.g., XXXX et al., 2011, YYYY; XXXX et al., 2015, YYYY). I believe your works will really XXXX. Thus, I hope to study XXXX in your laboratory as a post-doctoral fellow.

I understand that there may be no available funding for a new post-doctoral researcher. I will apply for Marie-Curie post-doctoral research fellowship (and other possible fellowships). I already confirmed on the website that your institute is eligible to host a Marie-Curie fellow. https://www.xxxx

I have attached my CV. I look forward to hearing from you. Thank you for your consideration.

Sincerely,

XXXX

英語が適切かどうかは分かりませんが、とりあえず返信をもらえたのでダメすぎることはないと思います…。

ありがたいことに、2日後には返信がもらえました！

で、早速Skypeで話をすることに。ただ1回目は、教授が電車での移動中にSkypeをしようとして電波が悪くて中止。2回目は、教授のOfficeからSkypeしてもらい、上手く話ができました。

すごく緊張したけど、良い人そうで話してるうちにリラックスできました。英語も心配だったけど、教授がゆっくり話してくれた上、依然としてSkypeのつながりが良くなかったのでそれを理由に何度も聞き返せたので、なんとかなりました。一安心。

話した内容は、割とネットで予習した通りでした。

・まず自己紹介（博士課程とポスドクでの研究内容）

・ポスドクで何をしたいか（自分の場合、対象とする生物種に拘りがあるかとか）

・教授のところでやっている研究について

・必要なスキル（プログラミングが出来るかとか）

・スケジュールについて（Fellowship締め切り、Proposal書いたらメールする）

自己紹介のところでは興奮して、ちょっと喋りすぎでした…。「あなたのグループのあの論文読んで…」みたいに言ったら「ちょっと待って、いっぱい論文出してるからどれのことか分からんけど…ちょっと落ち着いて」という感じ。

20~30分くらいであっという間でした。緊張したけど、実際に話せたことでやる気出てきました。

（追記）

続きのはなし→海外ポスドク目指しての就活～公募アプライ・Skype面接編～

2017-07-02

「化学の歴史」感想

本

全部読み通しました。が、ちょっと退屈だったかも。

研究の歴史を勉強するのは好きです。高校の時、村上陽一郎の「新しい科学論」というブルーバックスの本を読んでから。
科学史を知ると、今現在の科学が磐石ではないこと、これからダイナミックに変化していくだろうことを感じられてなんだか楽しい。

燃焼を説明するために、フロギストンという概念を産みだした結果、錆びの時にはフロギストンの質量が負、燃焼の時の質量は正になってしまったことを、中学生で勉強した時はバカみたいだなとぼんやり感じてました。しかし、ラボアジエが登場するまではそもそも正確な定量が重視されていなかったのだと筆者は書いていて（p. 67）、なるほどと思わされました。

動きが起きていて面白く感じたのは、ラボアジエ（1743～94）とトムソン（1856～1940）、ラザフォード（1871～1937）が居た時代あたり。
特に後者の原子の構造が理解されていく流れは、謎解き感があって良いです。多方面の実験結果や理論をもとに紆余曲折を経て、原子構造の理論が形成されていったのが分かります。

化学の歴史 (ちくま学芸文庫)

作者: アイザック・アシモフ,竹内敬一,玉虫文一
出版社/メーカー: 筑摩書房
発売日: 2010/03/12
メディア: 文庫
購入: 2人クリック: 14回
この商品を含むブログ (10件) を見る

化学史じゃないけど、最近一部で話題になっていた
いま敢えて問います。天動説と地動説、どちらが正しいと思いますか？（松浦壮） | 現代ビジネス | 講談社（1/3）も面白かったです。

2017-07-02

論文のメモ：トキシコゲノミクスのデータベースを生態毒性学に活用した例

論文生態毒性リスク

トキシコゲノミクス（toxicogenomics）は、トキシコロジー（toxicology, 毒性学）とゲノミクス（genomics, ゲノム学）をあわせた言葉で、遺伝子の変異や発現変動を網羅的に見ることで生体内で生じる毒性影響のメカニズムを理解しようという学問です。

Comparative Toxicogenomics Database (CTD) なるデータベースが、化学物質と関連する遺伝子およびパスウェイ・疾患のリストをまとめています。CTDはヒトやマウスだけでなく、色んな生物種を網羅しているので、生態毒性学にも活用できそうです。

「Comparative Toxicogenomics Database」

Davis A.P., Grondin C.J., Johnson R.J., Sciaky D., King B.L., McMorran R., Wiegers J., Wiegers T.C., and Mattingly C.J., 2017, The comparative toxicogenomics database: update 2017. Nucleic Acids Res., 45 (D1), D972-D978.

2017年のupdate版。

データはここで公開されています。ほぼ毎月updateされている模様。「Download」からcsvファイル等をダウンロードすれば、大規模データの解析もできます。

「環境中で採取した非モデル生物をシステムレベルで理解したい」

Williams T.D., Turan N., Diab A.M., Wu H., Mackenzie C., Bartie K.L., Hrydziuszko O., Lyons B.P., Stentiford G.D., Herbert J.M., Abraham J.K., Katsiadaki I., Leaver M.J., Taggart J.B., George S.G., Viant M.R., Chipman K.J., and Falciani F., 2011, Towards a system level understanding of non-model organisms sampled from the environment: a network biology approach. PLoS Comput Biol, 7 (8), e1002126.

7地点から採ってきたヒラメのメタボロームとトランスクリプトーム（＋αでバイオマーカーなど）を調べて、各地点の有害物質汚染との関連を考察した論文。

大昔に読んだときは理解できなかった部分がとても面白かったです。各地点で発現した遺伝子が一般にどのような化学物質によって引き起こされるかを、CTDで検索してます（表2）。MeV (Multiple experiment Viewer) を使って解析している様子。でも表2の導き方がいまいち分からない。Enrichment解析をしているが…。

このCTDによる検索の結果は必ずしも正しくない、ということもDiscussionで少し述べられてます。例えばCTDで「煙草の煙」が示唆されても、単純にAhR inducerかもしれない、とのこと。

「生物影響と汚染物質の関連付けをおこなう事前知識ベースの手法」

Schroeder A.L., Martinović-Weigelt D., Ankley G.T., Lee K.E., Garcia-Reyero N., Perkins E.J., Schoenfuss H.L., and Villeneuve D.L., 2017, Prior knowledge-based approach for associating contaminants with biological effects: A case study in the St. Croix River basin, MN, WI, USA, Environ. Pollut., 221, 427-436.

USEPA・USGSあたりのお仕事。既にここまでやられているとは…、ちょっと落胆。

下水処理施設の上流・下流の河川水を採取して、大規模な化学分析とファットヘッドミノーの遺伝子発現解析を実施しています。研究の構成はFig. 1に示されています。

自分の理解不十分なのか、ネットワークモデルを構築する意義が良く分からない。結局、1つの化学物質に対してCTD曰く関連のある遺伝子XXX個のうち、実際に発現変動した遺伝子がYYY個あって、その変動が有意かどうか、フィッシャーの正確率検定のようなもので判断しているだけでは？面白かったけれど、理解不十分。また読む必要あり。データ解析法の元ネタ論文（Catlett et al., 2013, BMC Bioinforma）を読んだ方が良いかな？

この研究のようなデータベースをもとにおこなう解析は、（まあ当然ではあるけど）研究の盛んな物質を重視する傾向があることもdiscussionで指摘されてます。

Szklarczyk D., Santos A., von Mering C., Jensen L.J., Bork P., and Kuhn M., 2015, STITCH 5: augmenting protein–chemical interaction networks with tissue and affinity data, Nucleic Acids Res., 44 (D1), D380-D384.

CTDと似たようなデータベース。STITCHはCTDからもデータを収集しているようです。とりあえずメモとして。

2017-06-22

右下腹部の違和感の原因

日記

右下腹部に鈍い違和感。走った後に脇腹が痛くなる感覚に似ているが、それよりも軽い痛み。

一度目は3か月くらい前。その時は、特に何もせず、4日間くらいで収まりました。

次は1週間くらい続いたので、お医者さんに診てもらいました。血液検査に尿検査、そしてCTスキャンまでやりました。

痛みの場所からして、盲腸もしくは尿管結石が疑われましたが…。

結局そのどちらでもなかったみたいです。血液中の白血球数（ＷＢＣ）などから、炎症が起こってないので、まあ大丈夫だろうと。CTスキャンでも特に異常が見られませんでした。

では何が起きてたのかと言うと、ただ「大腸にガスが溜まっていた」みたいです。CTスキャンで見ると、痛みの場所が黒くなっており、ガスが溜まってることが分かりました。

その当時の生活から推測すると、たぶん座り過ぎがガス溜まりの原因でしょう。論文書きなどで長時間椅子に座りっぱなしで動かなかったので…。お医者さんに行ってから、1時間に1回ほどは席を立って動くようにしたところ、違和感はなくなりました。

しかし、こんな簡単なことが原因だとは思わなかったです。大したことない症状で医者に行ってちょっと恥ずかしい…。

2017-06-15

リアルタイムPCRで発現量比の差を解析する統計的手法

分子生物学論文実験統計

リアルタイムPCRで発現解析時の統計手法

遺伝子Aの発現量が条件αと条件βで変わらないかどうか、リアルタイムPCRで調べたい。そんなときの話です。

複数のハウスキーピング遺伝子のCt値（あるいはCp値）と遺伝子AのCt値との差（＝ΔCt）を条件α・βごとに求めて、さらに各条件でのΔCtの差（＝ΔΔCt）を求める。ΔΔCtが0なら条件間での発現量に差はない。ざっくり書くとこんな感じが一般的な方法でしょう（Livak法あるいはPfaffl法）。

しかし「ΔΔCtが0である」ことが統計的に有意かどうか、どのように判断するのがベストなのでしょう？

ネットで見つけた回答

似たようなことはやはり皆考えてるようで、researh gateで同じような質問が複数見つかりました。

1. Which_statistical_analysis_significance_tests_must_to_be_perform_for_relative_RT-qPCR_experiments

2. Does_anyone_know_how_to_determine_the_significance_of_differential_gene_expression_using_RT-qPCR_data

1では「ΔCtは正規分布するので、ΔCtに対してt検定をしろ」と言うのがpopular answerになっています。さらにBioconductorのLimmaパッケージによるmoderated t-testを薦めてます。ちなみにGoni et al. (2009) もlimmaをお薦めしてます。

2では「t検定の仮定（正規性・等分散性）を満たせばt検定を使い、仮定を満たさなければWilcoxonの順位和検定を使うか、対数変換などによって仮定を満たすようデータをいじってからt検定をするかだ」との回答がpopular answerです。

この2のやり方は、2段階の検定の問題がありそうです（参考：井口研究室ブログ: 正規性検定をノンパラメトリック検定の選択基準にするな）*1。なので、1のようにΔCtがどのような分布をとるのか予め理屈から考えておき、それに基づき統計手法を選択するというスタンスが好ましいでしょう。

また、N<5の少数サンプルの場合には、正規性の検定をすること自体が正直ナンセンスな気がします。直感で書いているので、特に根拠はないですが…。

どのような確率分布を仮定すべきか

では、1の言う「ΔCtは正規分布に従う」説は正しいのか。

自信はないですが、それなりに妥当だと思います。遺伝子の発現量はたぶん対数正規分布に従い、またcDNA濃度の対数とCt値は線形関係です。なので、Ct値は正規分布でしょう。正規分布の差は正規分布なので、ΔCtも正規分布に従うはずです。

ただ、サンプルや対象遺伝子の性質によっては正規分布の仮定を置くのが妥当ではないかもしれません。Tichopad et al. (2009, Clinical Chem, 55:10) がDiscussionで同様のことを述べてます。いわく"Cq values obtained with samples of solid tissues are commonly assumed to be normally distributed, but to our knowledge, the validity of this assumption has yet to be demonstrated"とのこと。もっとも最新の知見では、より明確なことが分かってるかも。

正規分布に従うと仮定できるなら、ΔCtの差をt検定やANOVAで調べるのも妥当ですね。ただどういう場合にその仮定が妥当なのか、それが良く分からない。繰り返しますが、別に自信を持って書いているわけではないです…。詳しい人が見てましたら、ぜひ教えてください…。

(追記 2018.10.22)

読み返してみて気付きましたが、ΔCtに対するt検定は増幅効率の異なるPCR産物には適用できませんね。この場合、Pfaffl法で相対発現量に変換してから検定をおこなうのが妥当でしょうか。

実験操作のばらつきを考慮したモデルで解析できないか？

ここからは、考えがまとまっていないつぶやき。

もう一歩進んで、抽出・逆転写・PCRなど実験操作による誤差も考慮したうえで有意差の検定をできないものでしょうか。下の論文での線形回帰モデルは、それに近いんですが、ΔΔCt法と絡める方法はちょっと思いつかない。特に複数のreference genesのΔCtをもとに標準化する場合。

Tichopad A., Kitchen R., Riedmaier I., Becker C., Ståhlberg A., and Kubista M., 2009, Design and optimization of reverse-transcription quantitative PCR experiments, Clinical Chem., 55 (10), 1816-1823.

*1:もっと言うと、「少数サンプルの時はWilcoxonを使うと良い」との記述は良く分からない。少数サンプルでノンパラ検定をおこなうと検出力がかなり低くなるはず。少数サンプルはそういうもんだという意味なのか…？また等分散の仮定はWelchのt検定なら不要？

2017-05-22

論文のメモ: 28S rRNAのhidden breakについて

論文分子生物学

一部の生物種は、28S rRNAの真ん中あたりに切れ目が入っていることをこの記事に書きました。その切れ目はhidden breakと呼ばれ、28S rRNAが分裂するときに一部の塩基が消失することはgap deletionと呼ばれているみたいです。

今回は、hidden breakについて少し文献を読んだので、ここにまとめます。

「ハダカデバネズミは分裂する28S rRNAを持ち、正確なタンパク翻訳をおこなう」

Azpurua J., Ke Z., Chen I.X., Zhang Q., Ermolenko D.N., Zhang Z.D., Gorbunova V., and Seluanov A., 2013, Naked mole-rat has increased translational fidelity compared with the mouse, as well as a unique 28S ribosomal RNA cleavage, PNAS, 110 (43), 17350-17355.

なんとなく、すごく読みやすかった論文。

28S rRNAにhidden breakがあると報告されている生物種は、昆虫や甲殻類が多いみたいですが、ハダカデバネズミにもhidden breakがあるようです。28S rRNAの分裂はリボソームの構造に影響するので、タンパクの合成速度と忠実度（fidelity）も影響を受けるだろうと仮説を立てて、ハダカデバネズミの翻訳速度とfidelityをhidden breakがないマウスのそれと比較しています。

結果、翻訳速度はマウスと同じだったけど、ルシフェラーゼアッセイで測定した翻訳のfidelityはマウスよりも高かったそうな。Hidden breakの存在とfidelityとの関係は直接調べたわけではないのでそのあたりは強引な論文ですが、ハダカデバネズミを用いてる点がPNASに載る所以でしょうか…。

「哺乳類の28S rRNAにおける新規のプロセッシング」

Melen G.J., Pesce C.G., Rossi M.S., and Kornblihtt A.R., 1999, Novel processing in a mammalian nuclear 28S pre‐rRNA: tissue‐specific elimination of an ‘intron’bearing a hidden break site, EMBO J, 18 (11), 3107-3118.

上の論文で引用されてた、哺乳類でも28S rRNAのhidden breakが見つかった例。今のところ哺乳類でhidden breakが見つかったのは、上の論文のハダカデバネズミとこの齧歯類だけみたいです。

面白いのが、睾丸testisのみでhidden breakのない28S rRNAも見つかっている点。他の部位ではイントロン?のところでhidden breakが生じるのに対して、testisではイントロンが除去されてhidden breakが生じない、ということ。そのあたりのメカニズムは良く分かってないみたいです。

「アルテミアとプラナリアの28S rRNAにおけるgap region」

Sun S., Xie H., Sun Y., Song J., and Li Z., 2012, Molecular characterization of gap region in 28S rRNA molecules in brine shrimp Artemia parthenogenetica and planarian Dugesia japonica, Biochem, 77 (4), 411.

上に書いた哺乳類ではD6領域にhidden breakがありますが、他の昆虫や甲殻類ではD7a領域にhidden breakがあるそうです。

この論文は、2生物種のD7a領域のgap region近くをシーケンスしたものです。Terminal deoxynucleotidyl transferaseでcDNAの3末端にpolyG配列を付与して、その配列をもとに28S rRNAの片割れを読む手法など参考になりそう。

28S rRNAのD7a領域内のUAAUという配列が、hidden breakを持つ種に共通しているという知見があったけれど、この論文で調べたアルテミアにはUAAU配列は存在しなかったそうです。

「シロイヌナズナ葉緑体23S rRNAのhidden break形成にはDEAD box proteinが必要」

Nishimura K., Ashida H., Ogawa T., and Yokota A., 2010, A DEAD box protein is required for formation of a hidden break in Arabidopsis chloroplast 23S rRNA, Plant J, 63(5), 766-777.

今度は植物の葉緑体。28Sではなく23S。詳しくは読んでません。後で追記するかも。hidden breakのメカニズムについて。

「トビケラの絹糸腺リボソームのキャラクタリゼーション」

Nomura T., Ito M., Kanamori M., Shigeno Y., Uchiumi T., Arai R., Tsukada M., Hirabayashi K., and Ohkawa K., 2016, Characterization of silk gland ribosomes from a bivoltine caddisfly, Stenopsyche marmorata: translational suppression of a silk protein in cold conditions, Biochem. Biophys. Res. Commun., 469 (2), 210-215.

こちらもメモ。

トビケラの28S rRNAもD7a領域にhidden breakがあるみたいです。面白いのが、冬にだけ80Sリボソームが分裂してしまうこと。冬は転写活性を抑えるために28S rRNAのhidden breakが発生するのではないか、と考察されてます。

あと、hidden breakとL23a proteinが関係しているかも、という話も始めて知りました。

（追記 2018.02.03）

L23a proteinとhidden breakについて。元ネタのRoss et al. (2007, Nucl Acids Res, 35) をざっと読みましたが、L23aがhidden breakを引き起こしている、というレベルの知見ではなさそう。L23aとリボソームの位置関係と、Hidden breakを持つ昆虫などがL23aに特徴的なドメイン（Histon H1-like domain）を持っていたという系統関係とをもとに考察されただけ？上のNishimura et al. (2016) ほど因果関係を詰めているわけではない。

（追記 2018.06.12）

「菌類における26S rRNAの転写後marurationの同定」

Navarro-Ródenas A., Carra A., and Morte A., 2018, Identification of an alternative rRNA post-transcriptional maturation of 26S rRNA in the kingdom fungi, Frontiers Microbiol, 9.

菌類でhidden breakが見つかったよ、という報告。Desert truffles（砂漠のトリュフ？）の3種で26S rRNAのhidden break周りの塩基配列を読んでいます。

備忘録 a record of inner life

やったことや考えたこと・本・論文・音楽の備忘録。特に環境科学・生態毒性に関して。