備忘録 a record of inner life

やったことや考えたこと・本・論文・音楽の備忘録。 特に環境科学・生態毒性に関して。

論文のメモ: 底質汚染に対するヨコエビの感受性

論文のIntroductionに「底質汚染に対するヨコエビの感受性は高いよ」と書こうとしたけど、意外と根拠になるデータがぱっと思いつかず…。正当化できそうな論文を探してみました。 今更ながら。古い論文多め。

 

「サンフランシスコ湾のDDT・ディルドリン汚染地点における底質毒性とヨコエビ密度

Swartz R.C., Cole F.A., Lamberson J.O., Ferraro S.P., Schults D.W., Deben W.A., Henry L., and Ozretich R.J., 1994, Sediment toxicity, contamination and amphipod abundance at a DDT‐and dieldrin‐contaminated site in San Francisco Bay, Environ. Toxicol. Chem., 13 (6), 949-962.

もう20年以上前の論文。昔ちら見したけど、全く内容を覚えてなかった。

カリフォルニアの水路でDDTやディルドリンで汚染された底質をサンプリングし、底生生物叢の調査、化学分析と、ヨコエビE. estuarusの底質毒性試験をおこなった研究。DDTというのが時代を感じさせます。データは結構豊富で、他の生物種の毒性値を使って、底質中物質のTU(固相, 間隙水ともに)を出すなどの力技もしている印象。

野外ヨコエビ密度とlab試験の生存率は、DDT濃度と高い相関を示しているというのがメインン結論。底質中DDT濃度と他種ヨコエビのLC50値を比較して、DDTが怪しいぞ、という話。他の分類群の生物と比較してないので、記事の冒頭の答えにはなってなかったです。

あと、野外で集めたヨコエビのうちGrandidierella japonicaという種のみ、生息密度がDDT濃度と正の相関を示したそうです。室内の生存試験ではG. japonicaの感受性はそれほど低いわけでもないのに、このような結果が出たのは面白い。

 

ヨコエビは原油流出が底生生物叢に及ぼす影響を測る良い指標生物

Gesteira J.G. and Dauvin J.C., 2000, Amphipods are good bioindicators of the impact of oil spills on soft-bottom macrobenthic communities, Mar. Pollut. Bull., 40 (11), 1017-1027. 

1992年スペイン北西沿岸で起きた原油流出事故後の底生生物叢の変化を4年間調べた論文です。詳しくは読んでません。

多毛類は事故後もそれなりに数を保っているど、端脚類ヨコエビは3年目まで中々数が増えない。このような野外調査の話は全然分からないけど、日和見的な多毛類?の存在など面白かったです。データ量はありそうなのに、abundanceの解析メインで多様性の解析とかはしてないのかな(自分が分かってないだけでしているのか?)。

 

「1980年~1983年における南カリフォルニア沿岸での底質環境の変化

Swartz R.C., Cole F.A., Schults D.W., and DeBen W.A., 1986, Ecological changes in the Southern California Bight near a large sewage outfall: benthic conditions in 1980 and 1983, Mar. Ecol. Progress Ser., 31 (1), 1-13. 

 いちばん上のSwartz et al. (1994) と同じEPAグループの論文。野外調査についてよく分かってないので、書いてることを鵜呑みにする読み方しかできてません。1971年以降、湾への汚水の排出量が減少したので、その効果が底質中の有害物質量や底生生物量、種数、そして底質毒性(ヨコエビ10-d試験で評価)にあらわれているかどうか、調べてます。

結果はあまりキレイではなくて、こういう野外調査って大変だなぁと思いました(小並感)。排水の流入地点付近では、soecies richnessやbiomassが増えて、感受性の高い種が戻ってきてたそうです。

 

 

Long E.R., Buchman M.F., Bay S.M., Breteler R.J., Carr R.S., Chapman P.M., Hose J.E., Lissner A.L., Scott J., and Wolfe D.A., 1990, Comparative evaluation of five toxicity tests with sediments from San Francisco Bay and Tomales Bay, California, Environ. Toxicol. Chem., 9 (9), 1193-1214. 

5種の底質バイオアッセイ論文。イガイ・ヨコエビ2種・ウニ・多毛類。

 

 

記事の冒頭のような主張をするには、どの論文もちょっと弱いです。シンプルに、「底質汚染と関連してヨコエビ数の減少が報告されている」くらいのことしか書けないかも。他の種と比較してどうこうっていうのは、やはりきちんとしたデータがないと中々言えない。

非モデル生物のGO enrichment analysisをGOseqでおこなう

RパッケージのGOseq。日本語でも、GOseqの使い方の説明はネット上に散見されます。ただ、多くはヒトなどゲノム情報が手に入る生物種を対象にしていて、いわゆる非モデル生物の場合の説明は見かけません。マニュアルを見ても、コードの例までは書いてません。

 

そこで、非モデル生物の場合のenrichment analysisのコード例を以下に書いておきます。

まずBioconductorからGOseqパッケージをインストールします。そして以下を実行。始めにデータセットを作ります。非モデル生物の場合は、GOをあらかじめBlast2GOなどのソフトで取得しておく必要があります(ここでは適当に設定)。

library (goseq)

map_test <- list( gene1=c("GO:0050790","GO:0004197"), gene2=NA, gene3=NA, gene4=c("GO:0005975","GO:0004553"),gene5=NA,gene6= c("GO:0005975") , gene7=c("GO:0005975"), gene8=NA, gene9=c("GO:0004553"), gene10= c("GO:0004553") )

genelist_test <- data.frame( DEgenes=c(1,0,1,0,1,0,1,0,1,1), bias.data = c(500,6110,2000,410,600, 1000, 4500,1200,400,8010)  )  

## DEgenesは発現変動したかどうか(1なら変動)を示す

## bias.dataは遺伝子長

 rownames(genelist_test)<-c( "gene1", "gene2", "gene3", "gene4", "gene5", "gene6","gene7", "gene8", "gene9", "gene10" )

次に長さの補正。

pwf_test <- nullp(genelist_test[,1], bias.data=genelist_test[,2]) 

rownames( pwf_test) <- rownames(genelist_test)

 

最後にgoseq関数でenrichment analysisをおこなう。 ここでuse_genes_without_catの引数をTRUEに設定することが、ゲノム情報のない生物での解析のポイント。

result <- goseq (pwf = pwf_test, gene2cat = map_test , use_genes_without_cat = TRUE, method = "Wallenius")  

なおmethodにWallenius分布以外を用いれば、特に遺伝子長は関係ないので、nullp関数の下りはなくてもenrichment解析ができます(pwf_test <- nullp (...)のコードを飛ばして、最後にgoseq (pwf = genelist, ...)と書く)。

 

結果。 

> result
category over_represented_pvalue under_represented_pvalue numDEInCat numInCat term ontology
1 GO:0004197 0.6636645      1.0000000       1    1    cysteine-type endopeptidase activity MF
4 GO:0050790 0.6636645      1.0000000       1    1    regulation of catalytic activity BP
2 GO:0004553 0.7150671      0.7978634       2    3    hydrolase activity, hydrolyzing O-glycosyl compounds MF
3 GO:0005975 0.9661791      0.3357600        1    3    carbohydrate metabolic process BP

 

 

参考にしたページ:Using goseq on non-model organism - how to define genome?

論文のメモ: 複合影響とtoxicogenomics

「トキシコゲノミクスから観た複合影響

Altenburger R., Scholz S., Schmitt-Jansen M., Busch W., and Escher B.I., 2012, Mixture toxicity revisited from a toxicogenomic perspective, Environ. Sci. Technol., 46 (5), 2508-2522.

総説。勉強会のために読み直してみました。”While the number of mixture studies performed seems quite impressive, none of them explicitly tested mixture hypotheses.”と書いてあるように、この総説を読んでも複合影響のメカニズムは「?」な感じです。

研究状況を知るには良い論文(ちょっと古いかもしれないけれど)。河川水や汚染底質などの環境試料に曝露させた生物のmolecular responseを調べた論文は本当に少なくて(表4)、7つしか挙げられてません。金属類やいわゆる環境ホルモンは、比較的研究が多めです。

 

「ユスリカに対するパーメスリンとCdの複合影響

Chen X., Li H., and You J., 2015, Joint toxicity of sediment-associated permethrin and cadmium to Chironomus dilutus: The role of bioavailability and enzymatic activities, Environ. Pollut., 207, 138-144.

ピレスロイド系殺虫剤のパーメスリンとCdとは拮抗作用を示したが、それは生物体外における影響(bioavailablity変化)ではなくて、生体内での影響だろうとのこと。Cdの添加によって、抱合酵素のGST(glutathione S-transferase)とカルボキシルエステラーゼの活性が促進されて、パーメスリンの解毒も促進されたのではないか、という考察。ざっとしか読めてませんが、複合影響のメカニズムを考察する例として理解しやすい論文です。本当にこれで十分かどうかは、ちょっと分かりませんが。

続報もありました。co-exposure時のぺーメスリン取り込み量の経時変化などを見ています。

 

論文のメモ: 環境DNAを用いた遺伝的多様性の解析

「環境DNAから推察されるジンベエザメ集団の特性

Sigsgaard E.E., Nielsen I.B., Bach S.S., Lorenzen E.D., Robinson D.P., Knudsen S.W., Pedersen M.W., Jaidah M.A., Orlando L., Willerslev E., Møller P.R., and Thomsen P.F., 2016, Population characteristics of a large whale shark aggregation inferred from seawater environmental DNA, Nature Ecol.  Evol., 1, 0004.

500 mL(×3 replicates)の水から、ジンベエザメミトコンドリアDNA(412 bp, 476-493 bp)の変異を解析した論文。環境DNA(eDNA)って生物種数やバイオマスの調査だけでなくて、遺伝的多様性の解析にも使えるんですね。考えてみれば当然の話かもですが。

 

「人工知能は人間を超えるか」感想

帰省中の新幹線で読みました。

感想はずばり「ディープラーニングすごい」。

従来の機械学習ではどのような特徴量(=説明変数)を用いるかを人間が最終的に設計しなければならなかったのに対し、ディープラーニングは自ら重要な特徴量を設計できるそうです。

例えば、従来の機械学習で猫の画像を認識するためには「耳が2つあってヒゲが生えてて…(適当)」のような判断基準を人間が設定し無ければならなかったのに対し、ディープラーニングではその特徴の把握を自動的にしてくれるみたい(たぶん)。データを与えられると、「猫(の画像)」「人間(の画像)」という概念を自動的に獲得していくので、あとは「その概念は人間の世界で『猫』というものだよ」と教えてもらえればOKだというのです。

ディープラーニングアルゴリズムは分かったような、分からないような感じですが、そのインパクトの凄さは伝わりました。

 

自分の人工知能の理解は、上でいう従来の機械学習で完全に止まってました。理論も勉強したいけれど、Rやpythonで気軽にディープラーニングの実装ができるみたいなので、まず動かして遊んでみます。

 

人工知能は人間を超えるか (角川EPUB選書)
 

 

去年の振り返りと2017年にやりたいこと

去年の始めに2016年の目標を書きました(去年の振り返りと 2016年にやりたいこと)。それが実際、どれだけ達成されたのかチェックしてみました。

 

 

  • 目標2:論文2本。自分の本筋の研究と、T君のデータを解析したもの。
  • 結果2:△。自分の研究から1本はpublished、1本はunder revision。T君のデータ解析論文はまだ自分の手元。

 

  • 目標3:博士修了後は、博士論文の延長上の研究をしつつ、遺伝生態学と遺伝子発現、個体群動態あたりを考慮した研究の土台作りみたいなのをやりたい。
  • 結果3:△。自分で書いておいてなんだけど、目標がちょっと欲張り過ぎ…。博士論文の単純な延長ではない遺伝子発現に関する研究はできてるので、まあいっか。

 

 

  • 目標5:就職先/留学先を探す。
  • 結果5:✖。これは全然できてません。JREC-INとかに登録してるぐらい。

 

2016年は、プライベートでも色々変化があって充実してたかな。しかし、まるまる博士論文の執筆に充てられていた数カ月間は、記憶が薄れている…。

 

 

上記の現状を踏まえて、2017年のざっくりとした目標を。

  • 就職先を探す。2018年3月には学振が切れるので、今度は本当に探さないとダメ。
  • 学会やセミナーなど外に顔を出す。
  • 博士課程の内容を投稿論文として外に出し切る。
  • 博士後の仕事もアウトプットする。
  • NGSでの解析をもうちょっと続けたい。面白い。
  • できれば、データ解析dry系の仕事もしたい。大局的な視点を得られるような。
  • 勉強する内容は2016年を踏襲。
  • プライベートでは、昨年は身近な人に助けてもらいっぱなしだったので、今年は自分で色々解決できるようにしたい。
  • ランニングを続ける。週1回。

 

具体的に書く。

  • 行きたい学会は、生態学会大会(3月@東京)もしくは水環境学会年会(3月@熊本)・NGS現場の会(5月@仙台)・環境化学会(6月@静岡)・水環境学会シンポジウム(9月@和歌山)・環境毒性学会(9月@東京?)・SETAC NA(11月@ミネソタ*1)あたり。
  • 博士課程の成果に関して。現在revision中の論文は年度内にacceptまでもっていく。T君のデータ解析論文は、1月中には原稿を共著者に回す。あとの博士課程でのデータ残りは、さらなるデータ追加をおこなわないと投稿論文にはならなそう。こつこつ実験していく必要あり。夏まではデータ追加の段階かな。
  • 博士後の仕事。こっちが本業なので、手は休めず進めたい。とりあえず1本は投稿論文としてまとめる。3月頃には投稿までもっていきたい。
  • インプットしたいのは引き続き、遺伝生態学バイオインフォマティクス機械学習(深層学習含む)。教科書は『保全遺伝学入門』『バイオインフォマティクス ゲノム配列から機能解析へ』『ゼロから作るDeep Learning』を考えています。

 

*1:SETAC Europeに行きたいけど、締め切りまでに出せるネタがない。

論文のメモ: de novo RNA-seqとマーカー遺伝子探索

国環研で使わせてもらった次世代シーケンサー。N先生のご好意により無償で使わせていただけました。N先生はすごい太っ腹というか、商売っ気がない?感じで、「お試しだから別に良いよ」と言ってましたが、やはりN先生にとってもプラスになる形で成果を出しておきたい。あまりだらだら長引かせると宙ぶらりんになりそうなので、早く論文としてまとめたい。といって、全く無意味な論文にもしたくないので、どういう風に論文としてまとめようかを思案中。

下の論文は参考になりそうなまとめ方。結局、今回のデータはマーカー遺伝子の探索に落ち着けるのが良さそう。

 

 

二枚貝におけるカドミウム曝露関連遺伝子の転写産物のシーケンシングによる同定

Zhang J., Li H., Qin Y., Ye S., and Liu M., 2016, Identification of functional genes involved in Cd 2+ response of Chinese surf clam (Mactra chinensis) through transcriptome sequencing, Environ. Toxicol. Pharmacol., 41, 113-120.

カドミウムに曝露させたバカガイのde novo transcriptomeをおこない、MnSODなどの抗酸化酵素やHSP22、CYP2C31などを探索した論文。

まずblastで検索。全体の37.7%しか相同性のある配列はヒットしなかったそうです。その原因として考えられるのは、アセンブリされたcontigの短さ(300 bp前後がほとんど)と、そもそも保存されている配列が少ないかもという可能性。

次にHSP22、CYP2C31などの配列に対してプライマーを作成し、泳動後切り出し、サンガーシーケンサーアセンブリ配列が正しいかどうか確認。最後に、複数のCd濃度に曝露させる実験を追加して、β-アクチンをコントロールとしたバイオマーカー遺伝子のdose-reponseカーブを作成。

 

「ボタンにおける銅耐性関連遺伝子のde novoシーケンシングと発見

Wang Y., Dong C., Xue Z., Jin Q., and Xu Y., 2016, De novo transcriptome sequencing and discovery of genes related to copper tolerance in Paeonia ostii, Gene, 576 (1), 126-135.

DEGのGO解析結果からどういう機能が主に変動してるかを見て、その結果からマーカー候補を決めるという流れのは良い。始めからこの遺伝子とこの遺伝子を探そうという決め打ちよりも、このような流れの方がNGSをおこなった説得力がある。

 

 

しかし、こういうデータを提供するものとしての研究論文はいずれ人工知能にとってかわられていくのかも…。

DDBJ pipelineの高次解析

前回の続き。blastxに時間かかり過ぎのため、現在linux PCを他の用途に使えません。

 

「次世代シークエンス解析スタンダード」(羊土社)という本を読んでたら、遺伝研のスパコンを使って解析できる、という話が。「うちのlinuxと遺伝研のスパコンとの2台使いでバリバリ解析できるぞ~」と思い、DDBJ read annotation pipelineに登録。アセンブリなどは既に終了してるので、blastなどの高次解析が主目的です。高次解析部分はPitagora Galaxyというインタフェース?を通しておこなうらしい。なのでこのサイトの説明に従い、良く分からぬまま仮想環境を構築してPitagora galaxyにアクセスしました。

 

しかし、blastなどの高次解析ツールが見当たらない…? 説明と違う…?

検索してみると、こんな文章が。

DDBJ Pipeline高次部はPSUのgalaxy interfaceを用いて開発されており、遺伝研スパコン上のウェブサービスとして提供して来ました。
しかし高次部ユニーク利用者数は近年減少傾向にあります(2015年度DNAデータ利用研究委員会報告書、Pipeline利用統計(追加資料)参照)。
そこで、ユニーク利用者数が増えている基礎部に計算機資源を絞り、高次部はPitagora galaxy VMをローカルPC環境で実行して頂くようウェブサービス形式からアプリケーション配布形式に移行致します
[2015年12月DDBJ開発,文責 遺伝研神沼]。

これは、高次解析は自分のPC上でおこなえよ、という意味ですよね?時間かけてデータをFTP転送したり、仮想環境構築したり、色々したけども無駄でした。

 

てことで、どうしようか考え中。データ量的に普段使ってるwindows 8での解析はキツいのか? 上記の簡易なread annotation pipelineではなくて、少し面倒だけど正式に遺伝研スパコンのユーザー登録をしてみようかな。

 

 

(追記2016.12.17)

結局blastはWindowsでおこないました。Swissprotくらいのデータべースサイズなら、80k readsのデータでも約12時間で終了しました。問題はnrなどのデカいデータベースを使うときで、その時はやはり遺伝研のスパコンを借りた方がよさそう。

 

blast+の計算時間

12/6(火)からlinuxコマンドライン上でlocal blastxをおこなってますが、まだ終わらない…。こんな感じのコマンドを入力してから、もうじき7日経ちます。

blastx -query Trinity.fasta -db nr -max_target_seqs 2 -outfmt 5 -evalue 1e-05 -num_threads 6 -out out_nr.xml

 

海外の掲示板を見ると*1、「小さいマシンなら20k proteinのblastpは7~14日で終わる」と言ってます。たぶんCPU8とかの普通のパソコンの話。別のページでは「30kの核酸配列をnrデータベースでblastxすれば10日はかかる」とのこと。自分のデータは約80kなので、もっと時間がかかるかな…。11月中旬に、ほぼ同じ条件でntを対象にblastnをした時は一晩で終わったのに、nrとntでこれほど違うのか。

 

 

time blastx -query ......

このtimeコマンドでblastxの計算時間を見てみようとしたのですが、このコマンドだけで3時間もかかっていたのでイラついて止めちゃいました。

*1:掲示板へのリンクを貼るとBad requestと出てブログが更新できません。

論文のメモ: 廃水に曝露させたミジンコの発現変動遺伝子

「ゴム廃水曝露ミジンコにおける発現変動遺伝子の定量化

Jo H.J. and Jung J., 2008, Quantification of differentially expressed genes in Daphnia magna exposed to rubber wastewater, Chemosphere, 73 (3), 261-266. 

卒論生のT君の参考にできそう(うちの専攻は卒論提出が2月初旬で遅い)。たいした論文ではないけど、内容のシンプルさと対象遺伝子の生物学的な議論をほとんどしてないという点(曝露のマーカーとして遺伝子発現を使おうとしてる点)で、うちの専攻の卒論生に向けた参考文献としては適当かも。

DD-PCR (differential dislay-PCR) の一種ですがACP (annealing control primer) というエラーが生じにくいプライマーを使って、オオミジンコのマーカー探索をおこなった論文。ゴム廃水と亜鉛溶液とに曝露させて、計2つのマーカーの用量応答関係をqPCRで評価したもの。

 

 

ACPの論文は下。アブストくらいしか読んでませんが、イノシン塩基配列(poly dI)を含むプライマーを使うみたいです。

Hwang I.T., Kim Y.J., Kim S.H., Kwak C.I., Gu Y.Y. and Chun J.Y., 2003, Annealing control primer system for improving specificity of PCR amplification, Biotech., 35 (6), 1180-1191.