備忘録 a record of inner life

やったことや考えたこと・本・論文・音楽の備忘録。 特に環境科学・生態毒性に関して。

論文のメモ: 環境DNAを用いた遺伝的多様性の解析

「環境DNAから推察されるジンベエザメ集団の特性

Sigsgaard E.E., Nielsen I.B., Bach S.S., Lorenzen E.D., Robinson D.P., Knudsen S.W., Pedersen M.W., Jaidah M.A., Orlando L., Willerslev E., Møller P.R., and Thomsen P.F., 2016, Population characteristics of a large whale shark aggregation inferred from seawater environmental DNA, Nature Ecol.  Evol., 1, 0004.

500 mL(×3 replicates)の水から、ジンベエザメミトコンドリアDNA(412 bp, 476-493 bp)の変異を解析した論文。環境DNA(eDNA)って生物種数やバイオマスの調査だけでなくて、遺伝的多様性の解析にも使えるんですね。考えてみれば当然の話かもですが。

 

「人工知能は人間を超えるか」感想

帰省中の新幹線で読みました。

感想はずばり「ディープラーニングすごい」。

従来の機械学習ではどのような特徴量(=説明変数)を用いるかを人間が最終的に設計しなければならなかったのに対し、ディープラーニングは自ら重要な特徴量を設計できるそうです。

例えば、従来の機械学習で猫の画像を認識するためには「耳が2つあってヒゲが生えてて…(適当)」のような判断基準を人間が設定し無ければならなかったのに対し、ディープラーニングではその特徴の把握を自動的にしてくれるみたい(たぶん)。データを与えられると、「猫(の画像)」「人間(の画像)」という概念を自動的に獲得していくので、あとは「その概念は人間の世界で『猫』というものだよ」と教えてもらえればOKだというのです。

ディープラーニングアルゴリズムは分かったような、分からないような感じですが、そのインパクトの凄さは伝わりました。

 

自分の人工知能の理解は、上でいう従来の機械学習で完全に止まってました。理論も勉強したいけれど、Rやpythonで気軽にディープラーニングの実装ができるみたいなので、まず動かして遊んでみます。

 

人工知能は人間を超えるか (角川EPUB選書)
 

 

去年の振り返りと2017年にやりたいこと

去年の始めに2016年の目標を書きました(去年の振り返りと 2016年にやりたいこと)。それが実際、どれだけ達成されたのかチェックしてみました。

 

 

  • 目標2:論文2本。自分の本筋の研究と、T君のデータを解析したもの。
  • 結果2:△。自分の研究から1本はpublished、1本はunder revision。T君のデータ解析論文はまだ自分の手元。

 

  • 目標3:博士修了後は、博士論文の延長上の研究をしつつ、遺伝生態学と遺伝子発現、個体群動態あたりを考慮した研究の土台作りみたいなのをやりたい。
  • 結果3:△。自分で書いておいてなんだけど、目標がちょっと欲張り過ぎ…。博士論文の単純な延長ではない遺伝子発現に関する研究はできてるので、まあいっか。

 

 

  • 目標5:就職先/留学先を探す。
  • 結果5:✖。これは全然できてません。JREC-INとかに登録してるぐらい。

 

2016年は、プライベートでも色々変化があって充実してたかな。しかし、まるまる博士論文の執筆に充てられていた数カ月間は、記憶が薄れている…。

 

 

上記の現状を踏まえて、2017年のざっくりとした目標を。

  • 就職先を探す。2018年3月には学振が切れるので、今度は本当に探さないとダメ。
  • 学会やセミナーなど外に顔を出す。
  • 博士課程の内容を投稿論文として外に出し切る。
  • 博士後の仕事もアウトプットする。
  • NGSでの解析をもうちょっと続けたい。面白い。
  • できれば、データ解析dry系の仕事もしたい。大局的な視点を得られるような。
  • 勉強する内容は2016年を踏襲。
  • プライベートでは、昨年は身近な人に助けてもらいっぱなしだったので、今年は自分で色々解決できるようにしたい。
  • ランニングを続ける。週1回。

 

具体的に書く。

  • 行きたい学会は、生態学会大会(3月@東京)もしくは水環境学会年会(3月@熊本)・NGS現場の会(5月@仙台)・環境化学会(6月@静岡)・水環境学会シンポジウム(9月@和歌山)・環境毒性学会(9月@東京?)・SETAC NA(11月@ミネソタ*1)あたり。
  • 博士課程の成果に関して。現在revision中の論文は年度内にacceptまでもっていく。T君のデータ解析論文は、1月中には原稿を共著者に回す。あとの博士課程でのデータ残りは、さらなるデータ追加をおこなわないと投稿論文にはならなそう。こつこつ実験していく必要あり。夏まではデータ追加の段階かな。
  • 博士後の仕事。こっちが本業なので、手は休めず進めたい。とりあえず1本は投稿論文としてまとめる。3月頃には投稿までもっていきたい。
  • インプットしたいのは引き続き、遺伝生態学バイオインフォマティクス機械学習(深層学習含む)。教科書は『保全遺伝学入門』『バイオインフォマティクス ゲノム配列から機能解析へ』『ゼロから作るDeep Learning』を考えています。

 

*1:SETAC Europeに行きたいけど、締め切りまでに出せるネタがない。

論文のメモ: de novo RNA-seqとマーカー遺伝子探索

国環研で使わせてもらった次世代シーケンサー。N先生のご好意により無償で使わせていただけました。N先生はすごい太っ腹というか、商売っ気がない?感じで、「お試しだから別に良いよ」と言ってましたが、やはりN先生にとってもプラスになる形で成果を出しておきたい。あまりだらだら長引かせると宙ぶらりんになりそうなので、早く論文としてまとめたい。といって、全く無意味な論文にもしたくないので、どういう風に論文としてまとめようかを思案中。

下の論文は参考になりそうなまとめ方。結局、今回のデータはマーカー遺伝子の探索に落ち着けるのが良さそう。

 

 

二枚貝におけるカドミウム曝露関連遺伝子の転写産物のシーケンシングによる同定

Zhang J., Li H., Qin Y., Ye S., and Liu M., 2016, Identification of functional genes involved in Cd 2+ response of Chinese surf clam (Mactra chinensis) through transcriptome sequencing, Environ. Toxicol. Pharmacol., 41, 113-120.

カドミウムに曝露させたバカガイのde novo transcriptomeをおこない、MnSODなどの抗酸化酵素やHSP22、CYP2C31などを探索した論文。

まずblastで検索。全体の37.7%しか相同性のある配列はヒットしなかったそうです。その原因として考えられるのは、アセンブリされたcontigの短さ(300 bp前後がほとんど)と、そもそも保存されている配列が少ないかもという可能性。

次にHSP22、CYP2C31などの配列に対してプライマーを作成し、泳動後切り出し、サンガーシーケンサーアセンブリ配列が正しいかどうか確認。最後に、複数のCd濃度に曝露させる実験を追加して、β-アクチンをコントロールとしたバイオマーカー遺伝子のdose-reponseカーブを作成。

 

「ボタンにおける銅耐性関連遺伝子のde novoシーケンシングと発見

Wang Y., Dong C., Xue Z., Jin Q., and Xu Y., 2016, De novo transcriptome sequencing and discovery of genes related to copper tolerance in Paeonia ostii, Gene, 576 (1), 126-135.

DEGのGO解析結果からどういう機能が主に変動してるかを見て、その結果からマーカー候補を決めるという流れのは良い。始めからこの遺伝子とこの遺伝子を探そうという決め打ちよりも、このような流れの方がNGSをおこなった説得力がある。

 

 

しかし、こういうデータを提供するものとしての研究論文はいずれ人工知能にとってかわられていくのかも…。

DDBJ pipelineの高次解析

前回の続き。blastxに時間かかり過ぎのため、現在linux PCを他の用途に使えません。

 

「次世代シークエンス解析スタンダード」(羊土社)という本を読んでたら、遺伝研のスパコンを使って解析できる、という話が。「うちのlinuxと遺伝研のスパコンとの2台使いでバリバリ解析できるぞ~」と思い、DDBJ read annotation pipelineに登録。アセンブリなどは既に終了してるので、blastなどの高次解析が主目的です。高次解析部分はPitagora Galaxyというインタフェース?を通しておこなうらしい。なのでこのサイトの説明に従い、良く分からぬまま仮想環境を構築してPitagora galaxyにアクセスしました。

 

しかし、blastなどの高次解析ツールが見当たらない…? 説明と違う…?

検索してみると、こんな文章が。

DDBJ Pipeline高次部はPSUのgalaxy interfaceを用いて開発されており、遺伝研スパコン上のウェブサービスとして提供して来ました。
しかし高次部ユニーク利用者数は近年減少傾向にあります(2015年度DNAデータ利用研究委員会報告書、Pipeline利用統計(追加資料)参照)。
そこで、ユニーク利用者数が増えている基礎部に計算機資源を絞り、高次部はPitagora galaxy VMをローカルPC環境で実行して頂くようウェブサービス形式からアプリケーション配布形式に移行致します
[2015年12月DDBJ開発,文責 遺伝研神沼]。

これは、高次解析は自分のPC上でおこなえよ、という意味ですよね?時間かけてデータをFTP転送したり、仮想環境構築したり、色々したけども無駄でした。

 

てことで、どうしようか考え中。データ量的に普段使ってるwindows 8での解析はキツいのか? 上記の簡易なread annotation pipelineではなくて、少し面倒だけど正式に遺伝研スパコンのユーザー登録をしてみようかな。

 

 

(追記2016.12.17)

結局blastはWindowsでおこないました。Swissprotくらいのデータべースサイズなら、80k readsのデータでも約12時間で終了しました。問題はnrなどのデカいデータベースを使うときで、その時はやはり遺伝研のスパコンを借りた方がよさそう。

 

blast+の計算時間

12/6(火)からlinuxコマンドライン上でlocal blastxをおこなってますが、まだ終わらない…。こんな感じのコマンドを入力してから、もうじき7日経ちます。

blastx -query Trinity.fasta -db nr -max_target_seqs 2 -outfmt 5 -evalue 1e-05 -num_threads 6 -out out_nr.xml

 

海外の掲示板を見ると*1、「小さいマシンなら20k proteinのblastpは7~14日で終わる」と言ってます。たぶんCPU8とかの普通のパソコンの話。別のページでは「30kの核酸配列をnrデータベースでblastxすれば10日はかかる」とのこと。自分のデータは約80kなので、もっと時間がかかるかな…。11月中旬に、ほぼ同じ条件でntを対象にblastnをした時は一晩で終わったのに、nrとntでこれほど違うのか。

 

 

time blastx -query ......

このtimeコマンドでblastxの計算時間を見てみようとしたのですが、このコマンドだけで3時間もかかっていたのでイラついて止めちゃいました。

*1:掲示板へのリンクを貼るとBad requestと出てブログが更新できません。

論文のメモ: 廃水に曝露させたミジンコの発現変動遺伝子

「ゴム廃水曝露ミジンコにおける発現変動遺伝子の定量化

Jo H.J. and Jung J., 2008, Quantification of differentially expressed genes in Daphnia magna exposed to rubber wastewater, Chemosphere, 73 (3), 261-266. 

卒論生のT君の参考にできそう(うちの専攻は卒論提出が2月初旬で遅い)。たいした論文ではないけど、内容のシンプルさと対象遺伝子の生物学的な議論をほとんどしてないという点(曝露のマーカーとして遺伝子発現を使おうとしてる点)で、うちの専攻の卒論生に向けた参考文献としては適当かも。

DD-PCR (differential dislay-PCR) の一種ですがACP (annealing control primer) というエラーが生じにくいプライマーを使って、オオミジンコのマーカー探索をおこなった論文。ゴム廃水と亜鉛溶液とに曝露させて、計2つのマーカーの用量応答関係をqPCRで評価したもの。

 

 

ACPの論文は下。アブストくらいしか読んでませんが、イノシン塩基配列(poly dI)を含むプライマーを使うみたいです。

Hwang I.T., Kim Y.J., Kim S.H., Kwak C.I., Gu Y.Y. and Chun J.Y., 2003, Annealing control primer system for improving specificity of PCR amplification, Biotech., 35 (6), 1180-1191. 

 

RNA-seqにおけるrRNAの扱い

どういう働きの遺伝子がどれくらい発現しているか、見たいのはmRNA。しかしRNAの大部分はrRNAです。シーケンス前にoliog-dTビーズやらで取り除く操作をおこなっても、全てのrRNAが除去できるわけではありません。

なのでmRNAだけが解析対象なら、dry解析時にもrRNAを取り除く必要があります。例えば、下のSortMeRNAというソフトを使えば簡単にできます。

 

Kopylova E., Noé L., and Touzet H., 2012, SortMeRNA: fast and accurate filtering of ribosomal RNAs in metatranscriptomic data, Bioinfor., 28 (24), 3211-3217. 

 

 

ということで自分のRNA-seqデータにSortMeRNAを適用してみました。linux上でダウンロード、インストールすれば簡単に使えます。「indexdb_rna」で既知のrRNAデータのインデックス化をして、そのインデックスをもとに「sortmerna --ref XXXX -- reads XXXXXX --fastx」でrRNAを除去します。

 

で、結果は…。なんとリード数が除去前の1/10に。めちゃくちゃびっくりしました。Latexのoligo-dTキットでrRNA除去したと思ってたのに…。どうやら、サンプルをもっと薄めてからキットを使わないといけなかったようです。

既往文献を見てもrRNAがそんなに残っているという例は見られないですね。SortMeRNAを使ったRNA-seq論文を見ると、Wang et al. (2016, Plos One, 11(6): e0157656) ではrRNAの割合は3%と報告されていますし、Matra et al. (2016, Genomics Data, 10, 35-37) では除去されたリード数は約25%です。

うわぁ~、ショック。せっかくおこなったRNA-seqが…。手伝ってくれた人にも色々申し訳ないです。

 

 

(追記2016.12.03)

はやとちりだったかも。

SortMeRNAコマンドでは、「--aligned XXXXX」の引数で指定されるファイルがrRNAの配列で、「--other XXXXXX」で指定されるのがrRNAを除いた配列みたいです。てっきり「--aligned」の方がrRNAを除いた配列かと思ってました。

Takaraのキットを使ったrRNA除去操作の前後でTotal RNA量を吸光度ベースで測っていて、キットによってTotal RNA量は1/100ほどになっていたので、まあ冷静に考えたらrRNAの大半は除去されてますよね…。でもキットの使用量をケチって推奨の値より若干少な目にしていたので不安だったのです。

 

SortMeRNAで除去した結果については、まだちょっと良く分からない部分があります。検討中。

論文のメモ: de novo RNA-seqはどれくらいデータがあれば論文になるか

de novo RNA-seqデータの解析中。初めてのことだらけで、いろいろと手探りです。

まずはお試しでシーケンスしただけなので、そのデータで論文が書けるとは思ってませんが、じゃあ一体どれだけの(量・質の)データがあれば書けるのか、いまいち分野の常識が分かってないので、調べてみました。

 

新聞を読むようにざっと情報だけ拾い読んだのは、下の10論文。

多少の差はあれど、全部「de novo RNA-seqしました」「今後このアセンブリデータが役立つだろう」みたいなRNA-seq自体が目的のような論文です。実際10のうち3つは、full paperでなくてdata reportとかshort communicationの類です。

 f:id:Kyoshiro1225:20161130203559p:plain

 

多くの論文でN50は1,000 bpくらいまで達してますね。「このアセンブリデータは有用です」と言うためにはそれぐらいの長さは必要なのでしょうか(もちろん種のゲノムサイズ等によるのでしょうが)。逆にN50が1,000 bpに届かないくらいのアセンブリデータで論文にしようとすれば、切り口の面白さが必要になるのかなぁ。

 

ざざっと読んで、dry解析手法のデファクトスタンダードがなんとなく分かりました。Illuminaのショートリードで読んで*1、TrinityでアセンブリNCBIなどのデータベースで相同性検索。ついでにBlast2GOなどのソフトでGO解析やpathway解析する。そんな流れが定番ですね。

ただ一方で統一されていない部分も目につきます。

例えば多くの論文は、たぶんですが、Trinityでアセンブリされた"the longest isoform"を"unigene"としてカウントしてるっぽい。しかしunigeneを、Trinity後にTGICLやCD-Hitsでクラスタリングされた配列と定義している論文もあります。他には、配列のクオリティーに基づくトリミングやフィルタリング、(dry解析での)rRNA配列の除去などは、そもそも言及していない論文がある点が気になりました。結局は目的次第なのか?

 

*1:今後はどうなんだろう?de novoの場合はやっぱロングリードの方が良いように思えるのですが。ロングのNGSがもっと安くなれば変わっていくのでしょうか。

論文のメモ: 曝露生物の日齢と有害物質への感受性との関係

「Daphniaの日齢が金属毒性に及ぼす影響

Hoang T.C. and Klaine S.J., 2007, Influence of organism age on metal toxicity to Daphnia magna, Environ. Toxicol. Chem., 26 (6), 1198-1204. 

一般に若い曝露生物の方が、年老いた生物よりも感受性は高いです。ただ生まれたばかりの個体とか卵に関しては、その傾向が当てはまらないかもしれない、ということでおこなわれた研究。用いるオオミジンコDaphnia magnaの日齢を変えて、12時間の金属(Cu, Zn, Se, Ag)曝露による致死率・成長阻害・繁殖阻害を調べてます。

金属曝露に対する感受性は日齢と直線関係ではなかったという結果。感受性は産まれた直後に低く、歳をとると高くなるが、ある時点を過ぎるとまた低くなっています。産まれた直後は、体内の栄養を使い外部とのやり取りが少ないから感受性が低いのではないか、と考察されてます。

地味に面白いのは、Cu・Znの曝露とSe・Asの曝露とで、感受性の最も高くなる日齢が異なっているという点。Cu・Znの曝露では生後100 h、Se・As曝露では生後50hあたりで感受性最大です。Cu・Znの毒性は主にNa・Ca摂取阻害であり、生後4dの子どもを作る時点でNaやCaが必要になるので、効果的になるそうです。一方、Seの毒性は活性酸素、Asはenergy inhibitionだそうで、それらの影響は2dの脱皮時に最大となると考えられるのだとか。このへんの考察が勉強になる論文でした。