備忘録 a record of inner life

やったことや考えたこと・本・論文・音楽の備忘録。 特に環境科学・生態毒性に関して。

論文のメモ: de novo RNA-seqはどれくらいデータがあれば論文になるか

de novo RNA-seqデータの解析中。初めてのことだらけで、いろいろと手探りです。

まずはお試しでシーケンスしただけなので、そのデータで論文が書けるとは思ってませんが、じゃあ一体どれだけの(量・質の)データがあれば書けるのか、いまいち分野の常識が分かってないので、調べてみました。

 

新聞を読むようにざっと情報だけ拾い読んだのは、下の10論文。

多少の差はあれど、全部「de novo RNA-seqしました」「今後このアセンブリデータが役立つだろう」みたいなRNA-seq自体が目的のような論文です。実際10のうち3つは、full paperでなくてdata reportとかshort communicationの類です。

 f:id:Kyoshiro1225:20161130203559p:plain

 

多くの論文でN50は1,000 bpくらいまで達してますね。「このアセンブリデータは有用です」と言うためにはそれぐらいの長さは必要なのでしょうか(もちろん種のゲノムサイズ等によるのでしょうが)。逆にN50が1,000 bpに届かないくらいのアセンブリデータで論文にしようとすれば、切り口の面白さが必要になるのかなぁ。

 

ざざっと読んで、dry解析手法のデファクトスタンダードがなんとなく分かりました。Illuminaのショートリードで読んで*1、TrinityでアセンブリNCBIなどのデータベースで相同性検索。ついでにBlast2GOなどのソフトでGO解析やpathway解析する。そんな流れが定番ですね。

ただ一方で統一されていない部分も目につきます。

例えば多くの論文は、たぶんですが、Trinityでアセンブリされた"the longest isoform"を"unigene"としてカウントしてるっぽい。しかしunigeneを、Trinity後にTGICLやCD-Hitsでクラスタリングされた配列と定義している論文もあります。他には、配列のクオリティーに基づくトリミングやフィルタリング、(dry解析での)rRNA配列の除去などは、そもそも言及していない論文がある点が気になりました。結局は目的次第なのか?

 

*1:今後はどうなんだろう?de novoの場合はやっぱロングリードの方が良いように思えるのですが。ロングのNGSがもっと安くなれば変わっていくのでしょうか。