de novo RNA-seqデータの解析中。初めてのことだらけで、いろいろと手探りです。
まずはお試しでシーケンスしただけなので、そのデータで論文が書けるとは思ってませんが、じゃあ一体どれだけの(量・質の)データがあれば書けるのか、いまいち分野の常識が分かってないので、調べてみました。
新聞を読むようにざっと情報だけ拾い読んだのは、下の10論文。
多少の差はあれど、全部「de novo RNA-seqしました」「今後このアセンブリデータが役立つだろう」みたいなRNA-seq自体が目的のような論文です。実際10のうち3つは、full paperでなくてdata reportとかshort communicationの類です。
多くの論文でN50は1,000 bpくらいまで達してますね。「このアセンブリデータは有用です」と言うためにはそれぐらいの長さは必要なのでしょうか(もちろん種のゲノムサイズ等によるのでしょうが)。逆にN50が1,000 bpに届かないくらいのアセンブリデータで論文にしようとすれば、切り口の面白さが必要になるのかなぁ。
ざざっと読んで、dry解析手法のデファクトスタンダードがなんとなく分かりました。Illuminaのショートリードで読んで*1、Trinityでアセンブリ。NCBIなどのデータベースで相同性検索。ついでにBlast2GOなどのソフトでGO解析やpathway解析する。そんな流れが定番ですね。
ただ一方で統一されていない部分も目につきます。
例えば多くの論文は、たぶんですが、Trinityでアセンブリされた"the longest isoform"を"unigene"としてカウントしてるっぽい。しかしunigeneを、Trinity後にTGICLやCD-Hitsでクラスタリングされた配列と定義している論文もあります。他には、配列のクオリティーに基づくトリミングやフィルタリング、(dry解析での)rRNA配列の除去などは、そもそも言及していない論文がある点が気になりました。結局は目的次第なのか?
*1:今後はどうなんだろう?de novoの場合はやっぱロングリードの方が良いように思えるのですが。ロングのNGSがもっと安くなれば変わっていくのでしょうか。