論文のメモ： de novo RNA-seqはどれくらいデータがあれば論文になるか

de novo RNA-seqデータの解析中。初めてのことだらけで、いろいろと手探りです。

まずはお試しでシーケンスしただけなので、そのデータで論文が書けるとは思ってませんが、じゃあ一体どれだけの（量・質の）データがあれば書けるのか、いまいち分野の常識が分かってないので、調べてみました。

新聞を読むようにざっと情報だけ拾い読んだのは、下の10論文。

多少の差はあれど、全部「de novo RNA-seqしました」「今後このアセンブリデータが役立つだろう」みたいなRNA-seq自体が目的のような論文です。実際10のうち3つは、full paperでなくてdata reportとかshort communicationの類です。

f:id:Kyoshiro1225:20161130203559p:plain

多くの論文でN50は1,000 bpくらいまで達してますね。「このアセンブリデータは有用です」と言うためにはそれぐらいの長さは必要なのでしょうか（もちろん種のゲノムサイズ等によるのでしょうが）。逆にN50が1,000 bpに届かないくらいのアセンブリデータで論文にしようとすれば、切り口の面白さが必要になるのかなぁ。

ざざっと読んで、dry解析手法のデファクトスタンダードがなんとなく分かりました。Illuminaのショートリードで読んで*1、Trinityでアセンブリ。NCBIなどのデータベースで相同性検索。ついでにBlast2GOなどのソフトでGO解析やpathway解析する。そんな流れが定番ですね。

ただ一方で統一されていない部分も目につきます。

例えば多くの論文は、たぶんですが、Trinityでアセンブリされた"the longest isoform"を"unigene"としてカウントしてるっぽい。しかしunigeneを、Trinity後にTGICLやCD-Hitsでクラスタリングされた配列と定義している論文もあります。他には、配列のクオリティーに基づくトリミングやフィルタリング、（dry解析での）rRNA配列の除去などは、そもそも言及していない論文がある点が気になりました。結局は目的次第なのか？

*1:今後はどうなんだろう？de novoの場合はやっぱロングリードの方が良いように思えるのですが。ロングのNGSがもっと安くなれば変わっていくのでしょうか。

備忘録 a record of inner life

やったことや考えたこと・本・論文・音楽の備忘録。特に環境科学・生態毒性に関して。

論文のメモ： de novo RNA-seqはどれくらいデータがあれば論文になるか