どういう働きの遺伝子がどれくらい発現しているか、見たいのはmRNA。しかしRNAの大部分はrRNAです。シーケンス前にoliog-dTビーズやらで取り除く操作をおこなっても、全てのrRNAが除去できるわけではありません。
なのでmRNAだけが解析対象なら、dry解析時にもrRNAを取り除く必要があります。例えば、下のSortMeRNAというソフトを使えば簡単にできます。
Kopylova E., Noé L., and Touzet H., 2012, SortMeRNA: fast and accurate filtering of ribosomal RNAs in metatranscriptomic data, Bioinfor., 28 (24), 3211-3217.
ということで自分のRNA-seqデータにSortMeRNAを適用してみました。linux上でダウンロード、インストールすれば簡単に使えます。「indexdb_rna」で既知のrRNAデータのインデックス化をして、そのインデックスをもとに「sortmerna --ref XXXX -- reads XXXXXX --fastx」でrRNAを除去します。
で、結果は…。なんとリード数が除去前の1/10に。めちゃくちゃびっくりしました。Latexのoligo-dTキットでrRNA除去したと思ってたのに…。どうやら、サンプルをもっと薄めてからキットを使わないといけなかったようです。
既往文献を見てもrRNAがそんなに残っているという例は見られないですね。SortMeRNAを使ったRNA-seq論文を見ると、Wang et al. (2016, Plos One, 11(6): e0157656) ではrRNAの割合は3%と報告されていますし、Matra et al. (2016, Genomics Data, 10, 35-37) では除去されたリード数は約25%です。
うわぁ~、ショック。せっかくおこなったRNA-seqが…。手伝ってくれた人にも色々申し訳ないです。
(追記2016.12.03)
はやとちりだったかも。
SortMeRNAコマンドでは、「--aligned XXXXX」の引数で指定されるファイルがrRNAの配列で、「--other XXXXXX」で指定されるのがrRNAを除いた配列みたいです。てっきり「--aligned」の方がrRNAを除いた配列かと思ってました。
Takaraのキットを使ったrRNA除去操作の前後でTotal RNA量を吸光度ベースで測っていて、キットによってTotal RNA量は1/100ほどになっていたので、まあ冷静に考えたらrRNAの大半は除去されてますよね…。でもキットの使用量をケチって推奨の値より若干少な目にしていたので不安だったのです。
SortMeRNAで除去した結果については、まだちょっと良く分からない部分があります。検討中。