備忘録 a record of inner life

やったことや考えたこと・本・論文・音楽の備忘録。 特に環境科学・生態毒性に関して。

論文のメモ: RNA-Seqの前処理にトリミングは必要ない

タイトル通り。

これまで普通にトリミングしてました。確か(クオリティ)トリミングあり/なしでde novoアセンブリの結果があまり変わらないとかは自分で確認しましたが、mRNA定量への影響はそう言えば検証してませんでした。

こういう「一部では常識」みたいなテクニックを論文化してくれるのはありがたいです。

 

 

 

Liao Yang, Wei Shi, 2019. Read trimming is not required for mapping and quantification of RNA-seq reads, bioRxiv, 833962.

上のツイートの論文。遺伝子発現の定量化へのトリミングの影響を調べた既往研究としてDel Fabbroら(2013, Plos One)、Didionら(2017, Peer J)、Williamsら(2016, BMC Bioinformatics)が引用されてますが、相反する結論もあるため、個々の遺伝子についてmore rigorousに調べる必要がある、とのこと。
そもそも多くのマッピングツールは、マップされたリードの端が上手くアラインメントされていなければ除去する(soft clipping)のでアダプターを予め除去する必要はないとのこと。

この論文では、マッピング定量化ツールにRsubreadを*1トリミングツールにTrimmomaticとTrimGaloreを使用。ここで言うトリミングとは、アダプタートリミングとクオリティトリミングの両方のこと。そして定量PCRによる発現量との相関などを見ています。

結果、Rsubreadはsoft-clipによってアダプターの90%以上を除去でき、しかもトリミングの有無によるマッピングの差はトリミングツールの差と同程度だったそうです。定量PCRとの比較からは、トリミングをすることでむしろ発現定量結果は微妙に不正確になってしまうとのこと。

  

Williams CR, Baccarella A, Parrish JZ, Kim CC, 2016, Trimming of sequence reads alters RNA-Seq gene expression estimates, BMC Bioinformatics 17(1): 103.

上の論文で引用されていた研究。ざっとしか読んでません。要はクオリティートリミングを厳しくし過ぎると短いリードが生まれて、そのリードが不適切な配列にマッピングされるから良くない、と言う話。なのでトリミング後のデータは、リード長でフィルタリングしようとも述べてます。マッピングはTopHat2使用。

また、古いRNA-Seqデータは低クオリティーだったりアダプターがコンタミしていたりするため、トリミングすることも有用かも、とのこと。

  

MacManes MD, 2014, On the optimal trimming of high-throughput mRNA sequence data, Frontiers in Genetics 5: 13.

これはトリミングが(マッピングじゃなくて)de novoアセンブリへ与える影響について。アブストくらいしか読んでませんが、クオリティートリミングするにしてもPHRED score <2や<5を推奨。

 

*1:ちなみにこの筆者たちはRsubread(とfeatureCounts)の開発者。