Oxford Nanopore TEchnologies(ONT)のロングリードとIlluminaなどのショートリードのデータを組み合わせてde novoアセンブリするとき、どのツールを使用するかの話。
ロングリードは長いけどエラー率高い。ショートは短いけど、エラー率低く安く大量に読める。まずロングリードでアセンブリして、その後ショートリードでエラーを補正するのが王道っぽい。
ちょっと古いけどtwitterでの議論。
Assemblies people 🧬: we have 80X illumina PE and 20X Nanopore, genome size ~1Gb. We've tried smartdenovo, miniasm, canu (best results), and wtdbg2, with racon + pilon. Running Masurca, and we want to try short-reads assemblies (which assembler ?). Any suggestion ?
— Romain Feron (@RomainFeron) November 15, 2018
Canuは一番ベタなロングリードアセンブラ。30×~60×のカバレージを推奨。
MiniasmはCanuより速いけどエラー補正のないロングリードアセンブラ。Miniasmで6時間かかるアセンブリの場合、Canuは5~10日かかる(Michael et al., 2018, Nat Commun)。
SMART denovoも同様にエラー補正のないロングリードアセンブラ。
wtdbg2(=redbean)もロングリードアセンブラ。
FlyeはA Brujin Graphベースのロングリードアセンブラ。
SPAdesはハイブリッドアセンブラ。de Brujin Graphベースでショートリードからアセンブリした後、ロングリードでscaffolding。ただしバクテリアや菌など小さいゲノム用。大きいゲノムの場合--carefulオプションをつけてはいけない。
MaSURCAもハイブリッドアセンブラ。
Unicylcerもハイブリッドアセンブラ。ただしバクテリアゲノム用。
Raconはロングリードのポリッシングツール。
Pilonはショートリードを用いたポリッシングツール。
I am working also on genome assembly. I am trying flye, wtdbg2, MECAT, SPAdes, and MaSURCA. I have 150x PE and 30x PacBio data. Genome size is ~ 1GB.
— Julien Bañe (@BaBalogog) November 16, 2018
My best result is till yet obtained with Flye . 2250 contigs, N50~2Mbp.
Flye is a nice alternative to wtdbg2/canu (https://t.co/LfsAXJgNJV). If low nanopore coverage in some regions might be an issue, try throwing in Illumina unitigs from Masurca together with long reads in wtdbg2.— Thomas Hackl (@th4ckl) November 15, 2018
for nanopore reads QC, this gives a nice overview IMO: https://t.co/UXf32folQywith half of your coverage (~50x Illumina & ~10x Nanopore), Masurca looked fine: https://t.co/fKfyirOTmz
— Amina Echchiki (@aechchiki) November 15, 2018
a hybrid benchmark platform: https://t.co/0bosLm8aH7 (see section 4.2: https://t.co/Ln5b6yayZ1)
assemble the long reads with CANU and polish with short or scaffold the short read assembly with long reads (SSPACE)
— Rasmus Kirkegaard (@kirk3gaard) August 27, 2016
日本語でも既にまとまっている情報がいくつかありました。例えばゲノム工学実習 - 荒川和晴(微生物ゲノムをCanuでアセンブリ)やONTの宮本さんのナノポア解析ワークフロー - Slow and Steady、そしてMinIONでシーケンスを行う - macでインフォマティクスなど。はじめは自分でまとめようかと思いましたが、あまり必要なさそう。
(追記 2019.08.17)
もうすこし新しい議論。
Which assembler are you using for @nanopore long reads of #plants?
— Boas Pucker (@boas_pucker) June 16, 2019
Despite promising rumors about Flye, Canu still outperforms Flye and miniasm in my hands (mostly Arabidopsis).#genomics#bioinformatics#plantscience
I think we've defaulted to using Flye, because Canu does outperform slightly but with a massive increase in computational cost. Trying Ra, Shasta, and NextDenovo though
— Ming Chia (@realMingChia) June 16, 2019
確かに、試してみたらCanuはリソースを使いすぎました。数TBの空きが欲しい。
We tried canu, masurca, flye, and a couple of others. Masurca wins, but with the caveat that all of them are given canu corrected reads to start. Ours is a 2% heterozygous, 40% repeat, 500gb genome.
— Robert Lanfear (@RobLanfear) June 18, 2019
Depends a lot of data and genome. For cultivated Rice miniasm overcomes all others but for algeae and wild Rice flye is the Best. For drosophila it is wtdbg2
— Francois Sabot (@francois_sabot) June 16, 2019
From my own exp, it also depends on the mating type ie selfing or outcrossing and on the quality of data. BTW try also RA which provides very nice results. Falcon and Canu are overestimated IMO
— Francois Sabot (@francois_sabot) June 16, 2019
ロングリード、ショートリードのそれぞれのカバレージがどれだけかによって最適なアセンブリ戦略は異なりますが、ある程度はいくつかのソフトを試さないといけないですね。
Nextdenovoは新しいアセンブラ。
Unbelievable!We just assembled the rice genome in 1 day using NextDenovo (https://t.co/tT6FeFGayK) with the ultralong reads from 4 @nanopore PromethION flow cells and got most of the complete chromosomes! Total assembly size 389Mb with only 18 Contigs and the contig N50 29.4Mb!
— GrandOmics (@GrandOmics_Intl) August 15, 2019