備忘録 a record of inner life

やったことや考えたこと・本・論文・音楽の備忘録。 特に環境科学・生態毒性に関して。

メモ: Nanoporeロングリードのアセンブリ

Oxford Nanopore TEchnologies(ONT)のロングリードとIlluminaなどのショートリードのデータを組み合わせてde novoアセンブリするとき、どのツールを使用するかの話。

ロングリードは長いけどエラー率高い。ショートは短いけど、エラー率低く安く大量に読める。まずロングリードでアセンブリして、その後ショートリードでエラーを補正するのが王道っぽい。

ちょっと古いけどtwitterでの議論。

 

 

Canuは一番ベタなロングリードアセンブラ。30×~60×のカバレージを推奨。

MiniasmはCanuより速いけどエラー補正のないロングリードアセンブラ。Miniasmで6時間かかるアセンブリの場合、Canuは5~10日かかる(Michael et al., 2018, Nat Commun)。

SMART denovoも同様にエラー補正のないロングリードアセンブラ

wtdbg2(=redbean)もロングリードアセンブラ

FlyeはA Brujin Graphベースのロングリードアセンブラ

SPAdesはハイブリッドアセンブラ。de Brujin Graphベースでショートリードからアセンブリした後、ロングリードでscaffolding。ただしバクテリアや菌など小さいゲノム用。大きいゲノムの場合--carefulオプションをつけてはいけない。

MaSURCAもハイブリッドアセンブラ

Unicylcerもハイブリッドアセンブラ。ただしバクテリアゲノム用。

Raconはロングリードのポリッシングツール。

Pilonはショートリードを用いたポリッシングツール。

 

 

 

 

日本語でも既にまとまっている情報がいくつかありました。例えばゲノム工学実習 - 荒川和晴(微生物ゲノムをCanuでアセンブリ)やONTの宮本さんのナノポア解析ワークフロー - Slow and Steady、そしてMinIONでシーケンスを行う - macでインフォマティクスなど。はじめは自分でまとめようかと思いましたが、あまり必要なさそう。

 

 

(追記 2019.08.17)

もうすこし新しい議論。

 

 確かに、試してみたらCanuはリソースを使いすぎました。数TBの空きが欲しい。

ロングリード、ショートリードのそれぞれのカバレージがどれだけかによって最適なアセンブリ戦略は異なりますが、ある程度はいくつかのソフトを試さないといけないですね。

Nextdenovoは新しいアセンブラ