DDBJ pipelineの高次解析 - 備忘録 a record of inner life

前回の続き。blastxに時間かかり過ぎのため、現在linux PCを他の用途に使えません。

「次世代シークエンス解析スタンダード」（羊土社）という本を読んでたら、遺伝研のスパコンを使って解析できる、という話が。「うちのlinuxと遺伝研のスパコンとの2台使いでバリバリ解析できるぞ～」と思い、DDBJ read annotation pipelineに登録。アセンブリなどは既に終了してるので、blastなどの高次解析が主目的です。高次解析部分はPitagora Galaxyというインタフェース?を通しておこなうらしい。なのでこのサイトの説明に従い、良く分からぬまま仮想環境を構築してPitagora galaxyにアクセスしました。

しかし、blastなどの高次解析ツールが見当たらない…？説明と違う…？

検索してみると、こんな文章が。

DDBJ Pipeline高次部はPSUのgalaxy interfaceを用いて開発されており、遺伝研スパコン上のウェブサービスとして提供して来ました。
しかし高次部ユニーク利用者数は近年減少傾向にあります(2015年度DNAデータ利用研究委員会報告書、Pipeline利用統計(追加資料)参照)。
そこで、ユニーク利用者数が増えている基礎部に計算機資源を絞り、高次部はPitagora galaxy VMをローカルPC環境で実行して頂くようウェブサービス形式からアプリケーション配布形式に移行致します
[2015年12月DDBJ開発,文責 遺伝研神沼]。

これは、高次解析は自分のPC上でおこなえよ、という意味ですよね？時間かけてデータをFTP転送したり、仮想環境構築したり、色々したけども無駄でした。

てことで、どうしようか考え中。データ量的に普段使ってるwindows 8での解析はキツいのか？上記の簡易なread annotation pipelineではなくて、少し面倒だけど正式に遺伝研スパコンのユーザー登録をしてみようかな。

（追記2016.12.17）

結局blastはWindowsでおこないました。Swissprotくらいのデータべースサイズなら、80k readsのデータでも約12時間で終了しました。問題はnrなどのデカいデータベースを使うときで、その時はやはり遺伝研のスパコンを借りた方がよさそう。