備忘録 a record of inner life

やったことや考えたこと・本・論文・音楽の備忘録。 特に環境科学・生態毒性に関して。

DDBJ pipelineの高次解析

前回の続き。blastxに時間かかり過ぎのため、現在linux PCを他の用途に使えません。

 

「次世代シークエンス解析スタンダード」(羊土社)という本を読んでたら、遺伝研のスパコンを使って解析できる、という話が。「うちのlinuxと遺伝研のスパコンとの2台使いでバリバリ解析できるぞ~」と思い、DDBJ read annotation pipelineに登録。アセンブリなどは既に終了してるので、blastなどの高次解析が主目的です。高次解析部分はPitagora Galaxyというインタフェース?を通しておこなうらしい。なのでこのサイトの説明に従い、良く分からぬまま仮想環境を構築してPitagora galaxyにアクセスしました。

 

しかし、blastなどの高次解析ツールが見当たらない…? 説明と違う…?

検索してみると、こんな文章が。

DDBJ Pipeline高次部はPSUのgalaxy interfaceを用いて開発されており、遺伝研スパコン上のウェブサービスとして提供して来ました。
しかし高次部ユニーク利用者数は近年減少傾向にあります(2015年度DNAデータ利用研究委員会報告書、Pipeline利用統計(追加資料)参照)。
そこで、ユニーク利用者数が増えている基礎部に計算機資源を絞り、高次部はPitagora galaxy VMをローカルPC環境で実行して頂くようウェブサービス形式からアプリケーション配布形式に移行致します
[2015年12月DDBJ開発,文責 遺伝研神沼]。

これは、高次解析は自分のPC上でおこなえよ、という意味ですよね?時間かけてデータをFTP転送したり、仮想環境構築したり、色々したけども無駄でした。

 

てことで、どうしようか考え中。データ量的に普段使ってるwindows 8での解析はキツいのか? 上記の簡易なread annotation pipelineではなくて、少し面倒だけど正式に遺伝研スパコンのユーザー登録をしてみようかな。

 

 

(追記2016.12.17)

結局blastはWindowsでおこないました。Swissprotくらいのデータべースサイズなら、80k readsのデータでも約12時間で終了しました。問題はnrなどのデカいデータベースを使うときで、その時はやはり遺伝研のスパコンを借りた方がよさそう。