EMPIARからのデータダウンロード方法
提供: Eospedia
目次
Aspera connectのインストール
Aspera connectはIBMが提供しているデータダウンロードツールです。
Linuxの場合
Aspera connectのウェブサイトからLinux用のパッケージをダウンロードします。
2019年5月21日時点では ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.tar.gz が最新でした。
tar.gzを展開すると、ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.sh というインストールスクリプトが出てきます。以下コマンドでインストールできます。
$ ./ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.sh Installing IBM Aspera Connect Deploying IBM Aspera Connect (/home/kttn/.aspera/connect) for the current user only. Install complete.
$HOME/.aspera/connect/bin にパスを通すなりして使います。
ascpコマンドでのEMPIARからのデータダウンロードが機能するかのチェック
(https://www.ebi.ac.uk/pdbe/emdb/empiar/faq#question_CLDownload より)
以下コマンドで、58MBのテストデータをEMPIARからダウンロードできます。
> ascp -QT -l 200M -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh emp_ext3@fasp.ebi.ac.uk:/test testset
成功すれば以下の様に表示されます。
testset 100% 57MB 167Mb/s 00:05 Completed: 58368K bytes transferred in 5 seconds (87642K bits/sec), in 1 file.
ascpコマンドを用いたEMPIARデータダウンロード
EMPIAR公式でも説明されていますが、
例えば以下の様にします。各オプションの意味はascp -hで確認ください。
~/.aspera/connect/bin/ascp -QT -k3 -I 200M -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh emp_ext@fasp.ebi.ac.uk:archive/<EMPIAR ID> <保存先ディレクトリ>
例えばEMPIAR-10248をダウンロードしたければ、<EMPIAR ID>の部分を 10248 に置き換えれて、適当な保存先ディレクトリを指定すれば良いです。
数TBに達するデータセットも多数あるので、ダウンロードする前にデータセットの情報を確認しましょう。(https://www.ebi.ac.uk/pdbe/emdb/empiar/)