「EMPIARからのデータダウンロード方法」の版間の差分
(→ascpコマンドを用いたEMPIARデータダウンロード) |
|||
(他の1人の利用者による、間の3版が非表示) | |||
行43: | 行43: | ||
例えば以下の様にします。各オプションの意味はascp -hで確認ください。 | 例えば以下の様にします。各オプションの意味はascp -hで確認ください。 | ||
<pre> | <pre> | ||
− | ~/.aspera/connect/bin/ascp -QT -k3 -I 200M -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh | + | ~/.aspera/connect/bin/ascp -QT -k3 -I 200M -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh emp_ext3@fasp.ebi.ac.uk:/<EMPIAR ID> <保存先ディレクトリ> |
</pre> | </pre> | ||
− | 例えば[https://www.ebi.ac.uk/pdbe/emdb/empiar/entry/10248 EMPIAR-10248]をダウンロードしたければ、<EMPIAR ID>の部分を 10248 | + | 上記例内の"-k3"オプションはダウンロードしたデータを正しく取得できたのかチェックサム検証を行います。そのためこのオプションをつけると、ダウンロード速度が低下します。またダウンロード中のCPU使用率が上昇します。必要に応じてこのオプションを指定するようにしてください。 |
+ | |||
+ | 例えば[https://www.ebi.ac.uk/pdbe/emdb/empiar/entry/10248 EMPIAR-10248]をダウンロードしたければ、<EMPIAR ID>の部分を 10248 に置き換えて、適当な保存先ディレクトリを指定すれば良いです。EMPIAR-10248の場合であれば、<保存先ディレクトリ>を . (カレントディレクトリ)にすると、10248というディレクトリが作成され、その中にデータがダウンロードされます。(どのデータセットでもそのようになるかはわかりません。) | ||
<b>数TBに達するデータセットも多数あるので、ダウンロードする前にデータセットの情報を確認しましょう。(https://www.ebi.ac.uk/pdbe/emdb/empiar/)</b> | <b>数TBに達するデータセットも多数あるので、ダウンロードする前にデータセットの情報を確認しましょう。(https://www.ebi.ac.uk/pdbe/emdb/empiar/)</b> | ||
+ | |||
+ | == ascpでEMPIARエントリの中の特定のファイルやディレクトリだけダウンロードしたい場合 == | ||
+ | 上記の方法では指定したエントリに含まれるデータセット全体がダウンロードされてしまうが、単粒子画像スタックのみとか、ドリフト補正後の平均画像のみダウンロードしてくる、といったこともできる。 | ||
+ | |||
+ | EMPIAR-10028( https://www.ebi.ac.uk/pdbe/emdb/empiar/entry/10028/ )を例にとって説明する。 | ||
+ | |||
+ | このエントリは"Unaligned multi-frame micrographs", "Frame averaged micrographs", "Processed shiny particles"の3種類のデータが含まれている。そのうち3番目の単粒子画像スタックだけが欲しいとする。 | ||
+ | |||
+ | エントリのページの最後の方に"Browse Ftp"というボタンがあるので、そこをクリックする( ftp://ftp.ebi.ac.uk/empiar/world_availability/10028 )。 | ||
+ | |||
+ | するとFTPのディレクトリ階層が見れるので、欲しいファイルまたはディレクトリにたどり着くまで探検する。 | ||
+ | |||
+ | 今回の場合は、 ftp://ftp.ebi.ac.uk/empiar/world_availability/10028/data/Particles 以下に含まれているファイルすべてが欲しい。 | ||
+ | |||
+ | その場合、FTPパスのうちEMPIAR ID (10028)以下の部分( /10028/data/Particles )に注目し、 | ||
+ | |||
+ | <pre> | ||
+ | > ~/.aspera/connect/bin/ascp -QT -k3 -I 200M -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh emp_ext3@fasp.ebi.ac.uk:/10028/data/Particles <保存先ディレクトリ> | ||
+ | </pre> | ||
+ | |||
+ | とすれば、そのディレクトリ以下のデータだけをダウンロードすることが可能。 |
2021年3月5日 (金) 07:44時点における最新版
目次
Aspera connectのインストール
Aspera connectはIBMが提供しているデータダウンロードツールです。
Linuxの場合
Aspera connectのウェブサイトからLinux用のパッケージをダウンロードします。
2019年5月21日時点では ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.tar.gz が最新でした。
tar.gzを展開すると、ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.sh というインストールスクリプトが出てきます。以下コマンドでインストールできます。
$ ./ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.sh Installing IBM Aspera Connect Deploying IBM Aspera Connect (/home/kttn/.aspera/connect) for the current user only. Install complete.
$HOME/.aspera/connect/bin にパスを通すなりして使います。
ascpコマンドでのEMPIARからのデータダウンロードが機能するかのチェック
(https://www.ebi.ac.uk/pdbe/emdb/empiar/faq#question_CLDownload より)
以下コマンドで、58MBのテストデータをEMPIARからダウンロードできます。
> ascp -QT -l 200M -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh emp_ext3@fasp.ebi.ac.uk:/test testset
成功すれば以下の様に表示されます。
testset 100% 57MB 167Mb/s 00:05 Completed: 58368K bytes transferred in 5 seconds (87642K bits/sec), in 1 file.
ascpコマンドを用いたEMPIARデータダウンロード
EMPIAR公式でも説明されていますが、
例えば以下の様にします。各オプションの意味はascp -hで確認ください。
~/.aspera/connect/bin/ascp -QT -k3 -I 200M -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh emp_ext3@fasp.ebi.ac.uk:/<EMPIAR ID> <保存先ディレクトリ>
上記例内の"-k3"オプションはダウンロードしたデータを正しく取得できたのかチェックサム検証を行います。そのためこのオプションをつけると、ダウンロード速度が低下します。またダウンロード中のCPU使用率が上昇します。必要に応じてこのオプションを指定するようにしてください。
例えばEMPIAR-10248をダウンロードしたければ、<EMPIAR ID>の部分を 10248 に置き換えて、適当な保存先ディレクトリを指定すれば良いです。EMPIAR-10248の場合であれば、<保存先ディレクトリ>を . (カレントディレクトリ)にすると、10248というディレクトリが作成され、その中にデータがダウンロードされます。(どのデータセットでもそのようになるかはわかりません。)
数TBに達するデータセットも多数あるので、ダウンロードする前にデータセットの情報を確認しましょう。(https://www.ebi.ac.uk/pdbe/emdb/empiar/)
ascpでEMPIARエントリの中の特定のファイルやディレクトリだけダウンロードしたい場合
上記の方法では指定したエントリに含まれるデータセット全体がダウンロードされてしまうが、単粒子画像スタックのみとか、ドリフト補正後の平均画像のみダウンロードしてくる、といったこともできる。
EMPIAR-10028( https://www.ebi.ac.uk/pdbe/emdb/empiar/entry/10028/ )を例にとって説明する。
このエントリは"Unaligned multi-frame micrographs", "Frame averaged micrographs", "Processed shiny particles"の3種類のデータが含まれている。そのうち3番目の単粒子画像スタックだけが欲しいとする。
エントリのページの最後の方に"Browse Ftp"というボタンがあるので、そこをクリックする( ftp://ftp.ebi.ac.uk/empiar/world_availability/10028 )。
するとFTPのディレクトリ階層が見れるので、欲しいファイルまたはディレクトリにたどり着くまで探検する。
今回の場合は、 ftp://ftp.ebi.ac.uk/empiar/world_availability/10028/data/Particles 以下に含まれているファイルすべてが欲しい。
その場合、FTPパスのうちEMPIAR ID (10028)以下の部分( /10028/data/Particles )に注目し、
> ~/.aspera/connect/bin/ascp -QT -k3 -I 200M -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh emp_ext3@fasp.ebi.ac.uk:/10028/data/Particles <保存先ディレクトリ>
とすれば、そのディレクトリ以下のデータだけをダウンロードすることが可能。