ページトップへ戻る

Volume 26, No.1 Pages 84 - 87

4. SPring-8/SACLA通信/SPring-8/SACLA COMMUNICATIONS

利用系グループ活動報告
XFEL利用研究推進室 先端計測・解析技術グループ
Activity Reports – Advanced Measurement and Analysis Group, XFEL Utilization Division

城地 保昌 JOTI Yasumasa、初井 宇記 HATSUI Takaki

(公財)高輝度光科学研究センター XFEL利用研究推進室/(国研)理化学研究所 放射光科学研究センター XFEL Utilization Division, JASRI / RIKEN SPring-8 Center

pdfDownload PDF (756 KB)
SPring-8 SACLA

 

1. はじめに
 XFEL利用研究推進室・先端計測・解析技術グループではSACLAのために、検出器およびデータ取得・解析基盤の開発・運用を理化学研究所(理研)とともに行っている。データ取得・解析基盤は、SACLAでのハイパフォーマンスコンピュータ(HPC)を多用する実験を可能としている。これらの実験では、HPCなどの計算技術に不慣れなユーザーでもソフトウェアを短時間で作成できることが望ましいが、このニーズに対応した技術基盤であるAPI(Application Programming Interface)も提供を行っている。直近ではコロナ禍対応のためのリモート実験環境も準備を進めている。本稿では、データ取得・解析基盤を支えている各種技術・システムの現状について概説する。

 

 

2. SACLAのデータ取得・解析基盤の開発・運用
 SASE型のXFELは、ショット毎にその特性が変わるため、最大60 Hzの周期で発振するすべてのパルスの特性を後から参照できるように記録しておく必要がある。また、大強度のXFELパルスが照射されると試料は1ショットで損傷してしまうため、多くの場合、ショット毎に試料を交換して実験が行われる。したがって、XFELパルスの特性と実験データとの相関をとるために、XFELパルス毎に同期して実験計測を行う必要がある。SACLAでは、ビームラインの光診断で取得されたパルスの特性と、試料を介して検出されるデータをすべて網羅的に取得・保存する。実験ユーザーは、試料にX線パルスが意図した通りに照射できていたかどうかを確認するため簡易の迅速解析によりデータを可視化するなどして、所望の実験を遂行する。その後に、計算時間を要する詳細解析を行う。実験データの最大スループットは、我々が開発したMPCCDセンサー[1][1] T. Kameshima et al.: Rev. Sci. Instrum. 85 (2014) 033110.12個分にあたる6 Gbpsを想定している。以上のような要件を満たすため、我々は、SACLAのデータ取得・解析システム[2-4][2] Y. Joti et al.: J. Synchrotron Rad. 22 (2015) 571.
[3] Y. Joti et al.: Synchrotron Rad. News 30 (2017) 16.
[4] 改訂版 放射光ビームライン光学技術入門 第14章4.
を開発・運用している。図1はその模式図である。

 

図1 SACLAのデータ取得・解析システム

 

 

 データ転送性能およびセキュリティを担保するためファイアウォールで保護された3つのLAN(DAQ-LAN、DAQ-USER-LAN、HPC-LAN)から構成される。DAQ-LANとDAQ-USER-LANは、ビームラインごと(BL1、BL2、BL3)にそれぞれ独立に整備されている。大まかにいえば、DAQ-LANには高速に検出器の生画像データが流れ、DAQ-USER-LANには実験条件設定やオンライン解析を行うための機器が接続され、HPC-LANにはオフラインの迅速解析と詳細解析、および、その結果の保存のために高速の計算機システムと大容量のストレージがある。MPCCDセンサーで取得した生画像データは、データハンドリングサーバーでバッファされ、高速書込みが可能なキャッシュストレージに確実に保存される。データハンドリングサーバーはDAQ-USER-LANにも接続されており、バッファされている保存前のデータは、オンライン解析サーバーで読み出してリアルタイムに簡易解析することが可能である。その結果は、ユーザーが読み書きできるユーザーデータベース(UDB)に記録できる。光診断などの各種機器で測定された0次元データは、DAQ-LANに接続された同期収集データベース(SyncDB)に記録される。SyncDBデータはHPC-LANに接続されたSyncDBに複製され、キャッシュストレージはHPC-LANにも接続されているので、SyncDBデータや生画像データは、約40 Tflopsの計算性能をもつHPCの各計算ノードで読み出して解析できる。HPCにはデータ処理のための短期保存領域として2 PBのディスクストレージがある。中長期データ保存にはディスクシステム(1 PB)とテープシステム(10 PB)からなる階層ストレージ(アーカイブストレージ)を整備しており、生画像データ、SyncDBデータ、ユーザー処理データのバックアップに用いられている。アーカイブストレージでは、データ書き込み時はディスクシステムに保存されるが、そのデータへのアクセスがない場合には、一定期間を過ぎると自動的にテープシステムにマイグレーションされる。実験ユーザーは、実験ステーションのDAQ-USER-LANからHPCにssh接続できる。また、所外からもVPNを介してHPC-LANに接続可能であり、実験前準備や実験後のデータ解析に利用できる。実験ユーザーは、SACLAのHPCポータルサイト[5][5] http://xhpcfep.hpc.spring8.or.jp (VPN接続が必要)から計算機システムの最新情報を得ることができる。
 SACLAでは、このようなデータ取得・解析基盤を利用して、様々な実験が行われているが、少数の汎用ソフトウェアだけで多様な実験の個別要望に短時間で対応することは難しい。そこで、各実験においてユーザーが自由に素早く独自ソフトウェアを開発できるように各種APIを整備している(図1)。データハンドリングサーバーにバッファされているストレージ前の生画像データは、OnlineAPIにより読み出し可能で、タイミングモニター解析ツール[6][6] K. Nakajima et al.: J. Synchrotron Rad. 25 (2018) 592.などの施設開発ソフトウェアやCheetah[7][7] T. Nakane et al.: J. Appl. Cryst. 49 (2016) 1035.、CASS[8][8] L. Foucar: J. Appl. Cryst. 49 (2016) 1336.などのユーザーソフトウェアで利用されている。UDBの読み書きにはUserDatabaseAPI(UDB-API)が利用可能である。キャッシュストレージとSyncDBに記録されたデータはDataAccessAPIにより読み出し可能で、このAPIはDataConvert4などの施設開発ソフトウェアや、Cheetah、CASS、SITENNO[9][9] Y. Sekiguchi et al.: J. Synchrotron Rad. 21 (2014) 600.などのユーザーソフトウェアで利用されている。これらのAPIは、C/C++で作成され、そのPython wrapper(olpy、udbpy、dbpy、stpy)もユーザー提供している。実験ユーザーは、これらを使えば、データのファイルフォーマットや、各データがどこにあるかなどを意識することなく、データを簡便に読み出すことが可能である。以上に紹介した各種APIと施設開発ソフトウェアのマニュアル、および、その利用例をHPCポータルで公開している。
 SACLAでは、データ解析用のAPIだけでなく、実験制御用のAPI(ecpy)も提供している。SACLAの利用開始時から数年の間は、RunControlGUIやPulseMotorControlGUIなどの汎用ソフトウェアで複数の実験制御に対応していたが、これらでは個別実験毎の様々な要求に短時間で対応することが困難であった。そこで、これらが持っている機能を分割・整理しPython APIとして提供することで、実験ユーザーが独自の実験制御ソフトウェアを簡便に開発することができるようにした。olpyとecpyを組み合わせると、リアルタイムの画像解析結果を実験制御ソフトウェアにフィードバックする自動測定が可能になる。ecpyのマニュアル・利用例についてもWebページなどで公開する準備をしている。Pythonは近年の人工知能(AI)分野において標準的な言語である。実験中、実験後のAI利用も直ちに可能なデータ取得・解析基盤となっている。

 

 

3.データ取得・解析システムの更新とデータ保持運用の変更
 キャッシュストレージおよびHPCは、それぞれ5年ごとに更新しており、直近では2021年夏にHPCを更新する予定である。2022年夏のキャッシュストレージ更新では、BL1用キャッシュストレージの性能改善およびデータ量の負荷分散を目的として、構成を大幅に変更する予定である。
 アーカイブストレージは、導入から約7年が経過し、ディスクシステムのメーカー保守が終了した。アーカイブストレージには、現状で、生画像データが5 PB強、ユーザー処理データが3 PB強保存されている。これ以上のデータ増量に対し、すべてのデータを永久に保持するシステムを運用するのは予算的にも困難であり、ディスクシステムの更新を機に、アーカイブストレージの構成とデータ保持運用を見直すことにした。7.2 PBのディスクシステム(中期ストレージ)を中期保存用として新規導入し、長期保存用のテープシステムと分離して運用する。今後は、中期ストレージからテープシステムへの自動マイグレーションは行われない。ユーザーに協力いただき、2020年度中に新システムへの移行が完了する予定である。新アーカイブシステムの有効活用のために、データ保持期限およびデータ量制限(quota)を設定し(表1)[10][10] http://xfel.riken.jp/users/bml09.html、2021年3月から運用を実施する。このデータ保持運用は、SPring-8データ・ネットワーク委員会[11][11] http://dncom.spring8.or.jpが、2020年2月に策定した「SPring-8/SACLA共用データシステムに関する実験データ保持ポリシー」に基づくものである。

 

表1 SACLAのデータ保持期限とquota設定
分類 短期 中期 長期
SyncDBデータ 240日
(SyncDB@DAQ-LAN)
3年
(SyncDB@HPC-LAN)
+7年
(テープ)
生画像データ 90日
(キャッシュ)
3年
(中期ストレージ)
+5年
(テープ)
ユーザー処理データ 90日 [<10 TB]
(HPCストレージ)
3年 [100 TB]
(中期ストレージ)
[ ]内はquota設定値、()内は保存場所を示す。

 

 現状では、実験ユーザーは、VPN経由のデータ転送、または、ポータブルディスクに保存して、ユーザー処理データを持ち帰ることが可能であるが、これらは大量データの扱いに向かない。データ保持運用変更に伴い、大量データを持ち帰るための環境整備として、(1)VPNを介さずに高速データ転送するための外部転送ノードの導入、(2)リニアテープオープン(LTO)テープドライブおよびオプティカルディスク・アーカイブ(ODA)ドライブのユーザー利用開始を2020年度中に行う予定である。(1)では、理研・計算科学研究センター(R-CCS)と連携して、SACLAの実験データをHPCI共用ストレージ[12][12] https://www.hpci-office.jp/pages/hpci_2016_st-1に効率的に転送する環境の整備も進めている。HPCI共用ストレージを利用するには、ユーザーが個別にHPCI課題の利用申請をする必要があるが、HPCI資源を利用することでSACLAの実験データ活用が促進されるというメリットもあると考えている。(2)について、LTOカートリッジは、1巻あたり非圧縮時12 TB、圧縮時30 TB、ODAカートリッジは、1巻あたり5.5 TBのデータ保存ができる。

 

 

4. 所外からのデータハンドリング環境の改善
 新型コロナウイルス感染症の拡大防止のため、来所者数を必要最小限にとどめ、所外の共同実験者との議論やデータ解析を円滑に行うための取り組みについて紹介する。2020年10月に、実験制御端末からGoogleドキュメント、スプレッドシート、ドライブなどへ、プロキシサーバーを介してアクセスできるようにした。実験ユーザーが実験ホールで利用可能な無線LANは、Zoom、Microsoft Teams、Google MeetなどのWeb会議ツールを利用するのに十分な性能をもっており、Googleドキュメントなどの情報共有ツールと併用することで所外の共同実験者との円滑な議論が行うことができる。また、所外の共同実験者がHPCでデータ解析する際の、VPNを介したGUIの動作速度を改善するためにFastXを導入し、2020年10月から試験利用を開始した。FastXは、ユーザーPCに特別なソフトウェアをインストールする必要がなく、Webブラウザから利用可能で、利用者からはその操作感に好評を得ている。2020年度中に一般利用を開始する予定である。前節で紹介した外部転送ノードも所外の共同実験者との円滑なデータ共有に寄与すると期待している。さらに、来所できない実験グループのために、所外から実験をリモート制御する環境の整備を検討している。最初の実験候補として、ハイパワーレーザーとの同時利用実験を想定している。

 

 

5. まとめ
 SACLAのデータ取得・解析基盤の現状について報告した。これらはJASRIと理研が緊密な連携のもと開発・整備してきたものである。現在、約500名のユーザーに利用いただいており、年間生データ生成量1.6 PBをサポートしている。SACLAのような大量データを扱うデータ基盤の開発には最先端の計算科学技術の導入が重要であり、そのために富岳を運用している理研・R-CCSとの連携を進めている。本稿がユーザーの皆様のご参考になれば幸いである。また、これらのデータ取得・解析基盤の開発と運用のノウハウはSPring-8においても活用できる。現在、SPring-8の基盤強化についても検討を進めている。

 

 

 

参考文献
[1] T. Kameshima et al.: Rev. Sci. Instrum. 85 (2014) 033110.
[2] Y. Joti et al.: J. Synchrotron Rad. 22 (2015) 571.
[3] Y. Joti et al.: Synchrotron Rad. News 30 (2017) 16.
[4] 改訂版 放射光ビームライン光学技術入門 第14章4.
[5] http://xhpcfep.hpc.spring8.or.jp (VPN接続が必要)
[6] K. Nakajima et al.: J. Synchrotron Rad. 25 (2018) 592.
[7] T. Nakane et al.: J. Appl. Cryst. 49 (2016) 1035.
[8] L. Foucar: J. Appl. Cryst. 49 (2016) 1336.
[9] Y. Sekiguchi et al.: J. Synchrotron Rad. 21 (2014) 600.
[10] http://xfel.riken.jp/users/bml09.html
[11] http://dncom.spring8.or.jp
[12] https://www.hpci-office.jp/pages/hpci_2016_st-1

 

 

 

城地 保昌 JOTI Yasumasa
(公財)高輝度光科学研究センター XFEL利用研究推進室
(国研)理化学研究所 放射光科学研究センター
〒679-5198 兵庫県佐用郡佐用町光都1-1-1
TEL : 0791-58-0992
e-mail : joti@spring8.or.jp

 

初井 宇記 HATSUI Takaki
(公財)高輝度光科学研究センター XFEL利用研究推進室
(国研)理化学研究所 放射光科学研究センター
〒679-5198 兵庫県佐用郡佐用町光都1-1-1
TEL : 0791-58-0992
e-mail : hatsui@spring8.or.jp

 

 

Print ISSN 1341-9668
[ - Vol.15 No.4(2010)]
Online ISSN 2187-4794