ページトップへ戻る

Volume 24, No.1 Pages 28 - 31

2. 研究会等報告/WORKSHOP AND COMMITTEE REPORT

第12回NOBUGS国際会議(NOBUGS2018)報告
12th International Conference on NOBUGS (NOBUGS2018)

松本 崇博 MATSUMOTO Takahiro

(公財)高輝度光科学研究センター 情報処理推進室 Information-technology Promotion Division, JASRI

pdfDownload PDF (988 KB)
SPring-8

 

1. はじめに
 今回で12回目となるNew Opportunities for Better User Software(以下、NOBUGS)の国際会議が2018年10月21日から26日にかけて、米国ニューヨーク州のブルックヘブン国立研究所(BNL)にて開催された[1][1] https://www.bnl.gov/nobugs2018/。NOBUGSは、世界の放射光施設、中性子施設及びミューオン施設に関わる科学者とIT技術者のコラボレーションを促進することを目的として開催されている。今回のNOBUGS2018では以下に示すテーマが設定され、実験ユーザー向けソフトウェアに関する話題が中心として取り扱われた。

 

 •Data Catalogs/Electronic Notebooks
 •Data Streaming
 •Use of (commercial) Cloud Systems
 •Web Tools
 •Workflow Engines & Tools
 •Other Relevant Topics

 

 本会議は参加者が82名、口頭発表が23件及びポスター発表が26件と小規模であったが、NSLS-II、European XFEL、ESRF、Diamond、MAX VI、APS、ISIS、ESSなど、米国や欧州の主要な放射光施設や中性子施設から幅広い参加があった。日本からはSPring-8から出席した筆者の他、J-PARC MLF(物質・生命科学実験施設)関係から4名の参加者があった。NOBUGS2018では少人数でパラレルセッションもないことから、会議の中で参加者と次第に打ち解けていきやすい雰囲気があった。またプロシーディングスの提出も必要ないことから堅苦しい雰囲気もなく、気軽に意見交換しやすい場である所がユニークな特徴であると感じた。筆者はSPring-8においてオープンデータに向けた開発研究を進めているが、現在抱えている課題について他施設の方々と遠慮なく率直に意見交換できる機会も得られ、貴重な経験となった。本会議では3つの基調講演も行われたが、全てIT企業の方々の講演であった。Continuum Analyticsの共同設立者のPeter Wang氏によるPythonとデータ分析の講演もあり、科学者とIT技術者の間で活発な交流が行われていた。
 本会議は、2014年10月から稼働を始めた新しい放射光施設NSLS-IIの近くにあるComputational Science Initiativeで開催された。BNLはSPring-8と比べても広大であり、車での移動が前提となっている。筆者はBNL内の宿舎に宿泊していたが、宿舎からNOBUGS2018の会場まで徒歩20分程度かかった。車なしではBNLから抜け出すことが困難であり、雑念にとらわれることなく会議に没頭できる環境にあった。BNL施設内は消防署や警察署もあるなど施設全体が街を形成しているのが印象的であった。一方、施設内では七面鳥や鹿など野生動物に触れる機会もあり、豊かな自然を感じることもできた。

 

図1 NSLS-II施設の前で撮影したNOBUGS2018参加者の集合写真

 

 

2. 会議報告
 ここでは、本会議において筆者が印象に残った実験データ収集やデータ解析ソフトウェア、及びオープンデータに関する話題について紹介する。
 世界の放射光施設や中性子施設では実験計測で用いるフレームワークの標準化が進められている。標準化されたフレームワークを施設内の複数のビームラインに横断的に導入することで、実験計測システムの高性能化が効率的に進められている。代表例としてはTango[2][2] http://www.tango-controls.org/やEPICS[3][3] https://epics.anl.gov/といった制御フレームワークが挙げられる。これはSPring-8におけるMADOCA[4][4] 古川行人 他:SPring-8/SACLA利用者情報 19 (2014) 392-395.と同様、大規模な制御システムにおいて、分散ネットワーク化にある機器やアプリケーションの制御を統一した手続きで簡易に行う枠組みである。
 データ収集に関しては、このような標準化されたフレームワークとリンクして利用できるソフトウェアが数多く報告された。一例としてESRFで開発が進められているBliss[5][5] http://www.esrf.eu/computing/bliss/doc/bliss/の報告があった。これはビームライン実験計測でよく使われているspec[6][6] https://certif.com/spec.htmlを改良したものでPythonをベースに作られている。Tangoと連携することもでき、Continuous ScanやStep Scan、データマネージメント等が柔軟に行えるように機能拡張されていた。ESRFではspecからBlissへと全面的に更新することを決断し、2016年よりBlissの導入を進めている。ESRFで準備が進められている次期放射光計画EBS移行時のシャットダウン中(2019~2020年)にビームラインの半数をBlissに置き換える予定とのことであった。また、NSLS-IIにおいて導入が進められているPythonベースのデータ収集フレームワークbluesky[7][7] https://nsls-ii.github.io/bluesky/の報告もあった。blueskyはEPICSと連携しており、GPFSをビームライン共通のファイルストレージとして用いている。Pythonを用いることにより、機器制御やデータ収集、及びデータマネージメントの高度な処理が簡易に行えるように工夫されていた。
 実験データを保存するためのデータフォーマットも標準化の対象として重要であり、後で述べるオープンデータでも関わる項目である。欧州ではPaNdata[8][8] http://pan-data.eu/において放射光施設と中性子施設における実験データの取り扱い方針を定めているが、NeXus[9][9] https://www.nexusformat.org/を共通のデータフォーマットとして使うことを推奨している。NeXusは日本では利用例が少ないが、海外では多くの施設で広く活用されている。NeXusはHDF5データフォーマット[10][10] https://support.hdfgroup.org/HDF5/をベースとして用いており、様々な型のデータやファイルを、階層構造を持たせてひとまとめにすることができる。HDF5そのままでは自由度が高いため、NeXusではさまざまな実験計測で共通に利用するための定義を設けている。
 データ可視化やデータ解析ソフトウェアにおいても、NeXusとリンクして利用できるものが多く報告された。一例としてDESYで開発が進められている2次元画像可視化ソフトウェアLaVue[11][11] https://confluence.desy.de/display/FSEC/LaVue+-+Live+Image+Viewerの報告があった。LaVueではNeXusを含む多様なファイルフォーマットに対応すると共に、HiDra[12][12] https://stash.desy.de/projects/HIDRA/repos/hidra/と呼ばれる高速データ転送ソフトウェアや、2次元検出器データ収集フレームワークLima[13][13] http://lima.blissgarden.org/など、多様なインターフェースと連携できるように工夫されていた。他には米国の研究機関が共同で開発を進めているXiCam[14][14] https://www.camera.lbl.gov/xi-cam-interfaceの報告があった。XiCamではローカルやリモートにある多様なフォーマットのデータにアクセスし、SAX/GISAXやXAS、Tomography等さまざまなデータ解析をプラグインにより柔軟に行えるように実装されていた。
 画像データ解析では大容量データ処理の手法も重要となる。Coherent Diffraction Imagingを高速処理するソフトウェア[15][15] https://github.com/advancedPhotonSource/cdiや、機械学習を活用し2次元検出器画像で類似した領域ごとに分割を行うソフトウェアSuRVoS[16][16] https://diamondlightsource.github.io/SuRVoS/の報告もあった。本会議で報告があったこれらデータ収集やデータ解析ソフトウェアはSPring-8でも活用できそうなものも多く見られた。SPring-8/SACLA内で広く情報共有し、積極的に利用検討を進めていく必要性を感じた。なお、報告があったソフトウェアのほぼ全てがGitHubやGitLabを用いてコード管理をしており、外部公開されていた。筆者もSPring-8内でGitLabの運用を行っているが、今後このようなソフトウェア管理・公開の取り組みがより重要になると思われる。
 オープンデータに関しては、本会議で最もアクティブなテーマであったように思う。各施設からの報告があったがESRFでの取り組みが最も進んでいるように感じられた。
 オープンデータではFAIRの概念が重要視されている。FAIRとはFindable(見つけられる)、Accessible(アクセスできる)、Interoperable(相互運用できる)、Re-usable(再利用できる)の頭文字をとったものであり、オープンデータで利用できるデータについて定義している。FAIRの条件を満たすためには、実験計測におけるサンプル情報や実験条件などをメタデータとして定義し、メタデータカタログ(データベース)に登録する必要がある。このメタデータカタログを通して、必要なデータを検索しアクセスできるようになる。
 メタデータカタログにはICAT[17][17] https://icatproject.org/を用いることがPaNdataの方針となっている。しかしながら、本会議では新しいメタデータカタログの開発例がいくつか報告された。これら新しいメタデータカタログでは、実験毎に異なるメタデータを柔軟に扱い、より現実に即した利用を行うため、スキーマレスDBを用いていた。例としてはMAX VIやESSなどで開発されているMongoDBを用いたSciCat[18][18] https://github.com/SciCatProject/、BNLにおけるElasticsearchを用いた開発例の報告があった。筆者がSPring-8において開発を進めている実験データ転送システムBENTEN[19][19] T. Matsumoto et al., "Experimental Data Collection and Data Access Software Through Internet at SPring-8", AIP conference proceedings (SRI2018)でもElasticsearchを用いたメタデータ管理を行っているが、今後、海外の動向も注視して開発を進めていく必要性を感じた。
 研究データにデジタルオブジェクト識別子(DOI)[20][20] https://www.doi.org/を付与する取り組みについての報告もあった。研究論文へのDOIの付与は既に浸透しているが、研究データにもDOIを付与する動きがここ最近進んできている。研究データにDOIを付与するメリットとしては、研究論文によるデータ引用が挙げられる。データ公開者にとっても自分が公開したデータがどの研究論文で利用されているのか把握できるようになるメリットもあり、研究データへのDOI付与により新しい文化が生まれることが期待されている。
 オープンデータの開発は各施設において急ピッチで進められているが、ESRFでは研究データのオープンアクセスのためのWebポータルを立ち上げ、運用を開始したとのことであった。先に述べた研究データにDOIを付与するためのインターフェースの整備も進んでいた。オープンデータにおいてはデータアクセスのためのデータポリシーも重要となるが、欧州ではエンバーゴの期限3年を過ぎたのちはデータが一般公開されることになっている。
 他、クラウド利用もオープンデータの話題でよく議題になる項目であるが、本会議ではJ-PARC MLFにおいてデータ配送及びデータ解析ファームで試験的に利用している事例のみ報告があった。J-PARCの担当者に伺ったところ、J-PARC MLFではJAEAが運用していることからセキュリティ対策に非常に注意を払っており、オープンデータのため外部から施設内の計算機に直接アクセスするのは避けたい、という意向があるようであった。このため、クラウド上にデータ転送しオープンアクセスする手段について積極的に試験を進めているようである。クラウドでデータ利用する際にはデータダウンロード時に課金が発生するが、現在は扱うデータ量が少ないこともあり施設側で負担しているとのことであった。今後、大容量データのストレージやデータ解析でのコスト低減のためクラウド利用がより注目されると考えられるが、実際の利用が進むにつれ運用手法がより確立していくだろう。
 会議の最終日にはNSLS-IIの施設見学があり、ビームラインや制御室を見学した。NSLS-IIは運用を始めたばかりであるため、施設は新しくとても綺麗であった。中央制御室では情報掲示用に大型のタッチパネルディスプレイが整備されていた。施設内には24のビームラインが稼働しているが、BNLで開発されたPythonベースのデータ収集フレームワークblueskyが各ビームラインに導入され、実際に便利に活用されているところを拝見することもでき、印象に残った。

 

図2 施設見学で訪れたNSLS-IIビームライン

 

 

3. おわりに
 会議後半10月25日、26日はNOBUGS2018のサテライト会議があり、NeXusのInternational Advisory Committee(NIAC)[21][21] https://www.nexusformat.org/NIAC.htmlにオブザーバーとして参加する機会を得た。NIACではNeXusデータフォーマットに関する規則を定めたり、NeXus利用を促進するなどの活動を進めている。会議ではNeXusで現在課題になっている項目が挙げられ、今後どのような方針で進めていくのか議論がされていた。SPring-8では、まだNeXusの利用事例はないが、NIACで議論されていた項目は今後データフォーマットをどのように定義して利用するのか考えていく際にも有用であり大変参考になった。筆者はオープンデータの取り組みを進めていることからNIACに興味を持ち、NOBUGS2018の後、NIACのメンバーとして正式に承認されることになった。今後、NOBUGS2018で顔なじみになった他施設関係者の方々と連携し、NeXusの利用も念頭に置きながらオープンデータやその他の開発研究を精力的に進めていきたい。
 次回のNOBUGSはDESYがホストし、European XFELがあるドイツ・ハンブルグにおいて開催される予定である。

 

 

 

参考文献
[1] https://www.bnl.gov/nobugs2018/
[2] http://www.tango-controls.org/
[3] https://epics.anl.gov/
[4] 古川行人 他:SPring-8/SACLA利用者情報 19 (2014) 392-395.
[5] http://www.esrf.eu/computing/bliss/doc/bliss/
[6] https://certif.com/spec.html
[7] https://nsls-ii.github.io/bluesky/
[8] http://pan-data.eu/
[9] https://www.nexusformat.org/
[10] https://support.hdfgroup.org/HDF5/
[11] https://confluence.desy.de/display/FSEC/LaVue+-+Live+Image+Viewer
[12] https://stash.desy.de/projects/HIDRA/repos/hidra/
[13] http://lima.blissgarden.org/
[14] https://www.camera.lbl.gov/xi-cam-interface
[15] https://github.com/advancedPhotonSource/cdi
[16] https://diamondlightsource.github.io/SuRVoS/
[17] https://icatproject.org/
[18] https://github.com/SciCatProject/
[19] T. Matsumoto et al., "Experimental Data Collection and Data Access Software Through Internet at SPring-8", AIP conference proceedings (SRI2018)
[20] https://www.doi.org/
[21] https://www.nexusformat.org/NIAC.html

 

 

 

松本 崇博 MATSUMOTO Takahiro
(公財)高輝度光科学研究センター 情報処理推進室
〒679-5198 兵庫県佐用郡佐用町光都1-1-1
TEL : 0791-58-0802 ext 3270
e-mail : matumot@spring8.or.jp

 

 

Print ISSN 1341-9668
[ - Vol.15 No.4(2010)]
Online ISSN 2187-4794