教育・研究機関
計1.2TbpsでSINET6とコスト効率良く冗長接続
開かれた「富岳」の活用を超高速ネットワークがさらに加速
お客様の課題
TEDのソリューション
導入製品
国立研究開発法人理化学研究所
計算科学研究センター
運用技術部門 先端運用技術
ユニット 専門技術員
野村 明広 氏
国立研究開発法人理化学研究所
計算科学研究センター
運用技術部門 先端運用技術
ユニット テクニカルスタッフ
久保 元 氏
理化学研究所 計算科学研究センターのスーパーコンピュータ「富岳」は、世界最高レベルの性能を備え、学術研究のみならず広く産業利用も進んでいます。 接続されるデータがますます大容量化する中でも、常に高速かつ安定的に「富岳」を利用できるよう、同研究センターは基幹ネットワークを刷新しました。 アリスタネットワークスとフォーティネットの製品を組み合わせることで、帯域を400Gbpsに増速し、 さらに学術ネットワークのSINETとの接続を冗長化して合計1.2Tbpsという超高速ネットワークを実現しました。
こちらから本事例のPDFをダウンロードいただけます。
今、世界は複雑に絡み合った課題に取り囲まれており、その解決策を探る手段の1つがシミュレーションやビッグデータ解析、AIといった先端技術です。理化学研究所 計算科学研究センター(R-CCS)のスーパーコンピュータ「富岳」は、それらの下地となるHPC(高性能計算)を通して社会的・科学的課題を解決し、日本の成長に貢献し、世界をリードする成果を生み出すことを目的としています。
「富岳」の特徴の1つは世界最高レベルの性能です。15万8976個のCPUを搭載し、1秒間に約44京2010兆回の計算が可能となっています。スーパーコンピュータ性能ランキングの「HPCG」および「Graph500」では、10期連続で世界1位(2024年11月現在)を獲得しています。
もう1つの特徴は、富士山の裾野のごとく幅広い利用に開かれた存在であることです。「富岳」は「特定先端大型研究施設の共用の促進に関する法律」に基づき、理化学研究所の研究者はもちろん、国内外のさまざまな大学や研究機関、そして民間企業での利用が進んでいます。
R-CCS 運用技術部門 先端運用技術ユニット専門技術員の野村明広氏は「身近なところでは気象庁による線状降水帯の研究に活用され、ゲリラ豪雨の予報に使われているほか、企業による新素材の研究などにも活用されています。15%程度が産業利用されています」と説明しています。
こうした特性上、「富岳」は理化学研究所のネットワークだけでなく、学術情報ネットワーク「SINET」を介してインターネットに接続し、世界中から利用されています。しかし、より多様な研究に活用されるにつれ、ネットワークインフラ部分の課題が明らかになってきました。
1つは帯域の課題です。以前のネットワーク構成ではSINET5に100Gbpsの専用線で接続されていました。導入当初は余裕を見込んで用意された回線でしたが、「ピーク時には帯域が足りなくなる状況がありました」と野村氏は明かします。
研究課題にもよりますが、時には、数ペタバイトクラスのデータが転送されることもあり、100Gbpsの回線が埋め尽くされることもあったと言います。解析の元データを収集する観測設備やセンサーの精度が高まり、データはますます大容量化していることから、増速化は避けられない状況でした。
もう1つの課題はさらなる可用性の確保でした。以前のネットワークは、SINETの神戸データセンターのみと接続していました。単一箇所での接続となるため、メンテナンスなどのたびにR-CCSのネットワーク全体が止まってしまう事態に陥ります。
「『富岳』のさらなる産業利用を進めるに当たって、どこか1カ所の障害やメンテナンスで全停止になる事態は避けなければなりません。回線の増速とともにデータセンターの冗長化も求められていました」(野村氏)
ピンチアウトで拡大
2022年4月から400Gbpsイーサネットを基本とする「SINET6」の運用に合わせて、R-CCSは、ネットワークを刷新することにしました。それも、単に機器を入れ換えるだけでなく、以前は外部の事業者に委託していたネットワーク運用を、自分たちで内製化するという体制の転換も含めての決断でした。
「ネットワーク構成のちょっとした変更や追加のたびに、見積もりや検証、資料作成といった作業が発生し、多大な時間がかかっていました。そのため、『もっとこうしてほしい』といった研究者の方などの要望に対して、迅速かつ柔軟に対応することができませんでした」(野村氏)。
そこで、研究者からのニーズへ柔軟かつレスポンスよく対応できるだけでなく、コスト削減にもつながることから、自分たちの手で設計・運用することにしました。
新たなネットワークでは、まずSINET神戸データセンターとの間は400Gbpsの専用線で接続しています。さらにSINET大阪データセンターとはダークファイバーを用い、400Gbpsを2チャンネル多重化して800Gbpsで接続し、合計3回線、総帯域幅は1.2Tbpsという構成とし、より高速な接続と冗長化を実現しました。
ピンチアウトで拡大
こうした高速接続を実現しているのが、アリスタネットワークスの「Arista 7280R3シリーズ」スイッチでした。
400Gbpsの専用線ともなると、通信料金は莫大な額になります。そこでR-CCSは、神戸データセンターと結ぶ専用線は、国立情報学研究所(NII)との共同調達形式にすることでコストを抑えました。そして大阪データセンターとの接続には専用線ではなく、ダークファイバーを採用することで可能な限りコストを抑える構成としました。Line Systemが終端装置の役割も兼ねるため、機器の数も減って構成がシンプルになり、さらにコスト削減につながっています。
とはいえ、専用線とは異なりSLAが設定されているわけではないダークファイバーでの接続は 、チャレンジングなものでした。400G-ZRモジュールとLine Systemを組み合わせ、2チャンネル多重で800Gbpsを接続するのは国内でも初のケースだったこともあり、「本当にうまくつながるのか」と不安があったそうです。
しかし、アリスタネットワークスの技術力と製品品質もあって、接続は拍子抜けするほどスムーズだったと野村氏は振り返ります。
「いざという時に備えた策も検討した上で接続作業に臨みましたが、実際に作業を始めてみると、モジュールを挿し、ケーブルを挿したらリンクアップし、実際の作業時間としてはものの5分もかからないくらいでつながりました」(野村氏)
その後の運用においても、「ネットワークエンジニアにとって慣れ親しんだインターフェースで運用できるため、非常に使いやすく助かっています」と運用技術部門 先端運用技術ユニット テクニカルスタッフの久保元氏は話しています。
ピンチアウトで拡大
400Gbpsネットワークへの移行に当たってもう1つ検討しなければならなかったポイントが、ファイアウォールです。
「富岳」は広く開かれたスーパーコンピュータですが、誰も彼もが自由に接続できる状態が望ましいとはいえません。また、大学や企業など多様な利用者の全てに何らかのエージェントを配布して制御するのは非現実的です。そこでR-CCSでは以前から、フォーティネットの「FortiGate 3980E」を導入し、IPアドレスベースのアクセス制御を行って一定のセキュリティを担保していました。
しかし、FortiGate 3980Eが搭載するネットワークインターフェースは最大100Gbpsでした。複数の100Gbpsポートを束ねることもできましたが、「いくらリンクアグリゲーションによって100Gbps接続を束ねても、そこがボトルネックになってしまいます。しかも、ボトルネックになっていること自体に気づきにくい構成になってしまうといった懸念もありました」と野村氏は説明します。
そこで、ネイティブで400Gbpsのポートを搭載している製品を検討し、採用したのが「FortiGate 4800F」でした。
「シリーズで統一されたユーザーインターフェースを備えているので、元々操作に慣れていることもあって導入は容易に進みました。アクセスコントロールポリシーも機種依存がないため、単純に『非常に高速なポートが増えた』という感覚で移行できました」(野村氏)。
パフォーマンスが高くなった一方で、筐体そのものはよりコンパクトに、軽量になったことも利点でした。
ピンチアウトで拡大
R-CCSはネットワークの高速化・冗長化に当たって、もう1つ新たな取り組みを実施しました。アリスタネットワークスが提供するリアルタイムのテレメトリ監視ソフト、「CloudVision」の導入です。
「以前からSNMPで監視を行っていましたが、ポーリングの間隔が空いてしまい、障害を把握するまでにどうしてもタイムラグがありました。また、その間隔も一定ではなく、監視サーバーの負荷によってぶれが生じており、もっと使い勝手の良い監視ツールを求めていました」(野村氏)
SNMP監視をブラッシュアップするだけでなく、CloudVisionも合わせて導入したことにより、秒単位でネットワークの状況を把握できるようになりました。何らかの事象が生じた時点だけでなく、過去にさかのぼってどうだったか、そして収束後にどのような状態に変わったかという一連の経緯を秒単位で追いかけられるという意味で、非常に使い勝手が良いと評価しています。
「例えば、ネットワーク機器の障害に伴ってBGPの経路が変更され、対処が終わって元に戻ったような場合、どのように変化していたのかという細かい情報を拾えるようになりました。また、光モジュールの出力・受信レベルの変化も把握できるようになっています」(野村氏)
続けて久保氏は「特に、ダークファイバーのリンクダウンをすぐに検出し、一瞬リンクダウンしただけですぐ戻ったのか、何秒で回線が切り替わり、何秒後に戻ったのかといった事柄を秒単位で追いかけられるため、非常に助かっています。今後は、ボタン1つで設定を容易にデプロイできる機能など、CloudVisionが持つより便利な機能を使いこなしていきたいと考えています」と語ります。
このようにCloudVisionは内製化したR-CCSの運用に役立っています。
新たな基幹ネットワークへ移行し、帯域には大きな余裕が生まれました。将来的にさらなる需要が生じたとしても、スイッチ側のトランシーバーモジュールを変更・追加するだけで、光波長を8波長にまで増やし、最大で3.2Tbpsというさらなる超高速化へとアップグレードできる余裕があります。上限が決まっている中でやりくりを検討し、時間をかけて回線を調達する場合に比べてはるかに迅速かつ柔軟に、ニーズに対応できる環境が整いました。
冗長化し安定した運用が可能になったことで、内製化したにもかかわらず、心理的な余裕が生まれたことも大きいそうです。
「以前は回線が冗長化されていなかったため、メンテナンス時はもちろん、障害時には非常に神経を使っていました。新たな構成では、何かあっても回線が瞬時に自動的に切り替わり、接続を維持できるため、枕を高くして眠ることができています」(野村氏)
緊急対応が求められるような深刻なトラブルは、SINET6への移行後はほとんど発生していません。もちろん、軽微な問題が発生することはありますが、CloudVisionによって状況をチェックし、「すぐに切り替わって、すぐに元に戻っているようだ」と確認できるため、安心して運用できています。
以前からネットワークのプロフェッショナルとして知見を蓄積してきた先端運用技術ユニットだけに、内製化後も安定した運用が行えています。アリスタネットワークスや東京エレクトロンデバイスが提供するドキュメントやファームウェアのダウンロードサイトを活用し、必要に応じて自ら情報を手に入れているため、サポートに頼る場面はほとんどありませんが、「Configの内容など、深い部分について問い合わせした場合でも、素早いレスポンスで対応していただいている印象があります」と野村氏は話しています。
R-CCSは今後も、研究者がより快適に「富岳」を、さらにその先のスーパーコンピュータを活用できるネットワーク環境の整備に取り組みます。現在はNATを介している各ノードにIPv6アドレスを割り振り、変換なしでダイレクトにアクセスできないかを検討する一方で、セキュリティ対策もより綿密に実施すべく、アタックサーフェスマネジメント(ASM)などのアプローチを検討していくそうです。その際には、システムを熟知した上で「理研好み」のソリューションを用意できる東京エレクトロンデバイスの提案力にも期待していると言います。
「富岳」がより広く活用され、社会が抱えるさまざまな課題の解決を図るには、HPCそのものの性能もさることながらネットワークの役割も不可欠です。
「『富岳』を使っている研究者の方々も、みんながみんなITやネットワーク技術に詳しいわけではありません。あって当たり前、動いて当たり前のネットワークを提供し続けていきます」(野村氏)
国立研究開発法人理化学研究所 計算科学研究センター
兵庫県神戸市中央区港島南町7-1-26
2010年7月
松岡 聡
「計算の、計算による、計算のための科学」で未来を拓く理化学研究所 計算科学研究センター(R-CCS)。R-CCSは社会の革新的発展を目指し、科学や社会が抱える課題の解決に貢献するため、「シミュレーション」、「ビッグデータ解析」、「AI」を融合した最先端の研究を、ハイパフォーマンス・コンピューティング(HPC)で実践。スーパーコンピュータを安定的に運用し、研究機関・大学にとどまらず産業界からの利用などを通じ、幅広い分野で世界トップレベルの成果を創出しシミュレーションの可能性を拓いています。
記事は 2024年10月 取材・掲載のものです。
こちらから本事例のPDFをダウンロードいただけます。