トレーニング 受付終了
世界最大級のチップを擁するCerebras CS-2をお使いいただき、その性能を実感しませんか?
東京エレクトロンデバイスがCS-2 及び SDK の使用に関するチュートリアル及びマシンタイムを無償で提供、
HPC用のCerebras SDK を利用したデータフロー型並列処理プログラムの開発と実行を体験できます。
オリエンテーション、SDKの紹介、簡易デモを行います。
Teamsによるオンラインでの開催です。(Teams URLは別途ご案内します)
説明会に不参加でもハッカソンに参加いただくことは可能です。
説明会については動画を作成し、後日共有させていただきます。
参加者各自でSDKを用いてプログラムを自作していただきます。
SDKにはシミュレータが付属しているため、一般的なサーバー、ノートPCでの動作確認が可能です。
プログラム作成中は適宜SDKに関するQAを受付けます。
第一部 CS-2実機等の設備見学:13時~14時
集合時間:13時
場所:東京エレクトロンデバイス エンジニアリングセンター集合 (横浜市都筑区)
https://www.teldevice.co.jp/company/map21.html
第二部 成果発表:14時~16時
集合時間:14時
場所:東京エレクトロンデバイス エンジニアリングセンター集合 (横浜市都筑区) または Teamsでのご参加
https://www.teldevice.co.jp/company/map21.html
No | 担当 | 内容 | 時間 |
1 | 東京エレクトロンデバイス | 開会のご挨拶 | 5分 |
2 | 参加者 | 各自で作成いただいたプログラムについて説明 | 10~15分/人 |
3 | 東京エレクトロンデバイス | 同時進行でそのプログラムをCS-2で実行 | 同上 |
4 |
明治大学 宮島先生 |
Cerebras とHPCについて | 10分 |
5 | 東京エレクトロンデバイス | 弊社サービスの紹介 | 10分 |
6 | 東京エレクトロンデバイス | 閉会のご挨拶 | 5分 |
※発表会での発表は希望者の先着10名とさせていただきます。
本ハッカソンにご参加いただくための交通費、作業費、その他の経費全般は参加者にてご負担をお願いします また、予期せぬ事態により発生する一切の損害について、弊社では責任を負いかねます。
ご提出いただいたプログラムについては、そのプログラムの目的、性能の一部についてSDKの事例として公表する可能性あります。
SDKをご利用の際は利用規約に同意していただく必要があります。
※以下の方について、当社判断によりご参加をご遠慮いただく場合がございます。予めご了承ください。
・競合となる商品・サービスを提供している企業、同業の企業、およびそのグループ企業・関連企業の方
・その他、不適切と判断した企業・個人の方
お預かりする皆様の個人情報は、本セミナーを開催する東京エレクトロン デバイス株式会社において個人情報保護関連法及びガイドラインに従い責任をもって管理いたします。
◇東京エレクトロン デバイス株式会社 https://www.teldevice.co.jp/privacy.html
場所について
Deep Learning について
作成中のプログラムは適宜弊社までお送りください。
NDAの締結が前提ではないため、機密情報のご利用はご控えください。
コミュニケーションツールはMicrosoft Teamsを利用します。
マニュアルは以下のサイトでご覧ください。
このマニュアルには以下のようなサンプルプログラムが含まれます。
SDK自体のダウンロードは別途ご案内いたします。
No |
タイトル |
概要 |
1 |
GEMV |
行列積を用いたCSL言語の導入説明。1PEのみ使用 |
2 |
GEMV with Checkerboard Pattern |
行列積を用いた複数PE間通信の説明。Checkerboard通信パターンを使用 |
3 |
GEMV with Collective Communications |
行列積を用いた複数PE間通信の説明。collective通信ライブラリのReduce,Scatterを使用 |
4 |
GEMM with Collective Operations |
行列積を用いた複数PE間通信の説明。collective通信ライブラリのBcastを使用 |
5 |
Residual |
2×2の矩形のPEを使った|b - A * x|の計算(b - A * xのノルムの残差) |
6 |
Cholesky |
"right-looking "アプローチを使ったコレスキー分解 |
7 |
25-Point Stencil |
25点ステンシル計算 |
8 |
Bandwidth Test |
ホストとデバイス(WSE-2)間の帯域幅の評価 |
9 |
spmv-hypersparse |
非常に疎な行列ベクトル積の実装。Matrix Market形式が使用可能 |
10 |
stencil-3d-7pts |
7点ステンシル計算 |
11 |
Power Method |
疎行列を対象としたべき乗法の実装。7点ステンシル計算を使用 |
12 |
Conjugate Gradient |
疎行列を対象としたCG法の実装。7点ステンシル計算を使用 |
13 |
Preconditioned Conjugate Gradient |
疎行列を対象とした前処理付きCG法の実装。7点ステンシル計算を使用 |
14 |
BiCGSTAB |
疎行列を対象としたBiCGSTAB法の実装。7点ステンシル計算を使用 |
15 |
Single Tile Matvec |
単精度浮動小数点数型のN x N次元 行列ベクトル積(y = A*x) |
No |
タイトル |
URL |
概要 |
1 |
Fast Stencil-Code Computation on a Wafer-Scale Processor |
•BiCGStab法で600 * 595 * 1536 のサイズのメッシュCS-1上で計算して0.86 PFlopsを達成 •Joule 2.0 (NETLのスパコン) 上のこれまでの処理と比較して200倍高速化することができた |
|
2 |
Massively scalable stencil algorithm |
•25点ステンシル計算において503TFlopsを達成 •高性能GPU1枚と比較して200倍高速化 |
|
3 |
Disruptive Changes in Field Equation Modeling A Simple Interface for Wafer Scale Engines |
•Cerebras SDKを直接使用する代わりにPython APIを開発して性能を測定 •Joule 2.0 (NETLのスパコン) 上のOpenFOAMと比較して100倍前後高速化することができた |
|
4 |
Efficient Algorithms for Monte Carlo Particle Transport on AI Accelerator Hardware |
•CUDAで最適化されたNVIDIA A100 の130倍の性能を発揮 •両者のトランジスタ数の差を考慮すると、著しい性能差であると言える |
|
5 |
Scaling the “Memory Wall” for Multi-Dimensional Seismic Processing with Algebraic Compression on Cerebras CS-2 Systems |
•Matrix Vector Multiplication を改良 •48台のCS-2で92.58PB/sのメモリバンド幅を達成 |
|
6 |
Communication Collectives for the Cerebras Wafer-Scale Engine |
https://www.research-collection.ethz.ch/handle/20.500.11850/644033 |
•スイスの学生 によるCS-2の基礎ベンチマーク •コア間通信の手法を研究 |