Cerebras SDKハッカソン | 東京エレクトロンデバイス

Cerebras SDKハッカソン

トレーニング 受付終了

世界最大級のチップを擁するCerebras CS-2をお使いいただき、その性能を実感しませんか?
東京エレクトロンデバイスがCS-2 及び SDK の使用に関するチュートリアル及びマシンタイムを無償で提供、
HPC用のCerebras SDK を利用したデータフロー型並列処理プログラムの開発と実行を体験できます。

ハッカソン説明会
2023年12月20日(水) 午後3時~午後4時【終了しました】

オリエンテーション、SDKの紹介、簡易デモを行います。

Teamsによるオンラインでの開催です。(Teams URLは別途ご案内します)

説明会に不参加でもハッカソンに参加いただくことは可能です。

説明会については動画を作成し、後日共有させていただきます。

 

プログラム作成期間
2023年12月20日(水)~2024年1月30日(火)

参加者各自でSDKを用いてプログラムを自作していただきます。

SDKにはシミュレータが付属しているため、一般的なサーバー、ノートPCでの動作確認が可能です。

プログラム作成中は適宜SDKに関するQAを受付けます。

 

発表会
2024年1月30日(火) 13時~16時 
(オンライン/オフラインのハイブリッド開催)

第一部 CS-2実機等の設備見学:13時~14時

集合時間:13時

場所:東京エレクトロンデバイス エンジニアリングセンター集合 (横浜市都筑区)
https://www.teldevice.co.jp/company/map21.html

第二部 成果発表:14時~16時

集合時間:14時

場所:東京エレクトロンデバイス エンジニアリングセンター集合 (横浜市都筑区) または Teamsでのご参加
https://www.teldevice.co.jp/company/map21.html 

No 担当 内容 時間
1 東京エレクトロンデバイス 開会のご挨拶 5分
2 参加者 各自で作成いただいたプログラムについて説明 10~15分/人
3 東京エレクトロンデバイス 同時進行でそのプログラムをCS-2で実行 同上
4

明治大学 宮島先生

Cerebras とHPCについて 10分
5 東京エレクトロンデバイス 弊社サービスの紹介 10分
6 東京エレクトロンデバイス 閉会のご挨拶  5分

※発表会での発表は希望者の先着10名とさせていただきます。

申込方法、条件について

本ハッカソンにご参加いただくための交通費、作業費、その他の経費全般は参加者にてご負担をお願いします また、予期せぬ事態により発生する一切の損害について、弊社では責任を負いかねます。

ご提出いただいたプログラムについては、そのプログラムの目的、性能の一部についてSDKの事例として公表する可能性あります。

  • ご参加者の氏名、所属等を公開することはありません。

SDKをご利用の際は利用規約に同意していただく必要があります。

  • https://www.cerebras.net/homepage-landing/developers/sdk-request/
  • 上記ページからリクエストすることもできますが、その場合は米国Cerebras Systems社のエンジニアが、ファイルの準備を行うためダウンロードまで時間がかかります。そのため、利用規約をお読みいただいた後は、弊社のサイトからダウンロードすることを推奨いたします。

開催概要

開催日時
2023年12月12日(火) 15:00 〜 16:00
2024年01月30日(火) 13:00 〜 16:00
参加費
無料
主催
東京エレクトロン デバイス株式会社
特別協力
明治大学 宮島敬明 専任講師
協賛
Cerebras Systems

個人情報の取り扱いについて

※以下の方について、当社判断によりご参加をご遠慮いただく場合がございます。予めご了承ください。

・競合となる商品・サービスを提供している企業、同業の企業、およびそのグループ企業・関連企業の方
・その他、不適切と判断した企業・個人の方 

お預かりする皆様の個人情報は、本セミナーを開催する東京エレクトロン デバイス株式会社において個人情報保護関連法及びガイドラインに従い責任をもって管理いたします。

◇東京エレクトロン デバイス株式会社 https://www.teldevice.co.jp/privacy.html

補足事項

場所について

  • 現地 (横浜市都筑区) とオンラインのハイブリッド開催を予定しています。
  • 実機をご覧になりたい方は弊社事業所までお越しください。

Deep Learning について

  • Cerebras CS-2はAI/HPC向けのアクセラレータです。
  • そのためPyTorch等のフレームワークを使うこともできますが、今回のご利用ははSDKを用いたHPCに限ります。

作成中のプログラムは適宜弊社までお送りください。

NDAの締結が前提ではないため、機密情報のご利用はご控えください。

コミュニケーションツールはMicrosoft Teamsを利用します。

  • そのため会議参加時は、自分のユーザー名が他の参加者にも表示されます。

SDKのマニュアル

マニュアルは以下のサイトでご覧ください。

このマニュアルには以下のようなサンプルプログラムが含まれます。

  • 基本的なチュートリアル
  • GEMV、GEMM
  • Cholesky分解
  • ステンシル計算 (7点、25点)
  • Conjugate Gradient
  • BiCGSTAB
  • その他

SDK自体のダウンロードは別途ご案内いたします。

サンプルプログラム (CSL Code Examples)

No

タイトル

概要

1

GEMV

行列積を用いたCSL言語の導入説明。1PEのみ使用

2

GEMV with Checkerboard Pattern

行列積を用いた複数PE間通信の説明。Checkerboard通信パターンを使用

3

GEMV with Collective Communications

行列積を用いた複数PE間通信の説明。collective通信ライブラリのReduce,Scatterを使用

4

GEMM with Collective Operations

行列積を用いた複数PE間通信の説明。collective通信ライブラリのBcastを使用

5

Residual

2×2の矩形のPEを使った|b - A * x|の計算(b - A * xのノルムの残差)

6

Cholesky

"right-looking "アプローチを使ったコレスキー分解

7

25-Point Stencil

25点ステンシル計算

8

Bandwidth Test

ホストとデバイス(WSE-2)間の帯域幅の評価

9

spmv-hypersparse

非常に疎な行列ベクトル積の実装。Matrix Market形式が使用可能

10

stencil-3d-7pts

7点ステンシル計算

11

Power Method

疎行列を対象としたべき乗法の実装。7点ステンシル計算を使用

12

Conjugate Gradient

疎行列を対象としたCG法の実装。7点ステンシル計算を使用

13

Preconditioned Conjugate Gradient

疎行列を対象とした前処理付きCG法の実装。7点ステンシル計算を使用

14

BiCGSTAB

疎行列を対象としたBiCGSTAB法の実装。7点ステンシル計算を使用

15

Single Tile Matvec

単精度浮動小数点数型のN x N次元 行列ベクトル積(y = A*x)

SDK関連の論文紹介

No

タイトル

URL

概要

1

Fast Stencil-Code Computation on a Wafer-Scale Processor

https://arxiv.org/pdf/2010.03660.pdf

•BiCGStab法で600 * 595 * 1536 のサイズのメッシュCS-1上で計算して0.86 PFlopsを達成

•Joule 2.0 (NETLのスパコン) 上のこれまでの処理と比較して200倍高速化することができた

2

Massively scalable stencil algorithm

https://arxiv.org/pdf/2204.03775.pdf

•25点ステンシル計算において503TFlopsを達成

•高性能GPU1枚と比較して200倍高速化

3

Disruptive Changes in Field Equation Modeling A Simple Interface for Wafer Scale Engines

https://arxiv.org/pdf/2209.13768.pdf

•Cerebras SDKを直接使用する代わりにPython APIを開発して性能を測定

•Joule 2.0 (NETLのスパコン) 上のOpenFOAMと比較して100倍前後高速化することができた

4

Efficient Algorithms for Monte Carlo Particle Transport on AI Accelerator Hardware

https://arxiv.org/pdf/2311.01739.pdf

•CUDAで最適化されたNVIDIA A100 の130倍の性能を発揮

•両者のトランジスタ数の差を考慮すると、著しい性能差であると言える

5

Scaling the “Memory Wall” for Multi-Dimensional Seismic Processing with Algebraic Compression on Cerebras CS-2 Systems

http://hdl.handle.net/10754/694388

•Matrix Vector Multiplication を改良

•48台のCS-2で92.58PB/sのメモリバンド幅を達成

6

Communication Collectives for the Cerebras Wafer-Scale Engine

https://www.research-collection.ethz.ch/handle/20.500.11850/644033

•スイスの学生 によるCS-2の基礎ベンチマーク

•コア間通信の手法を研究

メーカーに関連する情報