製品情報

Cerebras | CS-2 (シーエスツー )-東京エレクトロンデバイス

Cerebras | CS-2

超高速ディープラーニングシステム「CS-2」

Cerebras | CS-2

ウェハースケールエンジン(WSE-2) を搭載した超高速ディープラーニングシステム「CS-2」

Cerebras社のCS-2は、モノリシックな巨大半導体チップを実装した19インチラックへ搭載可能な15Uのディープラーニング専用システムで、GPUベースの従来システムと比べて省スペース・低消費電力で超高速な学習処理を行うことが可能です。

ピンチアウトで拡大

主な特長

半導体チップ技術

大型半導体 ~ウェハースケールエンジン(WSE-2)~

「CS-2」には、ディープラーニング専用に設計された21.5cm角の大型半導体「ウェハースケールエンジン(WSE-2)」を搭載しています。「WSE-2」は積和演算を実行する85万個のコアと、効率的なデータアクセスのためにコア毎に高速なローカルメモリを実装し、コア間で非常に高速な通信が可能になるように設計されています。

Cerebras_大型半導体Wafer-Scale-Engine(WSE-2)
ディープラーニング専用に設計された21.5cm角の大型半導体「ウェハースケールエンジン(WSE-2)」

ピンチアウトで拡大

  CS-1(WSE-1) CS-2(WSE-2)
製造プロセス TSMC 16nm TSMC 7nm
シリコン面積 46,225 ㎟ 46,225 ㎟
トランジスタ数 1.2 Trillion 2.6 Trillion
疎線形代数演算コア 400,000 850,000
オンチップSRAM 18 GB 40 GB
メモリ帯域 9 PB/s 20 PB/s
コア間インターコネクト 100 Pb/s 220 Pb/s

 

ディープラーニングに最適化

WSEの85万個の疎線形代数演算コアは、多くのニューラルネットワーク向けに最適化されています。
各コアはそれぞれ独立して柔軟にプログラム可能であるため、トレンドに合わせてどんなアルゴリズムでも実行することができます。

 

広帯域・低遅延な通信ファブリック

WSE上の全てのコアは、Swarmと呼ばれる220Pb/sの2次元メッシュ構造の通信ファブリックでシリコン上で相互に接続されています。
Swarmによるシリコン上での通信は、GPU同士間の通信と比べて非常に小さなレイテンシと消費電力で高速通信することが可能です。

 

高速なオンチップSRAMの使用

WSEはオンチップSRAMを大量実装しており、モノリシックなシリコンチップ上でPB/sクラスのトータルメモリバンド幅でアクセス可能です。
これは、業界を代表する他社GPU製品と比べて1,000倍以上のメモリ量、12,800倍以上のメモリバンド幅があることを意味します。
シリコンチップ上の各コアにローカルSRAMを分散配置することで、より低レイテンシで低消費電力を実現しながら高速で柔軟な演算処理が可能になります。

ソフトウェアプラットフォーム

シームレスなソフトウェア統合

CerebrasのソフトウェアプラットフォームではTensorFlowのような主要なMLフレームワークを統合しており、ユーザーは使い慣れたツールを使いモデルを簡単にWSEに投入することが可能です。
また、一般的なディープラーニング計算用のスタンダードな拡張ライブラリとカスタムカーネルを開発するためのSDK(Cインターフェイス)の両方を提供しており、それを使って研究者がマシンラーニングイノベーションの限界を突破できるよう支援します。

Cerebra_シームレスなソフトウェア統合
シームレスなソフトウェア統合

ピンチアウトで拡大

 

Cerebrasグラフコンパイラ(CGC)を使ったハードウェア最適化

Cerebrasグラフコンパイラ(CGC)は、WSE上で実行できるようにニューラルネットワークを自動的に変換します。
CGCはあらゆる段階でWSEの使用効率を最大化するよう設計されており、演算リソースを最大限使うためにどの処理をどのくらいのリソースに割り当てるかを計算してから、最小の通信レイテンシで処理できるよう各処理の割り当て場所とルーティングを自動的に決定します。

 

Cerebra_グラフコンパイラ(CGC)を使ったハードウェア最適化
グラフコンパイラ(CGC)を使ったハードウェア最適化

ピンチアウトで拡大

 

柔軟性と拡張性のための設計

CerebrasソフトウェアプラットフォームにはSDKを使ったカスタムカーネルの開発だけでなく、一般的なディープラーニング計算用のスタンダードな拡張ライブラリも含まれています。デバッグやプロファイリング用の総合パッケージツールによって、ユーザー自身が処理を最適化することが可能です。

Cerebra_柔軟性と拡張性のための設計
柔軟性と拡張性のための設計

ピンチアウトで拡大

仕様

疎線形代数演算コア

850,000
オンチップメモリ 40 GB SRAM
メモリ帯域 20 PB/s
コア間帯域 220 Pb/s
システム I/O 1200 Gb/s: 12 x 100 Gig Ethernet
プロセス TSMC 7nm
サイズ 15 Rack Units (26.25 inches)
 
Cerebras_CS-1_Angled_Black

ピンチアウトで拡大

 
本製品に関する仕様こちらからお問い合わせください

メーカー情報

「AIアクセラレータ」に関連する製品・サービス