製品情報

Cerebras | CS-1

超高速ディープラーニングシステム”CS-1"

Cerebras | CS-1

ウェハースケールエンジン(WSE) を搭載した超高速ディープラーニングシステム”CS-1"

「CS-1」は、15U筐体1台でGPUベースの従来システムに比べて小型・低消費電力で学習時間を大幅に短縮することを目的としたディープラーニング専用の超高速システムです。

「CS-1」は、「ウェハースケールエンジン(WSE)」という1枚の大型半導体チップを実装し、データセンターの19インチラックへの設置が可能で、最新のMLフレームワークに対応しています。

ピンチアウトで拡大

主な特長

半導体チップ技術

大型半導体 ~ウェハースケールエンジン(WSE)~

「CS-1」には、ディープラーニング専用に設計された21.5cm角の大型半導体「WSE(Wafer-Scale Engine)」を搭載しています。「WSE」は積和演算を実行する40万個のコアと、効率的なデータアクセスのためにコア毎に高速なローカルメモリを実装し、コア間で非常に高速な通信が可能になるように設計されています。

Cerebras_大型半導体Wafer Scale Engine
ディープラーニング専用に設計された21.5cm角の大型半導体「WSE(Wafer-Scale Engine)」

ピンチアウトで拡大

 

ディープラーニングに最適化

WSEの40万個の疎線形代数演算コアは、多くのニューラルネットワーク向けに最適化されています。
各コアはそれぞれ独立して柔軟にプログラム可能であるため、トレンドに合わせてどんなアルゴリズムでも実行することができます。

 

広帯域・低遅延な通信ファブリック

WSE上のコアは、Swarmと呼ばれる100Pb/sの2次元メッシュ構造の100Pb/sの通信ファブリックで相互に接続されています。SwarmによりGPU同士間の通信と比べて非常に小さなレイテンシと消費電力で広帯域通信することが可能です。また、ユーザー仕様のモデルを学習させるためにWSE上でのコア間の最適な通信経路を設定します。

 

高速なオンチップメモリの使用

WSEは合計18GBのオンチップメモリを実装しており、9.6PB/sのメモリバンド幅でアクセスします。
これは、業界を代表する他社製品と比べて3,000倍以上のメモリ量、10,000倍以上のメモリバンド幅があることを意味します。より多くのコアにより多くのローカルメモリを配置することで、より低レイテンシで低消費電力を実現しながら高速で柔軟な演算処理が可能になります。

ソフトウェアプラットフォーム

シームレスなソフトウェア統合

CerebrasのソフトウェアプラットフォームでTensorFlowやPyTorchのような主要なMLフレームワークを統合しているため、ユーザーは使い慣れたツールを使いモデルを簡単にWSEに投入することが可能です。

また、一般的なディープラーニング計算用のスタンダードな拡張ライブラリとカスタムカーネルを開発するためのC++インターフェイスの両方を提供しており、それを使って研究者がマシンラーニングイノベーションの限界を突破できるよう支援します。

Cerebra_シームレスなソフトウェア統合
シームレスなソフトウェア統合

ピンチアウトで拡大

 

Cerebrasグラフコンパイラ(CGC)を使ったハードウェア最適化

Cerebrasグラフコンパイラ(CGC)はWSE上で実行できるように入力されたニューラルネットワークを自動的に変換します。CGCはあらゆる段階でWSEの使用効率を最大化するよう設計されており、演算リソースを最大限使うためにどの処理をどのくらいのリソースに割り当てるかを計算してから、最小の通信レイテンシで処理できるよう各処理の割り当て場所とルーティングを決定します。

 

 

Cerebra_グラフコンパイラ(CGC)を使ったハードウェア最適化
グラフコンパイラ(CGC)を使ったハードウェア最適化

ピンチアウトで拡大

 

柔軟性と拡張性のための設計

CerebrasソフトウェアプラットフォームにはC++インターフェイスを使ったカスタムカーネルの開発だけでなく、一般的なディープラーニング計算用のスタンダードな拡張ライブラリも含まれています。

デバッグやプロファイリング用の総合パッケージツールによって、ユーザー自身が処理を最適化することが可能です。

Cerebra_柔軟性と拡張性のための設計
柔軟性と拡張性のための設計

ピンチアウトで拡大

仕様

疎線形代数演算コア

400,000
オンチップメモリ 18 GB SRAM
メモリ帯域 9.6 PB/s
コア間帯域 100 Pb/s
システム I/O 1200 Gb/s: 12 x 100 Gig Ethernet
最大消費電力 20KW@208-240VAC (16A)
プロセス TSMC 16nm FFC
冷却方式 内部閉循環冷却液を用いた空冷システム
サイズ 15 Rack Units (26.25 inches)
 
Cerebras_CS-1_Angled_Black

ピンチアウトで拡大

 
本製品に関する仕様こちらからお問い合わせください

よくあるご質問

製品について

Cerebras製品の一番のメリットは何ですか?
ディープラーニング処理時間を短縮することが可能で、それによりサービス開始時期を早めたり、学習回数を増やして精度を高めることができます。また、同規模の他社システムと比較して省電力、省スペースを実現します。 詳しくは「お問い合わせフォーム」または「お電話」よりお問い合わせください。
GPUを使った従来システムとの違いはなんですか?
GPUを使った従来システムはディープラーニング処理に最適化されておらず、更にGPU同士の通信の際に通信遅延が発生するため、GPUを並列化してもリニアな性能向上には課題があります。しかし、CS-1ではディープラーニング専用に設計された一枚の大型半導体チップ上で演算を行うため、機器同士の通信遅延も発生せず、1台でクラスタ規模以上の性能を発揮することができます。また、並列化で性能を上げるための複雑な設定をユーザーが気にすることなくパフォーマンスを最大化することができます。
Cerebras製品はどういった業種で使うと効果的ですか?
インターネットサービスや創薬、自動運転開発等、Big Dataを使った大規模なディープラーニング環境が必要な業種で非常に効果的です。
既存のソフトウェアやワークフローの変更は必要ですか?
ソフトウェアやワークフローの変更は基本的には不要です。 詳しくは「お問い合わせフォーム」または「お電話」よりお問い合わせください。

機能について

CS-1だけでディープラーニング可能ですか?
いいえ。CS-1はAIアクセラレータとして機能するため、サーバとCS-1を100GbEで接続して使う必要があります。

導入について

PoCは可能ですか?
はい、有償で可能です。詳しくは「お問い合わせフォーム」または「お電話」よりお問い合わせください。

メーカー情報