製品情報

Cerebras | CS-3 (シーエススリー )-東京エレクトロンデバイス

Cerebras | CS-3

超高速ディープラーニングシステム「CS-3」

Cerebras | CS-3

ウェハースケールエンジン(WSE-3) を搭載した超高速ディープラーニングシステム「CS-3」

Cerebras社のCS-3は、CS-1、CS-2と続くCerebras第3世代の巨大半導体チップを実装したディープラーニング専用システムです。GPUベースの従来システムと比べて省スペース・低消費電力で超高速な学習処理を行うことが可能です。

ピンチアウトで拡大

主な特長

半導体チップ技術

大型半導体 ~ウェハースケールエンジン(WSE-3)~

「CS-3」には、ディープラーニング専用に設計された21.5cm角の大型半導体「ウェハースケールエンジン(WSE-3)」を搭載しています。「WSE-3」は積和演算を実行する90万個のコアと、効率的なデータアクセスのためにコア毎に高速なローカルメモリを実装し、コア間で非常に高速な通信が可能になるように設計されています。

ディープラーニング専用に設計された21.5cm角の大型半導体「ウェハースケールエンジン(WSE-3)」
  CS-1(WSE-1) CS-2(WSE-2) CS-3(WSE-3)
製造プロセス TSMC 16nm TSMC 7nm TSMC 5nm
シリコン面積 46,225 ㎟ 46,225 ㎟ 46,225 ㎟
トランジスタ数 1.2 Trillion 2.6 Trillion 4 Trillion
疎線形代数演算コア 400,000 850,000 900,000
オンチップSRAM 18 GB 40 GB 44 GB
メモリ帯域 9 PB/s 20 PB/s 21 PB/s
コア間インターコネクト 100 Pb/s 220 Pb/s 214 Pb/s

Cerebrasの優位性

 

WSE-3

Nvidia H100

Cerebrasの優位性

チップサイズ

46,225 mm²

826 mm²

57 X

コア数

900,000

16,896 FP32 + 528 Tensor

52X

オンチップ・メモリ

44 Gigabytes

0.05 Gigabytes

880 X

メモリ帯域幅

21 Petabytes/sec

0.003 Petabytes/sec

7,000 X

ファブリック帯域幅

214 Petabits/sec

0.0576 Petabits/sec

3,715 X

ディープラーニングに最適化

WSEの90万個の疎線形代数演算コアは、多くのニューラルネットワーク向けに最適化されています。
各コアはそれぞれ独立して柔軟にプログラム可能であるため、トレンドに合わせてどんなアルゴリズムでも実行することができます。

 

広帯域・低遅延な通信ファブリック

WSE上の全てのコアは、シリコン上のSwarmと呼ばれる214Pb/sの2次元メッシュ構造の通信ファブリックで相互に接続されています。
シリコン上での通信は、GPU同士間の通信と比べて非常に小さなレイテンシと消費電力で高速通信することが可能です。

 

高速なオンチップSRAMの使用

WSEはオンチップSRAMを大量実装しており、モノリシックなシリコンチップ上でPB/sクラスのトータルメモリバンド幅でアクセス可能です。
シリコンチップ上の各コアにローカルSRAMを分散配置することで、より低レイテンシで低消費電力を実現しながら高速で柔軟な演算処理が可能になります。

主要技術

ウェイトストリーミング

すべてのモデルの重みを外部に保存し、オフチップメモリに関連する従来のペナルティを受けることなく、クラスタの各ノードにストリームすることを可能にする実行モード。ウェイトストリーミングでは、単純なスケーリングモデルで現在の最先端よりも2桁大きなモデルの学習が可能です。

 

MemoryX ウェイトストア

ウェイトストリーミングで利用される外部メモリシステム。MemoryX技術を使用し、すべてのモデルの重みを「オフチップ」で保存し、必要なときにこれらの重みをCS-3システムにストリームします。重みがCS-3を通過すると、WSEは基礎となるデータフロー機構を使って計算を実行し、勾配をMemoryXに戻して重みが更新されるようにストリームバックします。

 

SwarmX ファブリック

MemoryXとCS-3クラスタをつなぐ革新的なブロードキャスト/リデュースファブリック。ハードウェアベースのレプリケーションを使用して、すべてのCS-3に重みをブロードキャストし、CS-3からMemoryXに戻される際に勾配を低減します。SwarmXは単なるインターコネクトではなく、データパラレルスケールアウトに特化した学習プロセスのアクティブコンポーネントです。

 

アプライアンス・モード

アプライアンスモードでは、ウェハースケールクラスタをAIモデルの学習サービスとして管理することが可能です。ジョブを投入するだけで、あとはクラスタが処理してくれます。分散コンピューティング、Slurm、Dockerコンテナ、レイテンシなど、インフラについて考える必要はありません。また、クラスタは自動的にリソースを分割して、複数の同時利用者に対応します。

Condor Galaxy

Condor Galaxy は、CS-3システムを複数台で構成したシステムで、アメリカのカリフォルニア州・テキサス州に設置されています。このCondor Galaxyを利用することはAIモデルを構築する最も簡単かつ最速の方法です。


ExaFLOP級のAIコンピューティングを備え、最も要求の厳しいモデルを数日ではなく数時間でトレーニングします。テラバイト規模のMemoryXシステムを搭載しており1,000 億を超えるパラメータモデルをネイティブに対応し、大規模なトレーニングをシンプルかつ効率的にします。

Condor Galaxyはウェハ―スケールクラスタで構成されているため、1台のシステムとして利用することが可能です。そのため、従来のGPUクラスタシステムで必要だったクラスタに関するプログラミング無しでAIモデルのスケールアップが簡単に実行できます。

完璧に近いパフォーマンススケーリング

Condor Galaxyは、既知のGPUベースのクラスタとは異なり、GPTクラスの大規模言語モデル間でほぼ完璧なスケーリングを提供します。ほぼ完璧なスケーリングとは、追加のCS-3が使用されると、トレーニング時間がほぼ完璧に短縮されることを意味します。

生成AIモデルのセットアップは数ヶ月ではなく数分で完了し、一人で行うことが出来ます。

Cerebras AI Model Studio(クラウドサービス)

Cerebras AI Model Studioは、クラウド上に構築されたCerebrasシステムで大規模な言語モデルをトレーニングおよびファインチューニングするために最適化された専用プラットフォームです。確定的なパフォーマンスを提供し、分散コンピューティングの煩雑な作業を必要とせず簡単に実行が可能です。

Llama

Mistral

Jais

Med42

Bloom

Falcon

MPT

Starcoder

Diffusion

T5

Crystalcoder

Cerebras-GPT

BTLM-CHAT

GIGAGPT

 

 

仕様

 
本製品に関する仕様こちらからお問い合わせください

メーカー情報

「AIアクセラレータ」に関連する製品・サービス