CerebrasがAWSとの協業を発表

みなさん、こんにちは
CerebrasプリセールスエンジニアのNakadaです。
今年の初めにCerebras社のOpenAIとの協業を発表しブログにて取り上げさせていただきました。今回は、2026年3月に発表されたAWSとの協業について取り上げます。

■概要

2026年3月13日にCerebras社がAWSとの協業を発表しました。これによりAmazon Bedrockを通じて、最速推論機能がまもなく利用可能になります。AWSが開発したAIチップであるAWS Trainiumと、Cerebras社が開発したCerebras CS-3を搭載した統合システムを構築していて、この統合システムによりAI推論において比類のないパフォーマンスとスピードを提供できるそうです。

■革新的な統合システム

AWSデータセンターのAmazon Bedrockに展開されるこの統合システムは、AWS Trainium搭載サーバー、Cerebras CS-3システム、そしてElastic Fabric Adapter（EFA）ネットワークを組み合わせたものになっています。AWSは2026年後半にCerebrasハードウェアを使用した主要なオープンソースLLM、そしてAWSの最新LLMであるAmazon Novaをこの統合システムから提供開始する予定になっているそうです。

これにより、リアルタイムコーディングやインタラクティブアプリケーションなど、処理時間の要求に厳しいワークロードで利用することで、これまで問題となっていた推論ボトルネックを解消することができそうです。また、このシステムでは推論ワークロードをAWS TrainiumとCS-3に分割して、Elastic Fabric Adapterで接続することで、各システムがそれぞれの処理の得意分野に集中できるようになり、現在利用可能な推論システムよりも桁違いに高速で、かつ高性能な推論が実現するそうです。

この分散型推論ソリューションを構築することで、世界中のユーザーに最速の推論を提供できるようになるとCerebras社のCEOであるアンドリュー・フェルドマン氏もコメントしています。

■分散型推論の仕組み

AWS Trainium + CS-3のソリューションは、「推論分離」という手法を用いているそうです。これは、AI推論を入力プロンプト処理（プリフィル）と出力生成（デコード）の2つに分離する技術となっています。これらの処理は、計算の特性が異なっていて、入力プロンプト処理は基本的に並列で処理可能であり、計算負荷が高く、中程度のメモリ帯域幅を必要とするそうです。一方で出力生成は基本的に逐次処理となっていて、計算負荷は低いものの、メモリ帯域幅を多く必要とします。LLMは、入力プロンプトの内容から出力生成を行いますが、各出力トークンを順次生成する必要があり、出力生成が推論時間の大部分を占めるのが一般的です。

このように、入力プロンプト処理（プリフィル）と出力生成（デコード）はそれぞれ異なる計算上の課題を抱えていて、それぞれ異なる計算アーキテクチャを必要とします。この課題を低遅延・高帯域幅のElastic Fabric Adapterネットワークに接続されたAWS TrainiumとCerebras CS-3を使い、それぞれの得意な計算を実行させることで、課題を解決させます。具体的には、AWS Trainiumは入力プロンプト処理（プリフィル）用に最適化し、Cerebras CS-3は出力生成（デコード）用に最適化します。2つの異なる計算上の課題をそれぞれ最適な方法で最適化できるようになります。

AWSには高性能なクラウドインフラストラクチャの基盤であるAWS Nitroシステムがありますが、今回の統合システムはこのAWS Nitroシステム上に構築されているそうです。これによりCerebras CS-3システムとAWS Trainiumを搭載したインスタンスは、顧客がAWSに期待するのと同じセキュリティ、分離性、および運用上の一貫性で動作することを保証しているそうです。

■入力プロンプト処理にはAWS Trainium、出力生成にはCebreras CS-3を利用

AWS Trainiumは、Amazonが独自に開発したAIチップですが、生成AIワークロードのトレーニングと推論において、スケーラブルなパフォーマンスとコスト効率を実現するように設計されています。世界有数の生成AIプロバイダであるAnthropicとOpenAIは、このAWS Trainiumの採用に積極的に取り組んでいるそうです。AnthropicはAWSを主要なトレーニングパートナーに指定していて、Trainiumを使用し、モデルのトレーニングとデプロイを行っています。一方、OpenAIはAWSインフラストラクチャを通じて2GワットのTrainiumを消費して、ステートフルなランタイム環境、最先端モデルの実行、その他の高度なワークロードの需要に対応しているそうです。最新のTrainium3はリリースされて以来、多くのユーザーに採用されていて、様々な業界の組織が相当数を確保してるようです。

Cerebras CS-3においては、世界最速のAI推論システムとして、様々な生成AIプロバイダが利用を始めています。最速のGPUよりも数千倍も広いメモリ帯域幅を実現しています。また、最新のLLM推論モデルは入力された問題を「思考」する過程も追加されていて、リクエストごとに生成されるトークン数も更に増加するため、LLMワークフローのこの部分を高速化する必要性が非常に高まっています。OpenAI、Cognition AI、Mistral AIなどは、Cerebrasを使用して、特に開発者の生産性が推論速度によって制約されるエージェントコーディングなどの最も負荷の高いワークロードを高速化しています。

今回のAWSのシステムでの推論分離では、Cerebras CS-3はデコードアクセラレーション専用となって、高速出力トークンの処理能力を大幅に向上させます。Trainiumがプリフィル処理を、Cerebras CS-3がデコード処理を、そして高速EFAネットワークが両方を接続することで、各プロセッサはワークロードのそれぞれの担当部分において、最大限のトークン処理能力を発揮しています。

■最後に

今回は、Cerebras社がAWSと協業し、LLM推論の分散型システムを構築したことと、そのシステムの内容について取り上げました。2026年始に協業を発表したOpenAIも順次Cerebrasを稼働させた高速推論サービスを公開しています。Cerebrasを採用した各プラットフォームで是非LLMの高速推論を体験してください。最後に、このブログをお読みになり、LLMおよびAIアクセラレータ製品、高速推論等にご興味がある方は当社までお問い合わせいただければ幸いです。

この記事に関連する製品・サービス

Cerebras | CS-3

この記事に関連する記事

Cerebras LLM高速推論サービスアップデート情報