Cerebras高速推論をDifyに実装してみた
みなさん、こんにちは
CerebrasプリセールスエンジニアのNakadaです。
先日、Cerebras社の高速推論のアップデートをお知らせしましたが、今回は、生成AIアプリをノーコード/ローコードで簡単に開発・運用できるオープンソースのプラットフォームであるDifyにCerebrasの高速推論LLMを実装してみましたので、その設定方法などをまとめました。
■概要
今回はDifyにCerebras Dify Pluginをインストールし、Difyのモデルプロバイダー設定からCerebras高速推論を設定します。モデルプロバイダーの設定が完了すれば、あとは作成したAIエージェントに、Cerebras高速推論が対応するLLMを割り当てて利用することが可能になります。以下の手順で簡単に利用できますので、是非お試しください。
■CerebrasのAPIキーを作成する
1.Cerebras APIキーを作成する
最初に以下のURLへアクセスし、ユーザー登録します。(無償)
APIキーの作成についてはこちらの記事を参照してください。
■Cerebras Dify Pluginをダウンロードする
1.Cerebras社のgithubサイト「https://github.com/sebastiand-cerebras/dify-cerebras」にアクセスします。
2.Difyへのインストール方法について記載されていますので、インストール方法に従ってインストールしてください。念のため、以下に簡単なインストール方法をまとめました。
【簡易手順】
2-1 「cerebras.difypkg」パッケージをご自身のPCにダウンロードします。
2-2 ご自身のDifyにアクセスしてください。
2-3 Difyの以下の画面から右上にある「プラグイン」をクリックします。
2-4 プラグイン画面の「プラグインをインストールする」をクリックします。
2-5 以下の選択肢から「ローカルパッケージファイル」を選択します。
2-6 先ほどダウンロードした 「cerebras.difypkg」パッケージを選択し、「開く」をクリックします。
2-7 以下の画面のように「プラグインをインストールする」画面にCerebrasが表示されるのでインストールをクリックすれば、インストール完了です。
※注 ローカルのプラグインをインストールする際に認証エラーが発生する場合があります。その場合は、Dify設定のFORCE_VERIFYING_SIGNATUREをfalseに変更して試してください。
2-8 インストールが完了すると、プラグインに「Cerebras」が追加されています。
■CerebrasのLLMを登録する
Cerebras Difyプラグインのインストールが完了すれば、Cerebrasが提供する高速LLM推論モデルをAPI経由で利用するために、LLMを追加することができるようになります。以下の手順で簡単に設定することが可能です。
1.Difyのモデルプロバイダー設定を開きます。
2.以下のようにCerebrasの設定項目がありますので、セットアップをクリックします。
APIキー認証設定を行います。認証名は任意の名前を入力いただき、API Keyには先ほど、「CerebrasのAPIキーを作成する」で作成したAPIキーをコピペしてください。API Base URLには「https://api.cerebras.ai/v1」を入力し、「保存」をクリックしてください。
これで設定が完了です。
■実際に利用してみる
それでは、実際にDifyで簡単なAIエージェントを作成し、LLMをCerebrasの高速推論LLMに設定します。
1.最初にDifyスタジオの「アプリを作成する」から「最初から作成」をクリックします。
2.アプリタイプを「チャットフロー」にし、「アプリとアイコンと名前」に任意のアプリ名を入力して、「作成する」をクリックします。
3.以下のような簡単なAIエージェントが作成されますので、中央にあるLLMアクションを選択してください。
4.右の画面にLLM設定が開きますので、その中にある「AIモデル」をクリックしてください。
5.以下のLLMモデルのパラメータ設定画面が開きますので、「モデル」をクリックしてください。
6.利用可能なLLMが表示されるので、その中から利用したいモデルを選択してください。今回は「gpt-oss-120b」を選択します。
7.これで設定が完了です。それでは、プレビューをクリックし、高速推論を体験してみましょう。
以上で、DifyへのCerebrasの高速推論LLMの実装が完了です。生成スピードについては、これまでの生成AIサービスと比べて、圧倒的な速さを実感できると思います。Difyは様々な仕事をAIエージェントに行わせることができますが、フロー中でたくさんの処理をLLMに行わせたい等、高速なLLMを使いたいときは、このCerebrasの高速推論実装を試していただければと思います。
■最後に
今回は、Cerebras高速推論サービスをDifyと連携してみました。最新LLMは、より精度を求める処理にReasoningモデルとしてChain of Thoughtが実装されています。これは、LLMにたくさんの処理が求められます。同時にLLMのレスポンスが遅くなることを意味しますが、Cerebrasの高速推論はCerebras社の巨大チップ(21.5cm角)を利用したAIアクセラレータを使うことで、一般的なGPUを凌駕するLLM推論性能を実現しているために、最新のLLMでも高速にレスポンスを返すことができます。今回のブログを参考に、是非、AIエージェントでの高速推論を体験してください。
最後に、このブログをお読みになり、LLMおよびAIアクセラレータ製品、高速推論等にご興味がある方は当社までお問合せいただければ幸いです。













