2026年06月01日

生成AIAI_人工知能TED AI LabHCI/AI

Arize AXの機能を手軽に体験 Arize Phoenixの使い方

Arize Phoenixは、Arize AXの一部機能をOSSとして提供するLLMオブザーバビリティツールです。本記事では、AIエージェントやRAGを開発するエンジニアが、Phoenixでどのようにトレース・評価・実験を行い、Arize AXの使用感を素早く確認できるかを実践的に紹介します。

生成AIアプリやAIエージェントを本番運用しようとすると、「動いてはいるけれど、どこで失敗しているのか分からない」「徐々に品質が落ちている気がする」といった“静かな失敗”に悩まされがちです。レスポンスの遅さ、ツール呼び出しの失敗、RAGでの取り違え、コスト増などはログだけでは発見が難しく、それらはユーザー体験の劣化として初めて顕在化します。

Arize AI社が提供するArize AXは、こうした課題に特化したAIエンジニアリングプラットフォームですが、「まずは使用感を軽く試してみたい」という開発者も多いはず。
そのニーズに応えるのが、OSS版のArize Phoenixです。Phoenixは、Arize AXの一部機能をOSSとして提供し、ローカルやオンプレ環境でAIエージェントやRAGの動きを手軽に可視化・評価できます。

この記事では、

Arize AI社とプロダクト構成
Arize PhoenixとArize AXの違い
Phoenixの基本的な機能
ハーネスエンジニアリングやAIエージェント開発での活用イメージ

を整理して紹介します。

Arize AI社について

Arize AIは、AIモデルの運用やトラブルシュートの難しさを実際に経験してきたメンバーによって2020年に米カリフォルニアで創業された、AIアプリケーションの実用化支援に特化した企業です。

同社は現在、大きく2つのレイヤーでプロダクトを提供しています。

Arize Phoenix
- オープンソースのAIオブザーバビリティ＆評価ツール
- 開発〜検証フェーズでのトレーシング、評価、実験、プロンプト管理にフォーカス
- OpenTelemetryベースでベンダーやフレームワークに依存しない設計
Arize AX
- エンタープライズ向けのAIオブザーバビリティプラットフォーム
- 大規模な本番環境でのモニタリング、ダッシュボード、オンライン評価、チームコラボ、RBAC、スケーラビリティなどを提供
- AX-Generative（生成AI／LLM向け）とAX-ML & CV（従来ML・CV向け）の2エディションを提供

Arizeは、OpenTelemetryとその上に構築されたOpenInferenceをベースにしているため、OpenAIやAnthropic、Google GenAI、AWS Bedrockなど複数プロバイダや、LlamaIndex、LangChain、DSPy、CrewAIといったフレームワークを横断して観測することができます。

東京エレクトロンデバイスは日本国内の販売パートナーとして、Arize AXを中心にAIエージェントやRAG向けの観測・評価基盤を提供しています。

Phoenix と AXの位置づけの違い

これら2つの製品は、「同じ思想・同じスタックの上にあるOSS版とエンタープライズ版」という関係です。

Arize Phoenix
- 開発フェーズ向けのOSS (Elastic License 2.0)ツール
- LLMアプリのトレーシング、評価、実験、プロンプト管理を提供
- ローカル／Jupyter／Docker／クラウドなどで自己ホスト可能
Arize AX
- 企業向けの商用SaaS／VPC／オンプレ対応プラットフォーム
- Phoenixで提供される機能に加え、本番運用向けの機能を提供
- 大規模なトレース／オンライン評価を1日あたり数億レコード規模で処理可能

機能差分

PhoenixはArize AXの一部機能をOSSとして提供しています。代表的な機能差分は以下の通りです。

	Arize Phoenix	Arize AX
トレーシング LLM実行の可視化	◯	◯
評価 LLM as a Judgeやコードベースのチェック	◯	◯
データセット＆実験管理	◯	◯
プロンプト管理/プレイグラウンド	◯	◯
オンライン評価本番トラフィックに対するリアルタイム評価		◯
モニタリング＆ダッシュボード		◯
ロールベースアクセス制御		◯
大規模スケーリング		◯
Alyx – 内蔵AIエージェントオブザーバビリティ活用の自動化		◯

戦略的な使い分けとしては、

個人〜小規模チーム・PoC段階ではPhoenixで観測と評価を仕組み化
ビジネスインパクトが出はじめ、SLO/SLAレベルで運用したくなったらAXで本番監視を拡張

というステップが現実的です。

Phoenixの使い方

ここからは、Phoenixを使ってLLMアプリ／AIエージェントの使用感を手軽に確認するための基本的な流れを紹介します。

1. セットアップ：インストールと起動

PhoenixはPythonパッケージとして提供されており、最小構成であれば以下のように導入できます。

インストール
```
pip install arize-phoenix
```
サーバー起動
```
phoenix serve
```
デフォルトでは localhost:6006 でWeb UIが立ち上がり、トレースビューや評価結果、実験管理画面などをブラウザから確認できます。

Phoenixはローカルマシン・Jupyter Notebook・Dockerコンテナ・任意のクラウド環境など、ほぼどこでも動作するように設計されています。

2. LLMアプリケーションのトレーシング

Phoenixの中核となるのが、トレース（Trace）による実行フローの可視化です。

1回のリクエストに対し、

ユーザーの入力
モデル呼び出し
RAGでの検索クエリとヒットしたドキュメント
ツール呼び出し（APIやデータベースクエリなど）
カスタムロジックの処理

などが時系列に紐づいた1本のトレースとして記録されます。

アプリ側では、OpenTelemetry互換のOpenInferenceインストゥルメンテーションを利用します。GitHubのPhoenixリポジトリやドキュメントには、以下のような豊富な統合が一覧化されています。

モデルプロバイダ
- OpenAI, Anthropic, Google GenAI, AWS Bedrock, OpenRouter, LiteLLM など
フレームワーク
- LlamaIndex, LangChain, DSPy, Vercel AI SDK, Haystack, CrewAI, Guardrails AI, Pydantic AI, AutoGen など

たとえばOpenAIとの連携であれば、openinference-instrumentation-openai パッケージを組み込むだけで、自動的にプロンプトやレスポンス、ツール呼び出し等がPhoenixに送信されます。

from phoenix.otel import register
from opentelemetry.instrumentation.openai_v2 import OpenAIInstrumentor

tracer_provider = register(
    project_name="default",
    endpoint="http://localhost:6006/v1/traces",
)

OpenAIInstrumentor().instrument(tracer_provider=tracer_provider)

3. 評価（LLM as a Judge）とデータセット／実験

Phoenixは、LLMアプリの出力品質を評価するためのワークフローを一通り備えています。

主な機能は次の通りです。

LLMベース評価（LLM as a Judge）
- 回答の関連性、正確性、トーン、有害性などを別のLLMでスコアリング
- 事前定義された評価テンプレート／カスタム評価が利用可能
コードベース評価／人手ラベル
- 正規表現やビジネスルール、カスタムスクリプトによる自動チェック
- 場合によっては人手ラベルも組み合わせて集計
データセット＆実験
- トレースから代表的な事例を集めて評価用データセットを作成
- 異なるプロンプト・モデル・パラメータのバージョンを同一データセットで比較
- 実験結果を横並びに比較して、どの変更が品質向上につながったかを可視化

評価自体もOpenTelemetryでトレースされるため、評価者LLMがどう判断したのか（プロンプトや思考過程、スコアの根拠）を後から確認できます。

4. ハーネスエンジニアリングとAIエージェント開発での活用

Phoenix／Arizeのエコシステムでは、以下のようなコンポーネントがハーネスエンジニアリングを支えています。

coding-harness-tracing
- Claude Code や Cursor、Codex などのコーディングエージェントから Phoenix / AX へトレースを送るためのリポジトリ。開発用エディタや IDE 上の実行結果を、そのまま観測基盤に流し込めます。
arize-phoenix-client / arize-phoenix-evals / arize-phoenix-otel
- スクリプトやアプリケーションコードからトレース・データセット・評価を取得・実行するためのライブラリ群。CI/CD やバッチ実行に組み込みやすい構成になっています。

これらを活用すると、例えば次のような AI エージェント開発フローが構築できます。

Claude Agent SDK / CrewAI / LangGraph などで AI エージェントを実装し、開発環境では coding-harness-tracing を通じて Claude Code や Cursor からの実行を Phoenix 経由でトレース
本番／検証環境では arize-phoenix-otel でエージェントを計測し、arize-phoenix-client / arize-phoenix-evals を使って
- タスク達成率
- 回答の正確性・安全性
- レイテンシ・コストを自動評価
評価用データセットをもとに、プロンプトやツール選択ロジック、RAG 戦略の A/B テストを実施し、改善サイクルを継続的に回す

こうした仕組みを整えておくと、AIエージェントが複雑化しても「どこを直せばよいか」を素早く特定しやすくなります。

まとめ

本記事では、Arize Phoenixの基本的な位置づけと使い方を、Arize AXとの違いも交えながら紹介しました。

Arize AIは、OpenTelemetry／OpenInferenceベースのAIオブザーバビリティ＆評価プラットフォームを提供しており、OSSのPhoenixとエンタープライズ向けのArize AXという2つのプロダクトで開発〜本番をカバーしています。
Phoenixは、トレーシング・評価・データセット／実験・プロンプト管理といった機能をオープンソースで提供し、LLMアプリやAIエージェントの開発・検証フェーズに最適です。
Arize AXは、Phoenixで培った開発ワークフローをそのままスケールさせ、本番環境でのモニタリングやオンライン評価、ダッシュボード、RBACなどを追加したエンタープライズ基盤です。
ハーネスエンジニアリングやAIエージェント開発の文脈では、Phoenixを使ってエージェントの思考プロセスやツール利用をトレースし、評価と実験を自動化する土台を整えることで、品質改善サイクルを高速に回せます。

まずはローカル環境や小さなPoCでPhoenixを導入し、「自分たちのAIアプリが実際に何をしているのか」を可視化するところから始めてみることをおすすめします。その上で、ビジネス的なインパクトやガバナンス要件が高まってきたフェーズで、Arize AXや周辺サービスとの組み合わせを検討するのがおすすめです。

この記事に関連する製品・サービス

Arize AI | Arize AX