ホワイトペーパー
企業活動のさまざまな領域で生成AIの活用が進む一方、PoC後の本番運用では、LLM特有のリスクによって期待した成果を得られない企業も少なくありません。課題の背景にあるのは、LLMの振る舞いを把握・検証・改善するための「可視性」の不足です。本稿では、生成AI活用の成否を左右する「LLMオブザーバビリティ」の重要性と、その実現を支援する Arize AI の「Arize AX」について解説します。
LLMをベースとする生成AIは、ここ数年で急速に企業に浸透しています。AWS、マイクロソフト、Googleなどのメガクラウドプロバイダが提供する高性能なLLMを、比較的手軽にさまざまな業務で活用することが可能となりました。
この時代の潮流は、AI活用のあり方そのものを大きく変えています。かつては「いかに高性能なモデルを作るか」が企業の中心テーマでしたが、現在は「高性能モデルを、いかに安全かつ効果的に使いこなすか」が問われる段階に入っています。日本企業においてもPoC(概念実証)を終え、いよいよ本格的な業務利用やITサービスへの実装に踏み出そうとする動きが増えています。
生成AIへの取り組みの変遷
ただ一方で、この段階で多くの企業が立ち止まっています。従来のルールベースシステムや決定論的なソフトウェアとは根本的に異なる、LLMという技術が持つ「不確実性」という本質的な課題に直面してしまうのです。
実際、生成AIプロジェクトの多くが期待通りの成果を得られておらず、それどころか、深刻なリスクが顕在化しているケースも散見されます。生成AIの本格活用に向かった際に課題となるのは、次の4つのリスクです。
①ハルシネーション
存在しない事実や誤情報を「もっともらしく」生成する現象で、ビジネス上の意思決定に多大な悪影響を与えます。
②有害・不適切な出力
暴力的・差別的な表現など、倫理的に不適切なコンテンツを生成し、企業のレピュテーションを棄損します。
③情報漏えい・プライバシー侵害
PII(Personally Identifiable Information : 個人識別情報)や機密情報を意図せず入力 ・ 出力してしまい、コンプライアンス違反を起こします。
④プロンプトインジェクション
悪意をもったユーザーが巧妙な入力を与えることで、本来AIが想定していない振る舞いを引き起こします。実際に、チャットボットが想定外に極端に安い価格で購入契約を確定してしまう事例も海外で報告されています。本番環境における重大な財務損失やセキュリティ侵害などの原因となりかねません。
繰り返しますが、先に挙げたリスクをPoC段階で完全に排除することは極めて困難です。本番環境で不特定多数のユーザーが使い始めた段階で表面化する問題への対処ができなければ、生成AIは利用停止や機能縮小に追い込まれてしまいます。
生成AIを使いこなせない理由は明白です。問題が起きたときに、「なぜそうなったのか」がわからないのです。再現性もないため、改善の打ち手を見つけられません。
ただし、課題解決への手立てがないわけではありません。現在、注目されているのは下記の3つのアプローチです。
①常時監視とアラート(モニタリングと自動評価)
生成AIの挙動を常時監視し、異常を検知した際にアラートを発報して迅速な対処を促します。また、監視内容はログとしても記録します。LLMは確率的な推論を行うため、仮に同じ指示を与えたとしても出力が変動してしまうからです。問題発生後の原因分析や再現試験が非常に困難なこのLLMの特性上、平常時からの継続モニタリングとそのログの確保が必須となります。
②生成戦略の最適化(プロンプトエンジニアリング)
LLMへの指示の与え方そのものを継続的に改善します。チャットボットはユーザーからの入力だけでなく、内部の「システムプロンプト」と組み合わせてモデルに指示を出しています。このシステムプロンプトの設計や、モデルの推論パラメータにチューニングを施すことで、アウトプットの品質を向上します。