バリアントと監視オプションを調べる
運用中は、フローを最適化してデプロイする必要があります。 最後に、フローの改善が必要なタイミングを知るためにフローを監視する必要があります。
バリアントを使用することでフローを最適化し、エンドポイントにフローをデプロイし、主要なメトリックを評価することでフローを監視することができます。
バリアントを探索する
プロンプト フロー バリアントは、個別の設定を持つツール ノードのバージョンです。 現在、バリアントは LLM ツールでのみサポートされており、このツールではバリアントは、別のプロンプト コンテンツや接続設定を表すことができます。 バリアントを使用すると、ユーザーは、ニュース記事の要約など、特定のタスクに対する自分のアプローチをカスタマイズできます。
バリアントを使用する利点の一部を以下に示します。
- LLM 生成の質の向上:LLM ノードの多様なバリアントを作成することは、高品質のコンテンツを得るのに最適なプロンプトと設定を見つけるのに役立ちます。
- 時間と作業量の節約:バリアントは、さまざまなプロンプト バージョンの簡単な管理と比較を可能にし、履歴の追跡を合理化し、プロンプト チューニングの作業量を減らします。
- 生産性の向上:LLM ノードの最適化を簡素化し、バリエーションの迅速な作成と管理を可能にし、より短い時間でより良い結果をもたらします。
- 簡単な比較の促進:バリアントは、横並びでの結果の比較を可能にし、データ駆動の決定に基づく最も効果的なバリアントの選択を支援します。
フローをエンドポイントにデプロイする
フローのパフォーマンスに満足したら、それをオンライン エンドポイントにデプロイすることを選択できます。 エンドポイントは、任意のアプリケーションから呼び出すことができる URL です。 オンライン エンドポイントに対して API 呼び出しを行うと、(ほぼ) 即時の応答が期待できます。
フローをオンライン エンドポイントにデプロイすると、プロンプト フローによって URL とキーが生成されるため、フローを他のアプリケーションやビジネス プロセスと安全に統合できます。 エンドポイントを呼び出すと、フローが実行され、出力がリアルタイムで返されます。 その結果、エンドポイントにフローをデプロイすると、たとえば別のアプリケーションで返したいチャットや Copilot の応答を生成できます。
評価メトリックを監視する
プロンプト フローにおいて、評価メトリックの監視は、LLM アプリケーションのパフォーマンスを理解するために重要で、モデルが実際の期待を満たし正確な結果を提供できるようにします。
アプリケーションが実用的なニーズを満たしているかどうかを理解するために、エンドユーザー フィードバックを収集し、アプリケーションの有用性を評価できます。 アプリケーションのパフォーマンスが良いかどうかを知るためのもう 1 つのアプローチは、LLM 予測と期待される応答または "グラウンド トゥルース" 応答を比較して正確性と関連性を測定することです。 LLM の予測を評価することは、LLM アプリケーションの信頼性と有効性を維持するために重要です。
メトリック
プロンプト フローでの評価の監視に使用される主要なメトリックは、それぞれ、以下のような LLM のパフォーマンスに関する独自の分析情報を提供します。
- groundedness:LLM アプリケーションの出力と入力ソースまたはデータベースの一致度を測定します。
- "関連性":LLM アプリケーションの出力が与えられた入力にどの程度関連しているかを評価します。
- "一貫性":LLM アプリケーションのテキストの論理フローと読みやすさを評価します。
- "流暢性":LLM アプリケーションの出力の文法的および言語的な正確性を評価します。
- "類似性":LLM アプリケーションの出力とグラウンド トゥルースの間のコンテキストとセマンティックの一致を定量化します。
groundedness、"関連性"、"一貫性"、"流暢性"、"類似性" などのメトリックは、品質保証の鍵となり、LLM アプリケーションとの対話が正確かつ効果的であることを保証します。 LLM アプリケーションが期待どおりに動作しない場合は常に、実験に戻って、フローを改善する方法を反復的に探索する必要があります。