Aktivieren der Messung: unterstützende Infrastruktur

Artikel
01/24/2025

In diesem Artikel wird die Infrastruktur beschrieben, die zur Messung der Qualität und zur Bereitstellung durch Databricks erforderlich ist. Die Messung der Qualität ist nicht einfach und erfordert eine erhebliche Infrastrukturinvestition.

Ausführliche Ablaufverfolgungsprotokollierung

Den Kern der RAG-Anwendungslogik bildet eine Reihe von Schritten in der Kette. Um die Qualität auszuwerten und zu debuggen, müssen Sie eine Instrumentierung implementieren, die die Eingaben und Ausgaben der Kette zusammen mit den einzelnen Schritten der Kette sowie die zugehörigen Eingaben und Ausgaben nachverfolgt. Die von Ihnen eingerichtete Instrumentierung sollte in der Entwicklung und Produktion auf die gleiche Weise funktionieren.

In Databricks wird diese Funktion von der MLflow-Ablaufverfolgung bereitgestellt. Mit der MLflow-Ablaufprotokollierung instrumentieren Sie Ihren Code in der Produktion und erhalten die gleichen Ablaufverfolgungen während der Entwicklung und in der Produktion. Produktionsablaufverfolgungen werden als Teil der Rückschlusstabelle protokolliert.

Benutzeroberfläche für die Überprüfung durch Projektbeteiligte

Als Entwickler sind Sie häufig kein Experte für den Inhalt der Anwendung, die Sie entwickeln. Um Feedback von menschlichen Experten zu sammeln, die die Ausgabequalität der Anwendung bewerten können, benötigen Sie eine Schnittstelle, über die sie mit frühen Anwendungsversionen interagieren und detailliertes Feedback abgeben können. Darüber hinaus benötigen Sie eine Möglichkeit, bestimmte Anwendungsausgaben für die Projektbeteiligten zu laden, um ihre Qualität zu bewerten.

Diese Schnittstelle muss die Ausgaben der Anwendung und das zugehörige Feedback auf strukturierte Weise nachverfolgen und dabei die vollständige Anwendungsablaufverfolgung und detailliertes Feedback in einer Datentabelle speichern.

In Databricks wird diese Funktion von der Agent Evaluation Review-App bereitgestellt.

Framework für Qualitäts-, Kosten- und Wartezeitmetriken

Sie benötigen eine Möglichkeit, die Metriken zu definieren, die die Qualität der einzelnen Komponenten Ihrer Kette und der End-to-End-Anwendung umfassend messen. Im Idealfall stellt das Framework eine Reihe von vorgefertigten Standardmetriken bereit und unterstützt darüber hinaus die Anpassung, sodass Sie Metriken hinzufügen können, die bestimmte, für Ihr Unternehmen spezifische Qualitätsaspekte testen.

In Databricks ermöglicht Agent Evaluation eine direkte Implementierung mit gehosteten LLM-Beurteilungsmodellen für die erforderlichen Qualitäts-, Kosten- und Wartezeitmetriken.

Auswertungsumgebung

Sie benötigen eine Möglichkeit, um Ausgaben aus Ihrer Kette für jede Frage in Ihrem Auswertungssatz schnell und effizient abzurufen und dann jede Ausgabe anhand der relevanten Metriken auszuwerten. Diese Umgebung Gurt muss so effizient wie möglich sein, da Sie nach jedem Experiment, das Sie zur Qualitätsverbesserung ausführen, eine Auswertung vornehmen.

In Databricks bietet Agent Evaluation eine Auswertungsumgebung, die in MLflow integriert ist.

Verwaltung des Auswertungssatzes

Ihr Auswertungssatz ist ein lebendiger Satz von Fragen, die Sie im Laufe des Entwicklungs- und Produktionslebenszyklus Ihrer Anwendung iterativ aktualisieren.

In Databricks können Sie Ihren Auswertungssatz als Delta-Tabelle verwalten. Bei der Auswertung mit MLflow protokolliert MLflow automatisch eine Momentaufnahme der verwendeten Auswertungssatzversion.

Framework zur Experimentnachverfolgung

Während der Anwendungsentwicklung werden Sie viele verschiedene Experimente ausprobieren. Mit einem Framework zur Experimentnachverfolgung können Sie jedes Experiment protokollieren und seine Metriken im Vergleich zu anderen Experimenten nachverfolgen.

In Databricks bietet MLflow Funktionen zur Experimentnachverfolgung.

Framework zur Kettenparametrisierung

Bei vielen Experimenten müssen Sie den Code der Kette konstant halten, während Sie verschiedene Parameter durchlaufen, die vom Code verwendet werden. Sie benötigen ein Framework, mit dem Sie dies erreichen können.

In Databricks werden diese Funktionen von der MLflow-Modellkonfiguration bereitgestellt.

Onlineüberwachung

Nach der Bereitstellung benötigen Sie eine Möglichkeit, die Integrität und die Qualität, Kosten und Wartezeit der Anwendung laufend zu überwachen.

In Databricks bietet Model Serving Anwendungsintegritätsüberwachung, und Lakehouse Monitoring ermöglicht laufende Ausgaben an ein Dashboard und überwacht Qualität, Kosten und Wartezeit.

< Zurück: Bewerten der Leistung

Nächstes: Evaluierungsgesteuerte Entwicklung >

Freigeben über