Transparenzhinweis für Azure KI Studio-Sicherheitsbewertungen
Wichtig
Die in diesem Artikel markierten Elemente (Vorschau) sind aktuell als öffentliche Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.
Was ist ein Transparenzhinweis
Ein KI-System umfasst nicht nur die Technologie, sondern auch die Personen, die das System verwenden, die davon betroffenen Personen und die Umgebung, in der es bereitgestellt wird. Die Schaffung eines Systems, das für seinen vorgesehenen Zweck geeignet ist, erfordert ein Verständnis dafür, wie die Technologie funktioniert, was ihre Möglichkeiten und Einschränkungen sind und wie die beste Leistung erreicht wird. Die Transparenzhinweise von Microsoft sollen Ihnen helfen zu verstehen, wie unsere KI-Technologie funktioniert, welche Entscheidungen Systembesitzer treffen können, die die Systemleistung und das Systemverhalten beeinflussen, und wie wichtig es ist, das gesamte System zu betrachten, einschließlich der Technologie, der Menschen und der Umgebung. Sie können Transparenzhinweise verwenden, wenn Sie Ihr eigenes System entwickeln oder bereitstellen, oder sie mit den Personen teilen, die Ihr System verwenden oder von ihm betroffen sind.
Die Transparenzhinweise von Microsoft sind Teil einer größeren Initiative bei Microsoft, unsere KI-Prinzipien praktisch umzusetzen. Weitere Informationen finden Sie unter Verantwortungsvolle und vertrauenswürdige KI.
Die Grundlagen von Azure AI Studio-Sicherheitsbewertungen
Einführung
Mit den Sicherheitsbewertungen von Azure KI Studio können Benutzer die Ausgabe ihrer generativen KI-Anwendung auf Textinhaltsrisiken bewerten: Hasserfüllte und unfaire Inhalte, sexuelle Inhalte, gewalttätige Inhalte, selbstschädliche Inhalte, Jailbreak-Sicherheitsanfälligkeiten. Sicherheitsbewertungen können auch dazu beitragen, feindliche Datasets zu generieren, die Ihnen helfen, den Red-Teaming-Vorgang zu beschleunigen und zu erweitern. Azure KI Studio-Sicherheitsbewertungen spiegeln die Verpflichtungen von Microsoft wider, um sicherzustellen, dass KI-Systeme sicher und verantwortungsbewusst erstellt werden und unsere verantwortungsvollen KI-Prinzipien operationalisiert werden.
Schlüsselbegriffe
- Hasserfüllte und unfaire Inhalte beziehen sich auf jede Sprache, die sich auf Hass gegenüber oder unfaire Darstellungen von Einzelpersonen und sozialen Gruppen bezieht und Faktoren wie Rasse, ethnische Zugehörigkeit, Nationalität, Geschlecht, sexuelle Orientierung, Religion, Einwanderungsstatus, Fähigkeiten, persönliches Aussehen und Körpergröße berücksichtigt, ist aber nicht darauf beschränkt. Ungerechtigkeit tritt auf, wenn KI-Systeme soziale Gruppen ungerechtfertigt behandeln oder vertreten, gesellschaftliche Ungleichheiten schaffen oder dazu beitragen.
- Zu den sexuellen Inhalten gehören Sprache, die sich auf anatomische Organe und Genitalien, romantische Beziehungen, erotisch dargestellte Handlungen, Schwangerschaft, körperliche sexuelle Handlungen (einschließlich Übergriffe oder sexuelle Gewalt), Prostitution, Pornografie und sexuellen Missbrauch bezieht.
- Gewalttätige Inhalte umfassen Sprache, die sich auf körperliche Handlungen bezieht, die dazu bestimmt sind, jemanden oder etwas zu verletzen, zu schädigen oder zu töten. Sie enthält auch Beschreibungen von Schusswaffen und anderen Waffen (und damit verbundenen Einrichtungen wie Hersteller und Vereinigungen).
- Inhalte mit Selbstverletzungsbezug umfassen Sprache, die sich auf Aktionen bezieht, die dazu dienen, sich zu verletzen oder den Körper zu schädigen oder sich selbst zu töten.
- Jailbreak, direkte Eingabeaufforderungsangriffe oder Benutzereinfügungsangriffe beziehen sich auf Benutzer, die Aufforderungen bearbeiten, um schädliche Eingaben in LLMs einzufügen, um Aktionen und Ausgaben zu verzerren. Ein Beispiel für einen Jailbreak-Befehl ist ein „DAN“ (Do Anything Now)-Angriff, der die LLM zu unangemessener Inhaltsgenerierung verleiten oder systembedingte Einschränkungen ignorieren kann.
- Fehlerrate (Inhaltsrisiko) wird als Prozentsatz der Instanzen in Ihrem Testdatensatz definiert, die einen Schwellenwert für den Schweregrad über die gesamte Datasetgröße überschreiten.
- Red Teaming stand in der Vergangenheit für systematische Angriffe beim Testen von Sicherheitsrisiken. Mit dem Aufkommen von Large Language Models (LLMs) hat sich der Begriff über die herkömmliche Cybersicherheit hinaus erweitert und wird nun allgemein verwendet, um viele Arten von Überprüfungen, Tests und Angriffen von KI-Systemen zu beschreiben. Mit LLMs können sowohl die gutartige als auch die feindselige Nutzung zu potenziell schädlichen Ergebnissen führen, die viele Formen annehmen können, einschließlich schädlicher Inhalte wie Hassrede, Aufstachelung, Verweise auf selbstschädliche Inhalte, die Verherrlichung von Gewalt oder sexuelle Inhalte.
Funktionen
Systemverhalten
Azure KI Studio stellt ein Azure OpenAI GPT-4-Modell bereit und orchestriert feindselige Angriffe gegen Ihre Anwendung, um ein qualitativ hochwertiges Testdataset zu generieren. Anschließend stellt es ein weiteres GPT-4-Modell bereit, um Ihren Testdatensatz zu Inhalten und Sicherheit zu kommentieren. Benutzer stellen ihren generativen KI-Anwendungsendpunkt bereit, den sie testen möchten, und die Sicherheitsbewertungen geben einen statischen Testdatensatz zusammen mit der Inhaltsrisikobezeichnung (Sehr niedrig, Niedrig, Mittel, Hoch) und den Gründen für die von der KI generierten Bezeichnung aus.
Anwendungsfälle
Beabsichtigte Verwendungen
Die Sicherheitsbewertungen sind nicht für andere Zwecke vorgesehen als die Bewertung von Inhaltsrisiken und Jailbreak-Sicherheitsrisiken Ihrer generativen KI-Anwendung:
- Bewerten Ihrer generativen KI-Anwendung vor der Bereitstellung: Mithilfe des Auswertungsassistenten in Azure KI Studio oder im Azure KI Python SDK können Sicherheitsbewertungen auf automatisierte Weise bewertet werden, um potenzielle Inhalts- oder Sicherheitsrisiken auszuwerten.
- Erweitern Ihrer Red-Teaming-Vorgänge: Mithilfe des Gegnersimulators können Sicherheitsbewertungen feindselige Interaktionen mit Ihrer generativen KI-Anwendung simulieren, um zu versuchen, Inhalte und Sicherheitsrisiken aufzudecken.
- Kommunizieren von Inhalts- und Sicherheitsrisiken an Projektbeteiligte: Mithilfe von Azure KI Studio können Sie den Zugriff auf Ihr Azure KI Studio-Projekt mit Sicherheitsbewertungsergebnissen für Prüfer oder Compliancebeteiligte freigeben.
Hinweise zur Auswahl eines Anwendungsfalls
Wir ermutigen Kunden, Azure KI Studio-Sicherheitsbewertungen in ihren innovativen Lösungen oder Anwendungen zu nutzen. Bei der Auswahl eines Anwendungsfalls sind jedoch einige Überlegungen nötig:
- Sicherheitsbewertungen sollten einen Menschen im Prozess einbinden: Die Verwendung automatisierter Bewertungen wie Azure KI Studio-Sicherheitsbewertungen sollte menschliche Prüfer wie Domänenexperten umfassen, um zu beurteilen, ob Ihre generative KI-Anwendung vor der Bereitstellung für Endbenutzer gründlich getestet wurde.
- Sicherheitsbewertungen enthalten keine umfassende Abdeckung: Obwohl Sicherheitsbewertungen eine Möglichkeit bieten können, Ihre Tests auf potenzielle Inhalte oder Sicherheitsrisiken zu erweitern, wurden sie nicht entwickelt, manuelle Red-Teaming-Vorgänge zu ersetzen, die speziell auf die Domäne Ihrer Anwendung, Anwendungsfälle und Art von Endbenutzern ausgerichtet sind.
- Unterstützte Szenarien:
- Für die feindselige Simulation: Fragebeantwortung, Multi-Turn-Chat, Zusammenfassung, Suche, Textumschreibung, ungeerdete und geerdete Inhaltsgenerierung.
- Für automatisierte Anmerkung: Fragebeantwortung und Multi-Turn-Chat.
- Der Dienst wird derzeit nur mit der englischen Domäne für Textgenerationen verwendet. Zusätzliche Features, einschließlich der Multimodellunterstützung, werden für zukünftige Versionen berücksichtigt.
- Die Abdeckung der in den Sicherheitsbewertungen enthaltenen Inhaltsrisiken wird aus einer begrenzten Anzahl marginalisierter Gruppen und Themen abgeleitet:
- Die Metrik „Hass und Ungerechtigkeit“ umfasst eine begrenzte Anzahl marginalisierter Gruppen für die demografischen Faktoren Geschlecht (z. B. Männer, Frauen, nicht-binäre Menschen) und Rasse, Herkunft, Ethnizität und Nationalität (z. B. Schwarz, Mexiko, Europa). Nicht alle marginalisierten Gruppen in Geschlecht und Rasse, Herkunft, Ethnizität und Nationalität werden abgedeckt. Andere demografische Faktoren, die für Hass und Ungerechtigkeit relevant sind, haben derzeit keine Abdeckung (z. B. Behinderung, Sexualität, Religion).
- Die Metriken für sexuelle, gewalttätige und selbstschädliche Inhalte basieren auf einer vorläufigen Konzeptualisierung dieser Schäden, die weniger weit entwickelt ist als Hass und Ungerechtigkeit. Dies bedeutet, dass wir weniger starke Ansprüche hinsichtlich der Messabdeckung machen können, und wie gut die Messungen die verschiedenen Möglichkeiten darstellen, wie diese Schäden auftreten können. Die Abdeckung dieser Inhaltstypen umfasst eine begrenzte Anzahl von Themen, die sich auf Sex beziehen (z. B. sexuelle Gewalt, Beziehungen, sexuelle Handlungen), Gewalt (z. B. Missbrauch, Verletzungen anderer, Entführung) und Selbstschäden (z. B. absichtlicher Tod, absichtliche Selbstverletzung, Essensstörungen).
- Azure KI Studio-Sicherheitsbewertungen ermöglichen derzeit keine Plug-Ins oder Erweiterbarkeit.
- Um die Qualität auf dem neuesten Stand zu halten und die Abdeckung zu verbessern, werden wir darauf abzielen, zukünftige Versionen der Verbesserung für die feindseligen Simulations- und Anmerkungsfunktionen des Diensts abzudecken.
Technische Einschränkungen, Betriebsfaktoren und Bereiche
- Der Bereich der großen Sprachmodelle (LLMs) entwickelt sich weiterhin schnell und erfordert eine kontinuierliche Verbesserung der Auswertungstechniken, um eine sichere und zuverlässige Bereitstellung des KI-Systems zu gewährleisten. Azure KI Studio-Sicherheitsbewertungen spiegeln die Verpflichtung von Microsoft wider, im Bereich der LLM-Bewertung weiter Innovationen zu entwickeln. Wir sind bestrebt, die besten Tools bereitzustellen, die Ihnen dabei helfen, die Sicherheit Ihrer generativen KI-Anwendungen zu bewerten, aber eine effektive Bewertung zu erkennen, ist eine fortlaufende Arbeit.
- Die Anpassung von Azure KI Studio-Sicherheitsbewertungen ist derzeit begrenzt. Wir erwarten nur, dass Benutzer ihren eingabegenerativen KI-Anwendungsendpunkt bereitstellen, und unser Dienst gibt ein statisches Dataset aus, das für das Inhaltsrisiko gekennzeichnet ist.
- Schließlich sollte darauf hingewiesen werden, dass dieses System keine Aktionen oder Aufgaben automatisiert, es stellt nur eine Bewertung Ihrer generativen KI-Anwendungsausgabe bereit, die von einem menschlichen Entscheidungsträger in dem Prozess überprüft werden sollte, bevor sie die generative KI-Anwendung oder das System für Endbenutzer bereitstellen.
Systemleistung
Bewährte Methoden zur Verbesserung der Systemleistung
- Wenn Sie Ihre Domäne ansehen, die einige Inhalte möglicherweise vertraulicher behandelt als andere, sollten Sie den Schwellenwert für die Berechnung der Fehlerrate anpassen.
- Bei Verwendung der automatisierten Sicherheitsbewertungen kann es manchmal einen Fehler in Ihren durch KI generierten Bezeichnungen für den Schweregrad eines Inhaltsrisikos oder deren Begründung geben. Es gibt eine manuelle Spalte für menschliches Feedback, um die Überprüfung der Ergebnisse der automatisierten Sicherheitsbewertung zu ermöglichen.
Bewertung von Azure KI Studio-Sicherheitsbewertungen
Auswertungsmethoden
Für alle unterstützten Inhaltsrisikotypen haben wir die Qualität intern überprüft, indem wir die Rate der ungefähren Übereinstimmungen zwischen menschlichen Kommentatoren mit einem Schweregrad von 0 bis 7 und dem automatisierten Annotator der Sicherheitsbewertungen auch mit einem Schweregrad von 0 bis 7 auf denselben Datasets vergleichen. Für jeden Risikobereich hatten wir sowohl menschliche Kommentatoren als auch einen automatisierten Annotator 500 englische Einzeltexte überprüfen lassen. Die menschlichen Kommentatoren und der automatisierte Annotator haben nicht genau die gleichen Versionen der Anmerkungsrichtlinien verwendet. Während die Richtlinien des automatisierten Annotators aus den Richtlinien für den Menschen stammen, habe sie sich seitdem auseinander entwickelt (wobei die Hass- und Ungerechtigkeitsrichtlinien am meisten abgewichen sind). Trotz dieser leichten bis moderaten Unterschiede glauben wir, dass es immer noch nützlich ist, allgemeine Trends und Erkenntnisse aus unserem Vergleich der ungefähren Übereinstimmungen zu teilen. In unserem Vergleichen haben wir nach Übereinstimmungen mit einer 2-Grad-Toleranz gesucht (bei denen die Bezeichnung von Menschen mit einer automatischen Beschriftung exakt übereinstimmt oder innerhalb von 2 Graden über oder unter dem Schweregrad lag), Übereinstimmungen mit einer Toleranz ersten Grades und Übereinstimmungen mit einer Toleranz nullten Grades.
Auswertung der Ergebnisse
Insgesamt haben wir eine hohe Rate von ungefähren Übereinstimmungen über die Risiken von Selbstschäden und sexuellen Inhalten in allen Toleranzstufen gesehen. Für Gewalt und Hass und Ungerechtigkeit waren die ungefähren Übereinstimmungsraten bei den Toleranzgraden niedriger. Diese Ergebnisse waren teilweise auf eine erhöhte Divergenz bei den Anmerkungsrichtlinieninhalten für menschliche Kommentatoren im Vergleich zum automatisierten Annotator zurückzuführen, und teilweise aufgrund der erhöhten Menge an Inhalten und der Komplexität von bestimmten Richtlinien.
Obwohl es sich bei uns um Vergleiche zwischen Entitäten handelt, die leicht unterschiedliche Anmerkungsrichtlinien verwendeten (und somit keine Standardvergleiche zwischen Mensch und Modell sind), liefern diese Vergleiche eine Schätzung der Qualität für diese Vergleichsparameter, die wir von Azure KI Studio-Sicherheitsbewertungen erwarten können. Insbesondere haben wir nur englische Beispiele untersucht, sodass unsere Ergebnisse möglicherweise nicht auf andere Sprachen verallgemeinert werden können. Außerdem bestand jedes Datasetbeispiel aus nur einem einzigen Turn, und daher sind weitere Experimente erforderlich, um die Verallgemeinerbarkeit unserer Auswertungsergebnisse in Multi-Turn-Szenarien zu überprüfen (z. B. eine Hin- und Herunterhaltung einschließlich Benutzerabfragen und Systemantworten). Die Arten von Stichproben, die in diesen Auswertungsdatensätzen verwendet werden, können auch die ungefähre Übereinstimmungsrate zwischen menschlichen Kommentatoren und einem automatisierten Annotator erheblich beeinflussen – wenn Beispiele einfacher zu kennzeichnen sind (z. B. wenn alle Proben frei von Inhaltsrisiken sind), erwarten wir möglicherweise, dass die ungefähre Übereinstimmungsrate höher ist. Auch die Qualität der menschlichen Kommentatoren für eine Bewertung könnte sich auf die Verallgemeinerung unserer Ergebnisse auswirken.
Bewerten und Integrieren von Azure KI Studio-Sicherheitsbewertungen für Ihre Nutzung
Die Messung und Bewertung Ihrer generativen KI-Anwendung ist ein wichtiger Bestandteil eines ganzheitlichen Ansatzes für das KI-Risikomanagement. Azure KI Studio-Sicherheitsbewertungen ergänzen und sollten zusammen mit anderen KI-Risikomanagementpraktiken verwendet werden. Domänenexperten und menschliche Prüfer im Prozess sollten bei der Verwendung von KI-unterstützten Sicherheitsbewertungen im generativen KI-Anwendungsentwurf, -Entwicklungs- und Bereitstellungszyklus eine ordnungsgemäße Überwachung durchführen. Sie sollten die Einschränkungen und die vorgesehene Verwendung der Sicherheitsbewertungen verstehen, wobei Sie darauf achten sollten, dass sie sich nicht allein auf Ausgaben von Azure KI Studio KI-unterstützten Sicherheitsbewertungen verlassen.
Aufgrund der nicht deterministischen Natur der LLMs können falsch negative oder positive Ergebnisse auftreten, z. B. ein schweres Maß an gewalttätigen Inhalten, die als „sehr niedrig“ oder „niedrig“ bewertet wurden. Darüber hinaus können Auswertungsergebnisse für verschiedene Zielgruppen unterschiedliche Bedeutungen haben. Beispielsweise können Sicherheitsbewertungen eine Kennzeichnung als „geringen“ Schweregrad bei gewalttätigen Inhalten generieren, die möglicherweise nicht mit der Definition eines menschlichen Prüfers übereinstimmt, als wie schwerwiegend dieser gewalttätige Inhalt angesehen werden könnte. In Azure KI Studio stellen wir beim Anzeigen Ihrer Auswertungsergebnisse eine Spalte für menschliches Feedback mit Daumen nach oben und Daumen nach unten bereit, damit ein menschlicher Prüfer Instanzen genehmigen oder als falsch kennzeichnen kann. Berücksichtigen Sie den Kontext, in dem Ihre Ergebnisse für die Entscheidungsfindung von anderen interpretiert werden können, mit denen Sie Ihre Auswertungsergebnisse teilen. Überprüfen Sie Ihre Ergebnisse entsprechend genau, je nach Risikoniveau in der Umgebung, in dem die generative KI-Anwendung arbeitet.
Erfahren Sie mehr über verantwortungsvolle KI
- KI-Prinzipien von Microsoft
- Ressourcen für Microsoft verantwortungsbewusste KI
- Microsoft Azure Learning-Kurse zu verantwortungsvoller KI
Weitere Informationen zu Azure KI Studio-Sicherheitsbewertungen
- Microsoft-Konzeptdokumentation zu unserem Ansatz zur Bewertung von generativen KI-Anwendungen
- Microsoft-Konzeptdokumentation zur Funktionsweise der Sicherheitsbewertung
- Microsoft-Dokumentation zur Verwendung von Sicherheitsbewertungen
- Technischer Blog zur Bewertung von Inhalten und Sicherheitsrisiken in Ihren generativen KI-Anwendungen