Dela via


Så här konfigurerar du innehållsfiltren med Azure OpenAI Service

Innehållsfiltreringssystemet som är integrerat i Azure OpenAI Service körs tillsammans med kärnmodellerna, inklusive DALL-E-bildgenereringsmodeller. Den använder en ensemble av klassificeringsmodeller med flera klasser för att identifiera fyra kategorier av skadligt innehåll (våld, hat, sexuellt och självskadebeteende) på fyra allvarlighetsnivåer (säkra, låga, medelstora och höga) och valfria binära klassificerare för att upptäcka risk för jailbreak, befintlig text och kod i offentliga lagringsplatser. Standardkonfigurationen för innehållsfiltrering är inställd på att filtrera med tröskelvärdet för medelhög allvarlighetsgrad för alla fyra kategorier av innehållsskador för både prompter och slutföranden. Det innebär att innehåll som identifieras på allvarlighetsgrad medel eller hög filtreras, medan innehåll som identifieras på allvarlighetsnivå låg eller säker inte filtreras av innehållsfiltren. Läs mer om innehållskategorier, allvarlighetsnivåer och beteendet för innehållsfiltreringssystemet här. Riskidentifiering av jailbreak och skyddade text- och kodmodeller är valfria och inaktiverade som standard. För jailbreak och skyddade materialtext- och kodmodeller gör konfigurationsfunktionen att alla kunder kan aktivera och inaktivera modellerna. Modellerna är som standard inaktiverade och kan aktiveras enligt ditt scenario. Vissa modeller måste vara på för att vissa scenarier ska kunna behålla täckningen under kundens upphovsrättsåtagande.

Kommentar

Alla kunder har möjlighet att ändra innehållsfiltren och konfigurera tröskelvärdena för allvarlighetsgrad (låg, medel, hög). Godkännande krävs för att stänga av innehållsfiltren helt eller delvis. Endast hanterade kunder kan ansöka om full kontroll över innehållsfiltrering via detta formulär: Granskning av begränsad åtkomst till Azure OpenAI: Ändrade innehållsfilter. För närvarande är det inte möjligt att bli en hanterad kund.

Innehållsfilter kan konfigureras på resursnivå. När en ny konfiguration har skapats kan den associeras med en eller flera distributioner. Mer information om distributionsmodellerna finns i Förstå distributionsmodeller.

Förutsättningar

  • Du måste ha en Azure OpenAI-resurs och en distribution av en stor språkmodell (LLM) för att konfigurera innehållsfilter. Följ en snabbstart för att komma igång.

Förstå konfigurerbarhet för innehållsfilter

Azure OpenAI Service innehåller standardsäkerhetsinställningar som tillämpas på alla modeller, exklusive Azure OpenAI Whisper. De här konfigurationerna ger dig en ansvarsfull upplevelse som standard, inklusive modeller för innehållsfiltrering, blocklistor, prompttransformering, autentiseringsuppgifter för innehåll och andra. Läs mer om det här.

Alla kunder kan också konfigurera innehållsfilter och skapa anpassade säkerhetsprinciper som är skräddarsydda för deras användningsfallskrav. Med konfigurationsfunktionen kan kunderna justera inställningarna separat för frågor och slutföranden för att filtrera innehåll för varje innehållskategori på olika allvarlighetsnivåer enligt beskrivningen i tabellen nedan. Innehåll som identifieras på allvarlighetsnivå "säker" är märkt i anteckningar men är inte föremål för filtrering och kan inte konfigureras.

Allvarlighetsgrad filtrerad Kan konfigureras för frågor Kan konfigureras för slutföranden Beskrivningar
Låg, medelhög, hög Ja Ja Striktast filtreringskonfiguration. Innehåll som identifieras på allvarlighetsgraderna låg, medelhög och hög filtreras.
Medelhög, hög Ja Ja Innehåll som identifieras på allvarlighetsnivå låg filtreras inte, innehåll på medelhög och hög filtreras.
Högt Ja Ja Innehåll som identifieras på allvarlighetsgraderna låg och medel filtreras inte. Endast innehåll på hög allvarlighetsgrad filtreras.
Inga filter Om godkänd1 Om godkänd1 Inget innehåll filtreras oavsett allvarlighetsgrad som identifierats. Kräver godkännande1.
Kommentera endast Om godkänd1 Om godkänd1 Inaktiverar filterfunktionen, så innehållet blockeras inte, men anteckningar returneras via API-svar. Kräver godkännande1.

1 För Azure OpenAI-modeller har endast kunder som har godkänts för modifierad innehållsfiltrering fullständig innehållsfiltreringskontroll och kan inaktivera innehållsfilter. Ansök om ändrade innehållsfilter via det här formuläret: Azure OpenAI Limited Access Review: Modified Content Filters (Begränsad åtkomstgranskning i Azure OpenAI: Ändrade innehållsfilter). För Azure Government-kunder kan du ansöka om ändrade innehållsfilter via det här formuläret: Azure Government – Begära ändrad innehållsfiltrering för Azure OpenAI-tjänsten.

Konfigurerbara innehållsfilter för indata (prompter) och utdata (slutföranden) är tillgängliga för följande Azure OpenAI-modeller:

  • GPT-modellserie
  • GPT-4 Turbo Vision GA* (turbo-2024-04-09)
  • GPT-4o
  • GPT-4o mini
  • DALL-E 2 och 3

Konfigurerbara innehållsfilter är inte tillgängliga för

  • o1-preview
  • o1-mini

*Endast tillgängligt för GPT-4 Turbo Vision GA, gäller inte för GPT-4 Turbo Vision preview

Konfigurationer för innehållsfiltrering skapas i en resurs i Azure AI Studio och kan associeras med distributioner. Läs mer om konfigurerbarhet här.

Kunderna ansvarar för att säkerställa att program som integrerar Azure OpenAI följer uppförandekoden.

Förstå andra filter

Du kan konfigurera följande filterkategorier utöver standardfilter för skadekategorier.

Filterkategori Status Standardinställning Tillämpas på fråga eller slutförande? beskrivning
Fråga sköldar för direkta attacker (jailbreak) Allmän tillgänglighet Användarprompt Filtrerar/kommenterar användarfrågor som kan utgöra en jailbreak-risk. Mer information om anteckningar finns i Azure OpenAI Service-innehållsfiltrering.
Fråga sköldar för indirekta attacker Allmän tillgänglighet Användarprompt Filtrera/kommentera indirekta attacker, även kallade indirekta promptattacker eller direktinmatningsattacker mellan domäner, en potentiell sårbarhet där tredje part placerar skadliga instruktioner i dokument som det generativa AI-systemet kan komma åt och bearbeta. Obligatoriskt: Dokumentformatering .
Skyddat material – kod Allmän tillgänglighet Fullbordande Filtrerar skyddad kod eller hämtar exempelinformation om källhänvisning och licens i anteckningar för kodfragment som matchar offentliga kodkällor som drivs av GitHub Copilot. Mer information om att använda anteckningar finns i konceptguiden för innehållsfiltrering
Skyddat material – text Allmän tillgänglighet Fullbordande Identifierar och blockerar känt textinnehåll från att visas i modellutdata (till exempel låttexter, recept och valt webbinnehåll).
Grundstötning* Förhandsversion Av Fullbordande Identifierar om textsvaren från stora språkmodeller (LLM) är baserade på källmaterialet som tillhandahålls av användarna. Ogrundadhet avser instanser där llm:erna producerar information som inte är faktisk eller felaktig från det som fanns i källmaterialet.

*Kräver inbäddning av dokument i prompten. Läs mer.

Konfigurera innehållsfilter med Azure AI Studio

Följande steg visar hur du konfigurerar en anpassad konfiguration för innehållsfiltrering för din Azure OpenAI-resurs i AI Studio. Om du vill ha vägledning om innehållsfilter i ditt Azure AI Studio-projekt kan du läsa mer i Azure AI Studio-innehållsfiltrering.

  1. Gå till Azure AI Studio och gå till sidan Säkerhet + säkerhet på den vänstra menyn.

  2. Gå vidare till fliken Innehållsfilter och skapa en ny konfiguration för anpassad innehållsfiltrering.

    Detta leder till följande konfigurationsvy, där du kan välja ett namn för konfigurationen för anpassad innehållsfiltrering. När du har angett ett namn kan du konfigurera indatafiltren (för användarfrågor) och utdatafilter (för att modellen ska slutföras).

    Skärmbild av skärmen för indatafilter.

    Skärmbild av utdatafilterskärmen.

    För de första fyra innehållskategorierna finns det tre allvarlighetsnivåer som kan konfigureras: Låg, medel och hög. Du kan använda skjutreglagen för att ange tröskelvärdet för allvarlighetsgrad om du fastställer att ditt program eller användningsscenario kräver en annan filtrering än standardvärdena.

    Vissa filter, till exempel Prompt Shields och Skyddad materialidentifiering, gör att du kan avgöra om modellen ska kommentera och/eller blockera innehåll. Om du väljer Kommentera körs endast respektive modell och returnerar anteckningar via API-svar, men det filtrerar inte innehåll. Förutom att kommentera kan du också välja att blockera innehåll.

    Om ditt användningsfall har godkänts för ändrade innehållsfilter får du fullständig kontroll över konfigurationer för innehållsfiltrering och kan välja att helt eller delvis inaktivera filtrering eller endast aktivera anteckningar för kategorierna för innehållsskador (våld, hat, sexuell och självskada).

  3. Du kan skapa flera konfigurationer för innehållsfiltrering enligt dina behov.

    Skärmbild av flera innehållskonfigurationer i Azure Portal.

  4. Om du sedan vill använda en anpassad innehållsfiltreringskonfiguration tilldelar du den till en eller flera distributioner i resursen. Det gör du genom att gå till fliken Distributioner och välja din distribution. Välj sedan Redigera.

  5. I fönstret Uppdatera distribution som visas väljer du ditt anpassade filter i listrutan Innehållsfilter . Välj sedan Spara och stäng för att tillämpa den valda konfigurationen på distributionen.

    Skärmbild av redigera distributionskonfiguration med innehållsfilter valt.

    Du kan också redigera och ta bort en konfiguration av innehållsfilter om det behövs.

    Innan du tar bort en konfiguration för innehållsfiltrering måste du ta bort tilldelningen och ersätta den från alla distributioner på fliken Distributioner .

Feedback om filtrering av rapportinnehåll

Om du stöter på ett problem med innehållsfiltrering väljer du knappen Skicka feedback överst på lekplatsen. Detta är aktiverat i lekplatsen Bilder, Chatt och Slutföranden .

När dialogrutan visas väljer du lämpligt problem med innehållsfiltrering. Ta med så mycket information som möjligt om ditt problem med innehållsfiltrering, till exempel det specifika prompt- och innehållsfiltreringsfel som du stötte på. Ta inte med någon privat eller känslig information.

Om du vill ha support skickar du ett supportärende.

Följ metodtipsen

Vi rekommenderar att du informerar dina beslut om innehållsfiltrering genom en iterativ identifiering (till exempel red team-testning, stresstestning och analys) och mätningsprocess för att åtgärda potentiella skador som är relevanta för en specifik modell, ett visst program och distributionsscenario. När du har implementerat åtgärder som innehållsfiltrering upprepar du mätningen för att testa effektiviteten. Rekommendationer och metodtips för ansvarsfull AI för Azure OpenAI, som finns i Microsoft Responsible AI Standard, finns i Översikt över ansvarsfull AI för Azure OpenAI.