Správa tokenů

Dokončeno

Představte si, že dojde k náhlému nárůstu provozu do vašeho rozhraní API, možná existuje prodej nebo nějaký jiný důvod. Abyste se vyhnuli nadměrné spotřebě a možnému přerušení služeb, musíte zjistit, jak to spravovat.

Zásady omezení tokenů Azure OpenAI

Jak už bylo zmíněno na začátku této lekce, náhlé špičky je něco, musíte zvládnout. Dobrou zprávou je, že Azure API Management má něco, co se nazývá Zásady omezení tokenů.

Tato zásada umožňuje zákazníkům nastavit omezení spotřeby tokenů vyjádřená v tokenech za minutu (TPM) a zajišťuje spravedlivé a efektivní využití prostředků OpenAI.

Klíčové funkce

Mezi klíčové funkce této zásady patří:

  • Přesné řízení: Zákazníci můžou přiřadit omezení založená na tokenech na různých klíčích čítačů, jako je klíč předplatného nebo IP adresa, a přizpůsobit vynucení konkrétním případům použití.
  • Monitorování v reálném čase: Zásada spoléhá na metriky využití tokenů vrácené z koncového bodu OpenAI, což umožňuje přesné monitorování a vynucování limitů v reálném čase.
  • Předběžný výpočet tokenů: Umožňuje předem přepočítat tokeny výzvy na straně služby Azure API Management, což minimalizuje zbytečné požadavky na back-end OpenAI, pokud už je limit překročen.
  • Vylepšené přizpůsobení: Zákazníci můžou v rámci zásad použít hlavičky a proměnné, jako jsou tokeny spotřebované a zbývající tokeny, pro lepší kontrolu a přizpůsobení.

Vidíte, že existuje několik funkcí, které vám pomůžou spravovat náklady a díky monitorování v reálném čase se můžete ujistit, že nepřekračujete limity.

Jak ji použít

Pokud chcete tuto zásadu použít, musíte ji přidat do kanálu příchozího zpracování operace rozhraní API. Tady je postup, jak to udělat:

<azure-openai-token-limit counter-key="key value"
        tokens-per-minute="number"
        estimate-prompt-tokens="true | false"    
        retry-after-header-name="custom header name, replaces default 'Retry-After'" 
        retry-after-variable-name="policy expression variable name"
        remaining-tokens-header-name="header name"  
        remaining-tokens-variable-name="policy expression variable name"
        tokens-consumed-header-name="header name"
        tokens-consumed-variable-name="policy expression variable name" />

Existuje několik atributů, které můžete nastavit, ale nejdůležitější jsou:

  • counter-key: Klíč, který se má použít pro počítání tokenů. Tato hodnota může být klíč předplatného nebo IP adresa.
  • tokeny za minutu: Počet tokenů povolených za minutu.
  • estimate-prompt-tokens: Určuje, jestli chcete odhadnout tokeny výzvy, nebo ne.

Zásady metrik vygenerování tokenů Azure OpenAI

Tato zásada řeší potřebu podrobného monitorování a analýzy využití tokenů v aplikacích pomocí modelů Azure OpenAI.

Poskytováním komplexních metrik pomáhá organizacím:

  • Optimalizace přidělování prostředků: Efektivní pochopení a správa spotřeby tokenů
  • Zlepšení rozhodování: Získejte přehled o vzorech využití, abyste mohli činit informovaná rozhodnutí o škálování a správě prostředků.
  • Vylepšení Sledování výkonu: Sledování a analýza využití tokenů za účelem identifikace a řešení potenciálních problémů aktivně

Jak používat zásady metrik tokenů generování

Pokud chcete tuto zásadu použít, musíte ji přidat do kanálu příchozího zpracování operace rozhraní API. Tady je postup, jak ho zakódujete v jazyce XML:

<azure-openai-emit-token-metric
        namespace="metric namespace" >      
        <dimension name="dimension name" value="dimension value" />
        ...additional dimensions...
</azure-openai-emit-token-metric>

Tady je příklad použití několika dimenzí:

<policies>
  <inbound>
      <azure-openai-emit-token-metric
            namespace="AzureOpenAI">   
            <dimension name="User ID" />
            <dimension name="Client IP" value="@(context.Request.IpAddress)" />
            <dimension name="API ID" />
        </azure-openai-emit-token-metric> 
  </inbound>
  <outbound>
  </outbound>
</policies>

V předchozím příkladu:

  • Tato zásada je nakonfigurovaná tak, aby vygenerovala metriky tokenů do oboru názvů AzureOpenAI s dimenzemi ID uživatele, IP adresy klienta a ID rozhraní API.
  • Hodnota dimenze IP adresy klienta je nastavena na IP adresu klienta, který požadavek provádí.

Představte si, že teď můžete tyto metriky zobrazit na řídicím panelu a monitorovat využití rozhraní API v reálném čase. Můžete například zjistit, kolik tokenů používá konkrétní uživatel nebo kolik tokenů používá konkrétní rozhraní API. Tato výkonná funkce, která vám pomůže optimalizovat vaše prostředky a činit informovaná rozhodnutí o škálování a správě prostředků.

Kontrola znalostí

1.

Jak zásady omezení tokenů pomáhají se správou využití rozhraní API?

2.

Jaké jsou některé dobré dimenze pro zásady metrik tokenů ve službě Azure API Management a proč?