Reacties op API-aanvragen voor grote taalmodellen in de cache opslaan

Artikel
12/18/2024

VAN TOEPASSING OP: Alle API Management-lagen

Het llm-semantic-cache-store beleid slaat antwoorden op de voltooiings-API voor chats en voltooiings-API-aanvragen op in een geconfigureerde externe cache. Reactiecaching vermindert de bandbreedte en verwerkingsvereisten die zijn opgelegd aan de Back-end Azure OpenAI-API en verlaagt de latentie die wordt waargenomen door API-consumenten.

Notitie

Dit beleid moet een overeenkomend beleid voor get cache-antwoorden hebben voor api-aanvragen voor grote talenmodellen.
Zie Semantische caching inschakelen voor Azure OpenAI-API's in Azure API Management voor vereisten en stappen voor het inschakelen van semantische caching.
Dit beleid is momenteel beschikbaar als preview-versie.

Notitie

Stel de elementen en onderliggende elementen van het beleid in de volgorde in die in de beleidsverklaring is opgegeven. Meer informatie over het instellen of bewerken van API Management-beleid.

Ondersteunde modellen

Gebruik het beleid met LLM-API's die zijn toegevoegd aan Azure API Management die beschikbaar zijn via de Azure AI-modeldeductie-API.

Beleidsinstructie

<llm-semantic-cache-store duration="seconds"/>

Kenmerken

Kenmerk	Beschrijving	Vereist	Standaardinstelling
duur	Time-to-live van de items in de cache, opgegeven in seconden. Beleidsexpressies zijn toegestaan.	Ja	N.v.t.

Gebruik

Beleidssecties: uitgaand
Beleidsbereiken: globaal, product, API, bewerking
Gateways: klassiek, v2, verbruik

Gebruiksnotities

Dit beleid kan slechts eenmaal worden gebruikt in een beleidssectie.
Als het opzoeken van de cache mislukt, veroorzaakt de API-aanroep die gebruikmaakt van de bewerking met betrekking tot de cache geen fout en wordt de cachebewerking voltooid.

Voorbeelden

Voorbeeld met overeenkomend beleid voor llm-semantic-cache-lookup

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Zie voor meer informatie over het werken met beleid:

Zelfstudie: Uw API transformeren en beveiligen
Beleidsreferentie voor een volledige lijst met beleidsinstructies en hun instellingen
Beleidsexpressies
Beleid instellen of bewerken
Beleidsconfiguraties opnieuw gebruiken
Beleidsfragmentenopslagplaats
Azure API Management-beleidstoolkit
Beleid ontwerpen met Behulp van Microsoft Copilot in Azure

Delen via

Reacties op API-aanvragen voor grote taalmodellen in de cache opslaan

Ondersteunde modellen

Beleidsinstructie

Kenmerken

Gebruik

Gebruiksnotities

Voorbeelden

Voorbeeld met overeenkomend beleid voor llm-semantic-cache-lookup

Feedback

Aanvullende resources

Delen via

Reacties op API-aanvragen voor grote taalmodellen in de cache opslaan

Ondersteunde modellen

Beleidsinstructie

Kenmerken

Gebruik

Gebruiksnotities

Voorbeelden

Voorbeeld met overeenkomend beleid voor llm-semantic-cache-lookup

Gerelateerd beleid

Gerelateerde inhoud

Feedback

Aanvullende resources