Interfejs API wnioskowania modelu sztucznej inteligencji platformy Azure | Azure AI Foundry

Artykuł
02/04/2025

Ważne

Elementy oznaczone (wersja zapoznawcza) w tym artykule są obecnie dostępne w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.

Wnioskowanie modelu sztucznej inteligencji platformy Azure to interfejs API, który uwidacznia wspólny zestaw możliwości dla podstawowych modeli i może być używany przez deweloperów do korzystania z przewidywań z różnych zestawów modeli w jednolity i spójny sposób. Deweloperzy mogą rozmawiać z różnymi modelami wdrożonym w portalu usługi Azure AI Foundry bez zmieniania używanego kodu.

Świadczenia

Podstawowe modele, takie jak modele językowe, rzeczywiście poczyniły niezwykłe postępy w ostatnich latach. Te postępy zrewolucjonizowały różne pola, w tym przetwarzanie języka naturalnego i przetwarzanie obrazów, a także włączyły aplikacje, takie jak czatboty, asystenty wirtualne i usługi tłumaczenia języka.

Chociaż podstawowe modele są excel w określonych domenach, nie mają one jednolitego zestawu możliwości. Niektóre modele są lepsze w konkretnym zadaniu, a nawet w ramach tego samego zadania, niektóre modele mogą podejść do problemu w jeden sposób, podczas gdy inne w innym. Deweloperzy mogą korzystać z tej różnorodności , korzystając z odpowiedniego modelu dla odpowiedniego zadania , co pozwala im:

Zwiększ wydajność w określonym zadaniu podrzędnym.
Używaj bardziej wydajnych modeli do prostszych zadań.
Używaj mniejszych modeli, które mogą działać szybciej w określonych zadaniach.
Tworzenie wielu modeli w celu opracowywania inteligentnych środowisk.

Jednolity sposób korzystania z podstawowych modeli umożliwia deweloperom realizowanie wszystkich tych korzyści bez poświęcania przenośności ani zmieniania bazowego kodu.

Dostępność

Interfejs API wnioskowania modelu AI platformy Azure jest dostępny w następujących modelach/systemach:

Modele wdrożone w punktach końcowych bezserwerowego interfejsu API:

Modele wdrożone w zarządzanym wnioskowaniu:

Meta Llama 3 instruuje rodzinę modeli
Rodzina modeli Phi-3 i Phi-4
Mistral i Mixtral rodzina modeli

Modele wdrożone w wnioskowaniu modelu AI platformy Azure w usługach Azure AI Services:

Zobacz obsługiwane modele.

Interfejs API jest zgodny z wdrożeniami modeli usługi Azure OpenAI.

Uwaga

Interfejs API wnioskowania modelu AI platformy Azure jest dostępny w zarządzanym wnioskowaniu (zarządzanych punktach końcowych online) dla modeli wdrożonych po 24 czerwca 2024 r. Aby przejść z wyprzedzeniem do interfejsu API, ponownie wdróż punkt końcowy, jeśli model został wdrożony przed taką datą.

Możliwości

W poniższej sekcji opisano niektóre możliwości uwidaczniane przez interfejs API. Aby uzyskać pełną specyfikację interfejsu API, zapoznaj się z sekcją referencyjną.

Sposoby

Interfejs API wskazuje, w jaki sposób deweloperzy mogą korzystać z przewidywań dla następujących sposobów:

Uzyskaj informacje: zwraca informacje o modelu wdrożonym w punkcie końcowym.
Osadzanie tekstu: tworzy wektor osadzania reprezentujący tekst wejściowy.
Ukończenie czatu: tworzy odpowiedź modelu dla danej konwersacji na czacie.
Osadzanie obrazów: tworzy wektor osadzania reprezentujący tekst wejściowy i obraz.

Obsługa zestawu SDK wnioskowania

Możesz użyć usprawnionych klientów wnioskowania w wybranym języku, aby korzystać z przewidywań z modeli z uruchomionym interfejsem API wnioskowania modelu sztucznej inteligencji platformy Azure.

Ważne

Podczas pracy z punktem końcowym wnioskowania modelu AI platformy Azure (wersja zapoznawcza) podstawowy adres URL, z którym ma być nawiązane połączenie, ma postać https://<resource-name>.services.ai.azure.com/models. Użyj tego adresu URL z parametrem endpoint. Jeśli używasz interfejsów API REST, jest to podstawowy adres URL, który należy dołączyć do modalności, którą chcesz użyć. Dowiedz się, jak używać punktu końcowego wnioskowania modelu AI platformy Azure.

Zainstaluj pakiet azure-ai-inference przy użyciu menedżera pakietów, takiego jak:

pip install azure-ai-inference

Następnie możesz użyć pakietu do korzystania z modelu. W poniższym przykładzie pokazano, jak utworzyć klienta w celu korzystania z uzupełniania czatu:

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

model = ChatCompletionsClient(
    endpoint=os.environ["AZUREAI_ENDPOINT_URL"],
    credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
)

Jeśli używasz punktu końcowego z obsługą identyfikatora Entra, możesz utworzyć klienta w następujący sposób:

import os
from azure.ai.inference import ChatCompletionsClient
from azure.identity import DefaultAzureCredential

model = ChatCompletionsClient(
    endpoint=os.environ["AZUREAI_ENDPOINT_URL"],
    credential=DefaultAzureCredential(),
)

Zapoznaj się z naszymi przykładami i przeczytaj dokumentację referencyjną interfejsu API, aby rozpocząć pracę.

Zainstaluj pakiet @azure-rest/ai-inference przy użyciu narzędzia npm:

npm install @azure-rest/ai-inference

Następnie możesz użyć pakietu do korzystania z modelu. W poniższym przykładzie pokazano, jak utworzyć klienta w celu korzystania z uzupełniania czatu:

import ModelClient from "@azure-rest/ai-inference";
import { isUnexpected } from "@azure-rest/ai-inference";
import { AzureKeyCredential } from "@azure/core-auth";

const client = new ModelClient(
    process.env.AZUREAI_ENDPOINT_URL, 
    new AzureKeyCredential(process.env.AZUREAI_ENDPOINT_KEY)
);

W przypadku punktu końcowego z obsługą identyfikatora Entra firmy Microsoft możesz utworzyć klienta w następujący sposób:

import ModelClient from "@azure-rest/ai-inference";
import { isUnexpected } from "@azure-rest/ai-inference";
import { DefaultAzureCredential } from "@azure/identity";

const client = new ModelClient(
    process.env.AZUREAI_ENDPOINT_URL, 
    new DefaultAzureCredential()
);

Zapoznaj się z naszymi przykładami i przeczytaj dokumentację referencyjną interfejsu API, aby rozpocząć pracę.

Zainstaluj bibliotekę wnioskowania usługi Azure AI za pomocą następującego polecenia:

dotnet add package Azure.AI.Inference --prerelease

W przypadku punktu końcowego z obsługą identyfikatora Entra firmy Microsoft (dawniej Azure Active Directory) zainstaluj Azure.Identity pakiet:

dotnet add package Azure.Identity

Zaimportuj następujące przestrzenie nazw:

using Azure;
using Azure.Identity;
using Azure.AI.Inference;

Następnie możesz użyć pakietu do korzystania z modelu. W poniższym przykładzie pokazano, jak utworzyć klienta w celu korzystania z uzupełniania czatu:

ChatCompletionsClient client = new ChatCompletionsClient(
    new Uri(Environment.GetEnvironmentVariable("AZURE_INFERENCE_ENDPOINT")),
    new AzureKeyCredential(Environment.GetEnvironmentVariable("AZURE_INFERENCE_CREDENTIAL"))
);

W przypadku punktu końcowego z obsługą identyfikatora Entra firmy Microsoft (dawniej Azure Active Directory):

ChatCompletionsClient client = new ChatCompletionsClient(
    new Uri(Environment.GetEnvironmentVariable("AZURE_INFERENCE_ENDPOINT")),
    new DefaultAzureCredential(includeInteractiveCredentials: true)
);

Zapoznaj się z naszymi przykładami i przeczytaj dokumentację referencyjną interfejsu API, aby rozpocząć pracę.

Skorzystaj z sekcji referencyjnej, aby zapoznać się z projektem interfejsu API i dostępnymi parametrami. Na przykład sekcja referencyjna dotycząca uzupełniania czatu zawiera szczegółowe informacje na temat sposobu używania trasy /chat/completions do generowania przewidywań na podstawie instrukcji sformatowanych na czacie:

Zażądaj

POST /chat/completions?api-version=2024-05-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

Rozszerzalność

Interfejs API wnioskowania modelu sztucznej inteligencji platformy Azure określa zestaw modalności i parametrów, które modele mogą subskrybować. Jednak niektóre modele mogą mieć dalsze możliwości, które wskazuje interfejs API. W takich przypadkach interfejs API umożliwia deweloperowi przekazanie ich jako dodatkowych parametrów w ładunku.

Ustawiając nagłówek extra-parameters: pass-through, interfejs API podejmie próbę przekazania dowolnego nieznanego parametru bezpośrednio do bazowego modelu. Jeśli model może obsłużyć ten parametr, żądanie zostanie ukończone.

Poniższy przykład przedstawia żądanie przekazujące parametr safe_prompt obsługiwany przez program Mistral-Large, który nie jest określony w interfejsie API wnioskowania modelu AI platformy Azure.

from azure.ai.inference.models import SystemMessage, UserMessage

response = model.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="How many languages are in the world?"),
    ],
    model_extras={
        "safe_mode": True
    }
)

print(response.choices[0].message.content)

Napiwek

W przypadku korzystania z zestawu AZURE AI Inference SDK przy użyciu polecenia model_extras konfiguruje żądanie extra-parameters: pass-through automatycznie.

var messages = [
    { role: "system", content: "You are a helpful assistant" },
    { role: "user", content: "How many languages are in the world?" },
];

var response = await client.path("/chat/completions").post({
    "extra-parameters": "pass-through",
    body: {
        messages: messages,
        safe_mode: true
    }
});

console.log(response.choices[0].message.content)

requestOptions = new ChatCompletionsOptions()
{
    Messages = {
        new ChatRequestSystemMessage("You are a helpful assistant."),
        new ChatRequestUserMessage("How many languages are in the world?")
    },
    AdditionalProperties = { { "logprobs", BinaryData.FromString("true") } },
};

response = client.Complete(requestOptions, extraParams: ExtraParameters.PassThrough);
Console.WriteLine($"Response: {response.Value.Choices[0].Message.Content}");

Zażądaj

POST /chat/completions?api-version=2024-05-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json
extra-parameters: pass-through

{
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant"
    },
    {
        "role": "user",
        "content": "Explain Riemann's conjecture in 1 paragraph"
    }
    ],
    "temperature": 0,
    "top_p": 1,
    "response_format": { "type": "text" },
    "safe_prompt": true
}

Uwaga

Wartość domyślna parametru extra-parameters oznacza error , że zwraca błąd, jeśli dodatkowy parametr jest wskazywany w ładunku. Alternatywnie możesz ustawić opcję extra-parameters: drop upuszczania dowolnego nieznanego parametru w żądaniu. Użyj tej funkcji w przypadku wysyłania żądań z dodatkowymi parametrami, które wiesz, że model nie będzie obsługiwany, ale mimo to chcesz, aby żądanie zostało ukończone. Typowym przykładem tego parametru jest wskazanie seed parametru.

Modele z różnymi zestawami możliwości

Interfejs API wnioskowania modelu AI platformy Azure wskazuje ogólny zestaw możliwości, ale każdy z modeli może zdecydować się na ich zaimplementowanie. W tych przypadkach zwracany jest określony błąd, w którym model nie może obsługiwać określonego parametru.

Poniższy przykład przedstawia odpowiedź na żądanie ukończenia czatu wskazującą parametr reponse_format i prosząc o odpowiedź w JSON formacie. W tym przykładzie, ponieważ model nie obsługuje takiej możliwości, zwracany jest błąd 422 do użytkownika.

import json
from azure.ai.inference.models import SystemMessage, UserMessage, ChatCompletionsResponseFormatJSON
from azure.core.exceptions import HttpResponseError

try:
    response = model.complete(
        messages=[
            SystemMessage(content="You are a helpful assistant."),
            UserMessage(content="How many languages are in the world?"),
        ],
        response_format=ChatCompletionsResponseFormatJSON()
    )
except HttpResponseError as ex:
    if ex.status_code == 422:
        response = json.loads(ex.response._content.decode('utf-8'))
        if isinstance(response, dict) and "detail" in response:
            for offending in response["detail"]:
                param = ".".join(offending["loc"])
                value = offending["input"]
                print(
                    f"Looks like the model doesn't support the parameter '{param}' with value '{value}'"
                )
    else:
        raise ex

try {
    var messages = [
        { role: "system", content: "You are a helpful assistant" },
        { role: "user", content: "How many languages are in the world?" },
    ];
    
    var response = await client.path("/chat/completions").post({
        body: {
            messages: messages,
            response_format: { type: "json_object" }
        }
    });
}
catch (error) {
    if (error.status_code == 422) {
        var response = JSON.parse(error.response._content)
        if (response.detail) {
            for (const offending of response.detail) {
                var param = offending.loc.join(".")
                var value = offending.input
                console.log(`Looks like the model doesn't support the parameter '${param}' with value '${value}'`)
            }
        }
    }
    else 
    {
        throw error
    }
}

try
{
    requestOptions = new ChatCompletionsOptions()
    {
        Messages = {
            new ChatRequestSystemMessage("You are a helpful assistant"),
            new ChatRequestUserMessage("How many languages are in the world?"),
        },
        ResponseFormat = new ChatCompletionsResponseFormatJSON()
    };

    response = client.Complete(requestOptions);
    Console.WriteLine(response.Value.Choices[0].Message.Content);
}
catch (RequestFailedException ex)
{
    if (ex.Status == 422)
    {
        Console.WriteLine($"Looks like the model doesn't support a parameter: {ex.Message}");
    }
    else
    {
        throw;
    }
}

Zażądaj

POST /chat/completions?api-version=2024-05-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

{
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant"
    },
    {
        "role": "user",
        "content": "Explain Riemann's conjecture in 1 paragraph"
    }
    ],
    "temperature": 0,
    "top_p": 1,
    "response_format": { "type": "json_object" },
}

Response

{
    "status": 422,
    "code": "parameter_not_supported",
    "detail": {
        "loc": [ "body", "response_format" ],
        "input": "json_object"
    },
    "message": "One of the parameters contain invalid values."
}

Napiwek

Możesz sprawdzić właściwość details.loc , aby zrozumieć lokalizację parametru przestępczego i details.input zobaczyć wartość przekazaną w żądaniu.

Bezpieczeństwo zawartości

Interfejs API wnioskowania modelu AI platformy Azure obsługuje bezpieczeństwo zawartości usługi Azure AI. W przypadku korzystania z wdrożeń z bezpieczeństwem zawartości sztucznej inteligencji platformy Azure dane wejściowe i wyjściowe przechodzą przez zespół modeli klasyfikacji mających na celu wykrywanie i zapobieganie wyjściu szkodliwej zawartości. System filtrowania zawartości (wersja zapoznawcza) wykrywa i podejmuje działania dotyczące określonych kategorii potencjalnie szkodliwej zawartości zarówno w monitach wejściowych, jak i w przypadku uzupełniania danych wyjściowych.

Poniższy przykład przedstawia odpowiedź na żądanie ukończenia czatu, które wyzwoliło bezpieczeństwo zawartości.

from azure.ai.inference.models import AssistantMessage, UserMessage, SystemMessage
from azure.core.exceptions import HttpResponseError

try:
    response = model.complete(
        messages=[
            SystemMessage(content="You are an AI assistant that helps people find information."),
            UserMessage(content="Chopping tomatoes and cutting them into cubes or wedges are great ways to practice your knife skills."),
        ]
    )

    print(response.choices[0].message.content)

except HttpResponseError as ex:
    if ex.status_code == 400:
        response = json.loads(ex.response._content.decode('utf-8'))
        if isinstance(response, dict) and "error" in response:
            print(f"Your request triggered an {response['error']['code']} error:\n\t {response['error']['message']}")
        else:
            raise ex
    else:
        raise ex

try {
    var messages = [
        { role: "system", content: "You are an AI assistant that helps people find information." },
        { role: "user", content: "Chopping tomatoes and cutting them into cubes or wedges are great ways to practice your knife skills." },
    ]

    var response = await client.path("/chat/completions").post({
        body: {
            messages: messages,
        }
    });
    
    console.log(response.body.choices[0].message.content)
}
catch (error) {
    if (error.status_code == 400) {
        var response = JSON.parse(error.response._content)
        if (response.error) {
            console.log(`Your request triggered an ${response.error.code} error:\n\t ${response.error.message}`)
        }
        else
        {
            throw error
        }
    }
}

try
{
    requestOptions = new ChatCompletionsOptions()
    {
        Messages = {
            new ChatRequestSystemMessage("You are an AI assistant that helps people find information."),
            new ChatRequestUserMessage(
                "Chopping tomatoes and cutting them into cubes or wedges are great ways to practice your knife skills."
            ),
        },
    };

    response = client.Complete(requestOptions);
    Console.WriteLine(response.Value.Choices[0].Message.Content);
}
catch (RequestFailedException ex)
{
    if (ex.ErrorCode == "content_filter")
    {
        Console.WriteLine($"Your query has trigger Azure Content Safety: {ex.Message}");
    }
    else
    {
        throw;
    }
}

Zażądaj

POST /chat/completions?api-version=2024-05-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

{
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant"
    },
    {
        "role": "user",
        "content": "Chopping tomatoes and cutting them into cubes or wedges are great ways to practice your knife skills."
    }
    ],
    "temperature": 0,
    "top_p": 1,
}

Response

{
    "status": 400,
    "code": "content_filter",
    "message": "The response was filtered",
    "param": "messages",
    "type": null
}

Wprowadzenie

Interfejs API wnioskowania modelu AI platformy Azure jest obecnie obsługiwany w niektórych modelach wdrożonych jako punkty końcowe bezserwerowego interfejsu API i zarządzane punkty końcowe online. Wdróż dowolne z obsługiwanych modeli i użyj dokładnie tego samego kodu, aby wykorzystać swoje przewidywania.

Biblioteka klienta wykonuje wnioskowanie, w tym uzupełnianie czatów, dla modeli sztucznej inteligencji azure-ai-inference wdrożonych przez usługę Azure AI Foundry i Azure Machine Learning Studio. Obsługuje ona punkty końcowe bezserwerowego interfejsu API i zarządzane punkty końcowe obliczeniowe (wcześniej nazywane zarządzanymi punktami końcowymi online).

Zapoznaj się z naszymi przykładami i przeczytaj dokumentację referencyjną interfejsu API, aby rozpocząć pracę.

Biblioteka klienta wykonuje wnioskowanie, w tym uzupełnianie czatów, dla modeli sztucznej inteligencji @azure-rest/ai-inference wdrożonych przez usługę Azure AI Foundry i Azure Machine Learning Studio. Obsługuje ona punkty końcowe bezserwerowego interfejsu API i zarządzane punkty końcowe obliczeniowe (wcześniej nazywane zarządzanymi punktami końcowymi online).

Zapoznaj się z naszymi przykładami i przeczytaj dokumentację referencyjną interfejsu API, aby rozpocząć pracę.

Biblioteka klienta wykonuje wnioskowanie, w tym uzupełnianie czatów, dla modeli sztucznej inteligencji Azure.Ai.Inference wdrożonych przez usługę Azure AI Foundry i Azure Machine Learning Studio. Obsługuje ona punkty końcowe bezserwerowego interfejsu API i zarządzane punkty końcowe obliczeniowe (wcześniej nazywane zarządzanymi punktami końcowymi online).

Zapoznaj się z naszymi przykładami i przeczytaj dokumentację referencyjną interfejsu API, aby rozpocząć pracę.

Udostępnij za pośrednictwem

Interfejs API wnioskowania modelu sztucznej inteligencji platformy Azure | Azure AI Foundry

Świadczenia

Dostępność

Możliwości

Sposoby

Obsługa zestawu SDK wnioskowania

Rozszerzalność

Modele z różnymi zestawami możliwości

Bezpieczeństwo zawartości

Wprowadzenie

Opinia

Dodatkowe zasoby