How to use Cohere Embed V3 models with Azure AI Foundry
Ważne
Elementy oznaczone (wersja zapoznawcza) w tym artykule są obecnie dostępne w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.
Z tego artykułu dowiesz się więcej o modelach osadzania w wersji 3 cohere i sposobie ich używania z usługą Azure AI Foundry. Rodzina modeli Cohere obejmuje różne modele zoptymalizowane pod kątem różnych przypadków użycia, w tym uzupełniania czatów, osadzania i ponownego korbowania. Modele Cohere są zoptymalizowane pod kątem różnych przypadków użycia, które obejmują rozumowanie, podsumowywanie i odpowiadanie na pytania.
Ważne
Modele, które są w wersji zapoznawczej, są oznaczone jako wersja zapoznawcza na kartach modeli w wykazie modeli.
Cohere osadzanie modeli
Rodzina modeli Cohere do osadzania obejmuje następujące modele:
Cohere Embed English to wielomodalny (tekst i obraz) model reprezentacji używany do wyszukiwania semantycznego, pobierania rozszerzonej generacji (RAG), klasyfikacji i klastrowania. Osadzanie języka angielskiego dobrze sprawdza się w teściu MTEB mtEB i w różnych branżach, takich jak Finance, Legal i General-Purpose Corpora. Osadź język angielski ma również następujące atrybuty:
- Osadź angielski ma wymiary 1024
- Okno kontekstowe modelu to 512 tokenów
- Osadzanie języka angielskiego akceptuje obrazy jako zakodowany w formacie base64 adres URL danych
Osadzanie obrazów zużywa stałą liczbę tokenów na obraz — 1000 tokenów na obraz — co przekłada się na cenę 0,0001 USD za osadzony obraz. Rozmiar lub rozdzielczość obrazu nie ma wpływu na liczbę użytych tokenów, pod warunkiem, że obraz znajduje się w zaakceptowanych wymiarach, rozmiarze pliku i formatach.
Wymagania wstępne
Aby korzystać z modeli Cohere Embed V3 z usługą Azure AI Foundry, potrzebne są następujące wymagania wstępne:
Wdrożenie modelu
Wdrażanie do bezserwerowych interfejsów API
Cohere Osadzanie modeli w wersji 3 można wdrożyć w punktach końcowych bezserwerowego interfejsu API z rozliczeniami płatności zgodnie z rzeczywistym użyciem. Tego rodzaju wdrożenie umożliwia korzystanie z modeli jako interfejsu API bez hostowania ich w ramach subskrypcji, przy jednoczesnym zachowaniu bezpieczeństwa i zgodności przedsiębiorstwa, których potrzebują organizacje.
Wdrożenie do punktu końcowego bezserwerowego interfejsu API nie wymaga limitu przydziału z subskrypcji. Jeśli model nie został jeszcze wdrożony, użyj portalu usługi Azure AI Foundry, zestawu AZURE Machine Learning SDK dla języka Python, interfejsu wiersza polecenia platformy Azure lub szablonów usługi ARM, aby wdrożyć model jako bezserwerowy interfejs API.
Zainstalowany pakiet wnioskowania
Przewidywania z tego modelu można używać przy użyciu azure-ai-inference
pakietu w języku Python. Aby zainstalować ten pakiet, potrzebne są następujące wymagania wstępne:
- Zainstalowano środowisko Python w wersji 3.8 lub nowszej, w tym narzędzie.
- Adres URL punktu końcowego. Aby utworzyć bibliotekę klienta, należy przekazać adres URL punktu końcowego. Adres URL punktu końcowego ma postać
https://your-host-name.your-azure-region.inference.ai.azure.com
, gdzieyour-host-name
jest unikatową nazwą hosta wdrożenia modelu iyour-azure-region
regionem świadczenia usługi Azure, w którym wdrożono model (na przykład eastus2). - W zależności od preferencji wdrażania modelu i uwierzytelniania potrzebny jest klucz do uwierzytelniania względem usługi lub poświadczeń identyfikatora Entra firmy Microsoft. Klucz jest ciągiem 32-znakowym.
Po spełnieniu tych wymagań wstępnych zainstaluj pakiet wnioskowania usługi Azure AI za pomocą następującego polecenia:
pip install azure-ai-inference
Dowiedz się więcej na temat pakietu wnioskowania i dokumentacji dotyczącej wnioskowania na platformie Azure.
Napiwek
Ponadto Aplikacja Cohere obsługuje korzystanie z dostosowanego interfejsu API do użycia z określonymi funkcjami modelu. Aby użyć interfejsu API specyficznego dla dostawcy modelu, zapoznaj się z dokumentacją Cohere.
Praca z osadzaniem
W tej sekcji użyjesz interfejsu API wnioskowania modelu AI platformy Azure z modelem osadzania.
Tworzenie klienta do korzystania z modelu
Najpierw utwórz klienta, aby korzystać z modelu. Poniższy kod używa adresu URL punktu końcowego i klucza przechowywanego w zmiennych środowiskowych.
import os
from azure.ai.inference import EmbeddingsClient
from azure.core.credentials import AzureKeyCredential
model = EmbeddingsClient(
endpoint=os.environ["AZURE_INFERENCE_ENDPOINT"],
credential=AzureKeyCredential(os.environ["AZURE_INFERENCE_CREDENTIAL"]),
)
Uzyskiwanie możliwości modelu
Trasa /info
zwraca informacje o modelu wdrożonym w punkcie końcowym. Zwróć informacje o modelu, wywołując następującą metodę:
model_info = model.get_model_info()
Odpowiedź jest następująca:
print("Model name:", model_info.model_name)
print("Model type:", model_info.model_type)
print("Model provider name:", model_info.model_provider)
Model name: Cohere-embed-v3-english
Model type": embeddings
Model provider name": Cohere
Tworzenie osadzania
Utwórz żądanie osadzania, aby wyświetlić dane wyjściowe modelu.
response = model.embed(
input=["The ultimate answer to the question of life"],
)
Napiwek
Okno kontekstowe dla modeli Cohere Embed V3 to 512. Upewnij się, że nie przekraczasz tego limitu podczas tworzenia osadzania.
Odpowiedź jest następująca, gdzie można zobaczyć statystyki użycia modelu:
import numpy as np
for embed in response.data:
print("Embeding of size:", np.asarray(embed.embedding).shape)
print("Model:", response.model)
print("Usage:", response.usage)
Przydatne może być obliczanie osadzania w partiach wejściowych. Parametr inputs
może być listą ciągów, gdzie każdy ciąg jest innym wejściem. Z kolei odpowiedź jest listą osadzania, gdzie każde osadzanie odpowiada wejściu w tej samej pozycji.
response = model.embed(
input=[
"The ultimate answer to the question of life",
"The largest planet in our solar system is Jupiter",
],
)
Odpowiedź jest następująca, gdzie można zobaczyć statystyki użycia modelu:
import numpy as np
for embed in response.data:
print("Embeding of size:", np.asarray(embed.embedding).shape)
print("Model:", response.model)
print("Usage:", response.usage)
Napiwek
Cohere Osadzanie modeli V3 może przyjmować partie 1024 naraz. Podczas tworzenia partii upewnij się, że nie przekraczasz tego limitu.
Tworzenie różnych typów osadzania
Cohere Osadzanie modeli w wersji 3 może wygenerować wiele osadzeń dla tych samych danych wejściowych w zależności od tego, jak planujesz ich używać. Ta funkcja umożliwia pobieranie bardziej dokładnych osadzeń dla wzorców RAG.
W poniższym przykładzie pokazano, jak utworzyć osadzanie, które są używane do tworzenia osadzania dla dokumentu, który będzie przechowywany w bazie danych wektorów:
from azure.ai.inference.models import EmbeddingInputType
response = model.embed(
input=["The answer to the ultimate question of life, the universe, and everything is 42"],
input_type=EmbeddingInputType.DOCUMENT,
)
Podczas pracy nad zapytaniem w celu pobrania takiego dokumentu możesz użyć następującego fragmentu kodu, aby utworzyć osadzanie dla zapytania i zmaksymalizować wydajność pobierania.
from azure.ai.inference.models import EmbeddingInputType
response = model.embed(
input=["What's the ultimate meaning of life?"],
input_type=EmbeddingInputType.QUERY,
)
Cohere Osadzanie modeli w wersji 3 może zoptymalizować osadzanie na podstawie jego przypadku użycia.
Cohere osadzanie modeli
Rodzina modeli Cohere do osadzania obejmuje następujące modele:
Cohere Embed English to wielomodalny (tekst i obraz) model reprezentacji używany do wyszukiwania semantycznego, pobierania rozszerzonej generacji (RAG), klasyfikacji i klastrowania. Osadzanie języka angielskiego dobrze sprawdza się w teściu MTEB mtEB i w różnych branżach, takich jak Finance, Legal i General-Purpose Corpora. Osadź język angielski ma również następujące atrybuty:
- Osadź angielski ma wymiary 1024
- Okno kontekstowe modelu to 512 tokenów
- Osadzanie języka angielskiego akceptuje obrazy jako zakodowany w formacie base64 adres URL danych
Osadzanie obrazów zużywa stałą liczbę tokenów na obraz — 1000 tokenów na obraz — co przekłada się na cenę 0,0001 USD za osadzony obraz. Rozmiar lub rozdzielczość obrazu nie ma wpływu na liczbę użytych tokenów, pod warunkiem, że obraz znajduje się w zaakceptowanych wymiarach, rozmiarze pliku i formatach.
Wymagania wstępne
Aby korzystać z modeli Cohere Embed V3 z usługą Azure AI Foundry, potrzebne są następujące wymagania wstępne:
Wdrożenie modelu
Wdrażanie do bezserwerowych interfejsów API
Cohere Osadzanie modeli w wersji 3 można wdrożyć w punktach końcowych bezserwerowego interfejsu API z rozliczeniami płatności zgodnie z rzeczywistym użyciem. Tego rodzaju wdrożenie umożliwia korzystanie z modeli jako interfejsu API bez hostowania ich w ramach subskrypcji, przy jednoczesnym zachowaniu bezpieczeństwa i zgodności przedsiębiorstwa, których potrzebują organizacje.
Wdrożenie do punktu końcowego bezserwerowego interfejsu API nie wymaga limitu przydziału z subskrypcji. Jeśli model nie został jeszcze wdrożony, użyj portalu usługi Azure AI Foundry, zestawu AZURE Machine Learning SDK dla języka Python, interfejsu wiersza polecenia platformy Azure lub szablonów usługi ARM, aby wdrożyć model jako bezserwerowy interfejs API.
Zainstalowany pakiet wnioskowania
Przewidywania z tego modelu można używać przy użyciu @azure-rest/ai-inference
pakietu z pliku npm
. Aby zainstalować ten pakiet, potrzebne są następujące wymagania wstępne:
- Wersje LTS programu z programem
Node.js
npm
. - Adres URL punktu końcowego. Aby utworzyć bibliotekę klienta, należy przekazać adres URL punktu końcowego. Adres URL punktu końcowego ma postać
https://your-host-name.your-azure-region.inference.ai.azure.com
, gdzieyour-host-name
jest unikatową nazwą hosta wdrożenia modelu iyour-azure-region
regionem świadczenia usługi Azure, w którym wdrożono model (na przykład eastus2). - W zależności od preferencji wdrażania modelu i uwierzytelniania potrzebny jest klucz do uwierzytelniania względem usługi lub poświadczeń identyfikatora Entra firmy Microsoft. Klucz jest ciągiem 32-znakowym.
Po spełnieniu tych wymagań wstępnych zainstaluj bibliotekę wnioskowania platformy Azure dla języka JavaScript za pomocą następującego polecenia:
npm install @azure-rest/ai-inference
Napiwek
Ponadto Aplikacja Cohere obsługuje korzystanie z dostosowanego interfejsu API do użycia z określonymi funkcjami modelu. Aby użyć interfejsu API specyficznego dla dostawcy modelu, zapoznaj się z dokumentacją Cohere.
Praca z osadzaniem
W tej sekcji użyjesz interfejsu API wnioskowania modelu AI platformy Azure z modelem osadzania.
Tworzenie klienta do korzystania z modelu
Najpierw utwórz klienta, aby korzystać z modelu. Poniższy kod używa adresu URL punktu końcowego i klucza przechowywanego w zmiennych środowiskowych.
import ModelClient from "@azure-rest/ai-inference";
import { isUnexpected } from "@azure-rest/ai-inference";
import { AzureKeyCredential } from "@azure/core-auth";
const client = new ModelClient(
process.env.AZURE_INFERENCE_ENDPOINT,
new AzureKeyCredential(process.env.AZURE_INFERENCE_CREDENTIAL)
);
Uzyskiwanie możliwości modelu
Trasa /info
zwraca informacje o modelu wdrożonym w punkcie końcowym. Zwróć informacje o modelu, wywołując następującą metodę:
await client.path("/info").get()
Odpowiedź jest następująca:
console.log("Model name: ", model_info.body.model_name);
console.log("Model type: ", model_info.body.model_type);
console.log("Model provider name: ", model_info.body.model_provider_name);
Model name: Cohere-embed-v3-english
Model type": embeddings
Model provider name": Cohere
Tworzenie osadzania
Utwórz żądanie osadzania, aby wyświetlić dane wyjściowe modelu.
var response = await client.path("/embeddings").post({
body: {
input: ["The ultimate answer to the question of life"],
}
});
Napiwek
Okno kontekstowe dla modeli Cohere Embed V3 to 512. Upewnij się, że nie przekraczasz tego limitu podczas tworzenia osadzania.
Odpowiedź jest następująca, gdzie można zobaczyć statystyki użycia modelu:
if (isUnexpected(response)) {
throw response.body.error;
}
console.log(response.embedding);
console.log(response.body.model);
console.log(response.body.usage);
Przydatne może być obliczanie osadzania w partiach wejściowych. Parametr inputs
może być listą ciągów, gdzie każdy ciąg jest innym wejściem. Z kolei odpowiedź jest listą osadzania, gdzie każde osadzanie odpowiada wejściu w tej samej pozycji.
var response = await client.path("/embeddings").post({
body: {
input: [
"The ultimate answer to the question of life",
"The largest planet in our solar system is Jupiter",
],
}
});
Odpowiedź jest następująca, gdzie można zobaczyć statystyki użycia modelu:
if (isUnexpected(response)) {
throw response.body.error;
}
console.log(response.embedding);
console.log(response.body.model);
console.log(response.body.usage);
Napiwek
Cohere Osadzanie modeli V3 może przyjmować partie 1024 naraz. Podczas tworzenia partii upewnij się, że nie przekraczasz tego limitu.
Tworzenie różnych typów osadzania
Cohere Osadzanie modeli w wersji 3 może wygenerować wiele osadzeń dla tych samych danych wejściowych w zależności od tego, jak planujesz ich używać. Ta funkcja umożliwia pobieranie bardziej dokładnych osadzeń dla wzorców RAG.
W poniższym przykładzie pokazano, jak utworzyć osadzanie, które są używane do tworzenia osadzania dla dokumentu, który będzie przechowywany w bazie danych wektorów:
var response = await client.path("/embeddings").post({
body: {
input: ["The answer to the ultimate question of life, the universe, and everything is 42"],
input_type: "document",
}
});
Podczas pracy nad zapytaniem w celu pobrania takiego dokumentu możesz użyć następującego fragmentu kodu, aby utworzyć osadzanie dla zapytania i zmaksymalizować wydajność pobierania.
var response = await client.path("/embeddings").post({
body: {
input: ["What's the ultimate meaning of life?"],
input_type: "query",
}
});
Cohere Osadzanie modeli w wersji 3 może zoptymalizować osadzanie na podstawie jego przypadku użycia.
Cohere osadzanie modeli
Rodzina modeli Cohere do osadzania obejmuje następujące modele:
Cohere Embed English to wielomodalny (tekst i obraz) model reprezentacji używany do wyszukiwania semantycznego, pobierania rozszerzonej generacji (RAG), klasyfikacji i klastrowania. Osadzanie języka angielskiego dobrze sprawdza się w teściu MTEB mtEB i w różnych branżach, takich jak Finance, Legal i General-Purpose Corpora. Osadź język angielski ma również następujące atrybuty:
- Osadź angielski ma wymiary 1024
- Okno kontekstowe modelu to 512 tokenów
- Osadzanie języka angielskiego akceptuje obrazy jako zakodowany w formacie base64 adres URL danych
Osadzanie obrazów zużywa stałą liczbę tokenów na obraz — 1000 tokenów na obraz — co przekłada się na cenę 0,0001 USD za osadzony obraz. Rozmiar lub rozdzielczość obrazu nie ma wpływu na liczbę użytych tokenów, pod warunkiem, że obraz znajduje się w zaakceptowanych wymiarach, rozmiarze pliku i formatach.
Wymagania wstępne
Aby korzystać z modeli Cohere Embed V3 z usługą Azure AI Foundry, potrzebne są następujące wymagania wstępne:
Wdrożenie modelu
Wdrażanie do bezserwerowych interfejsów API
Cohere Osadzanie modeli w wersji 3 można wdrożyć w punktach końcowych bezserwerowego interfejsu API z rozliczeniami płatności zgodnie z rzeczywistym użyciem. Tego rodzaju wdrożenie umożliwia korzystanie z modeli jako interfejsu API bez hostowania ich w ramach subskrypcji, przy jednoczesnym zachowaniu bezpieczeństwa i zgodności przedsiębiorstwa, których potrzebują organizacje.
Wdrożenie do punktu końcowego bezserwerowego interfejsu API nie wymaga limitu przydziału z subskrypcji. Jeśli model nie został jeszcze wdrożony, użyj portalu usługi Azure AI Foundry, zestawu AZURE Machine Learning SDK dla języka Python, interfejsu wiersza polecenia platformy Azure lub szablonów usługi ARM, aby wdrożyć model jako bezserwerowy interfejs API.
Klient REST
Modele wdrożone za pomocą interfejsu API wnioskowania modelu AI platformy Azure można używać przy użyciu dowolnego klienta REST. Do korzystania z klienta REST potrzebne są następujące wymagania wstępne:
- Aby utworzyć żądania, należy przekazać adres URL punktu końcowego. Adres URL punktu końcowego ma postać
https://your-host-name.your-azure-region.inference.ai.azure.com
, gdzieyour-host-name
jest unikatową nazwą hosta wdrożenia modelu iyour-azure-region
regionem świadczenia usługi Azure, w którym wdrożono model (na przykład eastus2). - W zależności od preferencji wdrażania modelu i uwierzytelniania potrzebny jest klucz do uwierzytelniania względem usługi lub poświadczeń identyfikatora Entra firmy Microsoft. Klucz jest ciągiem 32-znakowym.
Napiwek
Ponadto Aplikacja Cohere obsługuje korzystanie z dostosowanego interfejsu API do użycia z określonymi funkcjami modelu. Aby użyć interfejsu API specyficznego dla dostawcy modelu, zapoznaj się z dokumentacją Cohere.
Praca z osadzaniem
W tej sekcji użyjesz interfejsu API wnioskowania modelu AI platformy Azure z modelem osadzania.
Tworzenie klienta do korzystania z modelu
Najpierw utwórz klienta, aby korzystać z modelu. Poniższy kod używa adresu URL punktu końcowego i klucza przechowywanego w zmiennych środowiskowych.
Uzyskiwanie możliwości modelu
Trasa /info
zwraca informacje o modelu wdrożonym w punkcie końcowym. Zwróć informacje o modelu, wywołując następującą metodę:
GET /info HTTP/1.1
Host: <ENDPOINT_URI>
Authorization: Bearer <TOKEN>
Content-Type: application/json
Odpowiedź jest następująca:
{
"model_name": "Cohere-embed-v3-english",
"model_type": "embeddings",
"model_provider_name": "Cohere"
}
Tworzenie osadzania
Utwórz żądanie osadzania, aby wyświetlić dane wyjściowe modelu.
{
"input": [
"The ultimate answer to the question of life"
]
}
Napiwek
Okno kontekstowe dla modeli Cohere Embed V3 to 512. Upewnij się, że nie przekraczasz tego limitu podczas tworzenia osadzania.
Odpowiedź jest następująca, gdzie można zobaczyć statystyki użycia modelu:
{
"id": "0ab1234c-d5e6-7fgh-i890-j1234k123456",
"object": "list",
"data": [
{
"index": 0,
"object": "embedding",
"embedding": [
0.017196655,
// ...
-0.000687122,
-0.025054932,
-0.015777588
]
}
],
"model": "Cohere-embed-v3-english",
"usage": {
"prompt_tokens": 9,
"completion_tokens": 0,
"total_tokens": 9
}
}
Przydatne może być obliczanie osadzania w partiach wejściowych. Parametr inputs
może być listą ciągów, gdzie każdy ciąg jest innym wejściem. Z kolei odpowiedź jest listą osadzania, gdzie każde osadzanie odpowiada wejściu w tej samej pozycji.
{
"input": [
"The ultimate answer to the question of life",
"The largest planet in our solar system is Jupiter"
]
}
Odpowiedź jest następująca, gdzie można zobaczyć statystyki użycia modelu:
{
"id": "0ab1234c-d5e6-7fgh-i890-j1234k123456",
"object": "list",
"data": [
{
"index": 0,
"object": "embedding",
"embedding": [
0.017196655,
// ...
-0.000687122,
-0.025054932,
-0.015777588
]
},
{
"index": 1,
"object": "embedding",
"embedding": [
0.017196655,
// ...
-0.000687122,
-0.025054932,
-0.015777588
]
}
],
"model": "Cohere-embed-v3-english",
"usage": {
"prompt_tokens": 19,
"completion_tokens": 0,
"total_tokens": 19
}
}
Napiwek
Cohere Osadzanie modeli V3 może przyjmować partie 1024 naraz. Podczas tworzenia partii upewnij się, że nie przekraczasz tego limitu.
Tworzenie różnych typów osadzania
Cohere Osadzanie modeli w wersji 3 może wygenerować wiele osadzeń dla tych samych danych wejściowych w zależności od tego, jak planujesz ich używać. Ta funkcja umożliwia pobieranie bardziej dokładnych osadzeń dla wzorców RAG.
W poniższym przykładzie pokazano, jak utworzyć osadzanie, które są używane do tworzenia osadzania dla dokumentu, który będzie przechowywany w bazie danych wektorów:
{
"input": [
"The answer to the ultimate question of life, the universe, and everything is 42"
],
"input_type": "document"
}
Podczas pracy nad zapytaniem w celu pobrania takiego dokumentu możesz użyć następującego fragmentu kodu, aby utworzyć osadzanie dla zapytania i zmaksymalizować wydajność pobierania.
{
"input": [
"What's the ultimate meaning of life?"
],
"input_type": "query"
}
Cohere Osadzanie modeli w wersji 3 może zoptymalizować osadzanie na podstawie jego przypadku użycia.
Więcej przykładów wnioskowania
opis | Language | Przykład |
---|---|---|
Żądania internetowe | Bash | cohere-embed.ipynb |
Pakiet wnioskowania usługi Azure AI dla języka JavaScript | JavaScript | Link |
Pakiet wnioskowania usługi Azure AI dla języka Python | Python | Link |
Zestaw OPENAI SDK (eksperymentalny) | Python | Link |
LangChain | Python | Link |
Cohere SDK | Python | Link |
LiteLLM SDK | Python | Link |
Pobieranie rozszerzonej generacji (RAG) i narzędzia używają przykładów
opis | Pakiety | Przykład |
---|---|---|
Tworzenie lokalnego indeksu wektorów wyszukiwania sztucznej inteligencji (FAISS) w serwisie Facebook przy użyciu osadzania Cohere — Langchain | langchain , langchain_cohere |
cohere_faiss_langchain_embed.ipynb |
Użyj polecenia Cohere R/R+, aby odpowiedzieć na pytania z danych w lokalnym indeksie wektorów FAISS — Langchain | langchain , langchain_cohere |
command_faiss_langchain.ipynb |
Użyj polecenia Cohere R/R+, aby odpowiedzieć na pytania z danych w indeksie wektora wyszukiwania sztucznej inteligencji — Langchain | langchain , langchain_cohere |
cohere-aisearch-langchain-rag.ipynb |
Użyj polecenia Cohere R/R+, aby odpowiedzieć na pytania dotyczące danych w indeksie wektora wyszukiwania sztucznej inteligencji — Zestaw SDK cohere | cohere , azure_search_documents |
cohere-aisearch-rag.ipynb |
Wywoływanie narzędzi/funkcji języka R+ przy użyciu biblioteki LangChain | cohere , , langchain langchain_cohere |
command_tools-langchain.ipynb |
Zagadnienia dotyczące kosztów i limitów przydziału dla rodziny modeli wdrożonych jako punkty końcowe interfejsu API bezserwerowego
Cohere modele wdrożone jako bezserwerowy interfejs API są oferowane przez Cohere za pośrednictwem witryny Azure Marketplace i zintegrowane z usługą Azure AI Foundry do użycia. Cennik witryny Azure Marketplace można znaleźć podczas wdrażania modelu.
Za każdym razem, gdy projekt subskrybuje daną ofertę z witryny Azure Marketplace, tworzony jest nowy zasób w celu śledzenia kosztów związanych z jej zużyciem. Ten sam zasób służy do śledzenia kosztów skojarzonych z wnioskowaniem; jednak w ramach śledzenia każdego scenariusza można niezależnie śledzić wiele mierników.
Aby uzyskać więcej informacji na temat śledzenia kosztów, zobacz Monitorowanie kosztów modeli oferowanych w witrynie Azure Marketplace.
Limit przydziału jest zarządzany na wdrożenie. Każde wdrożenie ma limit szybkości wynoszący 200 000 tokenów na minutę i 1000 żądań interfejsu API na minutę. Obecnie jednak ograniczamy jedno wdrożenie na model na projekt. Skontaktuj się z pomocą techniczną platformy Microsoft Azure, jeśli bieżące limity szybkości nie są wystarczające dla Twoich scenariuszy.
Powiązana zawartość
- Interfejs API wnioskowania modelu Azure AI
- Wdrażanie modeli jako bezserwerowych interfejsów API
- Korzystanie z bezserwerowych punktów końcowych interfejsu API z innego projektu lub centrum rozwiązania Azure AI Foundry
- Dostępność regionów dla modeli w punktach końcowych bezserwerowego interfejsu API
- Planowanie kosztów i zarządzanie nimi (marketplace)