Udostępnij za pośrednictwem


How to use Cohere Embed V3 models with Azure AI Foundry

Ważne

Elementy oznaczone (wersja zapoznawcza) w tym artykule są obecnie dostępne w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.

Z tego artykułu dowiesz się więcej o modelach osadzania w wersji 3 cohere i sposobie ich używania z usługą Azure AI Foundry. Rodzina modeli Cohere obejmuje różne modele zoptymalizowane pod kątem różnych przypadków użycia, w tym uzupełniania czatów, osadzania i ponownego korbowania. Modele Cohere są zoptymalizowane pod kątem różnych przypadków użycia, które obejmują rozumowanie, podsumowywanie i odpowiadanie na pytania.

Ważne

Modele, które są w wersji zapoznawczej, są oznaczone jako wersja zapoznawcza na kartach modeli w wykazie modeli.

Cohere osadzanie modeli

Rodzina modeli Cohere do osadzania obejmuje następujące modele:

Cohere Embed English to wielomodalny (tekst i obraz) model reprezentacji używany do wyszukiwania semantycznego, pobierania rozszerzonej generacji (RAG), klasyfikacji i klastrowania. Osadzanie języka angielskiego dobrze sprawdza się w teściu MTEB mtEB i w różnych branżach, takich jak Finance, Legal i General-Purpose Corpora. Osadź język angielski ma również następujące atrybuty:

  • Osadź angielski ma wymiary 1024
  • Okno kontekstowe modelu to 512 tokenów
  • Osadzanie języka angielskiego akceptuje obrazy jako zakodowany w formacie base64 adres URL danych

Osadzanie obrazów zużywa stałą liczbę tokenów na obraz — 1000 tokenów na obraz — co przekłada się na cenę 0,0001 USD za osadzony obraz. Rozmiar lub rozdzielczość obrazu nie ma wpływu na liczbę użytych tokenów, pod warunkiem, że obraz znajduje się w zaakceptowanych wymiarach, rozmiarze pliku i formatach.

Wymagania wstępne

Aby korzystać z modeli Cohere Embed V3 z usługą Azure AI Foundry, potrzebne są następujące wymagania wstępne:

Wdrożenie modelu

Wdrażanie do bezserwerowych interfejsów API

Cohere Osadzanie modeli w wersji 3 można wdrożyć w punktach końcowych bezserwerowego interfejsu API z rozliczeniami płatności zgodnie z rzeczywistym użyciem. Tego rodzaju wdrożenie umożliwia korzystanie z modeli jako interfejsu API bez hostowania ich w ramach subskrypcji, przy jednoczesnym zachowaniu bezpieczeństwa i zgodności przedsiębiorstwa, których potrzebują organizacje.

Wdrożenie do punktu końcowego bezserwerowego interfejsu API nie wymaga limitu przydziału z subskrypcji. Jeśli model nie został jeszcze wdrożony, użyj portalu usługi Azure AI Foundry, zestawu AZURE Machine Learning SDK dla języka Python, interfejsu wiersza polecenia platformy Azure lub szablonów usługi ARM, aby wdrożyć model jako bezserwerowy interfejs API.

Zainstalowany pakiet wnioskowania

Przewidywania z tego modelu można używać przy użyciu azure-ai-inference pakietu w języku Python. Aby zainstalować ten pakiet, potrzebne są następujące wymagania wstępne:

  • Zainstalowano środowisko Python w wersji 3.8 lub nowszej, w tym narzędzie.
  • Adres URL punktu końcowego. Aby utworzyć bibliotekę klienta, należy przekazać adres URL punktu końcowego. Adres URL punktu końcowego ma postać https://your-host-name.your-azure-region.inference.ai.azure.com, gdzie your-host-name jest unikatową nazwą hosta wdrożenia modelu i your-azure-region regionem świadczenia usługi Azure, w którym wdrożono model (na przykład eastus2).
  • W zależności od preferencji wdrażania modelu i uwierzytelniania potrzebny jest klucz do uwierzytelniania względem usługi lub poświadczeń identyfikatora Entra firmy Microsoft. Klucz jest ciągiem 32-znakowym.

Po spełnieniu tych wymagań wstępnych zainstaluj pakiet wnioskowania usługi Azure AI za pomocą następującego polecenia:

pip install azure-ai-inference

Dowiedz się więcej na temat pakietu wnioskowania i dokumentacji dotyczącej wnioskowania na platformie Azure.

Napiwek

Ponadto Aplikacja Cohere obsługuje korzystanie z dostosowanego interfejsu API do użycia z określonymi funkcjami modelu. Aby użyć interfejsu API specyficznego dla dostawcy modelu, zapoznaj się z dokumentacją Cohere.

Praca z osadzaniem

W tej sekcji użyjesz interfejsu API wnioskowania modelu AI platformy Azure z modelem osadzania.

Tworzenie klienta do korzystania z modelu

Najpierw utwórz klienta, aby korzystać z modelu. Poniższy kod używa adresu URL punktu końcowego i klucza przechowywanego w zmiennych środowiskowych.

import os
from azure.ai.inference import EmbeddingsClient
from azure.core.credentials import AzureKeyCredential

model = EmbeddingsClient(
    endpoint=os.environ["AZURE_INFERENCE_ENDPOINT"],
    credential=AzureKeyCredential(os.environ["AZURE_INFERENCE_CREDENTIAL"]),
)

Uzyskiwanie możliwości modelu

Trasa /info zwraca informacje o modelu wdrożonym w punkcie końcowym. Zwróć informacje o modelu, wywołując następującą metodę:

model_info = model.get_model_info()

Odpowiedź jest następująca:

print("Model name:", model_info.model_name)
print("Model type:", model_info.model_type)
print("Model provider name:", model_info.model_provider)
Model name: Cohere-embed-v3-english
Model type": embeddings
Model provider name": Cohere

Tworzenie osadzania

Utwórz żądanie osadzania, aby wyświetlić dane wyjściowe modelu.

response = model.embed(
    input=["The ultimate answer to the question of life"],
)

Napiwek

Okno kontekstowe dla modeli Cohere Embed V3 to 512. Upewnij się, że nie przekraczasz tego limitu podczas tworzenia osadzania.

Odpowiedź jest następująca, gdzie można zobaczyć statystyki użycia modelu:

import numpy as np

for embed in response.data:
    print("Embeding of size:", np.asarray(embed.embedding).shape)

print("Model:", response.model)
print("Usage:", response.usage)

Przydatne może być obliczanie osadzania w partiach wejściowych. Parametr inputs może być listą ciągów, gdzie każdy ciąg jest innym wejściem. Z kolei odpowiedź jest listą osadzania, gdzie każde osadzanie odpowiada wejściu w tej samej pozycji.

response = model.embed(
    input=[
        "The ultimate answer to the question of life", 
        "The largest planet in our solar system is Jupiter",
    ],
)

Odpowiedź jest następująca, gdzie można zobaczyć statystyki użycia modelu:

import numpy as np

for embed in response.data:
    print("Embeding of size:", np.asarray(embed.embedding).shape)

print("Model:", response.model)
print("Usage:", response.usage)

Napiwek

Cohere Osadzanie modeli V3 może przyjmować partie 1024 naraz. Podczas tworzenia partii upewnij się, że nie przekraczasz tego limitu.

Tworzenie różnych typów osadzania

Cohere Osadzanie modeli w wersji 3 może wygenerować wiele osadzeń dla tych samych danych wejściowych w zależności od tego, jak planujesz ich używać. Ta funkcja umożliwia pobieranie bardziej dokładnych osadzeń dla wzorców RAG.

W poniższym przykładzie pokazano, jak utworzyć osadzanie, które są używane do tworzenia osadzania dla dokumentu, który będzie przechowywany w bazie danych wektorów:

from azure.ai.inference.models import EmbeddingInputType

response = model.embed(
    input=["The answer to the ultimate question of life, the universe, and everything is 42"],
    input_type=EmbeddingInputType.DOCUMENT,
)

Podczas pracy nad zapytaniem w celu pobrania takiego dokumentu możesz użyć następującego fragmentu kodu, aby utworzyć osadzanie dla zapytania i zmaksymalizować wydajność pobierania.

from azure.ai.inference.models import EmbeddingInputType

response = model.embed(
    input=["What's the ultimate meaning of life?"],
    input_type=EmbeddingInputType.QUERY,
)

Cohere Osadzanie modeli w wersji 3 może zoptymalizować osadzanie na podstawie jego przypadku użycia.

Cohere osadzanie modeli

Rodzina modeli Cohere do osadzania obejmuje następujące modele:

Cohere Embed English to wielomodalny (tekst i obraz) model reprezentacji używany do wyszukiwania semantycznego, pobierania rozszerzonej generacji (RAG), klasyfikacji i klastrowania. Osadzanie języka angielskiego dobrze sprawdza się w teściu MTEB mtEB i w różnych branżach, takich jak Finance, Legal i General-Purpose Corpora. Osadź język angielski ma również następujące atrybuty:

  • Osadź angielski ma wymiary 1024
  • Okno kontekstowe modelu to 512 tokenów
  • Osadzanie języka angielskiego akceptuje obrazy jako zakodowany w formacie base64 adres URL danych

Osadzanie obrazów zużywa stałą liczbę tokenów na obraz — 1000 tokenów na obraz — co przekłada się na cenę 0,0001 USD za osadzony obraz. Rozmiar lub rozdzielczość obrazu nie ma wpływu na liczbę użytych tokenów, pod warunkiem, że obraz znajduje się w zaakceptowanych wymiarach, rozmiarze pliku i formatach.

Wymagania wstępne

Aby korzystać z modeli Cohere Embed V3 z usługą Azure AI Foundry, potrzebne są następujące wymagania wstępne:

Wdrożenie modelu

Wdrażanie do bezserwerowych interfejsów API

Cohere Osadzanie modeli w wersji 3 można wdrożyć w punktach końcowych bezserwerowego interfejsu API z rozliczeniami płatności zgodnie z rzeczywistym użyciem. Tego rodzaju wdrożenie umożliwia korzystanie z modeli jako interfejsu API bez hostowania ich w ramach subskrypcji, przy jednoczesnym zachowaniu bezpieczeństwa i zgodności przedsiębiorstwa, których potrzebują organizacje.

Wdrożenie do punktu końcowego bezserwerowego interfejsu API nie wymaga limitu przydziału z subskrypcji. Jeśli model nie został jeszcze wdrożony, użyj portalu usługi Azure AI Foundry, zestawu AZURE Machine Learning SDK dla języka Python, interfejsu wiersza polecenia platformy Azure lub szablonów usługi ARM, aby wdrożyć model jako bezserwerowy interfejs API.

Zainstalowany pakiet wnioskowania

Przewidywania z tego modelu można używać przy użyciu @azure-rest/ai-inference pakietu z pliku npm. Aby zainstalować ten pakiet, potrzebne są następujące wymagania wstępne:

  • Wersje LTS programu z programem Node.js npm.
  • Adres URL punktu końcowego. Aby utworzyć bibliotekę klienta, należy przekazać adres URL punktu końcowego. Adres URL punktu końcowego ma postać https://your-host-name.your-azure-region.inference.ai.azure.com, gdzie your-host-name jest unikatową nazwą hosta wdrożenia modelu i your-azure-region regionem świadczenia usługi Azure, w którym wdrożono model (na przykład eastus2).
  • W zależności od preferencji wdrażania modelu i uwierzytelniania potrzebny jest klucz do uwierzytelniania względem usługi lub poświadczeń identyfikatora Entra firmy Microsoft. Klucz jest ciągiem 32-znakowym.

Po spełnieniu tych wymagań wstępnych zainstaluj bibliotekę wnioskowania platformy Azure dla języka JavaScript za pomocą następującego polecenia:

npm install @azure-rest/ai-inference

Napiwek

Ponadto Aplikacja Cohere obsługuje korzystanie z dostosowanego interfejsu API do użycia z określonymi funkcjami modelu. Aby użyć interfejsu API specyficznego dla dostawcy modelu, zapoznaj się z dokumentacją Cohere.

Praca z osadzaniem

W tej sekcji użyjesz interfejsu API wnioskowania modelu AI platformy Azure z modelem osadzania.

Tworzenie klienta do korzystania z modelu

Najpierw utwórz klienta, aby korzystać z modelu. Poniższy kod używa adresu URL punktu końcowego i klucza przechowywanego w zmiennych środowiskowych.

import ModelClient from "@azure-rest/ai-inference";
import { isUnexpected } from "@azure-rest/ai-inference";
import { AzureKeyCredential } from "@azure/core-auth";

const client = new ModelClient(
    process.env.AZURE_INFERENCE_ENDPOINT, 
    new AzureKeyCredential(process.env.AZURE_INFERENCE_CREDENTIAL)
);

Uzyskiwanie możliwości modelu

Trasa /info zwraca informacje o modelu wdrożonym w punkcie końcowym. Zwróć informacje o modelu, wywołując następującą metodę:

await client.path("/info").get()

Odpowiedź jest następująca:

console.log("Model name: ", model_info.body.model_name);
console.log("Model type: ", model_info.body.model_type);
console.log("Model provider name: ", model_info.body.model_provider_name);
Model name: Cohere-embed-v3-english
Model type": embeddings
Model provider name": Cohere

Tworzenie osadzania

Utwórz żądanie osadzania, aby wyświetlić dane wyjściowe modelu.

var response = await client.path("/embeddings").post({
    body: {
        input: ["The ultimate answer to the question of life"],
    }
});

Napiwek

Okno kontekstowe dla modeli Cohere Embed V3 to 512. Upewnij się, że nie przekraczasz tego limitu podczas tworzenia osadzania.

Odpowiedź jest następująca, gdzie można zobaczyć statystyki użycia modelu:

if (isUnexpected(response)) {
    throw response.body.error;
}

console.log(response.embedding);
console.log(response.body.model);
console.log(response.body.usage);

Przydatne może być obliczanie osadzania w partiach wejściowych. Parametr inputs może być listą ciągów, gdzie każdy ciąg jest innym wejściem. Z kolei odpowiedź jest listą osadzania, gdzie każde osadzanie odpowiada wejściu w tej samej pozycji.

var response = await client.path("/embeddings").post({
    body: {
        input: [
            "The ultimate answer to the question of life", 
            "The largest planet in our solar system is Jupiter",
        ],
    }
});

Odpowiedź jest następująca, gdzie można zobaczyć statystyki użycia modelu:

if (isUnexpected(response)) {
    throw response.body.error;
}

console.log(response.embedding);
console.log(response.body.model);
console.log(response.body.usage);

Napiwek

Cohere Osadzanie modeli V3 może przyjmować partie 1024 naraz. Podczas tworzenia partii upewnij się, że nie przekraczasz tego limitu.

Tworzenie różnych typów osadzania

Cohere Osadzanie modeli w wersji 3 może wygenerować wiele osadzeń dla tych samych danych wejściowych w zależności od tego, jak planujesz ich używać. Ta funkcja umożliwia pobieranie bardziej dokładnych osadzeń dla wzorców RAG.

W poniższym przykładzie pokazano, jak utworzyć osadzanie, które są używane do tworzenia osadzania dla dokumentu, który będzie przechowywany w bazie danych wektorów:

var response = await client.path("/embeddings").post({
    body: {
        input: ["The answer to the ultimate question of life, the universe, and everything is 42"],
        input_type: "document",
    }
});

Podczas pracy nad zapytaniem w celu pobrania takiego dokumentu możesz użyć następującego fragmentu kodu, aby utworzyć osadzanie dla zapytania i zmaksymalizować wydajność pobierania.

var response = await client.path("/embeddings").post({
    body: {
        input: ["What's the ultimate meaning of life?"],
        input_type: "query",
    }
});

Cohere Osadzanie modeli w wersji 3 może zoptymalizować osadzanie na podstawie jego przypadku użycia.

Cohere osadzanie modeli

Rodzina modeli Cohere do osadzania obejmuje następujące modele:

Cohere Embed English to wielomodalny (tekst i obraz) model reprezentacji używany do wyszukiwania semantycznego, pobierania rozszerzonej generacji (RAG), klasyfikacji i klastrowania. Osadzanie języka angielskiego dobrze sprawdza się w teściu MTEB mtEB i w różnych branżach, takich jak Finance, Legal i General-Purpose Corpora. Osadź język angielski ma również następujące atrybuty:

  • Osadź angielski ma wymiary 1024
  • Okno kontekstowe modelu to 512 tokenów
  • Osadzanie języka angielskiego akceptuje obrazy jako zakodowany w formacie base64 adres URL danych

Osadzanie obrazów zużywa stałą liczbę tokenów na obraz — 1000 tokenów na obraz — co przekłada się na cenę 0,0001 USD za osadzony obraz. Rozmiar lub rozdzielczość obrazu nie ma wpływu na liczbę użytych tokenów, pod warunkiem, że obraz znajduje się w zaakceptowanych wymiarach, rozmiarze pliku i formatach.

Wymagania wstępne

Aby korzystać z modeli Cohere Embed V3 z usługą Azure AI Foundry, potrzebne są następujące wymagania wstępne:

Wdrożenie modelu

Wdrażanie do bezserwerowych interfejsów API

Cohere Osadzanie modeli w wersji 3 można wdrożyć w punktach końcowych bezserwerowego interfejsu API z rozliczeniami płatności zgodnie z rzeczywistym użyciem. Tego rodzaju wdrożenie umożliwia korzystanie z modeli jako interfejsu API bez hostowania ich w ramach subskrypcji, przy jednoczesnym zachowaniu bezpieczeństwa i zgodności przedsiębiorstwa, których potrzebują organizacje.

Wdrożenie do punktu końcowego bezserwerowego interfejsu API nie wymaga limitu przydziału z subskrypcji. Jeśli model nie został jeszcze wdrożony, użyj portalu usługi Azure AI Foundry, zestawu AZURE Machine Learning SDK dla języka Python, interfejsu wiersza polecenia platformy Azure lub szablonów usługi ARM, aby wdrożyć model jako bezserwerowy interfejs API.

Klient REST

Modele wdrożone za pomocą interfejsu API wnioskowania modelu AI platformy Azure można używać przy użyciu dowolnego klienta REST. Do korzystania z klienta REST potrzebne są następujące wymagania wstępne:

  • Aby utworzyć żądania, należy przekazać adres URL punktu końcowego. Adres URL punktu końcowego ma postać https://your-host-name.your-azure-region.inference.ai.azure.com, gdzie your-host-name jest unikatową nazwą hosta wdrożenia modelu i your-azure-region regionem świadczenia usługi Azure, w którym wdrożono model (na przykład eastus2).
  • W zależności od preferencji wdrażania modelu i uwierzytelniania potrzebny jest klucz do uwierzytelniania względem usługi lub poświadczeń identyfikatora Entra firmy Microsoft. Klucz jest ciągiem 32-znakowym.

Napiwek

Ponadto Aplikacja Cohere obsługuje korzystanie z dostosowanego interfejsu API do użycia z określonymi funkcjami modelu. Aby użyć interfejsu API specyficznego dla dostawcy modelu, zapoznaj się z dokumentacją Cohere.

Praca z osadzaniem

W tej sekcji użyjesz interfejsu API wnioskowania modelu AI platformy Azure z modelem osadzania.

Tworzenie klienta do korzystania z modelu

Najpierw utwórz klienta, aby korzystać z modelu. Poniższy kod używa adresu URL punktu końcowego i klucza przechowywanego w zmiennych środowiskowych.

Uzyskiwanie możliwości modelu

Trasa /info zwraca informacje o modelu wdrożonym w punkcie końcowym. Zwróć informacje o modelu, wywołując następującą metodę:

GET /info HTTP/1.1
Host: <ENDPOINT_URI>
Authorization: Bearer <TOKEN>
Content-Type: application/json

Odpowiedź jest następująca:

{
    "model_name": "Cohere-embed-v3-english",
    "model_type": "embeddings",
    "model_provider_name": "Cohere"
}

Tworzenie osadzania

Utwórz żądanie osadzania, aby wyświetlić dane wyjściowe modelu.

{
    "input": [
        "The ultimate answer to the question of life"
    ]
}

Napiwek

Okno kontekstowe dla modeli Cohere Embed V3 to 512. Upewnij się, że nie przekraczasz tego limitu podczas tworzenia osadzania.

Odpowiedź jest następująca, gdzie można zobaczyć statystyki użycia modelu:

{
    "id": "0ab1234c-d5e6-7fgh-i890-j1234k123456",
    "object": "list",
    "data": [
        {
            "index": 0,
            "object": "embedding",
            "embedding": [
                0.017196655,
                // ...
                -0.000687122,
                -0.025054932,
                -0.015777588
            ]
        }
    ],
    "model": "Cohere-embed-v3-english",
    "usage": {
        "prompt_tokens": 9,
        "completion_tokens": 0,
        "total_tokens": 9
    }
}

Przydatne może być obliczanie osadzania w partiach wejściowych. Parametr inputs może być listą ciągów, gdzie każdy ciąg jest innym wejściem. Z kolei odpowiedź jest listą osadzania, gdzie każde osadzanie odpowiada wejściu w tej samej pozycji.

{
    "input": [
        "The ultimate answer to the question of life", 
        "The largest planet in our solar system is Jupiter"
    ]
}

Odpowiedź jest następująca, gdzie można zobaczyć statystyki użycia modelu:

{
    "id": "0ab1234c-d5e6-7fgh-i890-j1234k123456",
    "object": "list",
    "data": [
        {
            "index": 0,
            "object": "embedding",
            "embedding": [
                0.017196655,
                // ...
                -0.000687122,
                -0.025054932,
                -0.015777588
            ]
        },
        {
            "index": 1,
            "object": "embedding",
            "embedding": [
                0.017196655,
                // ...
                -0.000687122,
                -0.025054932,
                -0.015777588
            ]
        }
    ],
    "model": "Cohere-embed-v3-english",
    "usage": {
        "prompt_tokens": 19,
        "completion_tokens": 0,
        "total_tokens": 19
    }
}

Napiwek

Cohere Osadzanie modeli V3 może przyjmować partie 1024 naraz. Podczas tworzenia partii upewnij się, że nie przekraczasz tego limitu.

Tworzenie różnych typów osadzania

Cohere Osadzanie modeli w wersji 3 może wygenerować wiele osadzeń dla tych samych danych wejściowych w zależności od tego, jak planujesz ich używać. Ta funkcja umożliwia pobieranie bardziej dokładnych osadzeń dla wzorców RAG.

W poniższym przykładzie pokazano, jak utworzyć osadzanie, które są używane do tworzenia osadzania dla dokumentu, który będzie przechowywany w bazie danych wektorów:

{
    "input": [
        "The answer to the ultimate question of life, the universe, and everything is 42"
    ],
    "input_type": "document"
}

Podczas pracy nad zapytaniem w celu pobrania takiego dokumentu możesz użyć następującego fragmentu kodu, aby utworzyć osadzanie dla zapytania i zmaksymalizować wydajność pobierania.

{
    "input": [
        "What's the ultimate meaning of life?"
    ],
    "input_type": "query"
}

Cohere Osadzanie modeli w wersji 3 może zoptymalizować osadzanie na podstawie jego przypadku użycia.

Więcej przykładów wnioskowania

opis Language Przykład
Żądania internetowe Bash cohere-embed.ipynb
Pakiet wnioskowania usługi Azure AI dla języka JavaScript JavaScript Link
Pakiet wnioskowania usługi Azure AI dla języka Python Python Link
Zestaw OPENAI SDK (eksperymentalny) Python Link
LangChain Python Link
Cohere SDK Python Link
LiteLLM SDK Python Link

Pobieranie rozszerzonej generacji (RAG) i narzędzia używają przykładów

opis Pakiety Przykład
Tworzenie lokalnego indeksu wektorów wyszukiwania sztucznej inteligencji (FAISS) w serwisie Facebook przy użyciu osadzania Cohere — Langchain langchain, langchain_cohere cohere_faiss_langchain_embed.ipynb
Użyj polecenia Cohere R/R+, aby odpowiedzieć na pytania z danych w lokalnym indeksie wektorów FAISS — Langchain langchain, langchain_cohere command_faiss_langchain.ipynb
Użyj polecenia Cohere R/R+, aby odpowiedzieć na pytania z danych w indeksie wektora wyszukiwania sztucznej inteligencji — Langchain langchain, langchain_cohere cohere-aisearch-langchain-rag.ipynb
Użyj polecenia Cohere R/R+, aby odpowiedzieć na pytania dotyczące danych w indeksie wektora wyszukiwania sztucznej inteligencji — Zestaw SDK cohere cohere, azure_search_documents cohere-aisearch-rag.ipynb
Wywoływanie narzędzi/funkcji języka R+ przy użyciu biblioteki LangChain cohere, , langchainlangchain_cohere command_tools-langchain.ipynb

Zagadnienia dotyczące kosztów i limitów przydziału dla rodziny modeli wdrożonych jako punkty końcowe interfejsu API bezserwerowego

Cohere modele wdrożone jako bezserwerowy interfejs API są oferowane przez Cohere za pośrednictwem witryny Azure Marketplace i zintegrowane z usługą Azure AI Foundry do użycia. Cennik witryny Azure Marketplace można znaleźć podczas wdrażania modelu.

Za każdym razem, gdy projekt subskrybuje daną ofertę z witryny Azure Marketplace, tworzony jest nowy zasób w celu śledzenia kosztów związanych z jej zużyciem. Ten sam zasób służy do śledzenia kosztów skojarzonych z wnioskowaniem; jednak w ramach śledzenia każdego scenariusza można niezależnie śledzić wiele mierników.

Aby uzyskać więcej informacji na temat śledzenia kosztów, zobacz Monitorowanie kosztów modeli oferowanych w witrynie Azure Marketplace.

Limit przydziału jest zarządzany na wdrożenie. Każde wdrożenie ma limit szybkości wynoszący 200 000 tokenów na minutę i 1000 żądań interfejsu API na minutę. Obecnie jednak ograniczamy jedno wdrożenie na model na projekt. Skontaktuj się z pomocą techniczną platformy Microsoft Azure, jeśli bieżące limity szybkości nie są wystarczające dla Twoich scenariuszy.