Verwenden von Cohere Embed V3-Modellen mit Azure KI Studio
Wichtig
Die in diesem Artikel markierten Elemente (Vorschau) sind aktuell als öffentliche Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.
In diesem Artikel erfahren Sie mehr über Cohere Embed V3-Modelle und deren Verwendung mit Azure KI Studio. Die Cohere-Modellfamilie umfasst verschiedene Modelle, die für unterschiedliche Anwendungsfälle optimiert sind, einschließlich Chatvervollständigungen, Einbettungen und Rerank. Cohere-Modelle sind für verschiedene Anwendungsfälle optimiert, die Gründe, Zusammenfassungen und Fragen und Antworten umfassen.
Wichtig
Modelle, die sich in der Vorschau befinden, werden auf ihren Modellkarten im Modellkatalog als Vorschau gekennzeichnet.
Cohere-Einbettungsmodelle
Die Cohere-Familie von Modellen für Einbettungen umfasst die folgenden Modelle:
Cohere Embed English ist ein multimodales (Text und Bild) Darstellungsmodell, das für die semantische Suche, Retrieval Augmented Generation (RAG), Klassifizierung und Clustering verwendet wird. Embed English erzielt die beste Leistung beim HuggingFace Massive Text Embed (MTEB)-Benchmark und bietet gute Leistungen für Anwendungsfälle verschiedener Branchen, z. B. Finanzen, Recht und universelle Corpora. Embed English verfügt auch über die folgenden Attribute:
- Embed English hat 1.024 Dimensionen.
- Das Kontextfenster des Modells sind 512 Token.
- Embed English akzeptiert Bilder als base64-codierte Daten-URL.
Bildeinbettungen verbrauchen eine feste Anzahl von Token pro Bild – 1.000 Token pro Bild –, was zu einem Preis von 0,0001 USD pro eingebettetem Bild führt. Die Größe oder Auflösung des Bildes hat keinen Einfluss auf die Anzahl der verbrauchten Token, vorausgesetzt, das Bild entspricht den zulässigen Abmessungen, Dateigrößen und Formaten.
Voraussetzungen
Um Cohere Embed V3-Modelle mit Azure KI Studio zu verwenden, sind folgende Voraussetzungen zu erfüllen:
Modellimplementierung
Bereitstellung für serverlose APIs
Cohere Emded V3-Modelle können für serverlose API-Endpunkte mit nutzungsbasierter Abrechnung bereitgestellt werden. Diese Art von Bereitstellung bietet eine Möglichkeit, Modelle als API zu nutzen, ohne sie in Ihrem Abonnement zu hosten, während die Unternehmenssicherheit und Compliance beibehalten werden, die Organisationen benötigen.
Zur Bereitstellung für einen serverlosen API-Endpunkt ist kein Kontingent aus Ihrem Abonnement erforderlich. Wenn Ihr Modell noch nicht bereitgestellt wurde, verwenden Sie Azure KI Studio, das Azure Machine Learning SDK für Python, die Azure CLI oder ARM-Vorlagen, um das Modell als serverlose API bereitzustellen.
Installiertes Inferenzpaket
Sie können Vorhersagen aus diesem Modell nutzen, indem Sie das Paket azure-ai-inference
mit Python verwenden. Zum Installieren dieses Pakets müssen folgende Voraussetzungen erfüllt sein:
- Installation von Python 3.8 oder höher (einschließlich pip).
- Endpunkt-URL. Um die Clientbibliothek zu erstellen, müssen Sie die Endpunkt-URL übergeben. Die Endpunkt-URL hat das Format
https://your-host-name.your-azure-region.inference.ai.azure.com
, wobeiyour-host-name
Ihr eindeutiger Hostname für die Modellimplementierung undyour-azure-region
die Azure-Region ist, in der das Modell bereitgestellt wird (z. B. „eastus2“). - Je nach Modellimplementierung und bevorzugter Authentifizierungsmethode benötigen Sie einen Schlüssel, um sich bei dem Dienst zu authentifizieren, oder Microsoft Entra ID-Anmeldeinformationen. Der Schlüssel ist eine Zeichenfolge aus 32 Zeichen.
Sobald diese Voraussetzungen erfüllt sind, installieren Sie das Azure KI-Inferenzpaket mit dem folgenden Befehl:
pip install azure-ai-inference
Lesen Sie mehr über das Azure KI-Interferenzpaket und die zugehörige Referenz.
Tipp
Darüber hinaus unterstützt Cohere eine maßgeschneiderte API für die Verwendung mit bestimmten Features des Modells. Informationen zur Verwendung der modellanbieterspezifischen API finden Sie in der Cohere-Dokumentation.
Arbeiten mit Einbettungen
In diesem Abschnitt verwenden Sie die Azure KI-Modellinferenz-API mit einem Einbettungsmodell.
Erstellen eines Clients zur Nutzung des Modells
Erstellen Sie als Erstes einen Client zum Nutzen des Modells. Der folgende Code verwendet eine Endpunkt-URL und einen Schlüssel, die in Umgebungsvariablen gespeichert sind.
import os
from azure.ai.inference import EmbeddingsClient
from azure.core.credentials import AzureKeyCredential
model = EmbeddingsClient(
endpoint=os.environ["AZURE_INFERENCE_ENDPOINT"],
credential=AzureKeyCredential(os.environ["AZURE_INFERENCE_CREDENTIAL"]),
)
Abrufen der Funktionen des Modells
Die /info
-Route gibt Informationen zu dem Modell zurück, das für den Endpunkt bereitgestellt wird. Geben Sie die Informationen des Modells zurück, indem Sie die folgende Methode aufrufen:
model_info = model.get_model_info()
Die Antwort lautet wie folgt:
print("Model name:", model_info.model_name)
print("Model type:", model_info.model_type)
print("Model provider name:", model_info.model_provider)
Model name: Cohere-embed-v3-english
Model type": embeddings
Model provider name": Cohere
Erstellen von Einbettungen
Erstellen Sie eine Einbettungsanforderung, um die Ausgabe des Modells anzuzeigen.
response = model.embed(
input=["The ultimate answer to the question of life"],
)
Tipp
Das Kontextfenster für Cohere Embed V3-Modelle beträgt 512. Stellen Sie sicher, dass Sie diesen Grenzwert beim Erstellen von Einbettungen nicht überschreiten.
Die Antwort lautet wie folgt, wobei Sie die Nutzungsstatistiken des Modells sehen können:
import numpy as np
for embed in response.data:
print("Embeding of size:", np.asarray(embed.embedding).shape)
print("Model:", response.model)
print("Usage:", response.usage)
Es kann nützlich sein, Einbettungen in Eingabebatches zu berechnen. Der Parameter inputs
kann eine Liste von Zeichenfolgen sein, wobei jede Zeichenfolge eine andere Eingabe ist. Die Antwort wiederum ist eine Liste der Einbettungen, wobei jede Einbettung der Eingabe an derselben Position entspricht.
response = model.embed(
input=[
"The ultimate answer to the question of life",
"The largest planet in our solar system is Jupiter",
],
)
Die Antwort lautet wie folgt, wobei Sie die Nutzungsstatistiken des Modells sehen können:
import numpy as np
for embed in response.data:
print("Embeding of size:", np.asarray(embed.embedding).shape)
print("Model:", response.model)
print("Usage:", response.usage)
Tipp
Cohere Embed V3-Modelle können Batches von jeweils 1024 aufnehmen. Stellen Sie sicher, dass Sie diesen Grenzwert beim Erstellen von Batches nicht überschreiten.
Erstellen verschiedener Typen von Einbettungen
Cohere Embed V3-Modelle können mehrere Einbettungen für dieselbe Eingabe generieren, je nachdem, wie Sie sie verwenden möchten. Mit dieser Funktion können Sie genauere Einbettungen für RAG-Muster abrufen.
Das folgende Beispiel zeigt, wie Einbettungen erstellt werden, die zum Erstellen einer Einbettung für ein Dokument verwendet werden, das in einer Vektordatenbank gespeichert wird:
from azure.ai.inference.models import EmbeddingInputType
response = model.embed(
input=["The answer to the ultimate question of life, the universe, and everything is 42"],
input_type=EmbeddingInputType.DOCUMENT,
)
Wenn Sie an einer Abfrage arbeiten, um ein solches Dokument abzurufen, können Sie den folgenden Codeschnipsel verwenden, um die Einbettungen für die Abfrage zu erstellen und die Abrufleistung zu maximieren.
from azure.ai.inference.models import EmbeddingInputType
response = model.embed(
input=["What's the ultimate meaning of life?"],
input_type=EmbeddingInputType.QUERY,
)
Cohere Embed V3-Modelle können die Einbettungen basierend auf ihrem Anwendungsfall optimieren.
Cohere-Einbettungsmodelle
Die Cohere-Familie von Modellen für Einbettungen umfasst die folgenden Modelle:
Cohere Embed English ist ein multimodales (Text und Bild) Darstellungsmodell, das für die semantische Suche, Retrieval Augmented Generation (RAG), Klassifizierung und Clustering verwendet wird. Embed English erzielt die beste Leistung beim HuggingFace Massive Text Embed (MTEB)-Benchmark und bietet gute Leistungen für Anwendungsfälle verschiedener Branchen, z. B. Finanzen, Recht und universelle Corpora. Embed English verfügt auch über die folgenden Attribute:
- Embed English hat 1.024 Dimensionen.
- Das Kontextfenster des Modells sind 512 Token.
- Embed English akzeptiert Bilder als base64-codierte Daten-URL.
Bildeinbettungen verbrauchen eine feste Anzahl von Token pro Bild – 1.000 Token pro Bild –, was zu einem Preis von 0,0001 USD pro eingebettetem Bild führt. Die Größe oder Auflösung des Bildes hat keinen Einfluss auf die Anzahl der verbrauchten Token, vorausgesetzt, das Bild entspricht den zulässigen Abmessungen, Dateigrößen und Formaten.
Voraussetzungen
Um Cohere Embed V3-Modelle mit Azure KI Studio zu verwenden, sind folgende Voraussetzungen zu erfüllen:
Modellimplementierung
Bereitstellung für serverlose APIs
Cohere Emded V3-Modelle können für serverlose API-Endpunkte mit nutzungsbasierter Abrechnung bereitgestellt werden. Diese Art von Bereitstellung bietet eine Möglichkeit, Modelle als API zu nutzen, ohne sie in Ihrem Abonnement zu hosten, während die Unternehmenssicherheit und Compliance beibehalten werden, die Organisationen benötigen.
Zur Bereitstellung für einen serverlosen API-Endpunkt ist kein Kontingent aus Ihrem Abonnement erforderlich. Wenn Ihr Modell noch nicht bereitgestellt wurde, verwenden Sie Azure KI Studio, das Azure Machine Learning SDK für Python, die Azure CLI oder ARM-Vorlagen, um das Modell als serverlose API bereitzustellen.
Installiertes Inferenzpaket
Sie können Vorhersagen aus diesem Modell nutzen, indem Sie das Paket @azure-rest/ai-inference
von npm
verwenden. Zum Installieren dieses Pakets müssen folgende Voraussetzungen erfüllt sein:
- LTS-Versionen von
Node.js
mitnpm
. - Endpunkt-URL. Um die Clientbibliothek zu erstellen, müssen Sie die Endpunkt-URL übergeben. Die Endpunkt-URL hat das Format
https://your-host-name.your-azure-region.inference.ai.azure.com
, wobeiyour-host-name
Ihr eindeutiger Hostname für die Modellimplementierung undyour-azure-region
die Azure-Region ist, in der das Modell bereitgestellt wird (z. B. „eastus2“). - Je nach Modellimplementierung und bevorzugter Authentifizierungsmethode benötigen Sie einen Schlüssel, um sich bei dem Dienst zu authentifizieren, oder Microsoft Entra ID-Anmeldeinformationen. Der Schlüssel ist eine Zeichenfolge aus 32 Zeichen.
Sobald diese Voraussetzungen erfüllt sind, installieren Sie die Azure-Inferenzbibliothek für JavaScript mit dem folgenden Befehl:
npm install @azure-rest/ai-inference
Tipp
Darüber hinaus unterstützt Cohere eine maßgeschneiderte API für die Verwendung mit bestimmten Features des Modells. Informationen zur Verwendung der modellanbieterspezifischen API finden Sie in der Cohere-Dokumentation.
Arbeiten mit Einbettungen
In diesem Abschnitt verwenden Sie die Azure KI-Modellinferenz-API mit einem Einbettungsmodell.
Erstellen eines Clients zur Nutzung des Modells
Erstellen Sie als Erstes einen Client zum Nutzen des Modells. Der folgende Code verwendet eine Endpunkt-URL und einen Schlüssel, die in Umgebungsvariablen gespeichert sind.
import ModelClient from "@azure-rest/ai-inference";
import { isUnexpected } from "@azure-rest/ai-inference";
import { AzureKeyCredential } from "@azure/core-auth";
const client = new ModelClient(
process.env.AZURE_INFERENCE_ENDPOINT,
new AzureKeyCredential(process.env.AZURE_INFERENCE_CREDENTIAL)
);
Abrufen der Funktionen des Modells
Die /info
-Route gibt Informationen zu dem Modell zurück, das für den Endpunkt bereitgestellt wird. Geben Sie die Informationen des Modells zurück, indem Sie die folgende Methode aufrufen:
await client.path("/info").get()
Die Antwort lautet wie folgt:
console.log("Model name: ", model_info.body.model_name);
console.log("Model type: ", model_info.body.model_type);
console.log("Model provider name: ", model_info.body.model_provider_name);
Model name: Cohere-embed-v3-english
Model type": embeddings
Model provider name": Cohere
Erstellen von Einbettungen
Erstellen Sie eine Einbettungsanforderung, um die Ausgabe des Modells anzuzeigen.
var response = await client.path("/embeddings").post({
body: {
input: ["The ultimate answer to the question of life"],
}
});
Tipp
Das Kontextfenster für Cohere Embed V3-Modelle beträgt 512. Stellen Sie sicher, dass Sie diesen Grenzwert beim Erstellen von Einbettungen nicht überschreiten.
Die Antwort lautet wie folgt, wobei Sie die Nutzungsstatistiken des Modells sehen können:
if (isUnexpected(response)) {
throw response.body.error;
}
console.log(response.embedding);
console.log(response.body.model);
console.log(response.body.usage);
Es kann nützlich sein, Einbettungen in Eingabebatches zu berechnen. Der Parameter inputs
kann eine Liste von Zeichenfolgen sein, wobei jede Zeichenfolge eine andere Eingabe ist. Die Antwort wiederum ist eine Liste der Einbettungen, wobei jede Einbettung der Eingabe an derselben Position entspricht.
var response = await client.path("/embeddings").post({
body: {
input: [
"The ultimate answer to the question of life",
"The largest planet in our solar system is Jupiter",
],
}
});
Die Antwort lautet wie folgt, wobei Sie die Nutzungsstatistiken des Modells sehen können:
if (isUnexpected(response)) {
throw response.body.error;
}
console.log(response.embedding);
console.log(response.body.model);
console.log(response.body.usage);
Tipp
Cohere Embed V3-Modelle können Batches von jeweils 1024 aufnehmen. Stellen Sie sicher, dass Sie diesen Grenzwert beim Erstellen von Batches nicht überschreiten.
Erstellen verschiedener Typen von Einbettungen
Cohere Embed V3-Modelle können mehrere Einbettungen für dieselbe Eingabe generieren, je nachdem, wie Sie sie verwenden möchten. Mit dieser Funktion können Sie genauere Einbettungen für RAG-Muster abrufen.
Das folgende Beispiel zeigt, wie Einbettungen erstellt werden, die zum Erstellen einer Einbettung für ein Dokument verwendet werden, das in einer Vektordatenbank gespeichert wird:
var response = await client.path("/embeddings").post({
body: {
input: ["The answer to the ultimate question of life, the universe, and everything is 42"],
input_type: "document",
}
});
Wenn Sie an einer Abfrage arbeiten, um ein solches Dokument abzurufen, können Sie den folgenden Codeschnipsel verwenden, um die Einbettungen für die Abfrage zu erstellen und die Abrufleistung zu maximieren.
var response = await client.path("/embeddings").post({
body: {
input: ["What's the ultimate meaning of life?"],
input_type: "query",
}
});
Cohere Embed V3-Modelle können die Einbettungen basierend auf ihrem Anwendungsfall optimieren.
Cohere-Einbettungsmodelle
Die Cohere-Familie von Modellen für Einbettungen umfasst die folgenden Modelle:
Cohere Embed English ist ein multimodales (Text und Bild) Darstellungsmodell, das für die semantische Suche, Retrieval Augmented Generation (RAG), Klassifizierung und Clustering verwendet wird. Embed English erzielt die beste Leistung beim HuggingFace Massive Text Embed (MTEB)-Benchmark und bietet gute Leistungen für Anwendungsfälle verschiedener Branchen, z. B. Finanzen, Recht und universelle Corpora. Embed English verfügt auch über die folgenden Attribute:
- Embed English hat 1.024 Dimensionen.
- Das Kontextfenster des Modells sind 512 Token.
- Embed English akzeptiert Bilder als base64-codierte Daten-URL.
Bildeinbettungen verbrauchen eine feste Anzahl von Token pro Bild – 1.000 Token pro Bild –, was zu einem Preis von 0,0001 USD pro eingebettetem Bild führt. Die Größe oder Auflösung des Bildes hat keinen Einfluss auf die Anzahl der verbrauchten Token, vorausgesetzt, das Bild entspricht den zulässigen Abmessungen, Dateigrößen und Formaten.
Voraussetzungen
Um Cohere Embed V3-Modelle mit Azure KI Studio zu verwenden, sind folgende Voraussetzungen zu erfüllen:
Modellimplementierung
Bereitstellung für serverlose APIs
Cohere Emded V3-Modelle können für serverlose API-Endpunkte mit nutzungsbasierter Abrechnung bereitgestellt werden. Diese Art von Bereitstellung bietet eine Möglichkeit, Modelle als API zu nutzen, ohne sie in Ihrem Abonnement zu hosten, während die Unternehmenssicherheit und Compliance beibehalten werden, die Organisationen benötigen.
Zur Bereitstellung für einen serverlosen API-Endpunkt ist kein Kontingent aus Ihrem Abonnement erforderlich. Wenn Ihr Modell noch nicht bereitgestellt wurde, verwenden Sie Azure KI Studio, das Azure Machine Learning SDK für Python, die Azure CLI oder ARM-Vorlagen, um das Modell als serverlose API bereitzustellen.
REST-Client
Modelle, die mit der Azure KI-Modellinferenz-API bereitgestellt werden, können mit jedem REST-Client genutzt werden. Zur Verwendung des REST-Clients müssen folgende Voraussetzungen erfüllt sein:
- Um die Anforderungen zu erstellen, müssen Sie die Endpunkt-URL übergeben. Die Endpunkt-URL hat das Format
https://your-host-name.your-azure-region.inference.ai.azure.com
, wobeiyour-host-name
Ihr eindeutiger Hostname für die Modellimplementierung undyour-azure-region
die Azure-Region ist, in der das Modell bereitgestellt wird (z. B. „eastus2“). - Je nach Modellimplementierung und bevorzugter Authentifizierungsmethode benötigen Sie einen Schlüssel, um sich bei dem Dienst zu authentifizieren, oder Microsoft Entra ID-Anmeldeinformationen. Der Schlüssel ist eine Zeichenfolge aus 32 Zeichen.
Tipp
Darüber hinaus unterstützt Cohere eine maßgeschneiderte API für die Verwendung mit bestimmten Features des Modells. Informationen zur Verwendung der modellanbieterspezifischen API finden Sie in der Cohere-Dokumentation.
Arbeiten mit Einbettungen
In diesem Abschnitt verwenden Sie die Azure KI-Modellinferenz-API mit einem Einbettungsmodell.
Erstellen eines Clients zur Nutzung des Modells
Erstellen Sie als Erstes einen Client zum Nutzen des Modells. Der folgende Code verwendet eine Endpunkt-URL und einen Schlüssel, die in Umgebungsvariablen gespeichert sind.
Abrufen der Funktionen des Modells
Die /info
-Route gibt Informationen zu dem Modell zurück, das für den Endpunkt bereitgestellt wird. Geben Sie die Informationen des Modells zurück, indem Sie die folgende Methode aufrufen:
GET /info HTTP/1.1
Host: <ENDPOINT_URI>
Authorization: Bearer <TOKEN>
Content-Type: application/json
Die Antwort lautet wie folgt:
{
"model_name": "Cohere-embed-v3-english",
"model_type": "embeddings",
"model_provider_name": "Cohere"
}
Erstellen von Einbettungen
Erstellen Sie eine Einbettungsanforderung, um die Ausgabe des Modells anzuzeigen.
{
"input": [
"The ultimate answer to the question of life"
]
}
Tipp
Das Kontextfenster für Cohere Embed V3-Modelle beträgt 512. Stellen Sie sicher, dass Sie diesen Grenzwert beim Erstellen von Einbettungen nicht überschreiten.
Die Antwort lautet wie folgt, wobei Sie die Nutzungsstatistiken des Modells sehen können:
{
"id": "0ab1234c-d5e6-7fgh-i890-j1234k123456",
"object": "list",
"data": [
{
"index": 0,
"object": "embedding",
"embedding": [
0.017196655,
// ...
-0.000687122,
-0.025054932,
-0.015777588
]
}
],
"model": "Cohere-embed-v3-english",
"usage": {
"prompt_tokens": 9,
"completion_tokens": 0,
"total_tokens": 9
}
}
Es kann nützlich sein, Einbettungen in Eingabebatches zu berechnen. Der Parameter inputs
kann eine Liste von Zeichenfolgen sein, wobei jede Zeichenfolge eine andere Eingabe ist. Die Antwort wiederum ist eine Liste der Einbettungen, wobei jede Einbettung der Eingabe an derselben Position entspricht.
{
"input": [
"The ultimate answer to the question of life",
"The largest planet in our solar system is Jupiter"
]
}
Die Antwort lautet wie folgt, wobei Sie die Nutzungsstatistiken des Modells sehen können:
{
"id": "0ab1234c-d5e6-7fgh-i890-j1234k123456",
"object": "list",
"data": [
{
"index": 0,
"object": "embedding",
"embedding": [
0.017196655,
// ...
-0.000687122,
-0.025054932,
-0.015777588
]
},
{
"index": 1,
"object": "embedding",
"embedding": [
0.017196655,
// ...
-0.000687122,
-0.025054932,
-0.015777588
]
}
],
"model": "Cohere-embed-v3-english",
"usage": {
"prompt_tokens": 19,
"completion_tokens": 0,
"total_tokens": 19
}
}
Tipp
Cohere Embed V3-Modelle können Batches von jeweils 1024 aufnehmen. Stellen Sie sicher, dass Sie diesen Grenzwert beim Erstellen von Batches nicht überschreiten.
Erstellen verschiedener Typen von Einbettungen
Cohere Embed V3-Modelle können mehrere Einbettungen für dieselbe Eingabe generieren, je nachdem, wie Sie sie verwenden möchten. Mit dieser Funktion können Sie genauere Einbettungen für RAG-Muster abrufen.
Das folgende Beispiel zeigt, wie Einbettungen erstellt werden, die zum Erstellen einer Einbettung für ein Dokument verwendet werden, das in einer Vektordatenbank gespeichert wird:
{
"input": [
"The answer to the ultimate question of life, the universe, and everything is 42"
],
"input_type": "document"
}
Wenn Sie an einer Abfrage arbeiten, um ein solches Dokument abzurufen, können Sie den folgenden Codeschnipsel verwenden, um die Einbettungen für die Abfrage zu erstellen und die Abrufleistung zu maximieren.
{
"input": [
"What's the ultimate meaning of life?"
],
"input_type": "query"
}
Cohere Embed V3-Modelle können die Einbettungen basierend auf ihrem Anwendungsfall optimieren.
Modellrückschluss: Beispiele
Beschreibung | Sprache | Beispiel |
---|---|---|
Webanforderungen | Bash | cohere-embed.ipynb |
Azure KI-Inferenzpaket für JavaScript | JavaScript | Link |
Azure KI-Inferenzpaket für Python | Python | Link |
OpenAI SDK (experimentell) | Python | Link |
LangChain | Python | Link |
Cohere-SDK | Python | Link |
LiteLLM SDK | Python | Link |
Retrieval Augmented Generation (RAG) und das Tool verwenden Stichproben
Beschreibung | Packages | Beispiel |
---|---|---|
Erstellen eines lokalen FAISS-Vektorindex (Facebook AI Similarity Search) mithilfe von Cohere-Einbettungen: Langchain | langchain , langchain_cohere |
cohere_faiss_langchain_embed.ipynb |
Verwenden von Cohere Command R/R+ zum Beantworten von Fragen mit Daten im lokalen FAISS-Vektorindex: Langchain | langchain , langchain_cohere |
command_faiss_langchain.ipynb |
Verwenden von Cohere Command R/R+ zum Beantworten von Fragen mit Daten im KI-Suchvektorindex: Langchain | langchain , langchain_cohere |
cohere-aisearch-langchain-rag.ipynb |
Verwenden von Cohere Command R/R+ zum Beantworten von Fragen mit Daten im KI-Suchvektorindex: Cohere SDK | cohere , azure_search_documents |
cohere-aisearch-rag.ipynb |
Aufrufen von Command R+-Tools/-Funktionen mit LangChain | cohere , langchain , langchain_cohere |
command_tools-langchain.ipynb |
Überlegungen zu Kosten und Kontingenten für Modelle der Cohere-Produktfamilie, die als serverlose API-Endpunkte bereitgestellt werden
Cohere-Modelle, die als serverlose API bereitgestellt werden, werden von Cohere über den Azure Marketplace angeboten und zur Verwendung in Azure KI Studio integriert. Die Preise für den Azure Marketplace finden Sie, wenn Sie das Modell bereitstellen.
Jedes Mal, wenn ein Projekt ein bestimmtes Angebot aus dem Azure Marketplace abonniert, wird eine neue Ressource erstellt, um die mit der Nutzung verbundenen Kosten nachzuverfolgen. Dieselbe Ressource wird verwendet, um die mit der Inferenz verbundenen Kosten zu verfolgen. Es stehen jedoch mehrere Verbrauchseinheiten zur Verfügung, um jedes Szenario unabhängig zu verfolgen.
Weitere Informationen zum Nachverfolgen von Kosten finden Sie unter Überwachen der Kosten für Modelle, die über den Azure Marketplace angeboten werden.
Das Kontingent wird pro Bereitstellung verwaltet. Jede Bereitstellung hat eine Rate von 200.000 Token pro Minute und 1.000 API-Anforderungen pro Minute. Derzeit wird jedoch eine Bereitstellung pro Modell und Projekt beschränkt. Wenden Sie sich an den Microsoft Azure-Support, wenn die aktuellen Ratenbegrenzungen für Ihre Szenarien nicht ausreichen.