Udostępnij za pośrednictwem


Pobieranie rozszerzonej generacji (RAG) w usłudze Azure Cosmos DB

Pobieranie rozszerzonej generacji (RAG) łączy możliwości dużych modeli językowych (LLM) z niezawodnymi systemami pobierania informacji, aby tworzyć dokładniejsze i kontekstowo odpowiednie odpowiedzi. W przeciwieństwie do tradycyjnych modeli generowania, które opierają się wyłącznie na wstępnie wytrenowanych danych, architektury RAG zwiększają możliwości llM dzięki integracji pobierania informacji w czasie rzeczywistym. To rozszerzenie zapewnia, że odpowiedzi są nie tylko generowane, ale także uziemione w najbardziej odpowiednich, aktualnych dostępnych danych.

Usługa Azure Cosmos DB, operacyjna baza danych, która obsługuje wyszukiwanie wektorowe, wyróżnia się doskonałą platformą do implementowania programu RAG. Możliwość obsługi obciążeń operacyjnych i analitycznych w pojedynczej bazie danych wraz z zaawansowanymi funkcjami, takimi jak wielodostępność i hierarchiczne klucze partycji, stanowi solidną podstawę do tworzenia zaawansowanych aplikacji generacyjnych sztucznej inteligencji.

Kluczowe zalety korzystania z usługi Azure Cosmos DB

Ujednolicony magazyn danych i pobieranie

Usługa Azure Cosmos DB umożliwia bezproblemową integrację funkcji wyszukiwania wektorowego w ujednoliconym systemie bazy danych. Oznacza to, że dane operacyjne i wektoryzowane dane współistnieją, eliminując konieczność oddzielnych systemów indeksowania.

Pozyskiwanie i wykonywanie zapytań dotyczących danych w czasie rzeczywistym

Usługa Azure Cosmos DB obsługuje pozyskiwanie i wykonywanie zapytań w czasie rzeczywistym, co czyni go idealnym rozwiązaniem dla aplikacji sztucznej inteligencji. Ma to kluczowe znaczenie dla architektur RAG, w których świeżość danych może znacząco wpłynąć na znaczenie wygenerowanych odpowiedzi.

Skalowalność i dystrybucja globalna

Zaprojektowana pod kątem aplikacji na dużą skalę usługa Azure Cosmos DB oferuje globalną dystrybucję i natychmiastowe autoskalowanie. Dzięki temu aplikacja obsługującą funkcję RAG może obsługiwać duże woluminy zapytań i zapewniać spójną wydajność niezależnie od lokalizacji użytkownika.

Wysoka dostępność i niezawodność

Usługa Azure Cosmos DB oferuje kompleksowe umowy SLA dotyczące przepływności, opóźnień i dostępności. Ta niezawodność gwarantuje, że system RAG jest zawsze dostępny do generowania odpowiedzi z minimalnym przestojem.

Wielodostępność z hierarchicznymi kluczami partycji

Usługa Azure Cosmos DB obsługuje wielodostępność za pomocą różnych modeli izolacji wydajności i zabezpieczeń, co ułatwia zarządzanie danymi dla różnych klientów lub grup użytkowników w ramach tej samej bazy danych. Ta funkcja jest szczególnie przydatna w przypadku aplikacji SaaS, w których rozdzielenie danych dzierżawy ma kluczowe znaczenie dla bezpieczeństwa i zgodności.

Kompleksowe funkcje zabezpieczeń

Dzięki wbudowanym funkcjom, takim jak kompleksowe szyfrowanie, kontrola dostępu oparta na rolach (RBAC) i integracja sieci wirtualnej, usługa Azure Cosmos DB zapewnia bezpieczeństwo danych. Te środki zabezpieczeń są niezbędne dla aplikacji RAG klasy korporacyjnej, które obsługują poufne informacje.

Implementowanie rozwiązania RAG za pomocą usługi Azure Cosmos DB

Napiwek

Przykłady RAG można znaleźć na stronie AzureDataRetrievalAugmentedGenerationSamples

Oto usprawniony proces tworzenia aplikacji RAG za pomocą usługi Azure Cosmos DB:

  1. Pozyskiwanie danych: przechowywanie dokumentów, obrazów i innych typów zawartości w usłudze Azure Cosmos DB. Skorzystaj z obsługi wyszukiwania wektorowego bazy danych, aby indeksować i pobierać wektoryzowaną zawartość.
  2. Wykonywanie zapytań: gdy użytkownik przesyła zapytanie, usługa Azure Cosmos DB może szybko pobrać najbardziej odpowiednie dane przy użyciu funkcji wyszukiwania wektorowego.
  3. Integracja z usługą LLM: przekaż pobrane dane do modułu LLM (np. Azure OpenAI), aby wygenerować odpowiedź. Dobrze ustrukturyzowane dane dostarczane przez usługę Cosmos DB zwiększają jakość danych wyjściowych modelu.
  4. Generowanie odpowiedzi: usługa LLM przetwarza dane i generuje kompleksową odpowiedź, która następnie jest dostarczana użytkownikowi.