Projektowanie i opracowywanie rozwiązania RAG

Artykuł
01/09/2025

Wzorzec generacji Retrieval-Augmented (RAG) to standardowe podejście do tworzenia aplikacji, które używają modeli językowych do przetwarzania określonych lub zastrzeżonych danych, których model jeszcze nie zna. Architektura jest prosta, ale projektowanie, eksperymentowanie i ocenianie rozwiązań RAG, które pasują do tej architektury, wiąże się z wieloma złożonymi zagadnieniami, które korzystają z rygorystycznego, naukowego podejścia.

Ten artykuł stanowi wprowadzenie do serii. Każdy artykuł z serii obejmuje konkretną fazę projektowania rozwiązania RAG.

Inne artykuły z tej serii obejmują następujące zagadnienia:

Jak określić, które dokumenty testowe i zapytania mają być używane podczas oceny
Jak wybrać strategię fragmentowania
Jak określić fragmenty, które należy wzbogacić i jak je wzbogacić
Jak wybrać odpowiedni model osadzania
Jak skonfigurować indeks wyszukiwania
Jak określić, które rodzaje wyszukiwań, takie jak wyszukiwanie wektorowe, pełnotekstowe, hybrydowe i ręczne, należy wykonać
Jak ocenić każdy krok

Architektura RAG

Przepływ aplikacji RAG

Poniższy przepływ pracy opisuje przepływ wysokiego poziomu dla aplikacji RAG.

Użytkownik wystawia zapytanie w inteligentnym interfejsie użytkownika aplikacji.
Inteligentna aplikacja wykonuje wywołanie interfejsu API do orkiestratora. Orkiestrator można zaimplementować za pomocą narzędzi lub platform, takich jak Semantic Kernel, Przepływ monitów usługi Azure Machine Learning lub LangChain.
Orkiestrator określa, które wyszukiwanie należy wykonać w usłudze Azure AI Search i wystawia zapytanie.
Orkiestrator zestawia najlepsze wyniki N z zapytania. Pakuje on najlepsze wyniki i zapytanie jako kontekst w ramach promptu i wysyła ten prompt do modelu językowego. Koordynator zwraca odpowiedź inteligentnej aplikacji, aby użytkownik mógł ją odczytać.

Przepływ danych RAG

W poniższym procesie opisano ogólny przepływ dla potoku danych, który dostarcza dane podstawowe dla aplikacji RAG.

Dokumenty są przesuwane lub pobierane do potoku danych.
Potok danych przetwarza każdy dokument indywidualnie, wykonując następujące czynności:
1. Podział dokumentu: Dzieli dokument na semantycznie istotne części tak, aby każda z nich zawierała pojedynczą myśl lub koncepcję.
2. Wzbogacanie fragmentów: Dodaje pola metadanych, które pipelina tworzy na podstawie zawartości we fragmentach. Potok danych kategoryzuje metadane na odrębne pola, takie jak tytuł, podsumowanie i słowa kluczowe.
3. Osadzanie fragmentów: używa modelu osadzania do wektorowania fragmentu i innych pól metadanych używanych do wyszukiwania wektorowego.
4. Utrwalaj fragmenty: przechowuje fragmenty w indeksie wyszukiwania.

Zagadnienia dotyczące projektowania i oceny RAG

Podczas projektowania rozwiązania RAG należy podejmować różne decyzje dotyczące implementacji. Na poniższym diagramie przedstawiono niektóre pytania, które należy zadać podczas podejmowania tych decyzji.

Poniższa lista zawiera krótki opis tego, co należy zrobić w każdej fazie opracowywania rozwiązań RAG.

W fazie przygotowania należy wykonać następujące czynności:
- Określ domenę rozwiązania. Jasno zdefiniuj wymagania biznesowe dotyczące rozwiązania RAG.
- Zbieranie reprezentatywnych dokumentów testowych. Zbierz dokumenty testowe dla rozwiązania RAG, które są reprezentatywne dla kolekcji dokumentów.
- Zbieranie zapytań testowych. Zbierz informacje i przetestuj zapytania oraz wygeneruj syntetyczne zapytania i zapytania, których dokumenty nie obejmują.
Podczas fazy fragmentowania powinieneś:
- Omówienie ekonomii fragmentowania. Dowiedz się, które czynniki należy wziąć pod uwagę podczas oceniania ogólnego kosztu rozwiązania fragmentowania dla kolekcji tekstu.
- Przeprowadzanie analizy dokumentów. Zadaj następujące pytania, aby ułatwić podejmowanie decyzji podczas analizowania typu dokumentu:
  - Jakiej zawartości w dokumencie chcesz zignorować lub wykluczyć?
  - Jaką zawartość chcesz przechwycić we fragmentach?
  - Jak chcesz fragmentować zawartość?
- Zrozumienie metod fragmentowania. Zapoznaj się z różnymi podejściami do fragmentowania, w tym podejściami opartymi na zdaniach, stałym rozmiarze i niestandardowymi albo przy użyciu rozszerzeń modelu językowego, analizy układu dokumentów i modeli uczenia maszynowego.
- Dowiedz się, jak struktura dokumentu wpływa na fragmentowanie. Wybierz podejście fragmentujące na podstawie stopnia struktury, którą ma dokument.
Podczas fazy wzbogacania fragmentu, powinieneś:
- Czyszczenie fragmentów. Zaimplementuj metody czyszczenia, aby wyeliminować różnice, które nie mają wpływu na znaczenie tekstu. Ta metoda obsługuje dopasowania bliskości.
- Rozszerzanie fragmentów. Rozważ wzbogacenie danych fragmentów poprzez dodanie typowych pól metadanych oraz zrozumienie ich potencjalnych zastosowań w wyszukiwaniu. Dowiedz się więcej o powszechnie używanych narzędziach lub technikach generowania zawartości metadanych.
Podczas fazy osadzania powinno się:
- Zrozumienie znaczenia modelu osadzania. Model osadzania może znacząco wpłynąć na trafność wyników wyszukiwania wektorowego.
- Wybierz odpowiedni model osadzania dla twojego przypadku użycia.
- Ocena modeli osadzania. Oceń modele osadzania, wizualizując osadzanie i obliczając odległości osadzania.
Podczas fazy pobierania informacji powinieneś:
- Utwórz indeks wyszukiwania. Zastosuj odpowiednie konfiguracje wyszukiwania wektorów do pól wektorów.
- Omówienie opcji wyszukiwania. Rozważ różne typy wyszukiwań, w tym wyszukiwanie wektorowe, pełnotekstowe, hybrydowe i ręczne. Dowiedz się, jak podzielić zapytanie na podzapytania i filtrowanie zapytań.
- Ocenianie wyszukiwań. Użyj metod oceny pobierania, aby ocenić rozwiązanie wyszukiwania.
W fazie kompleksowej oceny modelu języka należy wykonać następujące elementy:
- Omówienie metryk oceny modelu językowego. Istnieje kilka metryk, takich jak osadzenie, kompletność, wykorzystanie i trafność, których można użyć do oceny odpowiedzi modelu językowego.
- Omówienie podobieństwa i metryk oceny. Aby ocenić rozwiązanie RAG, możesz użyć metryk podobieństwa i oceny.
- Zrozumienie znaczenia dokumentacji, raportowania i agregacji. Udokumentowanie hiperparametrów i wyników oceny. Agregowanie wyników z wielu zapytań i wizualizowanie wyników.
- Użyj akceleratora eksperymentu RAG. Możesz użyć repozytorium RAG Experiment Accelerator GitHub, aby pomóc zespołowi znaleźć najlepsze strategie implementacji RAG, uruchamiając wiele eksperymentów, utrwalając i oceniając wyniki.

Podejście ustrukturyzowane

Ze względu na liczbę kroków i zmiennych ważne jest, aby postępować zgodnie ze strukturą procesu oceny dla rozwiązania RAG. Oceń wyniki każdego kroku i wprowadź zmiany na podstawie wymagań. Należy ocenić każdy krok niezależnie pod kątem optymalizacji, ale pamiętaj, że wynik końcowy jest tym, co klienci doświadczają. Przed określeniem własnych kryteriów akceptacji dla każdego kroku upewnij się, że rozumiesz wszystkie kroki tego procesu.

Współpracownicy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Główni autorzy:

Raouf Aliouat | Inżynier oprogramowania II
Rob Bagby | Główny lider ds. treści w centrum architektury
Prabal Deb | Główny inżynier oprogramowania
Chad Kittel | Główny inżynier oprogramowania
Ritesh Modi | Główny inżynier
Ryan Pfalz | Starszy menedżer programu technicznego
Randy Thurman | Główny architekt rozwiązań w chmurze sztucznej inteligencji

Aby wyświetlić niepubalne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.

Następne kroki

Faza przygotowawcza

Udostępnij za pośrednictwem

Projektowanie i opracowywanie rozwiązania RAG

Architektura RAG

Przepływ aplikacji RAG

Przepływ danych RAG

Zagadnienia dotyczące projektowania i oceny RAG

Podejście ustrukturyzowane

Współpracownicy

Następne kroki

Opinia

Dodatkowe zasoby

Udostępnij za pośrednictwem

Projektowanie i opracowywanie rozwiązania RAG

Architektura RAG

Przepływ aplikacji RAG

Przepływ danych RAG

Zagadnienia dotyczące projektowania i oceny RAG

Podejście ustrukturyzowane

Współpracownicy

Następne kroki

Powiązane zasoby

Opinia

Dodatkowe zasoby