Porady dotyczące wzbogacania sztucznej inteligencji w usłudze Azure AI Search

Artykuł
09/02/2024

Ten artykuł zawiera wskazówki ułatwiające rozpoczęcie pracy ze wzbogacaniem sztucznej inteligencji i zestawami umiejętności używanymi podczas indeksowania.

Porada 1: Rozpocznij proste i rozpocznij małe

Zarówno kreator importu danych, jak i kreator importu i wektoryzacji danych w witrynie Azure Portal obsługują wzbogacanie sztucznej inteligencji. Bez pisania kodu można tworzyć i badać wszystkie obiekty używane w potoku wzbogacania: indeks, indeksator, źródło danych i zestaw umiejętności.

Innym sposobem rozpoczęcia po prostu jest utworzenie źródła danych z zaledwie kilkoma dokumentami lub wierszami w tabeli, które są reprezentatywne dla dokumentów, które będą indeksowane. Mały zestaw danych to najlepszy sposób na zwiększenie szybkości znajdowania i rozwiązywania problemów. Uruchom przykład za pośrednictwem kompleksowego potoku i sprawdź, czy wyniki spełniają Twoje potrzeby. Gdy wyniki będą zadowalające, możesz dodać więcej plików do źródła danych.

Porada 2: Zobacz, co działa, nawet jeśli występują pewne błędy

Czasami mała awaria zatrzymuje indeksator w swoich śladach. To dobrze, jeśli planujesz rozwiązać problemy jeden po drugim. Możesz jednak zignorować określony typ błędu, co umożliwi indeksatorowi kontynuowanie działania, aby zobaczyć, jakie przepływy działają.

Aby zignorować błędy podczas programowania, ustaw maxFailedItems parametr i maxFailedItemsPerBatch jako -1 w ramach definicji indeksatora.

{
  // rest of your indexer definition
   "parameters":
   {
      "maxFailedItems":-1,
      "maxFailedItemsPerBatch":-1
   }
}

Uwaga

Najlepszym rozwiązaniem jest ustawienie maxFailedItems wartości i maxFailedItemsPerBatch na 0 dla obciążeń produkcyjnych

Porada 3: Rozwiązywanie problemów przy użyciu sesji debugowania

Sesja debugowania to edytor wizualizacji , który pokazuje wykres zależności zestawu umiejętności, dane wejściowe i wyjściowe oraz definicje. Działa on przez załadowanie pojedynczego dokumentu z indeksu wyszukiwania z bieżącą konfiguracją indeksatora i zestawu umiejętności. Następnie możesz uruchomić cały zestaw umiejętności z zakresem pojedynczego dokumentu. W ramach sesji debugowania można identyfikować i usuwać błędy, weryfikować zmiany i zatwierdzać zmiany w nadrzędnym zestawie umiejętności. Aby zapoznać się z przewodnikiem, zobacz Samouczek: sesje debugowania.

Porada 4. Nie można wyświetlić oczekiwanej zawartości

Jeśli brakuje zawartości, sprawdź, czy w witrynie Azure Portal nie ma porzuconych dokumentów. Na stronie usługi wyszukiwania otwórz indeksatory i przyjrzyj się kolumnie Docs succeeded (Powodzenie witryny Docs). Kliknij, aby wyświetlić historię wykonywania indeksatora, aby przejrzeć określone błędy.

Jeśli problem jest związany z rozmiarem pliku, może zostać wyświetlony błąd podobny do następującego: "Nazwa pliku obiektu blob<" ma rozmiar <bajtów o rozmiarze> pliku, który przekracza maksymalny rozmiar wyodrębniania dokumentów dla bieżącej warstwy usługi.> Aby uzyskać więcej informacji na temat limitów indeksatora, zobacz Limity usługi.

Druga przyczyna niepowodzenia wyświetlania zawartości może być powiązanymi błędami mapowania danych wejściowych/wyjściowych. Na przykład nazwa docelowa danych wyjściowych to "People", ale nazwa pola indeksu to małe litery "people". System może zwrócić komunikaty o powodzeniu 201 dla całego potoku, aby sądzić, że indeksowanie zakończyło się pomyślnie, gdy w rzeczywistości pole jest puste.

Porada 5. Rozszerzanie przetwarzania poza maksymalny czas wykonywania

Analiza obrazów jest intensywnie obciążana obliczeniami nawet w prostych przypadkach, więc gdy obrazy są szczególnie duże lub złożone, czasy przetwarzania mogą przekraczać maksymalny dozwolony czas.

W przypadku indeksatorów, którzy mają zestawy umiejętności, wykonywanie zestawu umiejętności jest ograniczone do 2 godzin dla większości warstw. Jeśli przetwarzanie zestawu umiejętności nie powiedzie się w tym okresie, możesz umieścić indeksator w 2-godzinnym harmonogramie cyklicznym, aby indeksator odebrał przetwarzanie, w którym został przerwany.

Zaplanowane indeksowanie jest wznawiane w ostatnim znanym dobrym dokumencie. Zgodnie z cyklicznym harmonogramem indeksator może przechodzić przez listę prac obrazów w ciągu kilku godzin lub dni, dopóki nie zostaną przetworzone wszystkie nieprzetworzone obrazy. Aby uzyskać więcej informacji na temat składni harmonogramu, zobacz Planowanie indeksatora.

Uwaga

Jeśli indeksator jest ustawiony na określony harmonogram, ale wielokrotnie kończy się niepowodzeniem w tym samym dokumencie za każdym razem, gdy jest uruchamiany, indeksator rozpocznie działanie w krótszym interwale (maksymalnie co najmniej raz na 24 godziny), dopóki nie zostanie pomyślnie wykonane postęp ponownie. = Jeśli uważasz, że rozwiązano problem powodujący zablokowanie indeksatora w określonym momencie, możesz wykonać uruchomienie indeksatora na żądanie, a jeśli ten błąd zakończy się pomyślnie, indeksator powróci ponownie do ustawionego interwału harmonogramu.

Porada 6: Zwiększanie przepływności indeksowania

W przypadku indeksowania równoległego rozłóż dane do wielu kontenerów lub wielu folderów wirtualnych wewnątrz tego samego kontenera. Następnie utwórz wiele par źródła danych i indeksatora. Wszyscy indeksatorzy mogą używać tego samego zestawu umiejętności i zapisywać w tym samym indeksie wyszukiwania docelowego, więc aplikacja wyszukiwania nie musi być świadoma tego partycjonowania.

Udostępnij za pośrednictwem