Udostępnij za pośrednictwem


Kreatory importowania danych w witrynie Azure Portal

Usługa Azure AI Search ma dwóch kreatorów importu, które automatyzują indeksowanie i tworzenie obiektów, dzięki czemu można natychmiast rozpocząć wykonywanie zapytań. Jeśli dopiero zaczynasz korzystać z usługi Azure AI Search, te kreatory są jedną z najbardziej zaawansowanych funkcji. Przy minimalnym nakładzie pracy można utworzyć potok indeksowania lub wzbogacania, który wykonuje większość funkcji usługi Azure AI Search.

  • Kreator importu danych obsługuje przepływy pracy bez wektorów. Możesz wyodrębnić tekst alfanumeryczny z nieprzetworzonych dokumentów. Możesz również skonfigurować zastosowane sztuczną inteligencję i wbudowane umiejętności, które wywnioskowały strukturę i wygenerowały zawartość z możliwością przeszukiwania tekstu na podstawie plików obrazów i danych bez struktury.

  • Kreator importowania i wektoryzacji danych dodaje fragmentowanie i wektoryzacja. Musisz określić istniejące wdrożenie modelu osadzania, ale kreator nawiązuje połączenie, formułuje żądanie i obsługuje odpowiedź. Generuje zawartość wektorów na podstawie zawartości tekstu lub obrazu.

Jeśli używasz kreatora do testowania weryfikacji koncepcji, w tym artykule opisano wewnętrzne działania kreatorów, dzięki czemu można ich efektywniej używać.

Ten artykuł nie jest krok po kroku. Aby uzyskać pomoc dotyczącą korzystania z kreatora z przykładowymi danymi, zobacz:

Obsługiwane źródła danych i scenariusze

Kreatory obsługują większość źródeł danych obsługiwanych przez indeksatory.

Data Kreator importowania danych Kreator importowania i wektoryzacji danych
ADLS Gen2
Azure Blob Storage
Azure File Storage
Azure Table Storage
Usługa Azure SQL Database i wystąpienie zarządzane
Cosmos DB for NoSQL
Cosmos DB dla bazy danych MongoDB
Usługa Cosmos DB dla języka Apache Gremlin
MySQL
OneLake
SharePoint Online
Program SQL Server na maszynach wirtualnych

Przykładowe dane

Firma Microsoft hostuje przykładowe dane, dzięki czemu można pominąć krok konfiguracji źródła danych w przepływie pracy kreatora.

Przykładowe dane Kreator importowania danych Kreator importowania i wektoryzacji danych
hotele
nieruchomość

Umiejętności

W tej sekcji wymieniono umiejętności, które mogą pojawić się w zestawie umiejętności wygenerowanym przez kreatora. Kreatorzy generują mapowania pól umiejętności i zestawów umiejętności na podstawie wybranych opcji. Po utworzeniu zestawu umiejętności możesz zmodyfikować jego definicję JSON, aby dodać więcej umiejętności.

Oto kilka kwestii, które należy wziąć pod uwagę na temat umiejętności na poniższej liście:

  • Opcje analizy OCR i obrazów są dostępne dla obiektów blob w usłudze Azure Storage i plików w usłudze OneLake przy założeniu domyślnego trybu analizowania. Obrazy to typ zawartości obrazu (np. PNG lub JPG) lub obraz osadzony w pliku aplikacji (np. PDF).
  • Kształtnik jest dodawany w przypadku konfigurowania magazynu wiedzy.
  • Podział tekstu i scalanie tekstu są dodawane do fragmentowania danych w przypadku wybrania modelu osadzania. Są one dodawane dla innych umiejętności nie osadzanych, jeśli stopień szczegółowości pola źródłowego jest ustawiony na strony lub zdania.
Umiejętności Kreator importowania danych Kreator importowania i wektoryzacji danych
Multimodalne przetwarzanie obrazów sztucznej inteligencji
Osadzanie usługi Azure OpenAI
Katalog modeli usługi Azure Machine Learning (AI Studio)
Układ dokumentu
Rozpoznawanie jednostek
Analiza obrazu (dotyczy obiektów blob, domyślnego analizowania, indeksowania całego pliku
Wyodrębnianie słów kluczowych
Wykrywanie języka
Tłumaczenie tekstu
OCR (dotyczy obiektów blob, domyślne analizowania, indeksowania całego pliku)
Wykrywanie danych pii
Analiza opinii
Kształtnik (dotyczy magazynu wiedzy)
Podział tekstu
Scalanie tekstu

Magazyn wiedzy

Możesz wygenerować magazyn wiedzy dla pomocniczego magazynu wzbogaconej (wygenerowanej umiejętności) zawartości. Może być potrzebny magazyn wiedzy dla przepływów pracy pobierania informacji, które nie wymagają aparatu wyszukiwania.

Magazyn wiedzy Kreator importowania danych Kreator importowania i wektoryzacji danych
magazyn

Co tworzą kreatorzy

Kreatory importu tworzą obiekty opisane w poniższej tabeli. Po utworzeniu obiektów możesz przejrzeć ich definicje JSON w portalu lub wywołać je z kodu.

Aby wyświetlić te obiekty po uruchomieniu kreatora:

  1. Zaloguj się do witryny Azure Portal i znajdź usługę wyszukiwania.

  2. Wybierz pozycję Zarządzanie wyszukiwaniem w menu, aby znaleźć strony dla indeksów, indeksatorów, źródeł danych i zestawów umiejętności.

Obiekt opis
Indeksator Obiekt konfiguracji określający źródło danych, indeks docelowy, opcjonalny zestaw umiejętności, opcjonalny harmonogram i opcjonalne ustawienia konfiguracji służące do przekazywania błędów i kodowania base-64.
Źródło danych Utrwala informacje o połączeniu z obsługiwanym źródłem danych na platformie Azure. Obiekt źródła danych jest używany wyłącznie z indeksatorami.
Indeks Fizyczna struktura danych używana do wyszukiwania pełnotekstowego i innych zapytań.
Zestaw umiejętności Opcjonalny. Kompletny zestaw instrukcji dotyczących manipulowania, przekształcania i kształtowania zawartości, w tym analizowania i wyodrębniania informacji z plików obrazów. Zestawy umiejętności są również używane do zintegrowanej wektoryzacji. O ile ilość pracy nie mieści się w limicie 20 transakcji na indeksator dziennie, zestaw umiejętności musi zawierać odwołanie do zasobu wielousług usługi Azure AI, który zapewnia wzbogacanie. W przypadku zintegrowanej wektoryzacji można użyć usługi Azure AI Vision lub modelu osadzania w katalogu modeli usługi Azure AI Studio.
Magazyn wiedzy Opcjonalny. Dostępne tylko w kreatorze importu danych . Przechowuje wzbogacone dane wyjściowe zestawu umiejętności z tabel i obiektów blob w usłudze Azure Storage na potrzeby niezależnej analizy lub przetwarzania podrzędnego w scenariuszach bez wyszukiwania.

Świadczenia

Przed napisaniem jakiegokolwiek kodu można użyć kreatorów do tworzenia prototypów i testowania koncepcji weryfikacji koncepcji. Kreatory łączą się z zewnętrznymi źródłami danych, próbkują dane w celu utworzenia indeksu początkowego, a następnie importują i opcjonalnie wektoryzują dane jako dokumenty JSON do indeksu w usłudze Azure AI Search.

Jeśli oceniasz zestawy umiejętności, kreator obsługuje mapowania pól wyjściowych i dodaje funkcje pomocnicze do tworzenia obiektów do użycia. Podział tekstu jest dodawany, jeśli określisz tryb analizowania. Scalanie tekstu jest dodawane w przypadku wybrania analizy obrazów, aby kreator mógł ponownie połączyć opisy tekstu z zawartością obrazu. Umiejętności kształtatora są dodawane do obsługi prawidłowych projekcji, jeśli wybrano opcję magazynu wiedzy. Wszystkie powyższe zadania mają krzywą szkoleniową. Jeśli dopiero zaczynasz wzbogacać, możliwość obsługi tych kroków pozwala zmierzyć wartość umiejętności bez konieczności inwestowania dużo czasu i wysiłku.

Próbkowanie to proces, za pomocą którego schemat indeksu jest wnioskowany i ma pewne ograniczenia. Po utworzeniu źródła danych kreator wybiera losową próbkę dokumentów, aby zdecydować, które kolumny są częścią źródła danych. Nie wszystkie pliki są odczytywane, ponieważ potencjalnie może to potrwać wiele godzin w przypadku bardzo dużych źródeł danych. Biorąc pod uwagę wybór dokumentów, metadanych źródłowych, takich jak nazwa pola lub typ, służy do tworzenia kolekcji pól w schemacie indeksu. W zależności od złożoności danych źródłowych może być konieczne zmodyfikowanie początkowego schematu pod kątem dokładności lub rozszerzenie go pod kątem kompletności. Zmiany można wprowadzić w tekście na stronie definicji indeksu.

Ogólnie rzecz biorąc, zalety korzystania z kreatora są jasne: o ile wymagania są spełnione, można utworzyć indeks z możliwością wykonywania zapytań w ciągu kilku minut. Niektóre złożoności indeksowania, takie jak serializowanie danych jako dokumenty JSON, są obsługiwane przez kreatorów.

Ograniczenia

Kreatory importu nie mają ograniczeń. Ograniczenia są sumowane w następujący sposób:

  • Kreatory nie obsługują iteracji ani ponownego użycia. Każdy przepływ pracy kreatora tworzy nowy indeks, zestaw umiejętności i konfigurację indeksatora. Tylko źródła danych można utrwalać i używać ponownie w kreatorze. Aby edytować lub uściślić inne obiekty, usuń obiekty i zacznij od nowa albo użyj interfejsów API REST lub zestawu SDK platformy .NET, aby zmodyfikować struktury.

  • Zawartość źródłowa musi znajdować się w obsługiwanym źródle danych.

  • Próbkowanie znajduje się w podzestawie danych źródłowych. W przypadku dużych źródeł danych kreator może przegapić pola. Może być konieczne rozszerzenie schematu lub poprawienie wywnioskowanych typów danych, jeśli próbkowanie jest niewystarczające.

  • Wzbogacanie sztucznej inteligencji, jak pokazano w portalu, jest ograniczone do podzbioru wbudowanych umiejętności.

  • Magazyn wiedzy, który można utworzyć za pomocą Kreatora importu danych, jest ograniczony do kilku domyślnych projekcji i używa domyślnej konwencji nazewnictwa. Jeśli chcesz dostosować nazwy lub projekcje, musisz utworzyć magazyn wiedzy za pomocą interfejsu API REST lub zestawów SDK.

Bezpieczne połączenia

Kreatory importu tworzą połączenia wychodzące przy użyciu kontrolera portalu i publicznych punktów końcowych. Nie można używać kreatorów, jeśli zasoby platformy Azure są dostępne za pośrednictwem połączenia prywatnego lub za pośrednictwem udostępnionego łącza prywatnego.

Kreatorów można używać za pośrednictwem ograniczonych połączeń publicznych, ale nie wszystkie funkcje są dostępne.

  • W usłudze wyszukiwania importowanie wbudowanych przykładowych danych wymaga publicznego punktu końcowego i brak reguł zapory.

    Przykładowe dane są hostowane przez firmę Microsoft w określonych zasobach platformy Azure. Kontroler portalu łączy się z tymi zasobami za pośrednictwem publicznego punktu końcowego. Jeśli umieścisz usługę wyszukiwania za zaporą, ten błąd występuje podczas próby pobrania wbudowanych przykładowych danych: Import configuration failed, error creating Data Source, a następnie ."An error has occured."

  • W przypadku obsługiwanych źródeł danych platformy Azure chronionych przez zapory możesz pobrać dane, jeśli masz odpowiednie reguły zapory.

    Zasób platformy Azure musi przyznać żądania sieciowe z adresu IP urządzenia używanego w połączeniu. Należy również wyświetlić usługę Azure AI Search jako zaufaną usługę w konfiguracji sieci zasobu. Na przykład w usłudze Azure Storage możesz wyświetlić listę Microsoft.Search/searchServices jako zaufaną usługę.

  • W przypadku połączeń z udostępnianym przez Ciebie kontem wielousłciowym usługi Azure AI lub na połączeniach z modelami osadzania wdrożonych w usłudze Azure AI Studio lub Azure OpenAI publiczny dostęp do Internetu musi być włączony, chyba że usługa wyszukiwania spełnia wymagania dotyczące daty utworzenia, warstwy i regionu dla połączeń prywatnych. Aby uzyskać więcej informacji na temat tych wymagań, zobacz Make outbound connections through a shared private link (Tworzenie połączeń wychodzących za pośrednictwem udostępnionego łącza prywatnego).

    Połączenia z wieloma usługami sztucznej inteligencji platformy Azure służą do rozliczeń. Rozliczenia są wykonywane, gdy wywołania interfejsu API przekraczają liczbę bezpłatnych transakcji (20 na przebieg indeksatora) dla wbudowanych umiejętności wywoływanych przez kreatora importu danych lub zintegrowane wektoryzacji w kreatorze Importuj i wektoryzacji danych .

    Jeśli usługa Azure AI Search nie może nawiązać połączenia:

    • W kreatorze importowania i wektoryzacji danych błąd to "Access denied due to Virtual Network/Firewall rules."

    • W kreatorze importowania danych nie ma błędu, ale zestaw umiejętności nie zostanie utworzony.

Jeśli ustawienia zapory uniemożliwiają pomyślne działanie przepływów pracy kreatora, rozważ zamiast tego podejścia skryptowe lub programowe.

Przepływ pracy

Kreator jest podzielony na cztery główne kroki:

  1. Nawiązywanie połączenia z obsługiwanym źródłem danych platformy Azure.

  2. Utwórz schemat indeksu, wywnioskowany przez dane źródła próbkowania.

  3. Opcjonalnie dodaje umiejętności do wyodrębniania lub generowania zawartości i struktury. Dane wejściowe do tworzenia magazynu wiedzy są zbierane w tym kroku.

  4. Uruchom kreatora, aby utworzyć obiekty, opcjonalnie wektoryzować dane, załadować dane do indeksu, ustawić harmonogram i inne opcje konfiguracji.

Przepływ pracy jest potokiem, więc jest jednym ze sposobów. Nie można użyć kreatora do edytowania żadnych utworzonych obiektów, ale możesz użyć innych narzędzi portalu, takich jak indeks lub projektant indeksatora lub edytorów JSON, w celu uzyskania dozwolonych aktualizacji.

Uruchamianie kreatorów

Poniżej przedstawiono sposób uruchamiania kreatorów.

  1. W witrynie Azure Portal otwórz stronę usługi wyszukiwania z pulpitu nawigacyjnego lub znajdź swoją usługę na liście usług.

  2. Na stronie Przegląd usługi w górnej części wybierz pozycję Importuj dane lub Importuj i wektoryzuj dane.

    Zrzut ekranu przedstawiający opcje kreatora importu.

    Kreatory otwierają w pełni rozwinięte okno przeglądarki, aby mieć więcej miejsca do pracy.

  3. W przypadku wybrania opcji Importuj dane możesz wybrać opcję Przykłady , aby indeksować zestaw danych hostowany przez firmę Microsoft z obsługiwanego źródła danych.

    Zrzut ekranu przedstawiający stronę importowania danych z wybraną opcją przykłady.

  4. Wykonaj pozostałe kroki kreatora, aby utworzyć indeks i indeksator.

Możesz również uruchomić polecenie Importuj dane z innych usług platformy Azure, w tym usług Azure Cosmos DB, Azure SQL Database, SQL Managed Instance i Azure Blob Storage. Wyszukaj pozycję Dodaj usługę Azure AI Search w okienku nawigacji po lewej stronie na stronie przeglądu usługi.

Konfiguracja źródła danych w kreatorze

Kreatorzy łączą się z zewnętrznym obsługiwanym źródłem danych przy użyciu wewnętrznej logiki dostarczonej przez indeksatory usługi Azure AI Search, które są wyposażone w próbkowanie źródła, odczytywania metadanych, łamania dokumentów w celu odczytywania zawartości i struktury oraz serializowania zawartości jako kodu JSON w celu późniejszego zaimportowania do usługi Azure AI Search.

Możesz wkleić połączenie z obsługiwanym źródłem danych w innej subskrypcji lub regionie, ale selektor Wybierz istniejące połączenie ma zakres aktywnej subskrypcji.

Zrzut ekranu przedstawiający kartę Połącz z danymi.

Nie wszystkie źródła danych w wersji zapoznawczej mają gwarancję dostępności w kreatorze. Ponieważ każde źródło danych może wprowadzać inne zmiany podrzędne, źródło danych w wersji zapoznawczej zostanie dodane tylko do listy źródeł danych, jeśli w pełni obsługuje wszystkie środowiska kreatora, takie jak definicja zestawu umiejętności i wnioskowanie schematu indeksu.

Można importować tylko z jednej tabeli, widoku bazy danych lub równoważnej struktury danych, jednak struktura może zawierać hierarchiczne lub zagnieżdżone podstruktury. Aby uzyskać więcej informacji, zobacz How to model complex types (Jak modelować złożone typy).

Konfiguracja zestawu umiejętności w kreatorze

Konfiguracja zestawu umiejętności występuje po definicji źródła danych, ponieważ typ źródła danych informuje o dostępności określonych wbudowanych umiejętności. W szczególności, jeśli indeksujesz pliki z usługi Blob Storage, wybór trybu analizowania tych plików określa, czy analiza tonacji jest dostępna.

Kreator dodaje wybrane umiejętności. Dodaje również inne umiejętności, które są niezbędne do osiągnięcia pomyślnego wyniku. Jeśli na przykład określisz magazyn wiedzy, kreator doda umiejętności kształtowania do obsługi projekcji (lub struktur danych fizycznych).

Zestawy umiejętności są opcjonalne i w dolnej części strony znajduje się przycisk, który można pominąć, jeśli nie chcesz wzbogacania sztucznej inteligencji.

Konfiguracja schematu indeksu w kreatorze

Kreatorzy przykładowe źródło danych wykrywa pola i typ pola. W zależności od źródła danych może również oferować pola do indeksowania metadanych.

Ponieważ próbkowanie jest nieprecyzyjnym ćwiczeniem, zapoznaj się z indeksem, aby zapoznać się z następującymi zagadnieniami:

  1. Czy lista pól jest dokładna? Jeśli źródło danych zawiera pola, które nie zostały pobrane w próbkowaniu, możesz ręcznie dodać wszystkie nowe pola, które próbkowanie nie zostały pobrane, i usunąć wszystkie, które nie dodają wartości do środowiska wyszukiwania lub które nie będą używane w wyrażeniu filtru lub profilu oceniania.

  2. Czy typ danych jest odpowiedni dla danych przychodzących? Usługa Azure AI Search obsługuje typy danych modelu danych jednostki (EDM). W przypadku danych usługi Azure SQL istnieje wykres mapowania, który zawiera równoważne wartości. Aby uzyskać więcej informacji, zobacz Mapowania pól i przekształcenia.

  3. Czy masz jedno pole, które może służyć jako klucz? To pole musi być ciągiem Edm.string i musi jednoznacznie zidentyfikować dokument. W przypadku danych relacyjnych może zostać zamapowany na klucz podstawowy. W przypadku obiektów blob może to być .metadata-storage-path Jeśli wartości pól zawierają spacje lub kreski, należy ustawić opcję Klucz kodowania Base-64 w kroku Tworzenie indeksatora w obszarze Opcje zaawansowane, aby pominąć sprawdzanie poprawności tych znaków.

  4. Ustaw atrybuty, aby określić sposób użycia tego pola w indeksie.

    Pośmiń czas na wykonanie tego kroku, ponieważ atrybuty określają fizyczne wyrażenie pól w indeksie. Jeśli chcesz zmienić atrybuty później, nawet programowo, prawie zawsze musisz usunąć i ponownie skompilować indeks. Podstawowe atrybuty, takie jak Searchable i Retrievable, mają niewielki wpływ na magazyn. Włączanie filtrów i używanie sugestorów zwiększa wymagania dotyczące magazynu.

    • Funkcja wyszukiwania umożliwia wyszukiwanie pełnotekstowe. Każde pole używane w zapytaniach wolnych formularzy lub w wyrażeniach zapytań musi mieć ten atrybut. Odwrócone indeksy są tworzone dla każdego pola oznaczonego jako Wyszukiwanie.

    • Funkcja pobierania zwraca pole w wynikach wyszukiwania. Każde pole, które udostępnia zawartość do wyników wyszukiwania, musi mieć ten atrybut. Ustawienie tego pola nie ma znacznie wpływu na rozmiar indeksu.

    • Filtrowalne umożliwia odwołowanie się do pola w wyrażeniach filtru. Każde pole używane w wyrażeniu $filter musi mieć ten atrybut. Wyrażenia filtru są przeznaczone dla dokładnych dopasowań. Ponieważ ciągi tekstowe pozostają nienaruszone, do obsługi zawartości dosłownej jest wymagana większa ilość miejsca do magazynowania.

    • Funkcja facetable umożliwia korzystanie z pola nawigacji aspektowej. Jako możliwe do filtrowania można oznaczyć tylko pola jako możliwe do filtrowania.

    • Możliwość sortowania umożliwia użycie pola w sortowaniu. Każde pole używane w wyrażeniu $Orderby musi mieć ten atrybut.

  5. Czy potrzebujesz analizy leksykalnej? W przypadku pól Edm.string, które można wyszukiwać, możesz ustawić analizator, jeśli chcesz indeksować i wykonywać zapytania w języku.

    Wartość domyślna to Standard Lucene , ale możesz wybrać język angielski firmy Microsoft, jeśli chcesz użyć analizatora firmy Microsoft do zaawansowanego przetwarzania leksyktycznego, takiego jak rozpoznawanie nieregularnych form rzeczowników i czasowników. W portalu można określić tylko analizatory języków. Jeśli używasz analizatora niestandardowego lub analizatora niejęzycznego, takiego jak słowo kluczowe, wzorzec itd., musisz utworzyć go programowo. Aby uzyskać więcej informacji na temat analizatorów, zobacz Dodawanie analizatorów języka.

  6. Czy potrzebujesz funkcji typeahead w postaci autouzupełniania lub sugerowanych wyników? Zaznacz pole wyboru Sugestor, aby włączyć sugestie dotyczące zapytań typowych i autouzupełnianie w wybranych polach. Sugestory dodają do indeksu liczbę tokenizowanych terminów, a tym samym zużywają więcej miejsca do magazynowania.

Konfiguracja indeksatora w kreatorze

Ostatnia strona kreatora zbiera dane wejściowe użytkownika dla konfiguracji indeksatora. Możesz określić harmonogram i ustawić inne opcje, które będą się różnić w zależności od typu źródła danych.

Wewnętrznie kreator konfiguruje również następujące definicje, które nie są widoczne w indeksatorze do momentu jego utworzenia:

Wypróbuj kreatory

Najlepszym sposobem zrozumienia korzyści i ograniczeń kreatora jest przejście przez niego. Poniżej przedstawiono kilka przewodników Szybki start opartych na kreatorze.