Omówienie wstępnie utworzonych modeli

3 min

Wstępnie utworzone modele w usłudze Azure AI Document Intelligence umożliwiają wyodrębnianie danych z typowych formularzy i dokumentów bez trenowania własnych modeli.

W firmie sondowania formularze sondowania są unikatowe dla każdego projektu ankiety, ale używasz również faktur i paragonów do rejestrowania transakcji finansowych i wielu dokumentów bez struktury. Chcesz wiedzieć, ile pracy jest wymagane do wyodrębnienia nazw, adresów, kwot i innych informacji z tych dokumentów.

W tym miejscu dowiesz się, jak wstępnie utworzone modele mogą ułatwić analizowanie typowych typów dokumentów.

Co to są wstępnie utworzone modele?

Ogólne podejście stosowane w rozwiązaniach sztucznej inteligencji polega na dostarczaniu dużej ilości przykładowych danych, a następnie trenowaniu zoptymalizowanego modelu przez wypróbowanie różnych funkcji danych, parametrów i metod statystycznych. Kombinacja, która najlepiej przewiduje wartości, które cię interesują, stanowi wytrenowany model, i można jej użyć do przewidywania wartości z nowych danych.

Wiele form, z których firmy korzystają od dnia do dnia, to kilka typowych typów. Na przykład większość firm wystawia lub odbiera faktury i paragony. Każda firma, która ma pracowników w Stany Zjednoczone musi korzystać z formularza deklaracji podatkowej W-2. Ponadto często masz bardziej ogólne dokumenty, z których można wyodrębnić dane. W takich przypadkach firma Microsoft pomogła w dostarczaniu wstępnie utworzonych modeli. Wstępnie utworzone modele są już trenowane na dużej liczbie typów formularzy docelowych.

Jeśli chcesz użyć analizy dokumentów do wyodrębnienia danych z jednego z tych typowych formularzy lub dokumentów, możesz użyć wstępnie utworzonego modelu i nie musisz trenować własnych. Ponieważ firma Microsoft wytrenowała te modele na dużych korpusach przykładów, można oczekiwać, że będą one zapewniać dokładne i niezawodne wyniki podczas pracy z ich zamierzonymi formami.

Kilka wstępnie utworzonych modeli jest wytrenowanych na określonych typach formularzy:

Model faktury. Wyodrębnia typowe pola i ich wartości z faktur.
Model paragonu. Wyodrębnia typowe pola i ich wartości z paragonów.
Amerykański model podatkowy. Ujednolicony amerykański model podatkowy, który może wyodrębnić z formularzy, takich jak W-2, 1098, 1099 i 1040.
Model dokumentu identyfikatora. Wyodrębnia wspólne pola i ich wartości z licencji kierowców USA, identyfikatorów Unii Europejskiej i licencji kierowców oraz paszportów międzynarodowych.
Model wizytówek. Wyodrębnia typowe pola i ich wartości z wizytówek.
Model kart ubezpieczenia zdrowotnego. Wyodrębnia typowe pola i ich wartości z kart ubezpieczenia zdrowotnego.
Akt małżeństwa. Wyodrębnia informacje z akt małżeństwa.
Model karty kredytowej/debetowej. Wyodrębnia typowe informacje z kart bankowych.
Dokumenty hipoteczne. Wyodrębnia informacje z ujawnienia zamknięcia kredytów hipotecznych, Jednolity Wniosek o pożyczkę mieszkaniową (formularz 1003), Ocena (formularz 1004), Weryfikacja zatrudnienia (formularz 1005) oraz jednolity zapis i podsumowanie przekazów (formularz 1008).
Model zestawienia bankowego. Wyodrębnia informacje o koncie, w tym początkowe i końcowe salda, szczegóły transakcji z wyciągów bankowych.
Model płatności za wycinkę. Wyodrębnia płace, godziny, odliczenia, wynagrodzenie netto i inne typowe pola wycinków płac.
Sprawdź model. Wyodrębnia płatność, kwotę, datę i inne istotne informacje z kontroli.

Inne modele są przeznaczone do wyodrębniania wartości z dokumentów z mniej specyficznymi strukturami:

Odczyt modelu. Wyodrębnia tekst i języki z dokumentów.
Ogólny model dokumentu. Wyodrębnij tekst, klucze, wartości, jednostki i znaczniki wyboru z dokumentów.
Model układu. Wyodrębnia informacje o tekście i strukturze z dokumentów.

Funkcje wstępnie utworzonych modeli

Wstępnie utworzone modele są przeznaczone do wyodrębniania różnych typów danych z dokumentów i formularzy przesyłanych przez użytkowników. Aby wybrać odpowiedni model dla swoich wymagań, musisz poznać następujące funkcje:

Wyodrębnianie tekstu. Wszystkie wstępnie utworzone modele wyodrębniają wiersze tekstu i wyrazów z tekstu ręcznie napisanego i drukowanego.
Pary klucz-wartość. Zakresy tekstu w dokumencie, które identyfikują etykietę lub klucz, a jego odpowiedź lub wartość są wyodrębniane przez wiele modeli jako pary klucz-wartości. Na przykład typowy klucz może mieć wartość Waga , a jego wartość może wynosić 31 kg.
Podmioty. Tekst zawierający typowe, bardziej złożone struktury danych można wyodrębnić jako jednostki. Typy jednostek obejmują osoby, lokalizacje i daty.
Znaczniki zaznaczenia. Zakresy tekstu, które wskazują wybór, mogą być wyodrębniane przez niektóre modele jako znaczniki wyboru. Te znaczniki obejmują przyciski radiowe i pola wyboru.
Tabele. Wiele modeli może wyodrębniać tabele w zeskanowanych formularzach zawierające dane zawarte w komórkach, liczby kolumn i wierszy oraz nagłówki kolumn i wierszy. Tabele ze scalanymi komórkami są obsługiwane.
Pola. Modele trenowane dla określonego typu formularza identyfikują wartości stałego zestawu pól. Na przykład model faktury zawiera pola CustomerName i InvoiceTotal .

Należy również wziąć pod uwagę, że wstępnie utworzone modele zostały zaprojektowane pod kątem ogólnych typów dokumentów i formularzy oraz ich trenowania. Jeśli często używasz typu formularza specyficznego dla branży lub unikatowego, możesz uzyskać bardziej niezawodne i przewidywalne wyniki przy użyciu modelu niestandardowego. Jednak tworzenie modeli niestandardowych zajmuje trochę czasu, ponieważ należy zainwestować czas i zasoby, aby wytrenować je na przykładowych formularzach, zanim będzie można z niego korzystać. Większa liczba przykładowych formularzy, które udostępniasz na potrzeby trenowania, tym lepiej model będzie dokładnie znajdować się w zawartości formularza przewidywania.

Wymagania dotyczące danych wejściowych

Wstępnie utworzone modele są bardzo elastyczne, ale można im pomóc w zwracaniu dokładnych i przydatnych wyników, przesyłając jedno jasne zdjęcie lub wysokiej jakości skanowanie dla każdego dokumentu.

Należy również spełnić te wymagania podczas przesyłania formularza do analizy:

Plik musi być w formacie JPEG, PNG, BMP, TIFF lub PDF. Ponadto model odczytu może akceptować pliki pakietu Microsoft Office.
Plik musi być mniejszy niż 500 MB dla warstwy Standardowa i 4 MB dla warstwy Bezpłatna.
Obrazy muszą mieć wymiary z zakresu od 50 x 50 pikseli do 10 000 x 10 000 pikseli.
Dokumenty PDF muszą mieć wymiary mniejsze niż 17 x 17 cali lub rozmiar papieru A3.
Dokumenty PDF nie mogą być chronione hasłem.

Uwaga

Jeśli to możliwe, prześlij pliki PDF osadzone tekstowo, ponieważ eliminują one błędy w rozpoznawaniu znaków.

Pliki PDF i TIFF mogą zawierać dowolną liczbę stron, ale w warstwie Standardowa analizowane są tylko pierwsze 2000 stron. W warstwie Bezpłatna analizowane są tylko dwie pierwsze strony.

Wypróbuj wstępnie utworzone modele za pomocą narzędzia Azure AI Document Intelligence Studio

Usługa Azure AI Document Intelligence została zaprojektowana jako usługa internetowa, którą można wywołać przy użyciu kodu w aplikacjach niestandardowych. Jednak często pomocne jest zapoznanie się z modelami i ich zachowaniem w wizualizacji formularzy. Możesz wykonywać takie eksperymenty przy użyciu narzędzia Azure AI Document Intelligence Studio i korzystać z tego środowiska, aby ułatwić projektowanie i pisanie kodu.

Możesz wybrać dowolne wstępnie utworzone modele w narzędziu Azure AI Document Intelligence Studio. Firma Microsoft udostępnia kilka przykładowych dokumentów do użycia z każdym modelem lub możesz dodawać własne dokumenty i analizować je.

Wywoływanie wstępnie utworzonych modeli przy użyciu interfejsów API

Ponieważ usługa Azure AI Document Intelligence implementuje usługi internetowe RESTful, można używać wywołań usług internetowych z dowolnego języka, który je obsługuje. Jednak w przypadku korzystania z interfejsów API analizy dokumentów sztucznej inteligencji platformy Azure firmy Microsoft zarządzanie zabezpieczeniami i sesjami jest uproszczone i trzeba napisać mniej kodu.

Interfejsy API są dostępne dla:

Języki C# i inne języki platformy .NET.
Jawa.
Python.
JavaScript.

Za każdym razem, gdy chcesz wywołać usługę Azure AI Document Intelligence, musisz zacząć od nawiązania połączenia i uwierzytelnienia z usługą w ramach subskrypcji platformy Azure. Aby nawiązać to połączenie, potrzebne są następujące elementy:

Punkt końcowy usługi. Ta wartość to adres URL, pod którym jest publikowana usługa.
Klucz interfejsu API. Ta wartość jest unikatowym kluczem, który udziela dostępu.

Obie te wartości można uzyskać w witrynie Azure Portal.

Ponieważ odpowiadanie przez usługę może potrwać kilka sekund, najlepiej użyć wywołań asynchronicznych w celu przesłania formularza, a następnie uzyskać wyniki z analizy:

AnalyzeDocumentOperation operation = await client.AnalyzeDocumentFromUriAsync(WaitUntil.Completed, "prebuilt-layout", fileUri);

AnalyzeResult result = operation.Value;

poller = document_analysis_client.begin_analyze_document(
        "prebuilt-layout", AnalyzeDocumentRequest(url_source=docUrl
    ))
result: AnalyzeResult = poller.result()

Szczegóły, które można wyodrębnić z tych wyników, zależą od użytego modelu.