Używanie klasyfikatorów przyrostowych analizy dokumentów
Ta zawartość dotyczy: wersja 4.0 (ogólna dostępność)
Azure AI Document Intelligence to oparta na chmurze usługa Azure AI, która umożliwia tworzenie inteligentnych rozwiązań do przetwarzania dokumentów. Interfejsy API analizy dokumentów analizują obrazy, pliki PDF i inne pliki dokumentów, aby wyodrębniać i wykrywać różne elementy zawartości, układu, stylu i semantyki.
Niestandardowe modele klasyfikacji analizy dokumentów to typy modeli uczenia głębokiego, które łączą funkcje układu i języka w celu dokładnego wykrywania i identyfikowania dokumentów przetwarzanych w aplikacjach. Niestandardowe modele klasyfikacji wykonują klasyfikację plików wejściowych na jednej stronie, aby zidentyfikować dokumenty w obrębie programu , a także zidentyfikować wiele dokumentów lub wiele wystąpień pojedynczego dokumentu w pliku wejściowym.
Klasyfikatory dokumentów analizy dokumentów identyfikują znane typy dokumentów w plikach. Podczas przetwarzania pliku wejściowego z wieloma typami dokumentów lub gdy nie znasz typu dokumentu, użyj klasyfikatora, aby zidentyfikować dokument. Klasyfikatory powinny być okresowo aktualizowane za każdym razem, gdy wystąpią następujące zmiany:
- Dodasz nowe szablony dla istniejącej klasy.
- Do rozpoznawania są dodawane nowe typy dokumentów.
- Pewność klasyfikatora jest niska.
W niektórych scenariuszach nie można już mieć oryginalnego zestawu dokumentów używanych do trenowania klasyfikatora. Dzięki trenowaniu przyrostowe można zaktualizować klasyfikator przy użyciu tylko nowych przykładów z etykietami.
Uwaga
Trenowanie przyrostowe dotyczy tylko modeli klasyfikatora dokumentów, a nie modeli niestandardowych.
Trenowanie przyrostowe jest przydatne, gdy chcesz poprawić jakość niestandardowego klasyfikatora. Dodanie nowych przykładów szkoleniowych dla istniejących klas zwiększa pewność modelu dla istniejących typów dokumentów. Jeśli na przykład zostanie dodana nowa wersja istniejącego formularza lub jest nowy typ dokumentu. Przykładem może być rozpoczęcie obsługi nowego typu dokumentu przez aplikację jako prawidłowe dane wejściowe.
Wprowadzenie do trenowania przyrostowego
Trenowanie przyrostowe nie wprowadza żadnych nowych punktów końcowych interfejsu API.
documentClassifiers:build
Ładunek żądania jest modyfikowany w celu obsługi trenowania przyrostowego.Trenowanie przyrostowe powoduje utworzenie nowego modelu klasyfikatora z istniejącym klasyfikatorem bez zmian.
Nowy klasyfikator zawiera wszystkie przykłady i typy dokumentów starego klasyfikatora wraz z nowo podanymi przykładami. Musisz upewnić się, że aplikacja jest aktualizowana do pracy z nowo wytrenowanym klasyfikatorem.
Uwaga
Operacja kopiowania dla klasyfikatorów jest obecnie niedostępna.
Tworzenie żądania kompilacji klasyfikatora przyrostowego
Żądanie kompilacji klasyfikatora przyrostowego jest podobne do classify document
żądania kompilacji, ale zawiera nową baseClassifierId
właściwość. Właściwość baseClassifierId
jest ustawiona na istniejący klasyfikator, który chcesz rozszerzyć. Należy również podać docTypes
dla różnych typów dokumentów w zestawie przykładów. Podając element docType
, który istnieje w klasyfikatorze baseClassifier, próbki podane w żądaniu są dodawane do próbek podanych podczas trenowania klasyfikatora podstawowego. Nowe docType
wartości dodane w trenowaniu przyrostowym są dodawane tylko do nowego klasyfikatora. Proces określania próbek pozostaje niezmieniony. Aby uzyskać więcej informacji, zobacz Trenowanie modelu klasyfikatora.
Przykładowe żądanie POST
Przykładowe POST
żądanie utworzenia klasyfikatora dokumentów przyrostowych
POST
{your-endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview
{
"classifierId": "myAdaptedClassifier",
"description": "Classifier description",
"baseClassifierId": "myOriginalClassifier",
"docTypes": {
"formA": {
"azureBlobSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
"prefix": "formADocs/"
}
},
"formB": {
"azureBlobFileListSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
"fileList": "formB.jsonl"
}
}
}
}
Odpowiedź POST
Wszystkie interfejsy API analizy dokumentów są asynchroniczne, sondowanie zwróconej lokalizacji operacji zapewnia stan operacji kompilacji. Klasyfikatory są szybkie do trenowania, a klasyfikator może być gotowy do użycia w ciągu minuty lub dwóch.
Po pomyślnym zakończeniu:
- Metoda pomyślna
POST
202 OK
zwraca kod odpowiedzi wskazujący, że usługa utworzyła żądanie. - Przetłumaczone dokumenty znajdują się w kontenerze docelowym.
- Żądanie
POST
zwraca również nagłówki odpowiedzi, w tymOperation-Location
. Wartość tego nagłówka zawieraresultId
element, którego można wysłać do zapytania, aby uzyskać stan operacji asynchronicznej i pobrać wyniki przy użyciuGET
żądania z tym samym kluczem subskrypcji zasobu.
Przykładowe żądanie GET
Przykładowe GET
żądanie pobrania wyniku klasyfikatora dokumentów przyrostowych
GET
{your-endpoint}/documentintelligence/documentClassifiers/{classifierId}/analyzeResults/{resultId}?api-version=2024-02-29-preview
{
"classifierId": "myAdaptedClassifier",
"description": "Classifier description",
"createdDateTime": "2022-07-30T00:00:00Z",
"expirationDateTime": "2023-01-01T00:00:00Z",
"apiVersion": "2024-02-29-preview",
"baseClassifierId": "myOriginalClassifier",
"docTypes": {
"formA": {
"azureBlobSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
"prefix": "formADocs/"
}
},
"formB": {
"azureBlobFileListSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
"fileList": "formB.jsonl"
}
}
}
}
Odpowiedź GET
GET
Odpowiedź od klasyfikatora wytrenowanego przyrostowo różni się od standardowej odpowiedzi klasyfikatoraGET
. Klasyfikator trenowany przyrostowo nie zwraca wszystkich obsługiwanych typów dokumentów. Zwraca on typy dokumentów dodane lub zaktualizowane w kroku trenowania przyrostowego i rozszerzonego klasyfikatora podstawowego. Aby uzyskać pełną listę typów dokumentów, należy wyświetlić klasyfikator podstawowy. Usunięcie klasyfikatora podstawowego nie ma wpływu na użycie klasyfikatora wytrenowanego przyrostowo.
Limity
Trenowanie przyrostowe działa tylko wtedy, gdy klasyfikator podstawowy i przyrostowo wytrenowany klasyfikator są trenowane w tej samej wersji interfejsu API. W związku z tym klasyfikator wytrenowany przyrostowo ma ten sam cykl życia modelu co klasyfikator podstawowy.
Limity rozmiaru zestawu danych trenowania dla klasyfikatora przyrostowego są takie same jak w przypadku innego modelu klasyfikatora. Zobacz Limity usług, aby uzyskać pełną listę odpowiednich limitów.
Następne kroki
- Dowiedz się więcej o klasyfikacji dokumentów