Modele dokumentów podatkowych analizy dokumentów amerykańskich
Ta zawartość dotyczy: v4.0 (GA) | Poprzednie wersje: v3.1 (GA) :::moniker-end
Ta zawartość dotyczy: wersja 3.1 (GA) | Najnowsza wersja: wersja 4.0 (GA)
Model podatkowy analizy dokumentów wykorzystuje zaawansowane funkcje optycznego rozpoznawania znaków (OCR) do analizowania i wyodrębniania kluczowych pól i elementów liniowych z wybranej grupy dokumentów podatkowych. Dokumenty podatkowe mogą mieć różne formaty, takie jak 1099, 1098, W2, 1040, 1095A, 1095C, W-4, 1099-SSA. Format wejściowy może obejmować obrazy przechwycone przez telefon, zeskanowane dokumenty i cyfrowe pliki PDF. Interfejs API analizuje tekst dokumentu; Wyodrębnia kluczowe informacje i zwraca ustrukturyzowaną reprezentację danych JSON. Model obsługuje obecnie niektóre angielskie formaty dokumentów podatkowych.
Obsługiwane typy formularzy podatkowych:
- Ujednolicony podatek USA
- W-2
- 1098
- 1098-E
- 1098-T
- 1099 i odmiany (dodano 1099-SSA)
- 1040 i odmiany
- 1095A, 1095C
- W-4
Automatyczne przetwarzanie dokumentów podatkowych
Zautomatyzowane przetwarzanie dokumentów podatkowych to proces wyodrębniania pól kluczy z dokumentów podatkowych. W przeszłości dokumenty podatkowe były przetwarzane ręcznie. Ten model umożliwia łatwą automatyzację scenariuszy podatkowych.
Ujednolicony podatek USA
Wstępnie Unified US Tax
utworzony model automatycznie wykrywa i wyodrębnia dane z W2
formularzy , 1098
, 1040
i 1099
podatkowych w przesłanych dokumentach. Dokumenty te mogą składać się z wielu dokumentów podatkowych lub niezwiązanych z opodatkowaniem. Model przetwarza tylko obsługiwane formularze.
Opcje programowania
Analiza dokumentów w wersji 4.0: 2024-11-30 (GA) obsługuje następujące narzędzia, aplikacje i biblioteki:
Funkcja | Zasoby | Model ID |
---|---|---|
Modele formularzy podatkowych w USA | • Document Intelligence Studio • REST API • C# SDK • Python SDK• Java SDK • JavaScript SDK |
• prebuilt-tax.us • wstępnie utworzony podatek.us.W-2 • wstępnie utworzony podatek.us.W-4 • wstępnie utworzony podatek.us.1095A • wstępnie utworzony podatek.us.1095C • wstępnie utworzony podatek.us.1098• wstępnie utworzony podatek.us.1098E • wstępnie utworzony podatek.us.1098T • wstępnie utworzony podatek.us.1099A • wstępnie utworzony podatek.us.1099B • wstępnie utworzony podatek.us.1099C • wstępnie utworzony podatek.us.1099CAP • wstępnie utworzony podatek.us.1099Combo • wstępnie utworzony podatek.us.1099DIV • wstępnie utworzony podatek.us.1099G • wstępnie utworzony podatek.us.1099H • prebuilt-tax.us.1099INT• prebuilt-tax.us.1099K• prebuilt-tax.us.1099LS • prebuilt-tax.us.1099LTC • wstępnie utworzony podatek.us.1099MISC • wstępnie utworzony podatek.us.1099NEC • wstępnie utworzony podatek.us.1099OID • wstępnie utworzony podatek.us.1099PATR • wstępnie utworzony podatek.us.1099Q • wstępnie utworzony podatek.us.1099QA • wstępnie utworzony podatek.us.1099R • wstępnie utworzony podatek.us.1099SA • wstępnie utworzony podatek.us.1099SA • wstępnie utworzony podatek.us.1099SA • prebuilt-tax.us.1040• prebuilt-tax.us.1040Schedule1 • wstępnie utworzony podatek.us.1040Schedule2 • wstępnie utworzony podatek.us.1040Schedule3 • wstępnie utworzony podatek.us.1040Schedule8812 • wstępnie utworzony podatek.us.1040ScheduleA • wstępnie utworzony-tax.us.1040ScheduleB • prebuilt-tax.us.1040ScheduleC • prebuilt-tax.us.1040ScheduleD • prebuilt-tax.us.1040ScheduleE• prebuilt-tax.us.1040ScheduleEIC • prebuilt-tax.us.1040ScheduleF • prebuilt-tax.us.1040ScheduleH • prebuilt-tax.us.1040ScheduleJ • prebuilt-tax.us.1040ScheduleR • prebuilt-tax.us.1040ScheduleSE • wstępnie utworzony podatek.us.1040Senior |
Narzędzie Document Intelligence w wersji 3.1 obsługuje następujące narzędzia, aplikacje i biblioteki:
Funkcja | Zasoby | Model ID |
---|---|---|
Modele formularzy podatkowych w USA | • Document Intelligence Studio • REST API • C# SDK • Python SDK• Java SDK • JavaScript SDK |
• wstępnie utworzony podatek.us.W-2 • wstępnie utworzony podatek.us.1098 • wstępnie utworzony podatek.us.1098E • wstępnie utworzony podatek.us.1098T |
Narzędzie Document Intelligence w wersji 3.0 obsługuje następujące narzędzia, aplikacje i biblioteki:
Funkcja | Zasoby | Model ID |
---|---|---|
Modele formularzy podatkowych w USA | • Document Intelligence Studio • REST API • C# SDK • Python SDK• Java SDK • JavaScript SDK |
• wstępnie utworzony podatek.us.W-2 • wstępnie utworzony podatek.us.1098 • wstępnie utworzony podatek.us.1098E • wstępnie utworzony podatek.us.1098T |
Wymagania dotyczące danych wejściowych
Obsługiwane formaty plików:
Model PDF Obraz: JPEG/JPG
, ,BMP
PNG
, ,TIFF
HEIF
Microsoft Office:
Word (), Excel (XLSX
DOCX
), PowerPoint (PPTX
), HTMLPrzeczytaj ✔ ✔ ✔ Układ ✔ ✔ ✔ Dokument ogólny ✔ ✔ Wstępnie utworzona ✔ ✔ Niestandardowe wyodrębnianie ✔ ✔ Klasyfikacja niestandardowa ✔ ✔ ✔ Aby uzyskać najlepsze wyniki, podaj jedno jasne zdjęcie lub wysokiej jakości skanowanie na dokument.
W przypadku plików PDF i TIFF można przetworzyć maksymalnie 2000 stron (w przypadku subskrypcji warstwy Bezpłatna przetwarzane są tylko pierwsze dwie strony).
Rozmiar pliku do analizowania dokumentów wynosi 500 MB dla warstwy płatnej (S0) i
4
MB za bezpłatną (F0).Wymiary obrazu muszą mieć od 50 pikseli x 50 pikseli do 10 000 pikseli x 10 000 pikseli.
Jeśli pliki PDF są zablokowane hasłem, przed ich przesłaniem usuń blokadę.
Minimalna wysokość tekstu do wyodrębnienia to 12 pikseli dla obrazu o rozmiarze 1024 x 768 pikseli. Ten wymiar odpowiada tekstowi
8
punktowemu na 150 kropek na cal (DPI).W przypadku trenowania modelu niestandardowego maksymalna liczba stron dla danych szkoleniowych wynosi 500 dla niestandardowego modelu szablonu i 50 000 dla niestandardowego modelu neuronowego.
W przypadku trenowania niestandardowego modelu wyodrębniania łączny rozmiar danych treningowych wynosi 50 MB dla modelu szablonu i
1
GB dla modelu neuronowego.W przypadku trenowania niestandardowego modelu klasyfikacji całkowity rozmiar danych treningowych wynosi
1
GB z maksymalnie 10 000 stron. W przypadku wersji 2024-11-30 (GA) całkowity rozmiar danych treningowych wynosi2
GB z maksymalnie 10 000 stron.
Wypróbowanie wyodrębniania danych dokumentu podatkowego
Zobacz, jak dane, w tym informacje o kliencie, szczegóły dostawcy i elementy wiersza, są wyodrębniane z faktur. Potrzebne są następujące zasoby:
Subskrypcja platformy Azure — możesz utworzyć jedną bezpłatnie.
Wystąpienie analizy dokumentów w witrynie Azure Portal. Aby wypróbować usługę, możesz użyć bezpłatnej warstwy cenowej (
F0
). Po wdrożeniu zasobu wybierz pozycję Przejdź do zasobu , aby uzyskać klucz i punkt końcowy.
Document Intelligence Studio
Na stronie głównej Usługi Document Intelligence Studio wybierz obsługiwany model dokumentów podatkowych.
Możesz przeanalizować przykładowy dokument podatkowy lub przekazać własne pliki.
Wybierz przycisk Run analysis (Uruchom analizę), a w razie potrzeby skonfiguruj opcje Analizuj:
Obsługiwane języki i ustawienia regionalne
Zobacz naszą stronę Obsługa języków — wstępnie utworzone modele , aby uzyskać pełną listę obsługiwanych języków.
Wyodrębnianie pól
Aby uzyskać informacje o obsługiwanych polach wyodrębniania dokumentów, zobacz strony schematu modelu dokumentów podatkowych w naszym przykładowym repozytorium GitHub.
Pary klucz-wartość dokumentów podatkowych i wyodrębnione elementy wiersza znajdują się w documentResults
sekcji danych wyjściowych JSON.
Następne kroki
Spróbuj przetwarzać własne formularze i dokumenty za pomocą programu Document Intelligence Studio.
Ukończ przewodnik Szybki start dotyczący analizy dokumentów i rozpocznij tworzenie aplikacji do przetwarzania dokumentów w wybranym języku programowania.