Azure AI Vision

Ukończone

Chociaż można trenować własne modele uczenia maszynowego na potrzeby przetwarzania obrazów, architektura modeli przetwarzania obrazów może być złożona; wymagane są znaczne ilości obrazów szkoleniowych i mocy obliczeniowej w celu przeprowadzenia procesu trenowania.

Usługa Azure AI Vision firmy Microsoft udostępnia wstępnie utworzone i dostosowywalne modele przetwarzania obrazów oparte na modelu fundacji Florencji i zapewniają różne zaawansowane możliwości. Usługa Azure AI Vision umożliwia szybkie i łatwe tworzenie zaawansowanych rozwiązań do przetwarzania obrazów; korzystanie z funkcji "off-the-shelf" dla wielu typowych scenariuszy przetwarzania obrazów, zachowując jednocześnie możliwość tworzenia niestandardowych modeli przy użyciu własnych obrazów.

Zasoby platformy Azure dla usługi Azure AI Vision

Aby użyć usługi Azure AI Vision, musisz utworzyć zasób dla niego w ramach subskrypcji platformy Azure. Można użyć jednego z dwóch następujących typów zasobów:

  • Azure AI Vision: określony zasób dla usługi Azure AI Vision. Użyj tego typu zasobu, jeśli nie zamierzasz używać żadnych innych usług azure AI lub jeśli chcesz oddzielnie śledzić użycie i koszty zasobu usługi Azure AI Vision.
  • Usługi Azure AI: ogólny zasób obejmujący usługę Azure AI Vision wraz z wieloma innymi usługami azure AI, takimi jak Azure AI Language, Azure AI Custom Vision, Azure AI Translator i inne. Użyj tego typu zasobu, jeśli planujesz używać wielu usług sztucznej inteligencji i chcesz uprościć administrowanie i programowanie.

Analizowanie obrazów za pomocą usługi Azure AI Vision

Po utworzeniu odpowiedniego zasobu w ramach subskrypcji możesz przesłać obrazy do usługi Azure AI Vision, aby wykonać szeroką gamę zadań analitycznych.

Usługa Azure AI Vision obsługuje wiele możliwości analizy obrazów, w tym:

  • Optyczne rozpoznawanie znaków (OCR) — wyodrębnianie tekstu z obrazów.
  • Generowanie podpis i opisów obrazów.
  • Wykrywanie tysięcy typowych obiektów na obrazach.
  • Tagowanie funkcji wizualizacji na obrazach

Te zadania i inne zadania można wykonywać w usłudze Azure AI Vision Studio.

Screenshot of Vision Studio.

Optyczne rozpoznawanie znaków

Usługa Azure AI Vision może używać funkcji optycznego rozpoznawania znaków (OCR) do wykrywania tekstu na obrazach. Rozważmy na przykład następujący obraz etykiety żywieniowej na produkcie w sklepie spożywczym:

Diagram of a nutrition label.

Usługa Azure AI Vision może analizować ten obraz i wyodrębniać następujący tekst:

Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet

Napiwek

Możesz dokładniej zapoznać się z funkcjami OCR usługi Azure AI Vision w module Odczyt tekstu za pomocą usługi Azure AI Vision w usłudze Microsoft Learn.

Opisywanie obrazu za pomocą podpis

Usługa Azure AI Vision ma możliwość analizowania obrazu, oceniania wykrytych obiektów i generowania czytelnej dla człowieka frazy lub zdania, które mogą opisywać wykryte elementy na obrazie. Rozważmy na przykład następujący obraz:

Diagram of a man on a skateboard.

Usługa Azure AI Vision zwraca następujące podpis dla tego obrazu:

Mężczyzna skaczący na deskorolce

Wykrywanie typowych obiektów na obrazie

Usługa Azure AI Vision może identyfikować tysiące typowych obiektów na obrazach. Na przykład w przypadku użycia do wykrywania obiektów na omówionych wcześniej obrazie deskorolki usługa Azure AI Vision zwraca następujące przewidywania:

  • Deskorolka (90,40%)
  • Osoba (95,5%)

Przewidywania obejmują współczynnik ufności, który wskazuje prawdopodobieństwo, że model obliczył dla przewidywanych obiektów.

Oprócz wykrytych etykiet obiektów i ich prawdopodobieństwa usługa Azure AI Vision zwraca współrzędne pola ograniczenia wskazujące wykryty górny, lewy, szerokość i wysokość wykrytego obiektu. Za pomocą tych współrzędnych można określić, gdzie na obrazie wykryto każdy obiekt, w następujący sposób:

Diagram of a skateboarder with bounding boxes around detected objects.

Oznaczanie cech wizualnych

Usługa Azure AI Vision może sugerować tagi obrazu na podstawie jego zawartości. Te tagi mogą być skojarzone z obrazem jako metadane, które podsumowują atrybuty obrazu i mogą być przydatne, jeśli chcesz zaindeksować obraz wraz z zestawem kluczowych terminów, które mogą służyć do wyszukiwania obrazów z określonymi atrybutami lub zawartością.

Na przykład tagi zwrócone dla obrazu deskorolki (ze skojarzonymi wskaźnikami ufności) obejmują:

  • sport (99,60%)
  • osoba (99,56%)
  • obuwie (98,05%)
  • łyżwiarstwo (96,27%)
  • boardsport (95,58%)
  • sprzęt do deskorolki (94,43%)
  • odzież (94,02%)
  • ściana (93,81%)
  • deskorolka (93,78%)
  • deskorolka (93,25%)
  • sport indywidualny (92,80%)
  • stunty uliczne (90,81%)
  • saldo (90,81%)
  • skoki (89,87%)
  • sprzęt sportowy (88,61%)
  • sport ekstremalny (88,35%)
  • kickflip (88,18%)
  • stunt (87,27%)
  • deskorolka (86,87%)
  • wykonawca kaskaderowy (85,83%)
  • kolano (85,30%)
  • sport (85,24%)
  • longboard (84,61%)
  • longboarding (84,45%)
  • jazda (73,37%)
  • skate (67,27%)
  • powietrze (64,83%)
  • młodych (63,29%)
  • na zewnątrz (61,39%)

Trenowanie modeli niestandardowych

Jeśli wbudowane modele udostępniane przez usługę Azure AI Vision nie spełniają Twoich potrzeb, możesz użyć usługi do wytrenowania niestandardowego modelu do klasyfikacji obrazów lub wykrywania obiektów. Usługa Azure AI Vision tworzy niestandardowe modele na wstępnie wytrenowanym modelu podstawowym, co oznacza, że można trenować zaawansowane modele przy użyciu stosunkowo kilku obrazów szkoleniowych.

Klasyfikacja obrazów

Model klasyfikacji obrazów służy do przewidywania kategorii lub klasy obrazu. Możesz na przykład wytrenować model, aby określić, jakiego typu owoce są wyświetlane na obrazie, w następujący sposób:

Apple Banan Orange (Pomarańczowy)
Diagram of an apple. Diagram of a banana. Diagram of an orange.

Wykrywanie obiektów

Modele wykrywania obiektów wykrywają i klasyfikują obiekty na obrazie, zwracając współrzędne pola ograniczenia w celu zlokalizowania każdego obiektu. Oprócz wbudowanych funkcji wykrywania obiektów w usłudze Azure AI Vision można wytrenować niestandardowy model wykrywania obiektów przy użyciu własnych obrazów. Na przykład możesz użyć zdjęć owoców, aby wytrenować model, który wykrywa wiele owoców na obrazie, w następujący sposób:

Diagram of multiple detected fruits in an image.

Uwaga

Szczegółowe informacje na temat używania usługi Azure AI Vision do trenowania modelu niestandardowego wykraczają poza zakres tego modułu. Informacje na temat trenowania modelu niestandardowego można znaleźć w dokumentacji usługi Azure AI Vision.