Informacje na temat przetwarzania obrazów

Ukończone

Przetwarzanie obrazów to obszar sztucznej inteligencji, który zajmuje się przetwarzaniem wizualnym. Zapoznajmy się z niektórymi możliwościami, jakie daje przetwarzanie obrazów.

Aplikacja Seeing AI jest doskonałym przykładem możliwości przetwarzania obrazów. Zaprojektowana dla osób niewidomych i słabowidzących, aplikacja Seeing AI wykorzystuje możliwości sztucznej inteligencji do udostępniania świata widzialnego i opisywania pobliskich osób, tekstu i obiektów.

Obejrzyj poniższy film, aby dowiedzieć się więcej na temat aplikacji Seeing AI.

Aby dowiedzieć się więcej, zapoznaj się ze stroną internetową aplikacji Seeing AI.

Modele przetwarzania obrazów i możliwości

Większość rozwiązań do przetwarzania obrazów jest oparta na modelach uczenia maszynowego, które mogą być stosowane do danych wizualnych z kamer, filmów wideo lub obrazów. W poniższej tabeli opisano typowe zadania z zakresu przetwarzania obrazów.

Zadanie Opis
Klasyfikacja obrazów An image of a taxi with the label
Klasyfikacja obrazów obejmuje trenowanie modelu uczenia maszynowego do klasyfikowania obrazów na podstawie ich zawartości. Na przykład w rozwiązaniu do monitorowania ruchu drogowego można użyć modelu klasyfikacji obrazów do klasyfikowania obrazów na podstawie typów pojazdu, jakie zawierają, np. taksówki, autobusy, rowerzyści itp.
Wykrywanie obiektów An image of a street with buses, cars, and cyclists identified and highlighted with a bounding box.
Modele uczenia maszynowego do wykrywania obiektów są trenowane do klasyfikowania poszczególnych obiektów na obrazie i identyfikowania ich lokalizacji za pomocą pola ograniczenia. Na przykład rozwiązanie do monitorowania ruchu drogowego może używać wykrywania obiektów do identyfikowania lokalizacji różnych klas pojazdów.
Segmentacja semantyczna An image of a street with the pixels belonging to buses, cars, and cyclists identified.
Segmentacja semantyczna to zaawansowana technika uczenia maszynowego, w której poszczególne piksele obrazu są klasyfikowane zgodnie z obiektem, do którego należą. Na przykład, rozwiązanie do monitorowania ruchu drogowego może nakładać na obrazy ruchu drogowego warstwy „masek” w celu wyróżnienia różnych pojazdów przy użyciu określonych kolorów.
Analiza obrazu An image of a person with a dog on a street and the caption
Można tworzyć rozwiązania, które łączą modele uczenia maszynowego z zaawansowanymi technikami analizy obrazu w celu wydobywania informacji z obrazów, wraz z „tagami”, które mogą pomóc w katalogowaniu obrazów lub nawet podpisami opisowymi, które podsumowują scenę przedstawioną na obrazie.
Wykrywanie, analiza i rozpoznawanie twarzy An image of multiple people on a city street with their faces highlighted.
Wykrywanie twarzy to wyspecjalizowana forma wykrywania obiektów, która lokalizuje ludzkie twarze na obrazie. Można to połączyć z technikami klasyfikacji i analizy geometrii twarzy, aby rozpoznawać osoby na podstawie ich cech twarzy.
Optyczne rozpoznawanie znaków (OCR) An image of a building with the sign
Optyczne rozpoznawanie znaków to technika używana do wykrywania i odczytywania tekstu na obrazach. Za pomocą techniki OCR można odczytywać tekst na zdjęciach (np. znaki drogowe lub fronty sklepów) lub wyodrębniać informacje z zeskanowanych dokumentów, takich jak listy, faktury lub formularze.

Usługi przetwarzania obrazów na platformie Microsoft Azure

Usługa Azure AI Vision firmy Microsoft umożliwia opracowywanie rozwiązań do przetwarzania obrazów. Funkcje usługi są dostępne do użycia i testowania w usłudze Azure Vision Studio i innych językach programowania. Oto niektóre funkcje usługi Azure AI Vision:

  • Analiza obrazów: możliwości analizowania obrazów i wideo oraz wyodrębniania opisów, tagów, obiektów i tekstu.
  • Rozpoznawanie twarzy: możliwości umożliwiające tworzenie rozwiązań do wykrywania twarzy i rozpoznawania twarzy.
  • Optyczne rozpoznawanie znaków (OCR): możliwości wyodrębniania tekstu drukowanego lub odręcznego z obrazów, co umożliwia dostęp do cyfrowej wersji zeskanowanego tekstu.