Informacje na temat przetwarzania obrazów
Przetwarzanie obrazów to obszar sztucznej inteligencji, który zajmuje się przetwarzaniem wizualnym. Zapoznajmy się z niektórymi możliwościami, jakie daje przetwarzanie obrazów.
Aplikacja Seeing AI jest doskonałym przykładem możliwości przetwarzania obrazów. Zaprojektowana dla osób niewidomych i słabowidzących, aplikacja Seeing AI wykorzystuje możliwości sztucznej inteligencji do udostępniania świata widzialnego i opisywania pobliskich osób, tekstu i obiektów.
Obejrzyj poniższy film, aby dowiedzieć się więcej na temat aplikacji Seeing AI.
Aby dowiedzieć się więcej, zapoznaj się ze stroną internetową aplikacji Seeing AI.
Modele przetwarzania obrazów i możliwości
Większość rozwiązań do przetwarzania obrazów jest oparta na modelach uczenia maszynowego, które mogą być stosowane do danych wizualnych z kamer, filmów wideo lub obrazów. W poniższej tabeli opisano typowe zadania z zakresu przetwarzania obrazów.
Zadanie | Opis |
---|---|
Klasyfikacja obrazów | Klasyfikacja obrazów obejmuje trenowanie modelu uczenia maszynowego do klasyfikowania obrazów na podstawie ich zawartości. Na przykład w rozwiązaniu do monitorowania ruchu drogowego można użyć modelu klasyfikacji obrazów do klasyfikowania obrazów na podstawie typów pojazdu, jakie zawierają, np. taksówki, autobusy, rowerzyści itp. |
Wykrywanie obiektów | Modele uczenia maszynowego do wykrywania obiektów są trenowane do klasyfikowania poszczególnych obiektów na obrazie i identyfikowania ich lokalizacji za pomocą pola ograniczenia. Na przykład rozwiązanie do monitorowania ruchu drogowego może używać wykrywania obiektów do identyfikowania lokalizacji różnych klas pojazdów. |
Segmentacja semantyczna | Segmentacja semantyczna to zaawansowana technika uczenia maszynowego, w której poszczególne piksele obrazu są klasyfikowane zgodnie z obiektem, do którego należą. Na przykład, rozwiązanie do monitorowania ruchu drogowego może nakładać na obrazy ruchu drogowego warstwy „masek” w celu wyróżnienia różnych pojazdów przy użyciu określonych kolorów. |
Analiza obrazu | Można tworzyć rozwiązania, które łączą modele uczenia maszynowego z zaawansowanymi technikami analizy obrazu w celu wydobywania informacji z obrazów, wraz z „tagami”, które mogą pomóc w katalogowaniu obrazów lub nawet podpisami opisowymi, które podsumowują scenę przedstawioną na obrazie. |
Wykrywanie, analiza i rozpoznawanie twarzy | Wykrywanie twarzy to wyspecjalizowana forma wykrywania obiektów, która lokalizuje ludzkie twarze na obrazie. Można to połączyć z technikami klasyfikacji i analizy geometrii twarzy, aby rozpoznawać osoby na podstawie ich cech twarzy. |
Optyczne rozpoznawanie znaków (OCR) | Optyczne rozpoznawanie znaków to technika używana do wykrywania i odczytywania tekstu na obrazach. Za pomocą techniki OCR można odczytywać tekst na zdjęciach (np. znaki drogowe lub fronty sklepów) lub wyodrębniać informacje z zeskanowanych dokumentów, takich jak listy, faktury lub formularze. |
Usługi przetwarzania obrazów na platformie Microsoft Azure
Usługa Azure AI Vision firmy Microsoft umożliwia opracowywanie rozwiązań do przetwarzania obrazów. Funkcje usługi są dostępne do użycia i testowania w usłudze Azure Vision Studio i innych językach programowania. Oto niektóre funkcje usługi Azure AI Vision:
- Analiza obrazów: możliwości analizowania obrazów i wideo oraz wyodrębniania opisów, tagów, obiektów i tekstu.
- Rozpoznawanie twarzy: możliwości umożliwiające tworzenie rozwiązań do wykrywania twarzy i rozpoznawania twarzy.
- Optyczne rozpoznawanie znaków (OCR): możliwości wyodrębniania tekstu drukowanego lub odręcznego z obrazów, co umożliwia dostęp do cyfrowej wersji zeskanowanego tekstu.