Dane w usłudze Azure Machine Learning w wersji 1
DOTYCZY: Rozszerzenie interfejsu wiersza polecenia platformy Azure w wersji 1
DOTYCZY: Zestaw SDK języka Python w wersji 1
Usługa Azure Machine Learning ułatwia łączenie się z danymi w chmurze. Zapewnia warstwę abstrakcji w podstawowej usłudze magazynu, dzięki czemu można bezpiecznie uzyskiwać dostęp do danych i pracować z nimi bez konieczności pisania kodu specyficznego dla typu magazynu. Usługa Azure Machine Learning udostępnia również następujące możliwości danych:
- Współdziałanie z obiektami Pandas i Spark DataFrame
- Przechowywanie wersji i śledzenie pochodzenia danych
- Etykietowanie danych
- Monitorowanie dryfu danych
Przepływ pracy danych
Aby korzystać z danych w rozwiązaniu magazynu w chmurze, zalecamy przepływ pracy dostarczania danych. Przepływ pracy zakłada, że masz konto usługi Azure Storage i dane w usłudze magazynu w chmurze platformy Azure.
Tworzenie magazynu danych usługi Azure Machine Learning w celu przechowywania informacji o połączeniu z usługą Azure Storage
Z tego magazynu danych utwórz zestaw danych usługi Azure Machine Learning, aby wskazać określony plik lub pliki w bazowym magazynie
Aby użyć tego zestawu danych w eksperymencie uczenia maszynowego, możesz użyć dowolnego z tych zestawów danych
Instalowanie zestawu danych do docelowego obiektu obliczeniowego eksperymentu na potrzeby trenowania modelu
OR
Korzystanie z zestawu danych bezpośrednio w rozwiązaniach Azure Machine Learning — na przykład przebiegów eksperymentów zautomatyzowanego uczenia maszynowego (zautomatyzowanego uczenia maszynowego), potoków uczenia maszynowego lub projektanta usługi Azure Machine Learning.
Tworzenie monitorów zestawu danych dla wyjściowego zestawu danych modelu w celu wykrywania dryfu danych
W przypadku wykrytego dryfu danych zaktualizuj wejściowy zestaw danych i odpowiednio przetrenuj model
Ten zrzut ekranu przedstawia zalecany przepływ pracy:
Nawiązywanie połączenia z magazynem danych za pomocą magazynów danych
Magazyny danych usługi Azure Machine Learning bezpiecznie hostują informacje o połączeniu magazynu danych na platformie Azure, więc nie trzeba umieszczać tych informacji w skryptach. Aby uzyskać więcej informacji na temat nawiązywania połączenia z kontem magazynu i dostępem do danych w podstawowej usłudze magazynu, odwiedź stronę Rejestrowanie i tworzenie magazynu danych.
Te obsługiwane usługi magazynu oparte na chmurze platformy Azure mogą rejestrować się jako magazyny danych:
- Azure Blob Container
- Udział plików platformy Azure
- Azure Data Lake
- Azure Data Lake Gen2
- Azure SQL Database
- Azure Database for PostgreSQL
- System plików usługi Databricks
- Azure Database for MySQL
Napiwek
Magazyny danych można tworzyć przy użyciu uwierzytelniania opartego na poświadczeniach, aby uzyskać dostęp do usług magazynu, na przykład jednostki usługi lub tokenu sygnatury dostępu współdzielonego (SAS). Użytkownicy z dostępem czytelnika do obszaru roboczego mogą uzyskiwać dostęp do tych poświadczeń.
Jeśli jest to problem, odwiedź stronę tworzenia magazynu danych, który używa dostępu do danych opartych na tożsamościach, aby uzyskać więcej informacji na temat połączeń z usługami magazynu.
Dokumentacja danych w magazynie z zestawami danych
Zestawy danych usługi Azure Machine Learning nie są kopiami danych. Tworzenie zestawu danych tworzy odwołanie do danych w usłudze magazynu wraz z kopią metadanych.
Ponieważ zestawy danych są lazily oceniane, a dane pozostają w istniejącej lokalizacji, ty
- Poniesienie dodatkowych kosztów magazynowania
- Nie ryzykuj niezamierzonych zmian w oryginalnych źródłach danych
- Zwiększanie szybkości przepływów pracy uczenia maszynowego
Aby wchodzić w interakcje z danymi w magazynie, utwórz zestaw danych w celu spakowania danych do obiektu eksploatacyjnego na potrzeby zadań uczenia maszynowego. Zarejestruj zestaw danych w obszarze roboczym, aby udostępnić go i ponownie użyć w różnych eksperymentach bez złożoności pozyskiwania danych.
Zestawy danych można tworzyć na podstawie plików lokalnych, publicznych adresów URL, zestawów danych Platformy Azure Open lub usług Azure Storage za pośrednictwem magazynów danych.
Istnieją dwa typy zestawów danych:
Zestaw plików odwołuje się do jednego lub wielu plików w magazynach danych lub publicznych adresach URL. Jeśli dane są już oczyszczone i gotowe do eksperymentów szkoleniowych, możesz pobrać lub zainstalować pliki , do których odwołuje się zestawy FileDatasets do docelowego obiektu obliczeniowego
Tabelaryczny zestaw danych reprezentuje dane w formacie tabelarycznym, analizuje podany plik lub listę plików. Zestaw danych tabelarycznych można załadować do biblioteki pandas lub ramki danych Platformy Spark w celu dalszego manipulowania i czyszczenia. Aby uzyskać pełną listę formatów danych, z których można utworzyć zestawy TabularDatasets, odwiedź klasę TabularDatasetFactory
Te zasoby oferują więcej informacji na temat możliwości zestawu danych:
- Przechowywanie wersji i śledzenie pochodzenia zestawu danych
- Monitorowanie zestawu danych w celu ułatwienia wykrywania dryfu danych
Praca z danymi
Zestawy danych umożliwiają wykonywanie zadań uczenia maszynowego dzięki bezproblemowej integracji z funkcjami usługi Azure Machine Learning.
- Tworzenie projektu etykietowania danych
- Trenowanie modeli uczenia maszynowego:
- Uzyskiwanie dostępu do zestawów danych na potrzeby oceniania przy użyciu wnioskowania wsadowego w potokach uczenia maszynowego
- Konfigurowanie monitora zestawu danych na potrzeby wykrywania dryfu danych
Etykietowanie danych przy użyciu projektów etykietowania danych
Etykietowanie dużych ilości danych w projektach uczenia maszynowego może stać się bólem głowy. Projekty, które obejmują składnik przetwarzania obrazów, taki jak klasyfikacja obrazów lub wykrywanie obiektów, często wymagają tysięcy obrazów i odpowiednich etykiet.
Usługa Azure Machine Learning udostępnia centralną lokalizację do tworzenia i monitorowania projektów etykietowania oraz zarządzania nimi. Projekty etykietowania ułatwiają koordynowanie danych, etykiet i członków zespołu, dzięki czemu można wydajniej zarządzać zadaniami etykietowania. Obecnie obsługiwane zadania obejmują klasyfikację obrazów, wiele etykiet lub wiele klas oraz identyfikację obiektów przy użyciu pól ograniczonych.
Utwórz projekt etykietowania obrazów lub projekt etykietowania tekstu i wyprowadź zestaw danych do użycia w eksperymentach uczenia maszynowego.
Monitorowanie wydajności modelu za pomocą dryfu danych
W kontekście uczenia maszynowego dryf danych obejmuje zmianę danych wejściowych modelu, co prowadzi do obniżenia wydajności modelu. Jest to główny powód, dla którego dokładność modelu spada w czasie, a monitorowanie dryfu danych pomaga wykrywać problemy z wydajnością modelu.
Aby uzyskać więcej informacji, odwiedź stronę Tworzenie monitora zestawu danych, aby dowiedzieć się, jak wykrywać dryf danych i wysyłać alerty o dryfowaniu danych na nowych danych w zestawie danych.
Następne kroki
- Tworzenie zestawu danych w usłudze Azure Machine Learning Studio lub przy użyciu zestawu SDK języka Python
- Wypróbuj przykłady trenowania zestawu danych za pomocą naszych przykładowych notesów