Automatyzowanie przekształceń danych
Przygotowanie danych do uczenia maszynowego jest niezbędnym krokiem, gdy chcesz tworzyć skuteczne modele. Usługa Azure Databricks może wydajnie przetwarzać i przygotowywać duże zestawy danych z powodu mocy obliczeniowej platformy Spark.
Przyjrzyjmy się, jak każdy krok w przepływie pracy uczenia maszynowego powiązanym z danymi można wykonać w usłudze Azure Databricks.
Przechowywanie zebranych danych w usłudze Azure Storage
W przypadku zbierania danych z różnych źródeł najlepiej przechowywać dane w rozwiązaniu magazynu, na przykład Azure Blob Storage lub Azure Data Lake.
Przechowywanie danych w rozwiązaniu usługi Azure Storage zamiast bezpośrednio w usłudze Azure Databricks zapewnia lepszą skalowalność, zwiększone zabezpieczenia i integrację z innymi usługami platformy Azure.
Rozwiązania usługi Azure Storage zapewniają niezawodne i elastyczne środowisko do zarządzania dużymi zestawami danych, zapewniając, że dane są łatwo dostępne do przetwarzania i analizy.
Aby zarządzać dostępem do wszystkich danych przechowywanych w magazynie w chmurze, użyj katalogu aparatu Unity. Wykaz aparatu Unity udostępnia ujednolicone rozwiązanie do zapewniania ładu dla wszystkich zasobów danych, co umożliwia zarządzanie uprawnieniami i kontrolami dostępu w infrastrukturze danych.
Napiwek
Dowiedz się więcej o sposobie nawiązywania połączenia z magazynem obiektów w chmurze przy użyciu wykazu aparatu Unity
Eksplorowanie i przygotowywanie danych
Po nawiązaniu połączenia z danymi chcesz eksplorować dane za pomocą eksploracyjnej analizy danych (EDA). Na podstawie wyników przygotujesz dane do obsługi brakujących danych, wykonasz inżynierię cech i wykonasz inne przekształcenia danych, które według Ciebie korzystają z wydajności modelu.
Na potrzeby początkowej analizy użyj notesów usługi Databricks, aby eksplorować i interpretować dane. Za pomocą programu Spark SQL lub PySpark możesz pracować z dużymi zestawami danych, podsumowywać dane, sprawdzać wartości null i interpretować dystrybucje danych.
Automatyzowanie inżynierii funkcji w usłudze Azure Databricks
Zautomatyzowane narzędzia i biblioteki inżynieryjne funkcji, takie jak Featuretools i AutoFeat, zyskują popularność, ponieważ usprawniają proces generowania i wybierania funkcji. Te narzędzia używają algorytmów, aby automatycznie tworzyć funkcje na podstawie danych pierwotnych, oceniać ich znaczenie i wybierać najbardziej odpowiednie do modelowania. Takie podejście pozwala zaoszczędzić czas i zmniejszyć zależność od ręcznej inżynierii cech.
Automatyzowanie przekształceń danych w usłudze Azure Databricks
Po eksploracji możesz zautomatyzować przekształcenia danych, konfigurując potoki. Jednym ze sposobów osiągnięcia automatyzacji jest skonfigurowanie zadań w usłudze Azure Databricks w celu zautomatyzowania notesów i skryptów. Zadania usługi Azure Databricks umożliwiają planowanie i uruchamianie notesów lub plików JAR jako zadań, co pozwala zautomatyzować przepływy pracy przetwarzania danych.
Aby skonfigurować zadanie w usłudze Azure Databricks, wykonaj następujące kroki:
- Utwórz zadanie: w obszarze roboczym usługi Databricks przejdź do karty Zadania i wybierz pozycję .
Create job
Podaj nazwę zadania i określ notes lub plik JAR, który chcesz uruchomić. - Skonfiguruj zadanie: ustaw parametry zadania, takie jak konfiguracja klastra, harmonogram uruchamiania zadania i wszelkie zależności. Możesz również określić powiadomienia e-mail dotyczące aktualizacji stanu zadania.
- Uruchamianie i monitorowanie zadania: po skonfigurowaniu zadania można uruchomić je ręcznie lub pozwolić na jego uruchomienie zgodnie z ustawionym harmonogramem. Możesz monitorować postęp zadania i wyświetlać dzienniki, aby rozwiązać wszelkie problemy.
Napiwek
Dowiedz się więcej na temat tworzenia i uruchamiania zadań usługi Azure Databricks.
Alternatywnie możesz użyć usług platformy Azure do tworzenia zautomatyzowanych potoków danych.
Automatyzowanie integracji danych z usługą Azure Data Factory
Usługa Azure Data Factory to narzędzie do tworzenia potoków danych i zarządzania nimi. Umożliwia tworzenie opartych na danych przepływów pracy do organizowania przenoszenia i przekształcania danych.
Aby utworzyć potok danych w usłudze Azure Data Factory, wykonaj następujące kroki:
- Tworzenie fabryki danych: w witrynie Azure Portal utwórz nowe wystąpienie usługi Data Factory.
- Tworzenie potoku: w interfejsie użytkownika usługi Data Factory utwórz nowy potok i dodaj do niego działania. Działania mogą obejmować przenoszenie danych, przekształcanie danych i operacje przepływu sterowania.
- Konfigurowanie działań: ustaw parametry dla każdego działania, takie jak źródłowe i docelowe magazyny danych, logika przekształcania i wszelkie zależności.
- Planowanie i monitorowanie: Zaplanuj uruchamianie potoku w określonych interwałach i monitoruj jego wykonywanie. Możesz wyświetlać dzienniki i konfigurować alerty dotyczące wszelkich problemów.
Napiwek
Dowiedz się więcej o usłudze Azure Data Factory.
Automatyzując przekształcenia danych i przepływy pracy za pomocą usług Azure Databricks Jobs lub Azure Data Factory, zapewniasz spójne przetwarzanie danych, dzięki czemu modele uczenia maszynowego będą wydajniejsze i niezawodne.