Automatyzowanie przekształceń danych

Ukończone

Przygotowanie danych do uczenia maszynowego jest niezbędnym krokiem, gdy chcesz tworzyć skuteczne modele. Usługa Azure Databricks może wydajnie przetwarzać i przygotowywać duże zestawy danych z powodu mocy obliczeniowej platformy Spark.

Przyjrzyjmy się, jak każdy krok w przepływie pracy uczenia maszynowego powiązanym z danymi można wykonać w usłudze Azure Databricks.

Przechowywanie zebranych danych w usłudze Azure Storage

W przypadku zbierania danych z różnych źródeł najlepiej przechowywać dane w rozwiązaniu magazynu, na przykład Azure Blob Storage lub Azure Data Lake.

Przechowywanie danych w rozwiązaniu usługi Azure Storage zamiast bezpośrednio w usłudze Azure Databricks zapewnia lepszą skalowalność, zwiększone zabezpieczenia i integrację z innymi usługami platformy Azure.

Rozwiązania usługi Azure Storage zapewniają niezawodne i elastyczne środowisko do zarządzania dużymi zestawami danych, zapewniając, że dane są łatwo dostępne do przetwarzania i analizy.

Aby zarządzać dostępem do wszystkich danych przechowywanych w magazynie w chmurze, użyj katalogu aparatu Unity. Wykaz aparatu Unity udostępnia ujednolicone rozwiązanie do zapewniania ładu dla wszystkich zasobów danych, co umożliwia zarządzanie uprawnieniami i kontrolami dostępu w infrastrukturze danych.

Napiwek

Dowiedz się więcej o sposobie nawiązywania połączenia z magazynem obiektów w chmurze przy użyciu wykazu aparatu Unity

Eksplorowanie i przygotowywanie danych

Po nawiązaniu połączenia z danymi chcesz eksplorować dane za pomocą eksploracyjnej analizy danych (EDA). Na podstawie wyników przygotujesz dane do obsługi brakujących danych, wykonasz inżynierię cech i wykonasz inne przekształcenia danych, które według Ciebie korzystają z wydajności modelu.

Na potrzeby początkowej analizy użyj notesów usługi Databricks, aby eksplorować i interpretować dane. Za pomocą programu Spark SQL lub PySpark możesz pracować z dużymi zestawami danych, podsumowywać dane, sprawdzać wartości null i interpretować dystrybucje danych.

Automatyzowanie inżynierii funkcji w usłudze Azure Databricks

Zautomatyzowane narzędzia i biblioteki inżynieryjne funkcji, takie jak Featuretools i AutoFeat, zyskują popularność, ponieważ usprawniają proces generowania i wybierania funkcji. Te narzędzia używają algorytmów, aby automatycznie tworzyć funkcje na podstawie danych pierwotnych, oceniać ich znaczenie i wybierać najbardziej odpowiednie do modelowania. Takie podejście pozwala zaoszczędzić czas i zmniejszyć zależność od ręcznej inżynierii cech.

Automatyzowanie przekształceń danych w usłudze Azure Databricks

Po eksploracji możesz zautomatyzować przekształcenia danych, konfigurując potoki. Jednym ze sposobów osiągnięcia automatyzacji jest skonfigurowanie zadań w usłudze Azure Databricks w celu zautomatyzowania notesów i skryptów. Zadania usługi Azure Databricks umożliwiają planowanie i uruchamianie notesów lub plików JAR jako zadań, co pozwala zautomatyzować przepływy pracy przetwarzania danych.

Aby skonfigurować zadanie w usłudze Azure Databricks, wykonaj następujące kroki:

  1. Utwórz zadanie: w obszarze roboczym usługi Databricks przejdź do karty Zadania i wybierz pozycję .Create job Podaj nazwę zadania i określ notes lub plik JAR, który chcesz uruchomić.
  2. Skonfiguruj zadanie: ustaw parametry zadania, takie jak konfiguracja klastra, harmonogram uruchamiania zadania i wszelkie zależności. Możesz również określić powiadomienia e-mail dotyczące aktualizacji stanu zadania.
  3. Uruchamianie i monitorowanie zadania: po skonfigurowaniu zadania można uruchomić je ręcznie lub pozwolić na jego uruchomienie zgodnie z ustawionym harmonogramem. Możesz monitorować postęp zadania i wyświetlać dzienniki, aby rozwiązać wszelkie problemy.

Napiwek

Dowiedz się więcej na temat tworzenia i uruchamiania zadań usługi Azure Databricks.

Alternatywnie możesz użyć usług platformy Azure do tworzenia zautomatyzowanych potoków danych.

Automatyzowanie integracji danych z usługą Azure Data Factory

Usługa Azure Data Factory to narzędzie do tworzenia potoków danych i zarządzania nimi. Umożliwia tworzenie opartych na danych przepływów pracy do organizowania przenoszenia i przekształcania danych.

Aby utworzyć potok danych w usłudze Azure Data Factory, wykonaj następujące kroki:

  1. Tworzenie fabryki danych: w witrynie Azure Portal utwórz nowe wystąpienie usługi Data Factory.
  2. Tworzenie potoku: w interfejsie użytkownika usługi Data Factory utwórz nowy potok i dodaj do niego działania. Działania mogą obejmować przenoszenie danych, przekształcanie danych i operacje przepływu sterowania.
  3. Konfigurowanie działań: ustaw parametry dla każdego działania, takie jak źródłowe i docelowe magazyny danych, logika przekształcania i wszelkie zależności.
  4. Planowanie i monitorowanie: Zaplanuj uruchamianie potoku w określonych interwałach i monitoruj jego wykonywanie. Możesz wyświetlać dzienniki i konfigurować alerty dotyczące wszelkich problemów.

Napiwek

Dowiedz się więcej o usłudze Azure Data Factory.

Automatyzując przekształcenia danych i przepływy pracy za pomocą usług Azure Databricks Jobs lub Azure Data Factory, zapewniasz spójne przetwarzanie danych, dzięki czemu modele uczenia maszynowego będą wydajniejsze i niezawodne.