Udostępnij za pośrednictwem


Przekształcanie danych w usługach Azure Data Factory i Azure Synapse Analytics

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

Ważne

Obsługa usługi Azure Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning do tej daty.

Od 1 grudnia 2021 r. nie można utworzyć nowych zasobów usługi Machine Learning Studio (klasycznego) (obszaru roboczego i planu usługi internetowej). Do 31 sierpnia 2024 r. możesz nadal korzystać z istniejących eksperymentów i usług internetowych usługi Machine Learning Studio (klasycznych). Aby uzyskać więcej informacji, zobacz:

Dokumentacja usługi Machine Learning Studio (klasyczna) jest wycofywana i może nie zostać zaktualizowana w przyszłości.

Omówienie

W tym artykule opisano działania przekształcania danych w potokach usługi Azure Data Factory i Synapse, których można użyć do przekształcania i przetwarzania nieprzetworzonych danych w przewidywaniach i szczegółowych danych na dużą skalę. Działanie przekształcania jest wykonywane w środowisku obliczeniowym, takim jak Azure Databricks lub Azure HDInsight. Zawiera on linki do artykułów ze szczegółowymi informacjami na temat każdego działania przekształcania.

Usługa obsługuje następujące działania przekształcania danych, które można dodać do potoków pojedynczo lub w łańcuchu z innym działaniem.

Przekształcanie natywnie w usługach Azure Data Factory i Azure Synapse Analytics za pomocą przepływów danych

Przepływy danych mapowania

Przepływy danych mapowania są wizualnie projektowane przekształcenia danych w usługach Azure Data Factory i Azure Synapse. Przepływy danych umożliwiają inżynierom danych opracowywanie logiki przekształcania danych graficznych bez pisania kodu. Wynikowe przepływy danych są wykonywane jako działania w potokach, które używają skalowanych w poziomie klastrów Spark. Działania przepływu danych można zoperacjonalizować za pomocą istniejących funkcji planowania, sterowania, przepływu i monitorowania w usłudze. Aby uzyskać więcej informacji, zobacz mapowanie przepływów danych.

Uzdatnianie danych

Dodatek Power Query w usłudze Azure Data Factory umożliwia przetwarzanie danych w skali chmury, co umożliwia wykonywanie bez kodu przygotowywania danych w skali chmury iteracyjne. Uzdatnianie danych integruje się z usługą Power Query Online i udostępnia funkcje power Query M na potrzeby uzdatniania danych w skali chmury za pośrednictwem wykonywania platformy Spark. Aby uzyskać więcej informacji, zobacz temat Uzdatnianie danych w usłudze Azure Data Factory.

Uwaga

Dodatek Power Query jest obecnie obsługiwany tylko w usłudze Azure Data Factory, a nie w usłudze Azure Synapse. Aby uzyskać listę określonych funkcji obsługiwanych w każdej usłudze, zobacz Dostępne funkcje w potokach usługi Azure Data Factory i Azure Synapse Analytics.

Przekształcenia zewnętrzne

Opcjonalnie możesz ręcznie wykonywać przekształcenia kodu i zarządzać zewnętrznym środowiskiem obliczeniowym samodzielnie.

Działanie Hive w usłudze HDInsight

Działanie hive usługi HDInsight w potoku wykonuje zapytania hive na własnym lub na żądanie opartym na systemie Windows/Linux klastrze usługi HDInsight. Aby uzyskać szczegółowe informacje o tym działaniu, zobacz Artykuł dotyczący działania programu Hive.

Działanie usługi HDInsight Pig

Działanie usługi HDInsight Pig w potoku wykonuje zapytania pig na własnym lub na żądanie w klastrze usługi HDInsight opartym na systemie Windows/Linux. Aby uzyskać szczegółowe informacje o tym działaniu, zobacz artykuł Dotyczący działań pig.

Działanie MapReduce w usłudze HDInsight

Działanie MapReduce usługi HDInsight w potoku wykonuje programy MapReduce we własnym lub na żądanie w klastrze usługi HDInsight opartym na systemie Windows/Linux. Aby uzyskać szczegółowe informacje na temat tego działania, zobacz artykuł dotyczący działania MapReduce.

Aktywność przesyłania strumieniowego w usłudze HDInsight

Działanie przesyłania strumieniowego usługi HDInsight w potoku wykonuje programy przesyłania strumieniowego hadoop na własnym lub na żądanie opartym na systemie Windows/Linux klastrze usługi HDInsight. Aby uzyskać szczegółowe informacje na temat tego działania, zobacz Działanie przesyłania strumieniowego w usłudze HDInsight.

Działanie platformy Spark w usłudze HDInsight

Działanie HDInsight Spark w potoku wykonuje programy Spark we własnym klastrze usługi HDInsight. Aby uzyskać szczegółowe informacje, zobacz Wywoływanie programów Spark za pomocą usługi Azure Data Factory lub Azure Synapse Analytics.

Działania programu ML Studio (klasyczne)

Ważne

Obsługa usługi Azure Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning do tej daty.

Od 1 grudnia 2021 r. nie można utworzyć nowych zasobów usługi Machine Learning Studio (klasycznego) (obszaru roboczego i planu usługi internetowej). Do 31 sierpnia 2024 r. możesz nadal korzystać z istniejących eksperymentów i usług internetowych usługi Machine Learning Studio (klasycznych). Aby uzyskać więcej informacji, zobacz:

Dokumentacja usługi Machine Learning Studio (klasyczna) jest wycofywana i może nie zostać zaktualizowana w przyszłości.

Usługa umożliwia łatwe tworzenie potoków korzystających z opublikowanej usługi internetowej ML Studio (klasycznej) na potrzeby analizy predykcyjnej. Za pomocą działania Wykonywania usługi Batch w potoku można wywołać usługę internetową Studio (klasyczną), aby przewidywać dane w partii.

W miarę upływu czasu modele predykcyjne w eksperymentach oceniania programu Studio (klasycznego) muszą być ponownie trenowane przy użyciu nowych wejściowych zestawów danych. Po zakończeniu ponownego trenowania chcesz zaktualizować usługę internetową oceniania przy użyciu ponownie trenowanego modelu uczenia maszynowego. Możesz użyć działania Aktualizuj zasób, aby zaktualizować usługę internetową przy użyciu nowo wytrenowanego modelu.

Aby uzyskać szczegółowe informacje na temat tych działań programu Studio (klasycznych), zobacz Korzystanie z działań programu ML Studio (klasycznego).

Działanie procedury składowanej

Możesz użyć działania Procedura składowana programu SQL Server w potoku usługi Data Factory, aby wywołać procedurę składowaną w jednym z następujących magazynów danych: Azure SQL Database, Azure Synapse Analytics, SQL Server Database w przedsiębiorstwie lub na maszynie wirtualnej platformy Azure. Aby uzyskać szczegółowe informacje, zobacz artykuł Dotyczący działania procedury składowanej.

działanie języka U-SQL usługi Data Lake Analytics

Działanie U-SQL usługi Data Lake Analytics uruchamia skrypt U-SQL w klastrze usługi Azure Data Lake Analytics. Aby uzyskać szczegółowe informacje, zobacz artykuł dotyczący działania U-SQL usługi Data Analytics.

Działanie notesu usługi Azure Synapse

Działanie notesu usługi Azure Synapse w potoku usługi Synapse uruchamia notes usługi Synapse w obszarze roboczym usługi Azure Synapse. Zobacz Przekształcanie danych, uruchamiając notes usługi Azure Synapse.

Działanie notesu usługi Databricks

Działanie notesu usługi Azure Databricks w potoku uruchamia notes usługi Databricks w obszarze roboczym usługi Azure Databricks. Azure Databricks to zarządzana platforma do uruchamiania platformy Apache Spark. Zobacz Przekształcanie danych, uruchamiając notes usługi Databricks.

Działanie Jar usługi Databricks

Działanie jar usługi Azure Databricks w potoku uruchamia plik Spark Jar w klastrze usługi Azure Databricks. Azure Databricks to zarządzana platforma do uruchamiania platformy Apache Spark. Zobacz Przekształcanie danych, uruchamiając działanie Jar w usłudze Azure Databricks.

Działanie języka Python w usłudze Databricks

Działanie języka Python usługi Azure Databricks w potoku uruchamia plik języka Python w klastrze usługi Azure Databricks. Azure Databricks to zarządzana platforma do uruchamiania platformy Apache Spark. Zobacz Przekształcanie danych, uruchamiając działanie języka Python w usłudze Azure Databricks.

Działanie niestandardowe

Jeśli musisz przekształcić dane w sposób, który nie jest obsługiwany przez usługę Data Factory, możesz utworzyć niestandardowe działanie przy użyciu własnej logiki przetwarzania danych i użyć działania w potoku. Niestandardowe działanie platformy .NET można skonfigurować do uruchamiania przy użyciu usługi Azure Batch lub klastra usługi Azure HDInsight. Aby uzyskać szczegółowe informacje, zobacz artykuł Korzystanie z działań niestandardowych.

Możesz utworzyć niestandardowe działanie, aby uruchamiać skrypty w klastrze usługi HDInsight z zainstalowanym językiem R. Zobacz Uruchamianie skryptu języka R przy użyciu potoków usługi Azure Data Factory i synapse.

Środowiska obliczeniowe

Utworzysz połączoną usługę dla środowiska obliczeniowego, a następnie użyjesz połączonej usługi podczas definiowania działania przekształcania. Istnieją dwa obsługiwane typy środowisk obliczeniowych.

  • Na żądanie: w tym przypadku środowisko obliczeniowe jest w pełni zarządzane przez usługę. Jest on tworzony automatycznie przez usługę, zanim zadanie zostanie przesłane do przetwarzania danych i usunięte po zakończeniu zadania. Możesz skonfigurować i kontrolować szczegółowe ustawienia środowiska obliczeniowego na żądanie na potrzeby wykonywania zadań, zarządzania klastrem i akcji uruchamiania.
  • Bring Your Own: W tym przypadku możesz zarejestrować własne środowisko obliczeniowe (na przykład klaster usługi HDInsight) jako połączoną usługę. Środowisko obliczeniowe jest zarządzane przez Ciebie i usługa używa go do wykonywania działań.

Aby dowiedzieć się więcej na temat obsługiwanych usług obliczeniowych, zobacz artykuł Compute Linked Services (Połączone usługi obliczeniowe).

Zapoznaj się z poniższym samouczkiem, aby zapoznać się z przykładem użycia działania przekształcania: Samouczek: przekształcanie danych przy użyciu platformy Spark