Поделиться через


Преобразование данных в Фабрике данных Azure и Azure Synapse Analytics

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Внимание

Поддержка Машинное обучение Azure Studio (классическая) завершится 31 августа 2024 г. Мы рекомендуем перейти на Машинное обучение Azure по этой дате.

По состоянию на 1 декабря 2021 г. нельзя создавать новые ресурсы Машинное обучение Studio (классический) (рабочая область и план веб-службы). До 31 августа 2024 г. вы можете продолжать использовать существующие эксперименты Машинное обучение Studio (классические) и веб-службы. Дополнительные сведения см. в разделе:

Машинное обучение Studio (классическая) документация не обновляется и может не обновляться в будущем.

Обзор

В этой статье объясняются действия по преобразованию данных в Фабрике данных Azure и конвейерах Synapse, с помощью которых можно преобразовывать необработанные данные в прогнозные и аналитические данные в большом масштабе. Действие по преобразованию выполняется в вычислительной среде, например в Azure Databricks или Azure HDInsight. Статья содержит ссылки на статьи с подробными сведениями о каждом действии преобразования.

Служба поддерживает указанные ниже действия преобразования, которые вы можете добавлять в конвейеры как по отдельности, так и в цепочке с другим действием.

Собственное преобразование в Фабрике данных Azure и Azure Synapse Analytics с помощью потоков данных

Сопоставление потоков данных

Потоки данных для сопоставления — это визуально спроектированные преобразования данных в Фабрике данных Azure и Azure Synapse. Потоки данных позволяют инженерам по обработке данных разрабатывать логику преобразования графических данных без написания кода. Результирующие потоки данных выполняются как действия в конвейерах, использующих кластеры Spark с горизонтальным увеличением масштаба. Действия потока данных можно применять через уже имеющиеся средства планирования, управления, потока и мониторинга в службе. Дополнительные сведения см. в статье Потоки данных для сопоставления.

Общие сведения о первичной обработке данных

Power Query в Фабрике данных Azure обеспечивает первичную обработку данных с облачным масштабированием, что позволяет интерактивно выполнять подготовку данных без кода в масштабе облака. Первичная обработка данных объединяется с Power Query Online и делает функции Power Query M доступными для первичной обработки данных в масштабе облака с помощью выполнения Spark. Дополнительные сведения см. в статье Первичная обработка данных в Фабрике данных Azure.

Примечание.

Power Query в настоящее время поддерживается только в Фабрике данных Azure, а не в Azure Synapse. Список конкретных функций, поддерживаемых в каждой службе, см. в статье Доступные функции в Фабрике данных Azure и конвейерах Azure Synapse Analytics.

Внешние преобразования

Если необходимо, можно самостоятельно вручную написать код для преобразования и управления внешней вычислительной средой.

Действие Hive HDInsight

Действие Hive HDInsight в конвейере выполняет запросы Hive к вашему собственному кластеру HDInsight или кластеру HDInsight по запросу под управлением Windows или Linux. Дополнительные сведения об этом действии см. в статье Преобразование данных с помощью действия Hadoop Hive в фабрике данных Azure.

Действие Pig HDInsight

Действие Pig HDInsight в конвейере выполняет запросы Pig к вашему собственному кластеру HDInsight или кластеру HDInsight по запросу под управлением Windows или Linux. Дополнительные сведения об этом действии см. в статье Преобразование данных с помощью действия Hadoop Pig в фабрике данных Azure.

Действие MapReduce HDInsight

Действие MapReduce HDInsight в конвейере выполняет программы MapReduce для вашего собственного кластера HDInsight или кластера HDInsight по запросу под управлением Windows или Linux. Дополнительные сведения об этом действии см. в статье Преобразование данных с помощью действия MapReduce в фабрике данных Azure.

Действие потоковой передачи HDInsight

Действие потоковой передачи HDInsight в конвейере выполняет программы потоковой передачи Hadoop для вашего собственного кластера HDInsight или кластера HDInsight по запросу под управлением Windows или Linux. Дополнительные сведения об этом действии см. в разделе Потоковая активность Hadoop.

Действие HDInsight Spark

Действие HDInsight Spark в конвейере выполняет программы Spark в вашем кластере HDInsight. Дополнительные сведения см. на этой странице.

Действия Студии машинного обучения (классической)

Внимание

Поддержка Машинное обучение Azure Studio (классическая) завершится 31 августа 2024 г. Мы рекомендуем перейти на Машинное обучение Azure по этой дате.

По состоянию на 1 декабря 2021 г. нельзя создавать новые ресурсы Машинное обучение Studio (классический) (рабочая область и план веб-службы). До 31 августа 2024 г. вы можете продолжать использовать существующие эксперименты Машинное обучение Studio (классические) и веб-службы. Дополнительные сведения см. в разделе:

Машинное обучение Studio (классическая) документация не обновляется и может не обновляться в будущем.

Служба позволяет легко создавать конвейеры, использующие опубликованную веб-службу "Студия машинного обучения (классическая)" для прогнозной аналитики. С помощью действия Batch Execution в конвейере можно вызывать веб-службу "Студия машинного обучения (классическая)" для создания прогнозов по данным в пакете.

Со временем прогнозные модели из оценивающих экспериментов Машинного обучения Azure (классическая модель) потребуют повторного обучения с помощью новых наборов входных данных. Когда повторное обучение будет завершено, вам потребуется обновить веб-службу оценки на основании обновленной модели машинного обучения. Чтобы обновить веб-службу с помощью заново обученной модели, можно использовать действие обновления ресурса.

Дополнительные сведения об этих действиях Студии (классическая) см. в статье Использование действий Студии машинного обучения (классической).

Действие хранимой процедуры

C помощью действия хранимой процедуры SQL Server в конвейере Фабрики данных можно вызвать хранимую процедуру одного из следующих хранилищ данных: База данных SQL Azure, Azure Synapse Analytics, База данных SQL Server на предприятии или в виртуальной машине Azure. Дополнительные сведения см. в статье Преобразование данных с помощью действия хранимой процедуры SQL Server в фабрике данных Azure.

Действие U-SQL в Data Lake Analytics

Действие U-SQL Data Lake Analytics запускает скрипт U-SQL для кластера Azure Data Lake Analytics. Дополнительные сведения см. в статье Преобразование данных с помощью сценариев U-SQL в Azure Data Lake Analytics.

Действие Notebook в Azure Synapse

Действие запуска записной книжки Azure Synapse в конвейере Synapse запускает записную книжку Synapse в рабочей области Azure Synapse. См. статью Преобразование данных с помощью записной книжки Azure Synapse.

Действие Notebook в Databricks

Действие Notebook Azure Databricks в конвейере запускает записную книжку Databricks в рабочей области Azure Databricks. Azure Databricks — это управляемая платформа для запуска Apache Spark. См. раздел Преобразование данных с помощью записной книжки Databricks.

Действие JAR в Databricks

Действие Jar в Azure Databricks в конвейере позволяет запускать файл Spark Jar в кластере Azure Databricks. Azure Databricks — это управляемая платформа для запуска Apache Spark. См. раздел Преобразование данных с помощью выполнения действий Jar в Azure Databricks.

Действие Python в Databricks

Действие Python в Azure Databricks в конвейере позволяет запустить файл Python в кластере Azure Databricks. Azure Databricks — это управляемая платформа для запуска Apache Spark. См. раздел Преобразование данных с помощью выполнения действий Python в Azure Databricks.

Настраиваемое действие

Если вам нужно преобразовать данные способом, который не поддерживается фабрикой данных Azure, то можно создать настраиваемое действие с собственной логикой обработки данных и использовать это действие в конвейере. Можно настроить запуск настраиваемого действия .NET с помощью пакетной службы Azure или кластера HDInsight. Дополнительные сведения см. в разделе Использование настраиваемых действий в конвейере фабрики данных Azure.

Можно создать настраиваемое действие для выполнения сценариев R в кластере HDInsight, где установлена среда R. Ознакомьтесь с примером на странице Запуск сценария R с помощью конвейеров Фабрики данных Azure и Synapse.

Вычислительные среды

Вы создаете связанную службу для среды вычислений, а затем используете эту службу при определении действия преобразования. Имеется два поддерживаемых типа вычислительных сред.

  • По требованию: в этом случае вычислительная среда полностью управляется службой. Среда автоматически создается службой перед отправкой задания для обработки данных и удаляется после его выполнения. Вы можете настраивать и изменять для вычислительной среды "по требованию" детализированные параметры выполнения задания, управления кластером и действий начальной загрузки.
  • Собственная: в этом случае вы регистрируете собственную вычислительную среду (например, кластер HDInsight) и используете ее в качестве связанной службы. Вы будете управлять средой вычислений, а служба — использовать ее для выполнения действий.

В статье Связанные службы вычислений описываются поддерживаемые службы вычислений.

Пример использования действия преобразования см. в руководстве Преобразование данных в облаке с помощью действия Spark в фабрике данных Azure.