Общие сведения об Apache Spark для разработчиков U-SQL
Это важно
Azure Data Lake Analytics вышел из эксплуатации 29 февраля 2024 года. Дополнительные сведения см. в этом объявлении.
Для аналитики данных ваша организация может использовать Azure Synapse Analytics или Microsoft Fabric.
Корпорация Майкрософт поддерживает несколько служб аналитики, таких как Azure Databricks, Azure HDInsightи Azure Data Lake Analytics. Мы слышим от разработчиков, что у них есть четкое предпочтение для решений с открытым исходным кодом, так как они создают конвейеры аналитики. Чтобы помочь разработчикам U-SQL понять Apache Spark и как можно преобразовать скрипты U-SQL в Apache Spark, мы создали это руководство.
Он включает шаги, которые можно предпринять, и несколько альтернативных вариантов.
Шаги по преобразованию U-SQL в Apache Spark
Преобразуйте конвейеры для оркестрации рабочих процессов.
Если вы используете фабрики данных Azure для оркестрации скриптов Azure Data Lake Analytics, необходимо настроить их для оркестрации новых программ Spark.
Общие сведения о различиях между способами управления данными U-SQL и Spark.
Если вы хотите переместить данные из Azure Data Lake Storage 1- го поколения в Azure Data Lake Storage 2-го поколения, необходимо скопировать данные файлов и поддерживаемые каталогом данные. Azure Data Lake Analytics поддерживает только Azure Data Lake Storage 1-го поколения. Дополнительные сведения см. в статье Общие сведения о форматах данных Spark.
Преобразуйте скрипты U-SQL в Spark.
Перед преобразованием скриптов U-SQL необходимо выбрать службу аналитики. Ниже перечислены некоторые доступные службы вычислений:
- DataFlow Azure Data Factory сопоставление потоков данных — это визуально создаваемые преобразования данных, которые позволяют инженерам данных разрабатывать логику графического преобразования данных без написания кода. Хотя не подходит для выполнения сложного пользовательского кода, они могут легко представлять традиционные преобразования потока данных, подобные SQL.
- Azure HDInsight Hive Apache Hive в HDInsight подходит для выполнения операций извлечения, преобразования и загрузки данных (ETL). Это означает, что вы собираетесь перевести скрипты U-SQL в Apache Hive.
- Ядра Apache Spark, такие как Azure HDInsight Spark или Azure Databricks Это означает, что вы собираетесь перевести скрипты U-SQL в Spark. Дополнительные сведения см. в разделе Общие сведения о форматах данных Spark
Осторожность
Оба Azure Databricks и Azure HDInsight Spark являются службами кластеров, а не бессерверными заданиями, такими как Azure Data Lake Analytics. Вам придется рассмотреть возможность подготовки кластеров для получения соответствующего коэффициента затрат и производительности и управления временем их существования, чтобы свести к минимуму затраты. Эти службы имеют разные характеристики производительности с пользовательским кодом, написанным в .NET, поэтому вам придется писать оболочки или переписывать код на поддерживаемом языке. Дополнительные сведения см. в статье Общие сведения о форматах данных Sparkосновные понятия кода Apache Spark для разработчиков U-SQL, .NET для Apache Spark
Дальнейшие действия
- Общие сведения о форматах данных Spark для разработчиков U-SQL
- Основные понятия кода Spark для разработчиков U-SQL
- обновление решений аналитики больших данных из Azure Data Lake Storage 1-го поколения до Azure Data Lake Storage 2-го поколения
- .NET для Apache Spark
- Преобразование данных с помощью действия Hadoop Hive в фабрике данных Azure
- Преобразование данных с помощью действия Spark в Azure Data Factory
- Что такое Apache Spark в Azure HDInsight