Руководство по принятию решений Microsoft Fabric: операция копирования, поток данных или Spark.

Статья
01/28/2025

Используйте это справочное руководство и примеры сценариев, которые помогут вам определить, требуется ли действие копирования, поток данных или Spark для рабочих нагрузок Microsoft Fabric.

Действия копирования, поток данных и свойства Spark

	действие копирования конвейера	поток данных 2-го поколения	Spark
вариант использования	Миграция лейка данных и хранилища данных прием данных, упрощенное преобразование	Прием данных, преобразование данных, обработка данных, профилирование данных	Прием данных, преобразование данных, обработка данных профилирование данных
Основная персона разработчика	Инженер данных, интегратор данных	Инженер данных, интегратор данных, бизнес-аналитик	Инженер данных, специалист по обработке и анализу данных, разработчик данных
набор навыков для основного разработчика	ETL, SQL, JSON	ETL, M, SQL	Spark (Scala, Python, Spark SQL, R)
Код, написанный	Нет кода, низкий код	Нет кода, низкий код	Код
тома данных	От низкого до высокого	От низкого до высокого	От низкого к высокому
интерфейс разработки	Колдун холст	Power Query	Записная книжка Определение задания Spark
Источники	30+ соединителей	150+ соединителей	Сотни библиотек Spark
Назначения	18+ соединителей	Lakehouse, База данных SQL Azure, Обозреватель данных Azure, Аналитика Azure Synapse	Сотни библиотек Spark
сложность преобразования	Низкий: упрощенный — преобразование типов, сопоставление столбцов, слияние и разделение файлов, плоская иерархия	От низкого к высокому 300+ функции преобразования	От низкого к высокому поддержка собственных библиотек Spark и опенсорсных библиотек

Ознакомьтесь со следующими тремя сценариями, чтобы помочь в выборе способа работы с данными в Fabric.

Сценарий1

Лео, инженер данных, должен принять большой объем данных из внешних систем, как локальных, так и облачных. К этим внешним системам относятся базы данных, файловые системы и API. Лео не хочет писать и поддерживать код для каждой операции соединителя или перемещения данных. Он хочет следовать лучшим практикам двухуровневой модели, используя бронзовый, серебряный и золотой уровни. Лео не имеет опыта работы с Spark, поэтому он предпочитает интерфейс с функцией перетаскивания насколько это возможно, с минимальным количеством кодирования. И он также хочет обработать данные по расписанию.

Первым шагом является загрузка необработанных данных в бронзовый слой хранилища данных из ресурсов Azure и различных сторонних источников (таких как Snowflake Web, REST, AWS S3, GCS и т. д.). Он хочет консолидированного озера, чтобы все данные из различных бизнес-объектов, локальных и облачных источников располагались в одном месте. Лео проверяет параметры и выбирает действие копирования конвейера в качестве подходящего варианта для его необработанной двоичной копии. Этот шаблон применяется как к обновлению исторических, так и добавочных данных. С помощью действия копирования Лео может загружать данные Gold в хранилище данных без написания кода, если это необходимо, а конвейеры же обеспечивают прием данных с высоким уровнем масштабирования, способные перемещать данные петабайтового масштаба. Действие копирования — это лучший вариант с низким кодом и без кода для перемещения петабайтов данных в озерах и хранилищах из различных источников, либо с помощью специального или через расписание.

Сценарий2

Мэри — инженер данных с глубокими знаниями различных требований к аналитическим отчетам нескольких направлений бизнеса. В команде upstream успешно реализовали решение для переноса исторических и инкрементальных данных нескольких линий бизнеса в общий лейкхаус. Мэри было поручено очистить данные, применить бизнес-логику и загрузить их в несколько мест назначения (например, в базу данных SQL Azure, ADX и озеро данных) для подготовки соответствующих отчетных команд.

Мэри является опытным пользователем Power Query, и объем данных находится в низком до среднего диапазона для достижения требуемой производительности. Потоки данных предоставляют интерфейсы, не требующие программирования, или с минимальным программированием для получения данных из сотен источников данных. С помощью потоков данных можно преобразовать данные, используя более 300 вариантов преобразования, и записать результаты в несколько мест назначения с простым в использовании и наглядным пользовательским интерфейсом. Мэри рассматривает варианты и решает, что имеет смысл использовать Dataflow Gen 2 в качестве предпочтительного варианта преобразования.

Сценарий3

Адам является инженером данных, работающим в крупной розничной компании, которая использует "lakehouse" для хранения и анализа данных клиентов. В рамках своей работы Адам отвечает за разработку и поддержку потоков данных, которые извлекают, преобразуют и загружают данные в lakehouse. Одним из бизнес-требований компании является выполнение аналитики проверки клиентов, чтобы получить аналитические сведения о опыте своих клиентов и улучшить свои услуги.

Адам решает, что лучше всего использовать Spark для построения логики извлечения и преобразования. Spark предоставляет распределенную вычислительную платформу, которая может параллельно обрабатывать большие объемы данных. Он пишет приложение Spark с помощью Python или Scala, которое считывает структурированные, полуструктурированные и неструктурированные данные из OneLake для клиентских отзывов и обратной связи. Приложение очищает, преобразует и записывает данные в таблицы Delta в lakehouse. Затем данные будут готовы к использованию для нисходящей аналитики.

Копирование данных с помощью операции копирования
Быстрый старт: Создайте свой первый поток данных для получения и преобразования данных
Создание определения задания Apache Spark в Fabric

Поделиться через

Руководство по принятию решений Microsoft Fabric: операция копирования, поток данных или Spark.

Действия копирования, поток данных и свойства Spark

Сценарий1

Сценарий2

Сценарий3

Обратная связь

Дополнительные ресурсы

Поделиться через

Руководство по принятию решений Microsoft Fabric: операция копирования, поток данных или Spark.

Действия копирования, поток данных и свойства Spark

Сценарий1

Сценарий2

Сценарий3

Связанное содержимое

Обратная связь

Дополнительные ресурсы