Поделиться через


Руководство по принятию решений Microsoft Fabric: операция копирования, поток данных или Spark.

Используйте это справочное руководство и примеры сценариев, которые помогут вам определить, требуется ли действие копирования, поток данных или Spark для рабочих нагрузок Microsoft Fabric.

Действия копирования, поток данных и свойства Spark

действие копирования конвейера поток данных 2-го поколения Spark
вариант использования Миграция лейка данных и хранилища данных
прием данных,
упрощенное преобразование
Прием данных,
преобразование данных,
обработка данных,
профилирование данных
Прием данных,
преобразование данных,
обработка данных
профилирование данных
Основная персона разработчика Инженер данных,
интегратор данных
Инженер данных,
интегратор данных,
бизнес-аналитик
Инженер данных,
специалист по обработке и анализу данных,
разработчик данных
набор навыков для основного разработчика ETL,
SQL,
JSON
ETL,
M,
SQL
Spark (Scala, Python, Spark SQL, R)
Код, написанный Нет кода,
низкий код
Нет кода,
низкий код
Код
тома данных От низкого до высокого От низкого до высокого От низкого к высокому
интерфейс разработки Колдун
холст
Power Query Записная книжка
Определение задания Spark
Источники 30+ соединителей 150+ соединителей Сотни библиотек Spark
Назначения 18+ соединителей Lakehouse,
База данных SQL Azure,
Обозреватель данных Azure,
Аналитика Azure Synapse
Сотни библиотек Spark
сложность преобразования Низкий:
упрощенный — преобразование типов, сопоставление столбцов, слияние и разделение файлов, плоская иерархия
От низкого к высокому
300+ функции преобразования
От низкого к высокому
поддержка собственных библиотек Spark и опенсорсных библиотек

Ознакомьтесь со следующими тремя сценариями, чтобы помочь в выборе способа работы с данными в Fabric.

Сценарий1

Лео, инженер данных, должен принять большой объем данных из внешних систем, как локальных, так и облачных. К этим внешним системам относятся базы данных, файловые системы и API. Лео не хочет писать и поддерживать код для каждой операции соединителя или перемещения данных. Он хочет следовать лучшим практикам двухуровневой модели, используя бронзовый, серебряный и золотой уровни. Лео не имеет опыта работы с Spark, поэтому он предпочитает интерфейс с функцией перетаскивания насколько это возможно, с минимальным количеством кодирования. И он также хочет обработать данные по расписанию.

Первым шагом является загрузка необработанных данных в бронзовый слой хранилища данных из ресурсов Azure и различных сторонних источников (таких как Snowflake Web, REST, AWS S3, GCS и т. д.). Он хочет консолидированного озера, чтобы все данные из различных бизнес-объектов, локальных и облачных источников располагались в одном месте. Лео проверяет параметры и выбирает действие копирования конвейера в качестве подходящего варианта для его необработанной двоичной копии. Этот шаблон применяется как к обновлению исторических, так и добавочных данных. С помощью действия копирования Лео может загружать данные Gold в хранилище данных без написания кода, если это необходимо, а конвейеры же обеспечивают прием данных с высоким уровнем масштабирования, способные перемещать данные петабайтового масштаба. Действие копирования — это лучший вариант с низким кодом и без кода для перемещения петабайтов данных в озерах и хранилищах из различных источников, либо с помощью специального или через расписание.

Сценарий2

Мэри — инженер данных с глубокими знаниями различных требований к аналитическим отчетам нескольких направлений бизнеса. В команде upstream успешно реализовали решение для переноса исторических и инкрементальных данных нескольких линий бизнеса в общий лейкхаус. Мэри было поручено очистить данные, применить бизнес-логику и загрузить их в несколько мест назначения (например, в базу данных SQL Azure, ADX и озеро данных) для подготовки соответствующих отчетных команд.

Мэри является опытным пользователем Power Query, и объем данных находится в низком до среднего диапазона для достижения требуемой производительности. Потоки данных предоставляют интерфейсы, не требующие программирования, или с минимальным программированием для получения данных из сотен источников данных. С помощью потоков данных можно преобразовать данные, используя более 300 вариантов преобразования, и записать результаты в несколько мест назначения с простым в использовании и наглядным пользовательским интерфейсом. Мэри рассматривает варианты и решает, что имеет смысл использовать Dataflow Gen 2 в качестве предпочтительного варианта преобразования.

Сценарий3

Адам является инженером данных, работающим в крупной розничной компании, которая использует "lakehouse" для хранения и анализа данных клиентов. В рамках своей работы Адам отвечает за разработку и поддержку потоков данных, которые извлекают, преобразуют и загружают данные в lakehouse. Одним из бизнес-требований компании является выполнение аналитики проверки клиентов, чтобы получить аналитические сведения о опыте своих клиентов и улучшить свои услуги.

Адам решает, что лучше всего использовать Spark для построения логики извлечения и преобразования. Spark предоставляет распределенную вычислительную платформу, которая может параллельно обрабатывать большие объемы данных. Он пишет приложение Spark с помощью Python или Scala, которое считывает структурированные, полуструктурированные и неструктурированные данные из OneLake для клиентских отзывов и обратной связи. Приложение очищает, преобразует и записывает данные в таблицы Delta в lakehouse. Затем данные будут готовы к использованию для нисходящей аналитики.