Руководство по принятию решений Microsoft Fabric: операция копирования, поток данных или Spark.
Используйте это справочное руководство и примеры сценариев, которые помогут вам определить, требуется ли действие копирования, поток данных или Spark для рабочих нагрузок Microsoft Fabric.
Действия копирования, поток данных и свойства Spark
действие копирования конвейера | поток данных 2-го поколения | Spark | |
---|---|---|---|
вариант использования | Миграция лейка данных и хранилища данных прием данных, упрощенное преобразование |
Прием данных, преобразование данных, обработка данных, профилирование данных |
Прием данных, преобразование данных, обработка данных профилирование данных |
Основная персона разработчика | Инженер данных, интегратор данных |
Инженер данных, интегратор данных, бизнес-аналитик |
Инженер данных, специалист по обработке и анализу данных, разработчик данных |
набор навыков для основного разработчика | ETL, SQL, JSON |
ETL, M, SQL |
Spark (Scala, Python, Spark SQL, R) |
Код, написанный | Нет кода, низкий код |
Нет кода, низкий код |
Код |
тома данных | От низкого до высокого | От низкого до высокого | От низкого к высокому |
интерфейс разработки | Колдун холст |
Power Query | Записная книжка Определение задания Spark |
Источники | 30+ соединителей | 150+ соединителей | Сотни библиотек Spark |
Назначения | 18+ соединителей | Lakehouse, База данных SQL Azure, Обозреватель данных Azure, Аналитика Azure Synapse |
Сотни библиотек Spark |
сложность преобразования | Низкий: упрощенный — преобразование типов, сопоставление столбцов, слияние и разделение файлов, плоская иерархия |
От низкого к высокому 300+ функции преобразования |
От низкого к высокому поддержка собственных библиотек Spark и опенсорсных библиотек |
Ознакомьтесь со следующими тремя сценариями, чтобы помочь в выборе способа работы с данными в Fabric.
Сценарий1
Лео, инженер данных, должен принять большой объем данных из внешних систем, как локальных, так и облачных. К этим внешним системам относятся базы данных, файловые системы и API. Лео не хочет писать и поддерживать код для каждой операции соединителя или перемещения данных. Он хочет следовать лучшим практикам двухуровневой модели, используя бронзовый, серебряный и золотой уровни. Лео не имеет опыта работы с Spark, поэтому он предпочитает интерфейс с функцией перетаскивания насколько это возможно, с минимальным количеством кодирования. И он также хочет обработать данные по расписанию.
Первым шагом является загрузка необработанных данных в бронзовый слой хранилища данных из ресурсов Azure и различных сторонних источников (таких как Snowflake Web, REST, AWS S3, GCS и т. д.). Он хочет консолидированного озера, чтобы все данные из различных бизнес-объектов, локальных и облачных источников располагались в одном месте. Лео проверяет параметры и выбирает действие копирования конвейера в качестве подходящего варианта для его необработанной двоичной копии. Этот шаблон применяется как к обновлению исторических, так и добавочных данных. С помощью действия копирования Лео может загружать данные Gold в хранилище данных без написания кода, если это необходимо, а конвейеры же обеспечивают прием данных с высоким уровнем масштабирования, способные перемещать данные петабайтового масштаба. Действие копирования — это лучший вариант с низким кодом и без кода для перемещения петабайтов данных в озерах и хранилищах из различных источников, либо с помощью специального или через расписание.
Сценарий2
Мэри — инженер данных с глубокими знаниями различных требований к аналитическим отчетам нескольких направлений бизнеса. В команде upstream успешно реализовали решение для переноса исторических и инкрементальных данных нескольких линий бизнеса в общий лейкхаус. Мэри было поручено очистить данные, применить бизнес-логику и загрузить их в несколько мест назначения (например, в базу данных SQL Azure, ADX и озеро данных) для подготовки соответствующих отчетных команд.
Мэри является опытным пользователем Power Query, и объем данных находится в низком до среднего диапазона для достижения требуемой производительности. Потоки данных предоставляют интерфейсы, не требующие программирования, или с минимальным программированием для получения данных из сотен источников данных. С помощью потоков данных можно преобразовать данные, используя более 300 вариантов преобразования, и записать результаты в несколько мест назначения с простым в использовании и наглядным пользовательским интерфейсом. Мэри рассматривает варианты и решает, что имеет смысл использовать Dataflow Gen 2 в качестве предпочтительного варианта преобразования.
Сценарий3
Адам является инженером данных, работающим в крупной розничной компании, которая использует "lakehouse" для хранения и анализа данных клиентов. В рамках своей работы Адам отвечает за разработку и поддержку потоков данных, которые извлекают, преобразуют и загружают данные в lakehouse. Одним из бизнес-требований компании является выполнение аналитики проверки клиентов, чтобы получить аналитические сведения о опыте своих клиентов и улучшить свои услуги.
Адам решает, что лучше всего использовать Spark для построения логики извлечения и преобразования. Spark предоставляет распределенную вычислительную платформу, которая может параллельно обрабатывать большие объемы данных. Он пишет приложение Spark с помощью Python или Scala, которое считывает структурированные, полуструктурированные и неструктурированные данные из OneLake для клиентских отзывов и обратной связи. Приложение очищает, преобразует и записывает данные в таблицы Delta в lakehouse. Затем данные будут готовы к использованию для нисходящей аналитики.
Связанное содержимое
- Копирование данных с помощью операции копирования
- Быстрый старт: Создайте свой первый поток данных для получения и преобразования данных
- Создание определения задания Apache Spark в Fabric