Общие сведения о потоках данных 2-го поколения в Microsoft Fabric

Завершено

В нашем сценарии необходимо разработать семантику модели, которая может стандартизировать данные и предоставить доступ к бизнесу. С помощью потоков данных 2-го поколения можно подключаться к различным источникам данных, а затем преобразовывать и преобразовывать данные. Данные можно приземлить непосредственно в озеро или использовать конвейер данных для других направлений.

Что такое поток данных?

Потоки данных — это тип облачного средства ETL (извлечение, преобразование, загрузка) для создания и выполнения масштабируемых процессов преобразования данных.

Потоки данных 2-го поколения позволяют извлекать данные из различных источников, преобразовывать их с помощью широкого спектра операций преобразования и загружать их в место назначения. Использование Power Query Online также позволяет визуальному интерфейсу выполнять эти задачи.

По сути, поток данных включает все преобразования для уменьшения времени подготовки данных, а затем может быть загружена в новую таблицу, включенную в конвейер данных или используемую в качестве источника данных аналитиками данных.

Использование потоков данных 2-го поколения

Традиционно инженеры данных тратят значительное время на извлечение, преобразование и загрузку данных в используемый формат для нижестоящей аналитики. Цель потоков данных 2-го поколения — обеспечить простой и многократно используемый способ выполнения задач ETL с помощью Power Query Online.

Если вы решили использовать только конвейер данных, скопируйте данные, а затем используйте предпочитаемый язык программирования для извлечения, преобразования и загрузки данных. Кроме того, можно сначала создать поток данных 2-го поколения для извлечения и преобразования данных. Вы также можете загрузить данные в лейкхаус и другие места назначения. Теперь бизнес может легко использовать курированную семантику модели.

Добавление назначения данных в поток данных является необязательным, и поток данных сохраняет все шаги преобразования. Чтобы выполнить другие задачи или загрузить данные в другое место после преобразования, создайте конвейер данных и добавьте действие потока данных 2-го поколения в оркестрацию.

Другим вариантом может быть использование конвейера данных и потока данных 2-го поколения для процесса ELT (извлечение, загрузка, преобразование). Для этого заказа вы будете использовать конвейер для извлечения и загрузки данных в предпочтительное место назначения, например lakehouse. Затем вы создадите поток данных 2-го поколения для подключения к данным Lakehouse для очистки и преобразования данных. В этом случае вы предлагаете поток данных в качестве курированной семантической модели для аналитиков данных для разработки отчетов.

Потоки данных также можно секционировать по горизонтали. После создания глобального потока данных аналитики данных могут использовать потоки данных для создания специализированных семантических моделей для конкретных потребностей.

Потоки данных позволяют повысить многократное использование логики ETL, которая предотвращает необходимость создания дополнительных подключений к источнику данных. Потоки данных предлагают широкий спектр преобразований и могут выполняться вручную, по расписанию обновления или в составе оркестрации конвейера данных.

Совет

Сделайте поток данных обнаруживаемым, чтобы аналитики данных также могли подключаться к потоку данных через Power BI Desktop. Это сокращает подготовку данных для разработки отчетов.

Преимущества и ограничения

Существует несколько способов для данных ETL или ELT в Microsoft Fabric. Рассмотрим преимущества и ограничения использования потоков данных 2-го поколения.

Преимущества:

  • Расширение данных с согласованными данными, например стандартной таблицей измерений дат.
  • Разрешить пользователям самообслуживания доступ к подмножества хранилища данных отдельно.
  • Оптимизируйте производительность с помощью потоков данных, что позволяет извлекать данные один раз для повторного использования, уменьшая время обновления данных для более медленных источников.
  • Упрощение сложности источника данных путем предоставления потоков данных более крупным группам аналитиков.
  • Обеспечение согласованности и качества данных, позволяя пользователям очищать и преобразовывать данные перед загрузкой в место назначения.
  • Упрощение интеграции данных путем предоставления низкокодового интерфейса для приема данных из различных источников.

Ограничения:

  • Потоки данных не являются заменой для хранилища данных.
  • Безопасность на уровне строк не поддерживается.
  • Требуется рабочая область емкости Fabric.