Миграция из потока данных 1-го поколения в поток данных 2-го поколения: сценарии миграции

Статья
12/20/2024

В этой статье представлены различные сценарии миграции, которые можно учитывать при миграции из потока данных 1-го поколения в поток данных 2-го поколения. Он также предоставляет рекомендации и рекомендации по выполнению. Эти сценарии могут вдохновить вас определить правильный подход к миграции на основе ваших бизнес-требований и обстоятельств.

При переносе потоков данных важно думать о большем, чем просто копирование существующих решений. Вместо этого мы рекомендуем модернизировать решения, используя новейшие инновации и возможности потока данных 2-го поколения. Этот подход гарантирует, что ваши решения могут поддерживать растущие потребности бизнеса.

Например, Dataflow Gen2 имеет функцию под названием fast copy, что значительно сокращает время, необходимое для загрузки данных для определенных преобразований и соединителей. Dataflow Gen2 также имеет улучшенное инкрементное обновление, что оптимизирует процессы обновления данных, обновляя только измененные данные. Эти улучшения не только повышают производительность и эффективность, но и обеспечивают масштабирование решений.

Заметка

Сценарии миграции являются репрезентативными для реальных миграций клиентов, однако отдельные сценарии клиентов, конечно, отличаются.

В этой статье не рассматриваются сведения о ценах. Для получения сведений о ценах, см. раздел о стоимости тканей .

Важный

Потребление ЦП в Dataflow 1-го поколения и dataflow 2-го поколения может отличаться по многим причинам, например использование новых функций в Dataflow 2-го поколения, включая lakehouse промежуточного и хранилища вычислений. Мы рекомендуем выполнить подробный анализ — возможно, в качестве доказательства концепции (POC) — для количественного сравнения потребления ЦП в потоках данных первого и второго поколений перед тем как переносить потоки.

Сценарии миграции

Потоки данных предлагают универсальную платформу для создания масштабируемых ETL (извлечение, преобразование и загрузка) и ELT (извлечение, загрузка и преобразование) операций, удовлетворяющих различные сценарии использования от персональной BI до корпоративной BI.

Ниже приведены три возможных сценария миграции, которые вдохновили эту статью:

персональное или командное использование: Небольшие команды или частные лица используют потоки данных для автоматизации задач приема и подготовки данных, что позволяет сосредоточиться на анализе данных и получение выводов. Например, команда может использовать потоки данных для извлечения данных из различных источников, таких как Microsoft Excel или Microsoft SharePoint. Их потоки данных преобразуют исходные данные в соответствии с конкретными потребностями и загружают их в семантическую модель для создания отчетов.
Использование отделами: Отделы в организации используют потоки данных для управления более крупными источниками данных и сложными преобразованиями. Они могут создавать компонуемые потоки данных, которые способствуют повторному использовании и согласованности в отчетах отдела, обеспечивая работу всех участников группы с одной версией данных.
Корпоративное использование: На корпоративном уровне потоки данных играют инструментальную роль в приеме больших объемов данных в нескольких отделах в больших масштабах. Они служат централизованным уровнем подготовки данных, которые поддерживают многие семантические модели, служа основой для широкого спектра бизнес-аналитики и приложений аналитики. Вся организация получает преимущества от надежных данных up-to-date, что позволяет принимать обоснованные решения на всех уровнях.

В каждом из этих сценариев потоки данных помогают создавать надежные и масштабируемые решения ETL/ELT, которые могут расти с учетом потребностей команды, отдела или организации. Хорошо разработанные потоки данных гарантируют, что процессы управления данными остаются эффективными и эффективными.

Дополнительную информацию о сценариях использования вы можете найти в разделе планирование реализации Microsoft Fabric.

Сценарий миграции 1

В этом сценарии миграции организация использует потоки данных Power BI для самостоятельной работы с данными, чтобы поддерживать сценарии личного или командного использования. Потоки данных содержатся в одной рабочей области, которая выделена под емкость Fabric.

Создатели потока данных хотят воспользоваться расширенными возможностями потока данных 2-го поколения для разработки. В то же время они планируют временно использовать таблицы потоков данных в качестве источника данных во время поэтапной миграции. Этот подход обеспечивает простоту использования и подключения создателей контента, работающих с существующими семантических моделей Power BI, электронными таблицами Excel или таблицами Dataverse, по крайней мере до завершения перехода на поддерживаемые источники назначения данных.

Чтобы мигрировать свои решения, создатели потоков данных:

Обновите идентификатор рабочей области, если создается новая рабочая область для хранения нового потока данных.
Обновите существующие решения с исходного идентификатора потока данных (1-го поколения) до нового идентификатора потока данных (2-го поколения).

Ниже приведен пример запроса, который был обновлен для получения данных для таблицы размерности времени.

let
    Source = PowerPlatform.Dataflows(null),
    Workspaces = Source{[Id="Workspaces"]}[Data],
    Workspace = Workspaces{[workspaceId="<enter new workspace ID>"]}[Data],
    DataflowId = Workspace{[dataflowId="<enter new dataflow ID"]}[Data],
    DimDateTable = DataflowId{[entity="DimDate", version=""]}[Data]
in
    DimDateTable

Совет

Если параметризовать значения workspaceId и dataflowId в семантических моделях, можно использовать наборы данных и операцию обновления параметров в группе в REST API для программного обновления сведений о параметрах mashup.

Важный

Хотя возможно получить данные с помощью соединителя Dataflow, этот подход не рекомендуется при использовании Dataflow Gen2. Вместо этого мы рекомендуем использовать функциональность назначения данных для вывода всех созданных таблиц из Dataflow второго поколения в элементы Fabric или другие назначения, если это возможно. Это связано с тем, что соединитель потока данных использует базовый уровень хранилища реализации системы (называемый DataflowsStagingLakehouse), и он может измениться при добавлении новых функций или функций.

Сценарий миграции 2

В этом сценарии миграции организация использует потоки данных Power BI для самостоятельной подготовки данных для поддержки сценариев использования отделов с компонуемыми потоками данных и связанными таблицами в нескольких рабочих областях.

Создатели потоков данных хотят воспользоваться расширенными возможностями Dataflow Gen2 для разработки, а также эффективно делиться данными и выводить таблицы потоков данных в озеро данных Fabric. Этот метод использует сочетания клавиш OneLake. Сочетания клавиш OneLake упрощают управление решениями, уменьшая задержку процесса, традиционно связанную с связанными таблицами в рабочих областях и устраняя избыточные копии данных.

Для переноса своих решений создатели потоков данных:

Замените связанные таблицы на ярлыки OneLake, которые предоставляют потребителям на последующих этапах прямой доступ к данным.
Обновите существующие решения и запросы перехода, заменив функции PowerPlatform.Dataflows или PowerBI.Dataflows функцией доступа к данным Lakehouse.Contents в Fabric.

Ниже приведен пример запроса PowerQuery, который был обновлен для получения данных из таблицы измерений клиента.

let
  Source = Lakehouse.Contents([]),
  WorkspaceId = Source{[workspaceId="<0000aaaa-11bb-cccc-dd22-eeeeee333333>"]}[Data],
  LakehouseId = WorkspaceId{[lakehouseId="1111bbbb-22cc-dddd-ee33-ffffff444444"]}[Data],
  DimCustomerTable = LakehouseId{[Id="DimCustomer", ItemKind="Table"]}[Data]
in
  DimCustomerTable

Заметка

Вы можете программно редактировать выражения запросов в семантической модели Power BI, опубликованной в Fabric, с использованием конечной точки XMLA , а также путем обновления разделенного M-выражения таблицы.

Однако помните, что после изменения семантической модели с помощью конечной точки XMLA вы никогда не сможете скачать ее из службы Power BI.

Сценарий миграции 3

В этом сценарии миграции организация использует потоки данных Power BI для самостоятельной подготовки данных для поддержки сценариев использования отделов с компонуемыми потоками данных в нескольких рабочих областях.

Создатели потока данных хотят воспользоваться расширенными возможностями потока данных 2-го поколения для разработки, а также выводить и совместно использовать таблицы потоков данных из хранилища Fabric с подробными разрешениями пользователя. Этот подход обеспечивает гибкость, а доступ к данным можно реализовать с помощью безопасности на уровне строк (RLS), безопасности на уровне столбцов (CLS) и динамической маскировки данных (DDM).

Чтобы перенести свои решения, создатели потока данных:

Предоставьте доступ к данным через детализацииподсистемы вычислений SQL, которые обеспечивают более выборочный доступ к определенным пользователям путем ограничения доступа к определенным таблицам и схемам, а также реализации RLS и CLS.
Обновите существующие решения и запросы перехода, заменив функцию PowerPlatform.Dataflows или PowerBI.Dataflows функцией доступа к данным Fabric.Warehouse в Fabric.

Ниже приведен пример запроса PowerQuery, который был обновлен для получения данных из таблицы измерений клиента.

let
  Source = Fabric.Warehouse([]),
  WorkspaceId = Source{[workspaceId="0000aaaa-11bb-cccc-dd22-eeeeee333333"]}[Data],
  WarehouseId = WorkspaceId{[warehouseId="1111bbbb-22cc-dddd-ee33-ffffff444444"]}[Data],
  DimCustomerTable = WarehouseId{[Schema="dbo", Item="DimCustomer"]}[Data]
in
  DimCustomerTable

Руководство по миграции

Рекомендуется скомпилировать инвентаризацию потоков данных и зависимых элементов. Рекомендуется также использовать шаблоны Power Query.

Инвентарь

Чтобы помочь вам спланировать миграцию, первым шагом является инвентаризация потоков данных и всех подчиненных решений, которые зависят от них. Определение зависимых элементов может помочь избежать простоя и сбоев.

Потоки данных как источник в Power BI
- Используйте операцию REST API Dataflows - Get Upstream Dataflows In Group, чтобы определить происхождение и зависимости между потоком данных, использующего связанные таблицы. В частности, связанные таблицы могут содержать до 32 ссылок.
  - В качестве альтернативы, можно использовать функцию от Semantic Link Labslist_upstream_dataflows, чтобы упростить процесс рекурсивного вызова операции Get Upstream Dataflows In Group REST API. Функция выполняет итерацию по всем связанным потокам данных, пока она не столкнется с записью с пустым значением, указывающим конец цепочки.
- Используйте операцию администратора — наборы данных GetDatasetToDataflowsLinksInGroupAsAdmin REST API для компиляции инвентаризации семантических моделей Power BI, использующих потоки данных в рабочей области, для которых потребуются обновления.
- Используйте API сканера Microsoft Fabric для получения выражений запросов mashup из семантических моделей в клиенте. Затем можно выполнить поиск выражений для любых идентификаторов потоков данных, чтобы понять полную происхождение по всему клиенту.
Использование потоков данных в Power Apps в качестве источника
- Доступ к выражениям запросов mashup из таблицы потока данных в Решении для приложений Power Platform Dataflows . Затем можно выполнить поиск выражений для любых идентификаторов потоков данных, чтобы понять полную происхождение между приложениями в клиенте. Сведения об установке приложений и управлении ими в Dynamics 365, работающих в Microsoft Dataverse, см. в статье Manage Power Apps.
потоки данных в качестве источника в Excel
- Хотя книги Excel не имеют REST API для отслеживания происхождения и зависимостей, вы можете использовать Visual Basic for Applications (VBA) и объект WorkbookConnection, чтобы определить, содержится ли в строке подключения текст Provider=Microsoft.Mashup.OleDb.1, который указывает на подключение Power Query. Кроме того, для извлечения формул Power Query можно использовать свойство WorkbookQuery.Formula.
- После отслеживания происхождения потоков данных рекомендуется обновить существующие подключения потока данных в Элементах Excel для Fabric следующим образом:
  - Чтобы получить доступ к конечной точке аналитики SQL в lakehouse Fabric, хранилище данных или базе данных SQL, используйте соединитель SQL Server, который использует функцию доступа к данным Sql.Database.
  - Чтобы получить доступ к содержимому файла Fabric lakehouse, используйте соединитель хранилища Azure Data Lake Gen2, который использует функцию доступа к данным .
  - Чтобы получить доступ к базе данных Fabric eventhouse, используйте соединитель Azure Data Explorer, который применяет функцию AzureDataExplorer.Contents для доступа к данным.

Шаблоны Power Query

Шаблоны Power Query упрощают процесс передачи проекта между различными интеграциями Power Query. Они помогают упростить то, что в противном случае может быть сложной и трудоемкой задачей. Шаблоны инкапсулируют весь проект Power Query, включая скрипты и метаданные, в один переносимый файл.

Шаблоны Power Query были разработаны для обеспечения совместимости с различными интеграциями, такими как потоки данных Power BI (1-го поколения) и потоки данных Fabric (2-го поколения), обеспечивая плавный переход между этими службами.

Дополнительные сведения об этой статье см. в следующих ресурсах:

Партнеры Fabric помогут вашей организации добиться успеха в процессе миграции. Чтобы взаимодействовать с партнером Fabric, перейдите на портал для партнеров Fabric.

Поделиться через

Миграция из потока данных 1-го поколения в поток данных 2-го поколения: сценарии миграции

Сценарии миграции

Сценарий миграции 1

Сценарий миграции 2

Сценарий миграции 3

Руководство по миграции

Инвентарь

Шаблоны Power Query

Обратная связь

Дополнительные ресурсы

Поделиться через

Миграция из потока данных 1-го поколения в поток данных 2-го поколения: сценарии миграции

Сценарии миграции

Сценарий миграции 1

Сценарий миграции 2

Сценарий миграции 3

Руководство по миграции

Инвентарь

Шаблоны Power Query

Связанное содержимое

Обратная связь

Дополнительные ресурсы