Преобразование данных Azure Synapse Link for Dataverse с помощью Apache Spark

Статья
01/30/2024

Вы можете использовать Azure Synapse Link, чтобы подключить свои данные Microsoft Dataverse к Azure Synapse Analytics для изучения ваших данных и сокращения времени получения аналитической информации. В этой статье рассматривается, как преобразовать данные Dataverse с помощью ядра Apache Spark, доступного в вашем рабочем пространстве Synapse.

Примечание

Azure Synapse Link for Microsoft Dataverse ранее называлось "Экспорт в Data Lake". Служба была переименована в мае 2021 года и будет продолжать экспортировать данные в Azure Data Lake, а также в Azure Synapse Analytics.

Предварительные условия

В этом разделе описаны предварительные условия, необходимые для преобразования данных Dataverse с помощью Apache Spark после использования службы Azure Synapse Link for Dataverse.

Azure Synapse Link for Dataverse. В этом руководстве предполагается, что вы уже экспортировали данные из Dataverse с помощью Azure Synapse Link for Dataverse.
Доступ к учетной записи хранилища. Вам должна быть предоставлена одна из следующих ролей для учетной записи хранения: средство чтения данных BLOB-объектов хранилища, участник данных BLOB-объектов хранилища или владелец данных BLOB-объектов хранилища.
Администратор Synapse. Вам должен быть предоставлен доступ с ролью Администратор Synapse в Synapse Studio.

Преобразование данных с помощью записной книжки Apache Spark

В Power Apps выберите желаемый Azure Synapse Link из списка, а затем выберите Перейти к Azure Synapse workspace.
Разверните Базы данных, выберите свой контейнер Dataverse. Ваши экспортированные таблицы отображаются в каталоге Таблицы на левой боковой панели.
Щелкните правой кнопкой мыши нужную таблицу и выберите Создать записную книжку > Загрузить в DataFrame.
Присоедините записную книжку к пулу Apache Spark, выбрав пул в раскрывающемся меню. Если у вас нет пула Apache Spark, выберите Управление пулами, чтобы создать его.
Добавьте ячейки кода для преобразования ваших данных. Запустите отдельные ячейки, нажав кнопку воспроизведения слева от каждой ячейки, или последовательно запустите все ячейки, выбрав Запустить все на верхней панели.