Поделиться через


Настройка хранилища потоков данных для использования Azure Data Lake 2-го поколения

Данные, используемые с Power BI, хранятся во внутреннем хранилище, предоставляемом Power BI по умолчанию. Интеграция потоков данных и Azure Data Lake Storage 2-го поколения (ADLS 2-го поколения) позволяет хранить потоки данных в учетной записи Azure Data Lake Storage 2-го поколения вашей организации. Эта функция по сути позволяет "перенести собственное хранилище" в потоки данных Power BI и установить подключение на уровне клиента или рабочей области.

Причины использования рабочей области ADLS 2-го поколения или подключения клиента

После того как вы подсоедините поток данных, Power BI настраивает и сохраняет ссылку, чтобы вы теперь могли считывать и записывать данные в собственное хранилище Azure Data Lake Storage второго поколения. Power BI хранит данные в формате общей модели данных (CDM), которая записывает метаданные о данных в дополнение к фактическим данным, созданным самим потоком данных. Эта функция разблокирует множество мощных возможностей и позволяет данным и связанным метаданным в формате CDM теперь обслуживать расширяемость, автоматизацию, мониторинг и сценарии резервного копирования. Когда вы делаете эти данные доступными и широко доступными в вашей среде, она позволяет демократизировать аналитические сведения и данные, созданные в вашей организации. Он также разблокирует возможность создания дополнительных решений с широким спектром сложности. Ваши решения могут быть совместимы с CDM и включать в себя пользовательские приложения и решения в Power Platform, Azure, а также те, которые доступны через экосистемы партнеров и независимых поставщиков программного обеспечения (ISV). Вы также можете создать приложение для чтения CSV-файла. Инженеры данных, учёные данных и аналитики теперь могут работать, использовать и заново применять общий набор данных, который курируется в ADLS второго поколения.

Существует два способа настройки хранилища ADLS 2-го поколения: можно использовать назначенную клиентом учетную запись ADLS 2-го поколения или использовать собственное хранилище ADLS 2-го поколения на уровне рабочей области.

Необходимые условия

  • Чтобы использовать собственную учетную запись ADLS Gen 2, необходимо обладать разрешением владельца на уровне учетной записи хранения. Разрешения на уровне группы ресурсов или подписки не будут работать. Если вы являетесь администратором, вы по-прежнему должны назначить себе права владельца. В настоящее время не поддерживаются учетные записи хранения ADLS 2-го поколения, находящиеся забрандмауэром.

  • Учетная запись хранения должна быть создана с включенным иерархическим пространством имен (HNS).

  • Учетная запись хранения должна быть создана в том же клиенте Microsoft Entra, что и клиент Power BI .

  • Пользователь должен иметь роль владельца данных BLOB-объектов хранилища, роль чтения данных BLOB-объектов хранилища и роль владельца на уровне учетной записи хранения (область должна быть этом ресурсе и не наследуется). Любые примененные изменения ролей могут занять несколько минут для синхронизации и должны синхронизироваться перед выполнением следующих действий в службе Power BI.

  • Регион клиента рабочей области Power BI должен совпадать с регионом учетной записи хранения.

  • Для защиты ваших конечных точек требуется версия TLS (Транспортный уровень безопасности) 1.2 или более поздняя. Веб-браузеры и другие клиентские приложения, использующие версии TLS до TLS 1.2, не смогут подключаться.

  • Присоединение потока данных с ADLS Gen 2, защищенного многофакторной аутентификацией (MFA), не поддерживается.

  • Наконец, вы можете подключиться к любой ADLS 2-го поколения с портала администрирования, но при подключении непосредственно к рабочей области необходимо убедиться, что потоки данных в рабочей области отсутствуют.

Заметка

Предоставление собственного хранилища (Azure Data Lake 2-го поколения) недоступно в службе Power BI для клиентов GCC из государственных организаций США. Дополнительные сведения о доступных функциях и функциях, которые недоступны, см. в разделе Доступность функций Power BI для клиентов государственных организаций США.

В следующей таблице описаны разрешения для ADLS и Power BI, необходимые для ADLS 2-го поколения и Power BI:

Действие Разрешения ADLS Минимальные разрешения Power BI
Подключение ADLS 2-го поколения к клиенту Power BI Владелец Администратор Power BI
Подключение ADLS 2-го поколения к рабочей области Владелец Администратор рабочей области
Создание потоков данных Power BI с записью данных в подключенную учетную запись ADLS Неприменимо Участник рабочего пространства
Использование потока данных Power BI Неприменимо Средство просмотра рабочей области

Подключение к Azure Data Lake 2-го поколения на уровне рабочей области

Перейдите в рабочую область, в которой нет потоков данных. Выберите параметры рабочей области. Выберите вкладку подключения Azure и затем выберите раздел хранилища.

снимок экрана: панель параметров рабочей области на вкладке

Параметр Использовать подключение Azure по умолчанию отображается, если администратор уже настроил учетную запись ADLS 2-го поколения, назначенную для клиента. У вас есть два варианта:

  • Используйте настроенную учетную запись ADLS Gen 2 арендатора, выбрав поле Использовать подключение Azure по умолчанию, или
  • Выберите Подключиться к Azure, чтобы указать новую учетную запись хранения Azure.

При выборе Connect к AzurePower BI извлекает список подписок Azure, к которым у вас есть доступ. Заполните раскрывающиеся списки. Затем выберите действительную подписку Azure, группу ресурсов и учетную запись хранения с включенным параметром иерархического пространства имен, который является флагом ADLS 2-го поколения. Личная учетная запись, используемая для подключения к Azure, используется только один раз, чтобы задать начальное подключение и предоставить учетным записям службы Power BI права на чтение и запись данных, после чего исходная учетная запись пользователя больше не требуется для активного подключения.

снимок экрана окна параметров после выбора подключения к Azure.

После того как вы выбрали нужный вариант, нажмите Сохранить, чтобы успешно подключить рабочую область к вашей учетной записи ADLS Gen2. Power BI автоматически настраивает учетную запись хранения с необходимыми разрешениями и настраивает файловую систему Power BI, где будут записываться данные. На этом этапе данные каждого потока данных в этой рабочей области записываются непосредственно в эту файловую систему, которую можно использовать с другими службами Azure. Теперь у вас есть один источник для всех данных организации или отдела.

Конфигурация подключений Azure

Настройка подключений Azure — это необязательный параметр с дополнительными свойствами, которые можно задать при необходимости:

  • Хранилище уровня арендатора, позволяющее задать значение по умолчанию и/или
  • Хранилище уровня рабочей области, позволяющее указать подключение для каждой рабочей области.

При необходимости можно настроить хранилище на уровне клиента, если вы хотите использовать только централизованное озеро данных или использовать это хранилище по умолчанию. Мы не используем параметры по умолчанию автоматически, чтобы обеспечить гибкость в вашей конфигурации, поэтому вы можете настраивать рабочие области, использующие это соединение, так, как вам нужно. Если настроить учетную запись ADLS 2-го поколения, назначаемую клиентом, необходимо настроить каждую рабочую область для использования этого параметра по умолчанию.

При необходимости или в дополнение, можно настроить разрешения хранилища на уровне рабочей области в качестве отдельного варианта, что обеспечивает полную гибкость настройки конкретной учетной записи ADLS поколения 2 в каждой отдельной рабочей области.

Вкратце, если разрешены права доступа к хранилищу на уровне арендатора и на уровне рабочей области, администраторы рабочей области могут при необходимости использовать подключение ADLS по умолчанию или настроить другую учетную запись для хранения отдельно от подключения по умолчанию. Если хранилище клиента не задано, администраторы рабочей области могут при необходимости настроить учетные записи ADLS для каждой отдельной рабочей области. Наконец, если выбрано хранилище на уровне клиента и хранилище уровня рабочей области не разрешено, администраторы рабочей области могут дополнительно настроить потоки данных для использования этого подключения.

Структура и формат подключений к рабочей области ADLS 2-го поколения

В учетной записи хранения ADLS 2-го поколения все потоки данных хранятся в контейнере powerbi, который является частью файловой системы.

Структура контейнера powerbi выглядит следующим образом: <workspace name>/<dataflow name>/model.json, <workspace name>/<dataflow name>/model.json.snapshots/<all snapshots> и <workspace name>/<dataflow name>/<table name>/<tablesnapshots>

Расположение, в котором Dataflows сохраняют данные в иерархии папок для ADLS Gen 2, одинаково как для рабочей области в общем пуле ресурсов, так и для рабочей области в ресурсах Premium.

В следующем примере используется таблица "Заказы" образца Odata Northwind.

снимок экрана проводника файлов, показывающий пример на основе таблицы Orders из примера OData Northwind.

На предыдущем рисунке:

  • model.json является последней версией потока данных.
  • model.jsonмоментальные снимки являются всеми предыдущими версиями потока данных. Этот журнал полезен, если вам нужна предыдущая версия mashup или добавочные параметры.
  • Имя таблицы — это папка, содержащая полученные данные после завершения обновления потока данных.

Мы записываем в эту учетную запись хранения и в настоящее время не удаляем данные. Поэтому даже после отсоединения мы не удаляем из учетной записи ADLS, поэтому все файлы, упомянутые в предыдущем списке, по-прежнему хранятся.

Заметка

Потоки данных позволяют связывать или ссылаться на таблицы в других потоках данных. В таких потоках данных файл model.json может ссылаться на другой model.json другого потока данных в той же или другой рабочей области.

Перемещение файлов между учетными записями хранения ADLS 2-го поколения

При перемещении потока данных из одной учетной записи хранения ADLS 2-го поколения в другую необходимо убедиться, что пути в файле model.json обновляются, чтобы отразить новое расположение. Это связано с тем, что файл model.json содержит путь к потоку данных и путь к данным. Если вы не обновите пути, поток данных не сможет найти данные, что приведет к ошибкам доступа. Чтобы обновить пути, выполните следующие действия.

  • Откройте файл model.json в текстовом редакторе.
  • Найдите URL-адрес учетной записи хранения и замените его новым URL-адресом учетной записи хранения.
  • Сохраните файл.
  • Перезаписать существующий файл model.json в учетной записи хранения ADLS 2-го поколения.

Расширяемость соединений рабочей области ADLS Gen 2

Если вы подключаете ADLS 2-го поколения к Power BI, вы можете выполнить это действие на уровне рабочей области или клиента. Убедитесь, что у вас есть правильный уровень доступа. Дополнительные сведения см. в предварительных требований.

Структура хранилища соответствует формату common Data Model. Дополнительные сведения о структуре хранилища и CDM см. в статье Что такое структура хранилища для аналитических потоков данных и использовать общую модель данных для оптимизации Azure Data Lake Storage 2-го поколения.

После правильной настройки данные и метаданные находятся под вашим контролем. Многие приложения знают о CDM и данные можно расширить с помощью Azure, PowerApps и Power Automate. Вы также можете использовать сторонние экосистемы, соответствующие формату или считывая необработанные данные.

Отключение Azure Data Lake 2-го поколения от рабочей области или клиента

Чтобы удалить подключение на уровне рабочей области, сначала необходимо убедиться, что все потоки данных в рабочей области удаляются. После удаления всех потоков данных выберите Отключить в настройках рабочей области. Это же относится к клиенту, но сначала необходимо убедиться, что все рабочие области также были отключены от учетной записи хранения клиента, прежде чем вы сможете отключиться на уровне клиента.

Отключение Azure Data Lake 2-го поколения

На портале администрирования в разделе потоков данныхможно отключить доступ для пользователей, чтобы они не могли пользоваться этой функцией, а также запретить администраторам рабочей области использовать собственное хранилище Azure.

Возврат из Azure Data Lake 2-го поколения

После настройки хранилища потоков данных для использования Azure Data Lake 2-го поколения нет способа автоматического восстановления. Процесс возврата в хранилище, управляемое Power BI, является ручным.

Чтобы вернуть миграцию, выполненную в 2-е поколение, необходимо удалить потоки данных и повторно создать их в той же рабочей области. Затем, так как мы не удаляем данные из ADLS 2-го поколения, перейдите к самому ресурсу и очистите данные. Это действие будет включать следующие шаги.

  1. Экспортируйте копию потока данных из Power BI. Или скопируйте файл model.json. Файл model.json хранится в ADLS.

  2. Удалите потоки данных.

  3. Отсоедините ADLS.

  4. Повторно создайте потоки данных с помощью импорта. Перед импортом необходимо удалить добавочные данные обновления (если применимо). Это действие можно сделать, удалив соответствующие разделы в файле model.json.

  5. Настройте политики добавочного обновления и повторного создания.

Подключение к данным с помощью соединителя ADLS 2-го поколения

Область этого документа описывает подключения к потокам данных ADLS 2-го поколения, а не соединителю Power BI ADLS 2-го поколения. Работа с соединителем ADLS 2-го поколения является отдельным, возможно, аддитивным сценарием. Соединитель ADLS просто использует ADLS в качестве источника данных. Таким образом, использование Power Query Online для запроса к этим данным не должно быть в формате CDM, это может быть любой формат данных, который клиент хочет. Дополнительные сведения см. в Azure Data Lake Storage 2-го поколения.

Дополнительные сведения о потоках данных и Power BI см. в следующих статьях.