Подключение к таблицам Delta в Azure Data Lake Storage
Подключитесь к данным в таблицах Delta и перенесите их в Dynamics 365 Customer Insights - Data.
Основные причины для подключения к данным, хранящимся в формате Delta:
- Импортируйте данные в формате Delta напрямую, чтобы сэкономить время и усилия.
- Устраните затраты на вычисления и хранение, связанные с преобразованием и хранением копии данных вашего хранилища в озере.
- Автоматически повысьте надежность приема данных в Customer Insights - Data за счет разностного управления версиями.
Поддерживаемые функции и версии Databricks
Customer Insights - Data поддерживает функции Databricks с "minReaderVersion" версии 2 или более ранней. Функции Databricks, требующие средства чтения Databricks версии 3 или более поздней версии, не поддерживаются. В таблице показаны поддерживаемые и неподдерживаемые функции Databricks.
Поддерживаемые функции | Неподдерживаемые функции |
---|---|
Базовая функция | Векторы удаления |
Изменить канал данных | Кластеризация Liquid |
Проверка ограничений | Запись функций таблиц |
Сопоставление столбцов | TimestampNTZ |
Формирование столбцов | Расширение типа |
Столбцы идентификаторов | Вариант |
Отслеживание строк | |
Чтение функций таблиц | |
UniForm |
Дополнительные сведения: Как Databricks обрабатывает совместимость функции Delta Lake?
Предварительные условия
Хранилище Azure Data Lake Storage должно находиться в том же клиенте и регионе Azure, что и Customer Insights - Data.
Чтобы подключиться к хранилищу, защищенному брандмауэрами, настройте приватные каналы Azure.
Субъект-служба Customer Insights - Data должен иметь разрешения автора данных Storage Blob для доступа к учетной записи хранения. Дополнительные сведения см. в статье Предоставление разрешений субъекту-службе для доступа к учетной записи хранения.
Пользователю, настраивающему или обновляющему источник данных, необходимы как минимум разрешения читателя данных хранилища BLOB-объектов в учетной записи Azure Data Lake Storage.
Данные, хранящиеся в веб-службах, могут храниться в месте, отличном от того, где данные обрабатываются или хранятся. Импортируя данные или подключаясь к данным, хранящимся в веб-службах, вы соглашаетесь с тем, что данные могут быть переданы. Подробнее можно узнать в центре управления безопасностью Microsoft.
Customer Insights - Data поддерживает средство чтения Databricks версии 2. Таблицы Delta, использующие функции, требующие средства чтения Databricks версии 3 или более поздней версии, не поддерживаются. Подробнее: Поддерживаемые функции Databricks.
Таблицы Delta должны находиться в папке в контейнере хранилища и не могут находиться в корневом каталоге контейнера. Например:
storageaccountcontainer/ DeltaDataRoot/ ADeltaTable/ _delta_log/ 0000.json 0001.json part-0001-snappy.parquet part-0002-snappy.parquet
- Данные в вашем Azure Data Lake Storage должны быть в таблицах Delta. Customer Insights - Data использует свойство версии в истории таблицы для определения последних изменений для добавочной обработки.
Подключение к данным Delta из Azure Data Lake Storage
Перейдите в раздел Данные>Источники данных.
Выберите Добавить источник данных.
Выберите Таблицы Delta Azure Data Lake.
Введите Имя источника данных и, при желании, Описание. На имя ссылаются нижестоящие процессы, и его невозможно изменить после создания источника данных.
Выберите один из следующих вариантов для параметра Подключите свое хранилище с использованием.
- Подписка Azure: выберите Подписка, затем Группа ресурсов и Учетная запись хранения.
- Ресурс Azure: введите ИД ресурса.
Выберите имя Контейнера, содержащего папку с вашими данными.
При необходимости, если вы хотите принимать данные из учетной записи хранения через приватный канал Azure, выберите Включить приватный канал. Дополнительные сведения см. в разделе Приватные каналы.
Перейдите к папке, содержащей данные в таблицах Delta, и выберите ее. Затем выберите Далее. Отображается список доступных таблиц.
Выберите таблицы, которые требуется включить.
Для выбранных таблиц, для которых первичный ключ не определен, Обязательно отображается в поле Первичный ключ. Для каждой из этих таблиц:
- Выберите Обязательно. Открывается панель Изменение таблицы.
- Выберите первичный ключ. Первичный ключ — это атрибут, уникальный для таблицы. Чтобы атрибут был действительным первичным ключом, он не должен включать повторяющиеся значения, отсутствующие значения или значения NULL. В качестве первичных ключей поддерживаются атрибуты типа данных: строка, целое число, GUID.
- Выберите Закрыть, чтобы сохранить и закрыть панель.
Чтобы включить профилирование данных по любому из столбцов, выберите количество Столбцов для таблицы. Открывается страница Управление атрибутами.
- Выберите Профилирование данных для всей таблицы или для отдельных столбцов. По умолчанию ни одна таблица не включена для профилирования данных.
- Нажмите кнопку Готово.
Выберите Сохранить. Открывается страница Источники данных с новым источником данных в статусе Обновление.
Совет
Есть состояния для задач и процессов. Большинство процессов зависят от других вышестоящих процессов, таких как источники данных и обновления профилирования данных.
Выберите статус, чтобы открыть панель Сведения о ходе выполнения и просмотреть ход выполнения задач. Чтобы отменить задание, выберите Отменить задание в нижней части панели.
В каждой задаче можно выбрать Показать подробности для получения дополнительной информации о ходе выполнения, такой как время обработки, дата последней обработки, а также любые применимые ошибки и предупреждения, связанные с задачей или процессом. Выберите Просмотр состояния системы внизу панели, чтобы увидеть другие процессы в системе.
Загрузка данных может занять время. После успешного обновления принятые данные можно проверить на странице Таблицы.
Управление изменениями схемы
Когда столбец добавляется или удаляется из схемы источника данных папок Delta, система выполняет полное обновление данных. Полное обновление занимает больше времени для обработки всех данных, чем добавочное обновление.
Добавить столбец
Когда столбец добавляется в источник данных, информация автоматически добавляется к данным в Customer Insights - Data после обновления. Если объединение уже настроено для таблицы, необходимо добавить новый столбец в процесс объединения.
На шаге Данные клиентов выбрать Выбор таблиц и столбцов и выберите новый столбец.
На шаге Единое представление данных убедитесь, что столбец не исключен из профиля клиента. Выбирать Исключенный и прочитайте столбец.
На шаге Запустите обновления единого профиля клиента выберите Объединить профили клиентов и зависимости.
Изменение или удаление столбца
Когда столбец удаляется из источника данных, система проверяет наличие зависимостей в других процессах. Если в столбцах есть зависимость, система прекращает обновление и предоставляет ошибку, указывающую, что зависимости должны быть удалены. Эти зависимости отображаются в уведомлении, которое поможет вам найти и удалить их.
Проверка изменения схемы
После обновления источника данных перейдите на страницу Данные>Таблицы. Выберите таблицу для источника данных и проверьте схему.
Путешествие во времени в озере Delta и обновления данных
Путешествие во времени на озере Delta — это возможность запрашивать версии таблиц на основе отметки времени или номера версии. Для изменений в папках Delta используется управление версиями, и Customer Insights - Data использует версии папок Delta для отслеживания того, какие данные нужно обрабатывать. При обычном обновлении таблицы изменений Delta данные извлекаются из всех версий таблицы данных с момента последнего обновления. Пока присутствуют все версии, Customer Insights - Data может обрабатывать только измененные элементы и быстрее выдавать результаты. Дополнительные сведения о перемещении по времени.
Например, если приложение Customer Insights - Data в последний раз синхронизировались с версией 23 данных вашей папки Delta, оно ожидает найти версию 23 и, возможно, последующие доступные версии. Если ожидаемые версии данных недоступны, синхронизация данных завершается сбоем и требуется полное обновление данных вручную. Синхронизация данных может завершиться сбоем, если данные вашей папки Delta были удалены, а затем созданы заново. Или если приложению Customer Insights - Data не удалось подключиться к вашим папкам Delta в течение длительного периода времени, пока версии развивались.
Чтобы избежать необходимости полного обновления данных, мы рекомендуем поддерживать разумный период отставания истории, например 15 дней.
Ручной запуск полного обновления данных в папке таблицы Delta
Полное обновление берет все данные из таблицы в формате Delta и перезагружает их из нулевой версии таблицы Delta (0). Изменения в схеме папки Delta вызывают автоматическое полное обновление. Чтобы вручную запустить полное обновление, выполните следующие шаги.
Перейдите в раздел Данные>Источники данных.
Выберите источник данных таблицы Delta Azure Data Lake.
Выберите таблицу, которую нужно обновить. Открывается область Изменить таблицу.
Выберите Выполнить однократное полное обновление.
Выберите Сохранить, чтобы выполнить обновление. Открывается страница Источники данных с новым источником данных в статусе Обновление, но обновляется только выбранная таблица.
Повторите процесс для других таблиц, если применимо.
Сбой синхронизации данных
Синхронизация данных может завершиться сбоем, если данные вашей папки Delta были удалены, а затем созданы заново. Или если приложению Customer Insights - Data не удалось подключиться к вашим папкам Delta в течение длительного периода времени, пока версии развивались. Чтобы свести к минимуму ситуации, когда периодический сбой конвейера данных приводит к необходимости полного обновления, рекомендуем поддерживать разумный период отставания истории, например 15 дней.