Дополнительные параметры конфигурации в Azure Synapse Link
Azure Synapse Link содержит несколько способов записи и чтения ваших данных для соответствия различным аналитическим сценариям. В зависимости от аналитического сценария вы можете выбрать конкретную конфигурацию из приведенных ниже вариантов.
Сценарий | Относится к | Доступные параметры конфигурации |
---|---|---|
Рабочая отчетность | Таблицы Dataverse, таблицы и сущности для управления финансами и операциями | Synapse Analytics с опцией Delta Lake обеспечивает более низкое время отклика на запросы, особенно это применимо для запросов больших объемов данных. Дополнительные сведения: Synapse Link с опцией Delta Lake |
Рабочая отчетность | Только таблицы Dataverse | Synapse Link с параметром конфигурации "Обновление на месте" предоставляет файлы CSV в озере данных, которые обновляются практически в режиме реального времени Это устаревший параметр, доступный для таблиц Dataverse. Этот параметр не поддерживается для таблиц из приложений для управления финансами и операциями |
Интеграция данных | Таблицы Dataverse и таблицы и сущности для управления финансами и операциями | Параметр Только добавление предоставляет CSV-файлы, содержащие добавочные данные. Вы можете создавать конвейеры, которые потребляют добавочные данные и заполняют нижестоящие системы Функция Секционирование данных, заданных пользователем позволяет выбрать пользовательскую стратегию секционирования данных специально для таблиц Dataverse. Данные таблиц управления финансами и операциями секционируются системой на основе соответствующей стратегии секционирования. Этот параметр недоступен для приложений для управления финансами и операциями |
Заметка
Azure Synapse Link for Dataverse ранее называлось экспортом в озеро данных. Служба была переименована в мае 2021 года и будет продолжать экспортировать данные в Azure Data Lake Storage, а также в Azure Synapse Analytics. Начиная с сентября 2023 года, Azure Synapse Link также позволяет выбирать данные из приложений Dynamics 365 для управления финансами и операциями. Не все шаблоны интеграции поддерживаются с приложениями для управления финансами и операциями. Рекомендации по переходу с функции экспорта в озеро данных в приложениях для управления финансами и операциями на Synapse Link см. в руководстве по переходу.
В этой статье рассматриваются дополнительные параметры конфигурации, доступные для таблиц Dataverse. Эти параметры недоступны для приложений для управления финансами и операциями.
- Обновления на месте в сравнении с записями "только добавление".
- Секционирование данных, заданных пользователем.
Обновления на месте в сравнении с записями "только добавление"
Во время записи данных таблицы Dataverse в Azure Data Lake на основе значения createdOn
, которое является датой и временем создания записи, можно выбрать один из двух различных параметров. Это Обновление на месте и Только добавление.
Настройка по умолчанию (для таблиц, где значение createdOn
доступно) заключается в обновлении на месте или операции upsert (обновлении или вставке) инкрементных данных в место назначения. Если изменение является новым и соответствующей строки в озере не существует, в случае создания целевые файлы сканируются, и изменения вставляются в соответствующий файловый раздел в озере. Если изменение является обновлением и в озере существует строка, соответствующий файл в озере обновляется, а не производится вставка, с инкрементными данными. Другими словами, настройка по умолчанию для всех изменений CUD (создание, обновление, удаление) в таблицах Dataverse, где доступно значение createdOn
, состоит в том, чтобы выполнить обновление на месте в месте назначения в Azure Data Lake.
Вы можете переключить поведение по умолчанию для обновления на месте, используя необязательный параметр, называемый Только добавление. В отличие от режима Обновление на месте, в режиме Только добавление инкрементальные данные и таблицы Dataverse добавляются к соответствующему разделу файла в озере. Это настройка для каждой таблицы и доступна в виде флажка в разделе Дополнительно>Показать дополнительные параметры конфигурации. Для таблиц Dataverse с включенным параметром Только добавление все изменения CUD инкрементно добавляются к соответствующим файлам назначения в озере. При выборе этого параметра стратегия разделения на разделы по умолчанию будет Год, и когда данные записываются в озеро данных, они разбиваются по годам. Только добавление также является настройкой по умолчанию для таблиц Dataverse, в которых нет значения createdOn
.
В этой таблице описывается, как строки обрабатываются в озере относительно событий CUD для каждого из вариантов записи данных.
Мероприятие | Обновление на месте | Только добавление |
---|---|---|
Создание | Строка вставляется в файл раздела и основана на значении createdOn в строке. |
Строка добавляется в конец файла раздела и основана на значении createdOn записи. |
Обновить | Если строка существует в файле раздела, она заменяется или обновляется обновленными данными. Если она не существует, она вставляется в файл. | Строка вместе с обновленной версией добавляется в конец файла раздела. |
DELETE | Если строка существует в файле раздела, она удаляется из файла. | Строка добавляется в конец файла раздела с IsDelete column = True . |
Заметка
Для таблиц Dataverse, в которых включен режим Только добавление, удаление строки в источнике не приведет к удалению или устранению строки в озере. Вместо этого удаленная строка добавляется как новая строка в озере и в столбце isDeleted
устанавливается значение True.
«Грязное» чтение (ALLOW_INCONSISTENT_READS) для бессерверных вычислений включено для режима «только добавление». ALLOW_INCONSISTENT_READSозначает, что пользователь может считывать файлы, которые могут постоянно изменяться во время выполнения запроса SELECT
. Результаты будут согласованными и эквивалентными чтению моментального снимка файла. (Это не эквивалентно изоляции моментального снимка базы данных из-за другого времени создания моментального снимка.)
Не все изменения CUD будут фиксироваться в только добавление: Synapse Link обрабатывает изменения в данных в группах или «пакетах» перед их публикацией в озере данных. В результате, если пользователь вносит изменения в течение короткого промежутка времени, не все изменения CUD будут зафиксированы в озере данных.
Вот еще несколько подробностей о том, когда использовать каждый из вариантов.
- Обновление на месте: этот параметр является настройкой по умолчанию и рекомендуется, только если вы хотите напрямую подключиться к данным в озере и вам нужно текущее состояние (а не история или добавочные изменения). Файл содержит полный набор данных и может быть использован через Power BI или путем копирования всего набора данных для конвейеров ETL (извлечение, передача, загрузка).
- Только добавление: выберите этот параметр, если вы не подключаетесь напрямую к данным в озере и хотите инкрементно копировать данные в другое место назначения с помощью конвейеров ETL. Этот вариант предоставляет историю изменений для включения сценариев ИИ и машинного обучения.
Вы можете переключить параметр Показать дополнительные параметры конфигурации в разделе Дополнительно в Azure Synapse Link for Dataverse, чтобы настроить стратегию разделов данных и выбрать варианты для записи в Azure Data Lake.
Секционирование данных
Когда вы записываете данные таблицы Dataverse в Azure data lake storage с помощью Azure Synapse Link, таблицы секционируются (вместо одного файла) в озере на основе значения createdOn
для каждой строки в источнике. Стратегия секционирования по умолчанию — по месяцам, данные в озере данных Azure секционируются ежемесячно.
На основе объема таблицы Dataverse и распределения данных вы можете разбить данные по годам. С помощью этого варианта, когда данные таблицы Dataverse записываются в озеро данных Azure, оно будет секционироваться ежегодно на основе значения createdOn
в каждой строке в источнике. Для таблиц без столбца createdOn
строки данных секционируются в новый файл каждые пять миллионов записей. Это настройка для каждой таблицы и доступна в виде флажка в разделе Дополнительно>Показать дополнительные параметры конфигурации.
Более подробная информация с примерами того, как данные обрабатываются в озере с ежегодной или ежемесячной стратегией разделения: