Дополнительные параметры конфигурации в Azure Synapse Link

Статья
11/05/2024

Azure Synapse Link содержит несколько способов записи и чтения ваших данных для соответствия различным аналитическим сценариям. В зависимости от аналитического сценария вы можете выбрать конкретную конфигурацию из приведенных ниже вариантов.

Сценарий	Относится к	Доступные параметры конфигурации
Рабочая отчетность	Таблицы Dataverse, таблицы и сущности для управления финансами и операциями	Synapse Analytics с опцией Delta Lake обеспечивает более низкое время отклика на запросы, особенно это применимо для запросов больших объемов данных. Дополнительные сведения: Synapse Link с опцией Delta Lake
Рабочая отчетность	Только таблицы Dataverse	Synapse Link с параметром конфигурации "Обновление на месте" предоставляет файлы CSV в озере данных, которые обновляются практически в режиме реального времени Это устаревший параметр, доступный для таблиц Dataverse. Этот параметр не поддерживается для таблиц из приложений для управления финансами и операциями
Интеграция данных	Таблицы Dataverse и таблицы и сущности для управления финансами и операциями	Параметр Только добавление предоставляет CSV-файлы, содержащие добавочные данные. Вы можете создавать конвейеры, которые потребляют добавочные данные и заполняют нижестоящие системы Функция Секционирование данных, заданных пользователем позволяет выбрать пользовательскую стратегию секционирования данных специально для таблиц Dataverse. Данные таблиц управления финансами и операциями секционируются системой на основе соответствующей стратегии секционирования. Этот параметр недоступен для приложений для управления финансами и операциями

Заметка

Azure Synapse Link for Dataverse ранее называлось экспортом в озеро данных. Служба была переименована в мае 2021 года и будет продолжать экспортировать данные в Azure Data Lake Storage, а также в Azure Synapse Analytics. Начиная с сентября 2023 года, Azure Synapse Link также позволяет выбирать данные из приложений Dynamics 365 для управления финансами и операциями. Не все шаблоны интеграции поддерживаются с приложениями для управления финансами и операциями. Рекомендации по переходу с функции экспорта в озеро данных в приложениях для управления финансами и операциями на Synapse Link см. в руководстве по переходу.

В этой статье рассматриваются дополнительные параметры конфигурации, доступные для таблиц Dataverse. Эти параметры недоступны для приложений для управления финансами и операциями.

Обновления на месте в сравнении с записями "только добавление".
Секционирование данных, заданных пользователем.

Обновления на месте в сравнении с записями "только добавление"

Во время записи данных таблицы Dataverse в Azure Data Lake на основе значения createdOn, которое является датой и временем создания записи, можно выбрать один из двух различных параметров. Это Обновление на месте и Только добавление.

Настройка по умолчанию (для таблиц, где значение createdOn доступно) заключается в обновлении на месте или операции upsert (обновлении или вставке) инкрементных данных в место назначения. Если изменение является новым и соответствующей строки в озере не существует, в случае создания целевые файлы сканируются, и изменения вставляются в соответствующий файловый раздел в озере. Если изменение является обновлением и в озере существует строка, соответствующий файл в озере обновляется, а не производится вставка, с инкрементными данными. Другими словами, настройка по умолчанию для всех изменений CUD (создание, обновление, удаление) в таблицах Dataverse, где доступно значение createdOn, состоит в том, чтобы выполнить обновление на месте в месте назначения в Azure Data Lake.

Вы можете переключить поведение по умолчанию для обновления на месте, используя необязательный параметр, называемый Только добавление. В отличие от режима Обновление на месте, в режиме Только добавление инкрементальные данные и таблицы Dataverse добавляются к соответствующему разделу файла в озере. Это настройка для каждой таблицы и доступна в виде флажка в разделе Дополнительно>Показать дополнительные параметры конфигурации. Для таблиц Dataverse с включенным параметром Только добавление все изменения CUD инкрементно добавляются к соответствующим файлам назначения в озере. При выборе этого параметра стратегия разделения на разделы по умолчанию будет Год, и когда данные записываются в озеро данных, они разбиваются по годам. Только добавление также является настройкой по умолчанию для таблиц Dataverse, в которых нет значения createdOn.

В этой таблице описывается, как строки обрабатываются в озере относительно событий CUD для каждого из вариантов записи данных.

Мероприятие	Обновление на месте	Только добавление
Создание	Строка вставляется в файл раздела и основана на значении `createdOn` в строке.	Строка добавляется в конец файла раздела и основана на значении `createdOn` записи.
Обновить	Если строка существует в файле раздела, она заменяется или обновляется обновленными данными. Если она не существует, она вставляется в файл.	Строка вместе с обновленной версией добавляется в конец файла раздела.
DELETE	Если строка существует в файле раздела, она удаляется из файла.	Строка добавляется в конец файла раздела с `IsDelete column = True`.

Заметка

Для таблиц Dataverse, в которых включен режим Только добавление, удаление строки в источнике не приведет к удалению или устранению строки в озере. Вместо этого удаленная строка добавляется как новая строка в озере и в столбце isDeleted устанавливается значение True.

«Грязное» чтение (ALLOW_INCONSISTENT_READS) для бессерверных вычислений включено для режима «только добавление». ALLOW_INCONSISTENT_READSозначает, что пользователь может считывать файлы, которые могут постоянно изменяться во время выполнения запроса SELECT. Результаты будут согласованными и эквивалентными чтению моментального снимка файла. (Это не эквивалентно изоляции моментального снимка базы данных из-за другого времени создания моментального снимка.)

Не все изменения CUD будут фиксироваться в только добавление: Synapse Link обрабатывает изменения в данных в группах или «пакетах» перед их публикацией в озере данных. В результате, если пользователь вносит изменения в течение короткого промежутка времени, не все изменения CUD будут зафиксированы в озере данных.

Вот еще несколько подробностей о том, когда использовать каждый из вариантов.

Обновление на месте: этот параметр является настройкой по умолчанию и рекомендуется, только если вы хотите напрямую подключиться к данным в озере и вам нужно текущее состояние (а не история или добавочные изменения). Файл содержит полный набор данных и может быть использован через Power BI или путем копирования всего набора данных для конвейеров ETL (извлечение, передача, загрузка).
Только добавление: выберите этот параметр, если вы не подключаетесь напрямую к данным в озере и хотите инкрементно копировать данные в другое место назначения с помощью конвейеров ETL. Этот вариант предоставляет историю изменений для включения сценариев ИИ и машинного обучения.

Вы можете переключить параметр Показать дополнительные параметры конфигурации в разделе Дополнительно в Azure Synapse Link for Dataverse, чтобы настроить стратегию разделов данных и выбрать варианты для записи в Azure Data Lake.

Показать расширенную настройку.

Секционирование данных

Когда вы записываете данные таблицы Dataverse в Azure data lake storage с помощью Azure Synapse Link, таблицы секционируются (вместо одного файла) в озере на основе значения createdOn для каждой строки в источнике. Стратегия секционирования по умолчанию — по месяцам, данные в озере данных Azure секционируются ежемесячно.

На основе объема таблицы Dataverse и распределения данных вы можете разбить данные по годам. С помощью этого варианта, когда данные таблицы Dataverse записываются в озеро данных Azure, оно будет секционироваться ежегодно на основе значения createdOn в каждой строке в источнике. Для таблиц без столбца createdOn строки данных секционируются в новый файл каждые пять миллионов записей. Это настройка для каждой таблицы и доступна в виде флажка в разделе Дополнительно>Показать дополнительные параметры конфигурации.

Более подробная информация с примерами того, как данные обрабатываются в озере с ежегодной или ежемесячной стратегией разделения:

Стратегия разделения.

См. также

Azure Synapse Link for Dataverse

Поделиться через

Дополнительные параметры конфигурации в Azure Synapse Link

Обновления на месте в сравнении с записями "только добавление"

Секционирование данных

См. также

Обратная связь

Дополнительные ресурсы