Запись измененных данных из Azure Data Lake Storage 2-го поколения на База данных SQL Azure с помощью ресурса отслеживания измененных данных
ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics
Совет
Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !
В этой статье используется пользовательский интерфейс Фабрика данных Azure для создания ресурса записи измененных данных (CDC). Ресурс получает измененные данные из источника Azure Data Lake Storage 2-го поколения и добавляет его в База данных SQL Azure в режиме реального времени.
Вы узнаете, как выполнять следующие задачи:
- Создайте ресурс CDC.
- Мониторинг действий CDC.
Вы можете изменить и развернуть шаблон конфигурации в этой статье.
Необходимые компоненты
Прежде чем начать процедуры в этой статье, убедитесь, что у вас есть следующие ресурсы:
- Подписка Azure. Если у вас нет подписки Azure, создайте бесплатную учетную запись Azure.
- База данных SQL. Вы используете База данных SQL Azure в качестве исходного хранилища данных. Если у вас нет базы данных SQL, создайте ее в портал Azure.
- Учетная запись хранения. Вы используете Delta Lake, хранящиеся в Azure Data Lake Storage 2-го поколения в качестве целевого хранилища данных. Если у вас нет учетной записи хранения, ознакомьтесь с инструкциями по созданию учетной записи хранения.
Создание артефакта CDC
Перейдите в область "Автор" в фабрике данных. Под конвейерами появится новый артефакт верхнего уровня с именем "Запись измененных данных" (предварительная версия).
Наведите указатель мыши на запись измененных данных (предварительная версия), пока не появится три точки. Затем нажмите кнопку "Изменить запись данных" (предварительная версия).
Выберите new CDC (preview). На этом шаге откроется всплывающее меню, чтобы начать интерактивный процесс.
Вам будет предложено указать имя ресурса CDC. По умолчанию имя — adfcdc с числом, которое увеличивается на 1. Вы можете заменить это имя по умолчанию на выбранное имя.
Используйте раскрывающийся список, чтобы выбрать источник данных. В этой статье выберите "Разделители".
Вам будет предложено выбрать связанную службу. Создайте связанную службу или выберите существующую.
Используйте область параметров источника, чтобы при необходимости задать расширенные конфигурации источника, включая разделители столбцов и строк.
Если эти параметры источника не редактируются вручную, они задаются по умолчанию.
Нажмите кнопку "Обзор", чтобы выбрать папку исходных данных.
Выбрав путь к папке, нажмите кнопку "Продолжить ", чтобы задать целевой объект данных.
Вы можете добавить несколько исходных папок с помощью кнопки "плюс" (+). Другие источники также должны использовать ту же связанную службу, которую вы уже выбрали.
Выберите значение типа target с помощью раскрывающегося списка. В этой статье выберите База данных SQL Azure.
Вам будет предложено выбрать связанную службу. Создайте связанную службу или выберите существующую.
Для целевых таблиц можно создать целевую таблицу или выбрать существующую:
Чтобы создать целевую таблицу, перейдите на вкладку "Создать сущности " и нажмите кнопку "Изменить новые таблицы".
Чтобы выбрать существующую таблицу, перейдите на вкладку "Существующие сущности " и установите флажок для выбора таблицы. Нажмите кнопку "Предварительный просмотр", чтобы просмотреть данные таблицы.
Если существующие таблицы в целевом объекте имеют соответствующие имена, они по умолчанию выбираются в разделе "Существующие сущности". Если нет, в новых сущностях создаются новые таблицы с соответствующими именами. Кроме того, можно изменить новые таблицы с помощью кнопки "Изменить новые таблицы ".
Флажки можно использовать для выбора нескольких целевых таблиц из базы данных SQL. После завершения выбора целевых таблиц нажмите кнопку "Продолжить".
Появится новая вкладка для записи измененных данных. Эта вкладка — это студия CDC, где можно настроить новый ресурс.
Новое сопоставление создается автоматически. Вы можете обновить выбор исходной таблицы и целевой таблицы для сопоставления с помощью раскрывающихся списков.
После выбора таблиц их столбцы сопоставляются по умолчанию с включенным переключателем автоматической карты . Автоматическая карта автоматически сопоставляет столбцы по имени в приемнике, выбирает новые изменения столбцов при изменении исходной схемы и передает эти сведения поддерживаемым типам приемников.
Если вы хотите использовать автоматическую карту и не изменять сопоставления столбцов, перейдите непосредственно к шагу 18.
Если вы хотите включить сопоставления столбцов, выберите сопоставления и отключите переключатель автоматической карты . Затем нажмите кнопку сопоставления столбцов , чтобы просмотреть сопоставления.
Вы можете вернуться к автоматическому сопоставлению в любое время, включив переключатель автоматической карты .
Просмотр сопоставлений столбцов. Используйте раскрывающийся список для изменения сопоставлений столбцов для метода сопоставления, исходного столбца и целевого столбца.
На этой странице можно выполнить следующие действия.
- Добавьте дополнительные сопоставления столбцов с помощью кнопки "Создать сопоставление ". Используйте раскрывающийся список, чтобы выбрать метод сопоставления, исходный столбец и целевой столбец.
- Выберите столбец "Ключи", если вы хотите отслеживать операцию удаления для поддерживаемых типов приемников.
- Нажмите кнопку "Обновить" в разделе "Предварительный просмотр данных", чтобы визуализировать, как данные выглядят в целевом объекте.
По завершении сопоставления нажмите кнопку со стрелкой, чтобы вернуться на основной холст CDC.
Можно добавить дополнительные сопоставления источника в целевой объект в одном артефакте CDC. Нажмите кнопку "Изменить", чтобы добавить дополнительные источники данных и целевые объекты. Затем выберите новое сопоставление и используйте раскрывающийся список, чтобы задать новый источник и целевой объект. Вы можете включить или отключить автоматическую карту для каждого из этих сопоставлений независимо.
После завершения сопоставлений задайте задержку CDC с помощью кнопки "Задать задержку ".
Выберите задержку CDC и нажмите кнопку "Применить ", чтобы внести изменения.
По умолчанию задержка имеет значение 15 минут. В примере в этой статье используется параметр реального времени для задержки. Задержка в режиме реального времени постоянно выбирает изменения в исходных данных в интервалах менее 1 минуты.
Для других задержек (например, при выборе 15 минут) запись измененных данных будет обрабатывать исходные данные и получать измененные данные с момента последнего обработки.
Примечание.
Если поддержка расширена для потоковой интеграции данных (Центры событий Azure и источников данных Kafka), задержка будет задана по умолчанию в режиме реального времени.
После завершения настройки CDC выберите "Опубликовать все ", чтобы опубликовать изменения.
Примечание.
Если вы не публикуете изменения, вы не сможете запустить ресурс CDC. Кнопка "Пуск" на следующем шаге будет недоступна.
Нажмите кнопку "Пуск" , чтобы начать выполнение записи измененных данных.
Мониторинг отслеживания измененных данных
Откройте панель монитора с помощью одного из следующих методов:
Выберите "Изменить запись данных" (предварительная версия), чтобы просмотреть ресурсы CDC.
На панели "Запись измененных данных" отображаются сведения о источнике, целевом объекте, состоянии и последней обработке для записи измененных данных.
Выберите имя CDC, чтобы просмотреть дополнительные сведения. Вы можете увидеть, сколько изменений (вставка, обновление или удаление) было прочитано и записано вместе с другими диагностическими сведениями.
Если в записи измененных данных настроено несколько сопоставлений, каждое сопоставление отображается как другой цвет. Выберите панель, чтобы просмотреть конкретные сведения для каждого сопоставления или использовать сведения диагностика в нижней части области.