Поделиться через


Изменение записи данных в Фабрика данных Azure и Azure Synapse Analytics

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

В этой статье описывается запись измененных данных (CDC) в Фабрика данных Azure.

Дополнительные сведения см. в Фабрика данных Azure обзоре или обзоре Azure Synapse.

Обзор

При выполнении процессов интеграции данных и ETL в облаке задания могут выполняться лучше и эффективнее при чтении исходных данных, которые изменились с момента последнего запуска конвейера, а не всегда запрашивать весь набор данных при каждом запуске. ADF предоставляет несколько различных способов для легкого получения разностных данных только за время последнего выполнения.

Изменение ресурса фабрики отслеживания данных

Самый простой и быстрый способ начать работу в фабрике данных с CDC — это ресурс отслеживания измененных данных на уровне фабрики. В главном конструкторе конвейеров щелкните "Создать" в разделе "Ресурсы фабрики", чтобы создать новую запись измененных данных. Ресурс фабрики CDC предоставляет пошаговое руководство по настройке, в котором можно выбрать источники и назначения, применить необязательные преобразования, а затем начать запись данных. С помощью ресурса CDC не требуется разрабатывать конвейеры или действия потока данных. Вы также оплачиваете только четыре ядра потоков данных общего назначения во время обработки данных. Вы можете задать предпочтительную задержку, которую ADF будет использовать для пробуждения и поиска измененных данных. Это единственный раз, когда вы будете выставлены счета. Ресурс CDC верхнего уровня также является методом ADF для непрерывного выполнения процессов. Конвейеры в ADF являются только пакетными, но ресурс CDC может выполняться непрерывно.

Сбор данных об изменениях в потоке данных сопоставления

Измененные данные, включая вставленные, обновленные и удаленные строки, можно автоматически обнаруживаться и извлекаться потоком данных сопоставления ADF из исходных баз данных. Столбцы метки времени или идентификатора не требуются для идентификации изменений, так как она использует собственную технологию отслеживания изменений в базах данных. Просто прицепить исходное преобразование и ссылку на преобразование приемника к набору данных базы данных в потоке данных сопоставления, можно увидеть, что изменения в исходной базе данных будут автоматически применены к целевой базе данных, чтобы можно было легко синхронизировать данные между двумя таблицами. Вы также можете добавить любые преобразования между любой бизнес-логикой для обработки разностных данных. При определении назначения данных приемника можно задать операции вставки, обновления, обновления, upsert и удаления в приемнике без необходимости преобразования alter Row, так как ADF может автоматически обнаруживать создателей строк.

Поддерживаемые соединители

Автоматическое добавочное извлечение в потоке данных сопоставления

Обновленные строки или обновленные файлы могут быть автоматически обнаружены и извлечены потоком данных сопоставления ADF из исходных хранилищ. Если требуется получить разностные данные из баз данных, для идентификации изменений требуется добавочный столбец. Если вы хотите загрузить новые файлы или обновленные файлы только из хранилища, поток данных сопоставления ADF просто работает через время последнего изменения файлов.

Поддерживаемые соединители

Извлечение разностных данных клиента в конвейере

Вы всегда можете создать собственный конвейер извлечения разностных данных для всех поддерживаемых хранилищ данных ADF, включая использование действия подстановки для получения значения подложки, хранящегося в таблице внешнего элемента управления, действия копирования или сопоставления действия потока данных для запроса разностных данных в столбце метки времени или столбца идентификатора, а также действия sp для записи нового значения водяного знака обратно в таблицу внешнего элемента управления для следующего запуска. Если вы хотите загрузить новые файлы только из хранилища, вы можете либо удалять файлы каждый раз после успешного перемещения в место назначения, либо использовать время секционирования папки или имен файлов или последнего изменения для идентификации новых файлов.

Рекомендации

Изменение записи данных из баз данных

  • Сбор данных об изменениях всегда рекомендуется как самый простой способ получения данных об изменениях. Это также значительно меньше нагрузки на исходную базу данных, когда ADF извлекает измененные данные для дальнейшей обработки.
  • Если хранилища базы данных не являются частью списка соединителей ADF с поддержкой собственной поддержки отслеживания измененных данных, рекомендуется проверить параметр автоматического добавочного извлечения, где необходимо ввести только добавочный столбец для записи изменений. ADF будет заботиться о остальных, включая создание динамического запроса для разностной загрузки и управления контрольной точкой для каждого запуска действия.
  • Извлечение разностных данных клиента в конвейере охватывает все поддерживаемые базы данных ADF и обеспечивает гибкость для управления всем.

Изменение записи файлов из хранилищ на основе файлов

  • Если вы хотите загрузить данные из Хранилище BLOB-объектов Azure, Azure Data Lake Storage 2-го поколения или Azure Data Lake Storage 1-го поколения, поток данных сопоставления предоставляет возможность получать новые или обновленные файлы только одним щелчком мыши. Это самый простой и рекомендуемый способ обеспечить разностную нагрузку из этих файловых хранилищ в потоке данных сопоставления.
  • Вы можете получить дополнительные рекомендации.

Контрольная точка

При включении собственного отслеживания измененных данных или автоматического добавочного извлечения в потоке данных сопоставления ADF служба ADF помогает управлять контрольной точкой, чтобы убедиться, что каждое действие будет автоматически считывать исходные данные, которые изменились с момента последнего выполнения конвейера. По умолчанию контрольная точка связана с именем конвейера и действия. Если изменить имя конвейера или имя действия, контрольная точка будет сброшена, из-за чего придется начинать работу с начала или получить изменения с текущего момента до следующего выполнения. Если вы хотите изменить имя конвейера или имя действия, но по-прежнему сохранить контрольную точку, чтобы получить измененные данные из последнего запуска автоматически, используйте собственный ключ контрольной точки в действии потока данных, чтобы добиться этого. Правило именования собственного ключа контрольной точки совпадает с связанными службами, наборами данных, конвейерами и потоками данных.

При отладке конвейера эта функция работает таким же образом. Контрольная точка будет сбрасываться при обновлении браузера во время отладки. Когда вы будете довольны результатами отладки конвейера, его можно опубликовать и запустить. В момент первого запуска опубликованного конвейера он автоматически перезапускается с самого начала или получает изменения с этого момента.

При необходимости вы можете повторно запустить конвейер из раздела мониторинга. При этом измененные данные всегда фиксируются из предыдущей контрольной точки выбранного выполнения конвейера.

Учебники

Ниже приведены руководства по началу записи измененных данных в Фабрика данных Azure и Azure Synapse Analytics.

Шаблоны

Ниже приведены шаблоны для использования отслеживания измененных данных в Фабрика данных Azure и Azure Synapse Analytics.