Удаление дубликатов строк и поиск нулевых значений с помощью фрагментов для потока данных
ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure
Azure Synapse Analytics
Совет
Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !
Используя фрагменты кода для потоков данных сопоставления можно легко выполнять такие распространенные задачи, как удаление дубликатов данных и фильтрация нулевых значений. В этой статье объясняется, как можно легко добавлять эти функции в конвейеры с помощью фрагментов сценариев для потока данных.
Создание конвейера
Выберите Новый конвейер.
Добавьте действие в потоке данных.
Перейдите на вкладку Параметры источника, добавьте преобразование источника, а затем подключите его к одному из наборов данных.
Во фрагментах кода для удаления дубликатов и поиска нулевых значений используются универсальные шаблоны, преимуществом которых является использование смещения схемы потока данных. Фрагменты кода работают с любой схемой из набора данных или с наборами, не имеющими предварительно заданных схем.
В материале «Отдельные строки с использованием всех столбцов» в разделе Сценарий потока данных (DFS) скопируйте фрагмент кода DistinctRows.
-
После определения
source1
в скрипте нажмите клавишу Enter и вставьте фрагмент кода.Выполните одно из приведенных ниже действий.
Подключите этот вставленный фрагмент кода к преобразованию источника, созданному ранее на графике, введя source1 перед вставленным кодом.
Кроме того, можно подключить новое преобразование в конструкторе, выбрав входящий поток из нового узла преобразования в графе.
Теперь поток данных удалит из источника дубликаты строк, используя преобразование «Статистическая обработка», при этом выполняется группировка по всем строкам с помощью общего хэш-кода для всех значений столбцов.
Добавьте фрагмент кода для разбиения данных на поток, содержащий строки с нулевыми значениями, и поток без нулевых значений. Для этого:
Вернитесь к библиотеке фрагментов кода, и на этот раз скопируйте код для проверки нулевых значений.
b. В конструкторе потоков данных снова выберите Сценарий, а затем вставьте вниз новый код преобразования. Это действие подключает сценарий к предыдущему преобразованию путем размещения имени этого преобразования перед вставленным фрагментом.
Теперь граф потока данных должен выглядеть примерно так:
Теперь вы создали рабочий поток данных с общими процедурами удаления дубликатов и проверки нулевых значений с помощью существующих фрагментов кода из библиотеки сценариев потока данных, добавленных в имеющуюся структуру.
Связанный контент
- Создайте оставшуюся часть логики потока данных с помощью преобразований потоков данных для сопоставления.