Удаление дубликатов строк и поиск нулевых значений с помощью фрагментов для потока данных

Статья
10/03/2024

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Используя фрагменты кода для потоков данных сопоставления можно легко выполнять такие распространенные задачи, как удаление дубликатов данных и фильтрация нулевых значений. В этой статье объясняется, как можно легко добавлять эти функции в конвейеры с помощью фрагментов сценариев для потока данных.

Создание конвейера

Выберите Новый конвейер.
Добавьте действие в потоке данных.
Перейдите на вкладку Параметры источника, добавьте преобразование источника, а затем подключите его к одному из наборов данных.

Во фрагментах кода для удаления дубликатов и поиска нулевых значений используются универсальные шаблоны, преимуществом которых является использование смещения схемы потока данных. Фрагменты кода работают с любой схемой из набора данных или с наборами, не имеющими предварительно заданных схем.
В материале «Отдельные строки с использованием всех столбцов» в разделе Сценарий потока данных (DFS) скопируйте фрагмент кода DistinctRows.
Перейдите на страницу документации о сценарии потока данных и скопируйте фрагмент кода для отдельных строк.
После определения source1 в скрипте нажмите клавишу Enter и вставьте фрагмент кода.
Выполните одно из приведенных ниже действий.
- Подключите этот вставленный фрагмент кода к преобразованию источника, созданному ранее на графике, введя source1 перед вставленным кодом.
- Кроме того, можно подключить новое преобразование в конструкторе, выбрав входящий поток из нового узла преобразования в графе.
Теперь поток данных удалит из источника дубликаты строк, используя преобразование «Статистическая обработка», при этом выполняется группировка по всем строкам с помощью общего хэш-кода для всех значений столбцов.
Добавьте фрагмент кода для разбиения данных на поток, содержащий строки с нулевыми значениями, и поток без нулевых значений. Для этого:
Вернитесь к библиотеке фрагментов кода, и на этот раз скопируйте код для проверки нулевых значений.

b. В конструкторе потоков данных снова выберите Сценарий, а затем вставьте вниз новый код преобразования. Это действие подключает сценарий к предыдущему преобразованию путем размещения имени этого преобразования перед вставленным фрагментом.

Теперь граф потока данных должен выглядеть примерно так:

Теперь вы создали рабочий поток данных с общими процедурами удаления дубликатов и проверки нулевых значений с помощью существующих фрагментов кода из библиотеки сценариев потока данных, добавленных в имеющуюся структуру.

Создайте оставшуюся часть логики потока данных с помощью преобразований потоков данных для сопоставления.

Поделиться через

Удаление дубликатов строк и поиск нулевых значений с помощью фрагментов для потока данных

Создание конвейера

Обратная связь

Дополнительные ресурсы

Поделиться через

Удаление дубликатов строк и поиск нулевых значений с помощью фрагментов для потока данных

Создание конвейера

Связанный контент

Обратная связь

Дополнительные ресурсы