Поделиться через


Удаление дубликатов строк и поиск нулевых значений с помощью фрагментов для потока данных

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Используя фрагменты кода для потоков данных сопоставления можно легко выполнять такие распространенные задачи, как удаление дубликатов данных и фильтрация нулевых значений. В этой статье объясняется, как можно легко добавлять эти функции в конвейеры с помощью фрагментов сценариев для потока данных.

Создание конвейера

  1. Выберите Новый конвейер.

  2. Добавьте действие в потоке данных.

  3. Перейдите на вкладку Параметры источника, добавьте преобразование источника, а затем подключите его к одному из наборов данных.

    Снимок экрана:

    Во фрагментах кода для удаления дубликатов и поиска нулевых значений используются универсальные шаблоны, преимуществом которых является использование смещения схемы потока данных. Фрагменты кода работают с любой схемой из набора данных или с наборами, не имеющими предварительно заданных схем.

  4. В материале «Отдельные строки с использованием всех столбцов» в разделе Сценарий потока данных (DFS) скопируйте фрагмент кода DistinctRows.

  5. Перейдите на страницу документации о сценарии потока данных и скопируйте фрагмент кода для отдельных строк.

    Снимок экрана с исходным фрагментом кода.

  6. После определения source1 в скрипте нажмите клавишу Enter и вставьте фрагмент кода.

  7. Выполните одно из приведенных ниже действий.

    • Подключите этот вставленный фрагмент кода к преобразованию источника, созданному ранее на графике, введя source1 перед вставленным кодом.

    • Кроме того, можно подключить новое преобразование в конструкторе, выбрав входящий поток из нового узла преобразования в графе.

      Снимок экрана:

    Теперь поток данных удалит из источника дубликаты строк, используя преобразование «Статистическая обработка», при этом выполняется группировка по всем строкам с помощью общего хэш-кода для всех значений столбцов.

  8. Добавьте фрагмент кода для разбиения данных на поток, содержащий строки с нулевыми значениями, и поток без нулевых значений. Для этого:

  9. Вернитесь к библиотеке фрагментов кода, и на этот раз скопируйте код для проверки нулевых значений.

    b. В конструкторе потоков данных снова выберите Сценарий, а затем вставьте вниз новый код преобразования. Это действие подключает сценарий к предыдущему преобразованию путем размещения имени этого преобразования перед вставленным фрагментом.

    Теперь граф потока данных должен выглядеть примерно так:

    Снимок экрана: граф потока данных.

Теперь вы создали рабочий поток данных с общими процедурами удаления дубликатов и проверки нулевых значений с помощью существующих фрагментов кода из библиотеки сценариев потока данных, добавленных в имеющуюся структуру.

  • Создайте оставшуюся часть логики потока данных с помощью преобразований потоков данных для сопоставления.