Краткое руководство: перемещение и преобразование данных с помощью потоков данных и конвейеров данных
В этом руководстве вы узнаете, как интерфейс потока данных и конвейера данных может создать мощное и комплексное решение фабрики данных.
Необходимые условия
Чтобы приступить к работе, необходимо иметь следующие предварительные требования:
- Учетная запись клиента с активной подпиской. Создайте бесплатную учетную запись .
- Убедитесь, что у вас есть рабочая область с поддержкой Microsoft Fabric: создать рабочую область, которая не является моей рабочей областью по умолчанию.
- База данных SQL Azure с данными таблицы.
- учетную запись хранения BLOB-объектов.
Потоки данных по сравнению с конвейерами
Потоки данных второго поколения (Dataflows Gen2) позволяют использовать интерфейс с минимальным кодированием и более чем 300 преобразований данных и трансформаций на основе ИИ, позволяя легко очищать, подготавливать и преобразовывать данные с большей гибкостью, чем любой другой инструмент. Конвейеры данных обладают встроенными возможностями для оркестровки данных, позволяющими создавать гибкие рабочие процессы данных, соответствующие вашим корпоративным потребностям. В конвейере можно создать логические группировки действий, выполняющих задачу, которая может включать вызов потока данных для очистки и подготовки данных. Хотя между ними имеется некоторое совпадение функциональности, выбор того, что использовать для конкретного сценария, зависит от того, требуются ли богатые возможности конвейеров или можно обойтись более простыми, но более ограниченными возможностями потоков данных. Дополнительные сведения см. в руководстве по принятию решений Fabric
Преобразование данных с помощью потоков данных
Выполните следующие действия, чтобы настроить поток данных.
Шаг 1. Создание потока данных
Выберите рабочую область с поддержкой Fabric, а затем выберите Новый. Затем выберите Dataflow Gen2.
Откроется окно редактора потоков данных. Выберите импорт из карточки SQL Server.
Шаг 2. Получение данных
В диалоговом окне Подключение к источнику данных введите данные для подключения к базе данных Azure SQL, затем нажмите Далее. В этом примере вы используете образец базы данных AdventureWorksLT, настроенный при настройке базы данных Azure SQL в разделе предварительных требований.
Выберите данные, которые вы хотите преобразовать, а затем выберите Создать. В этом кратком руководстве выберите SalesLT.Customer из примера данных AdventureWorksLT, предоставленных для Azure SQL DB, а затем нажмите кнопку Выбрать связанные таблицы, чтобы автоматически добавить две другие связанные таблицы.
Шаг 3. Преобразование данных
Если не выбран, выберите кнопку "Представление диаграмм" на строке состояния в нижней части страницы или выберите "Представление диаграмм" в меню "Вид" в верхней части редактора Power Query. Любой из этих параметров может переключить представление схемы.
Щелкните правой кнопкой мыши по запросу SalesLT Customer или выберите вертикальное троеточие справа от запроса, а затем выберите Слияние запросов.
Настройте слияние, выбрав в качестве правой таблицы таблицу SalesLTOrderHeader, столбец CustomerID из каждой таблицы в качестве столбца соединения и Левое внешнее в качестве типа соединения. Затем нажмите кнопку ОК, чтобы добавить запрос слияния.
Нажмите кнопку Добавить назначение данных, которая выглядит как символ базы данных со стрелкой над ним, из созданного вами нового запроса слияния. Затем выберите базе данных SQL Azure в качестве типа назначения.
Укажите сведения о подключении к базе данных SQL Azure, где будет опубликован запрос слияния. В этом примере можно использовать базу данных AdventureWorksLT, которую мы также использовали в качестве источника данных для назначения.
Выберите базу данных для хранения данных и укажите имя таблицы, а затем нажмите кнопку Далее.
Параметры по умолчанию можно оставить в диалоговом окне "Выбор настроек назначения" и просто выбрать "Сохранить параметры" без внесения изменений.
Выберите Опубликовать на странице редактора потоков данных, чтобы выполнить публикацию потока данных.
Перемещение данных с помощью конвейеров данных
Теперь, когда вы создали Dataflow Gen2, вы можете управлять им в рамках конвейера. В этом примере данные, созданные из потока данных, копируются в текстовый формат в учетной записи хранения BLOB-объектов Azure.
Шаг 1. Создание конвейера данных
В рабочей области выберите Создать, а затем конвейер данных.
Назовите конвейер, а затем выберите Создать.
Шаг 2. Настройка потока данных
Добавьте новое действие потока данных в конвейер данных, выбрав потока данных на вкладке Действия.
Выберите поток данных на холсте конвейера, а затем перейдите на вкладку "Параметры" . Выберите поток данных, созданный ранее, из раскрывающегося списка.
Выберите Сохранить, а затем Выполнить, чтобы запустить поток данных и впервые заполнить её объединённую таблицу запросов, разработанную на предыдущем шаге.
Шаг 3. Добавление действия копирования с помощью помощника по копированию
Выберите Копировать данные на холсте, чтобы открыть инструмент Ассистент копирования для начала работы. Или выберите Использовать помощник по копированию из раскрывающегося списка Копирование данных на вкладке Действия на ленте.
Выберите источник данных, выбрав тип источника данных. В этом руководстве вы используете базу данных SQL Azure, используемую ранее при создании потока данных для создания нового запроса на слияние. Прокрутите вниз ниже примеров предложений данных и выберите вкладку Azure, а затем базы данных SQL Azure. Затем нажмите кнопку Далее, чтобы продолжить.
Создайте подключение к источнику данных, выбрав Создать новое подключение. Введите необходимые сведения о подключении на панели и введите AdventureWorksLT для базы данных, где мы создали запрос слияния в потоке данных. Затем выберите Далее.
Выберите таблицу, созданную на шаге потока данных ранее, и нажмите кнопку Далее.
Для места назначения выберите хранилище BLOB-объектов Azure и выберите Далее.
Создайте подключение к месту назначения, выбрав Создать новое подключение. Укажите сведения о подключении, а затем нажмите кнопку Далее.
Выберите путь к папке и укажите имя файла, а затем нажмите кнопку Далее.
Нажмите Далее еще раз, чтобы принять формат файла по умолчанию, разделитель столбцов, разделитель строк и тип сжатия, при необходимости включая заголовок.
Завершите настройку параметров. Затем просмотрите и выберите Сохранить и запустить, чтобы завершить процесс.
Шаг 5. Проектирование конвейера данных и сохранение для выполнения и загрузки данных
Чтобы запустить активность копирования после активности потока данных, перетащите из Успешно на активности потока данных в активность копирования. Действие копирования выполняется только после успешного выполнения действия потока данных.
Выберите Сохранить, чтобы сохранить поток данных. Затем выберите Выполнить, чтобы запустить конвейер данных и загрузить ваши данные.
Планирование выполнения конвейера
Завершив разработку и тестирование конвейера, вы можете запланировать его автоматическое выполнение.
На вкладке Главная окна редактора конвейера выберите Расписание.
Настройте расписание по мере необходимости. Пример здесь планирует выполнение конвейера ежедневно в 8:00 до конца года.
Связанное содержимое
В этом примере показано, как создать и настроить поток данных 2-го поколения, чтобы создать запрос слияния и сохранить его в базе данных SQL Azure, а затем скопировать данные из базы данных в текстовый файл в хранилище BLOB-объектов Azure. Вы узнали, как:
- Создайте поток данных.
- Преобразование данных с помощью потока данных.
- Создайте конвейер данных с помощью потока данных.
- Упорядочить выполнение шагов в конвейере.
- Скопируйте данные с помощью помощника по копированию.
- Запустите и запланируйте конвейер данных.
Затем узнайте больше о мониторинге запусков конвейера.