Поделиться через


Прием данных в Azure Data Lake Storage 2-го поколения

В этой статье объясняется, как реализовать прием данных из одного расположения в другое в учетной записи хранения Azure Data Lake 2-го поколения с помощью Azure Synapse Analytics.

Предварительные требования

  • Подписка Azure: Если у вас еще нет подписки Azure, создайте бесплатную учетную запись Azure, прежде чем начинать работу.
  • учетную запись хранения, Azure Data Lake 2-го поколения используется в качестве хранилища исходных данных. Если у вас нет учетной записи хранения Azure, создайте ее по инструкциям из статьи Создание учетной записи хранения Azure.

Создание связанных служб

В Azure Synapse Analytics связанная служба используется для определения сведений о подключении к другим службам. В этом разделе показано, как добавить Azure Synapse Analytics и Azure Data Lake 2-го поколения в качестве связанных служб.

  1. Откройте пользовательский интерфейс Azure Synapse Analytics и перейдите на вкладку Управление.
  2. В разделе Внешние подключения выберите Связанные службы.
  3. Чтобы добавить связанную службу, выберите Создать.
  4. Выберите плитку Azure Data Lake Storage 2-го поколения в списке и щелкните Продолжить.
  5. Введите учетные данные для проверки подлинности. В настоящее время поддерживаются следующие типы проверки подлинности: ключ учетной записи, субъект-служба и управляемое удостоверение. Выберите элемент для тестирования подключения, чтобы проверить правильность учетных данных.
  6. По завершении нажмите кнопку Создать.

Создание конвейера

Конвейер содержит логический поток для выполнения набора действий. В этом разделе показано, как создать конвейер с действием копирования, которое принимает данные из Azure Data Lake 2-го поколения в выделенный пул SQL.

  1. Перейдите на вкладку Оркестрация. Щелкните значок плюса рядом с заголовком конвейеров и выберите Конвейер.
  2. В разделе Move and Transform (Перемещение и преобразование) на панели действий перетащите Копирование данных на холст конвейера.
  3. Выберите действие копирования и перейдите на вкладку Источник. Выберите Создать, чтобы создать исходный набор данных.
  4. Выберите Azure Data Lake Storage 2-го поколения в качестве хранилища данных и щелкните "Продолжить".
  5. Выберите формат данных DelimitedText (Текст с разделителями) и щелкните "Продолжить".
  6. На панели задания свойств выберите созданную связанную службу ADLS. Укажите путь к исходным данным и укажите, содержит ли первая строка заголовок. Можно импортировать схему из хранилища файлов или из примера файла. Выберите ОК после завершения.
  7. Перейдите на вкладку Приемник. Выберите Создать, чтобы создать набор данных приемника.
  8. Выберите Azure Data Lake Storage 2-го поколения в качестве хранилища данных и щелкните "Продолжить".
  9. Выберите формат данных DelimitedText (Текст с разделителями) и щелкните "Продолжить".
  10. На панели задания свойств выберите созданную связанную службу ADLS. Укажите путь к папке, в которую нужно записать данные. Выберите ОК после завершения.

Отладка и публикация конвейера

Завершив настройку конвейера, можно выполнить отладку перед публикацией артефактов, чтобы убедиться, что все правильно.

  1. Чтобы выполнить отладку конвейера, на панели инструментов щелкните Отладка. Состояние выполнения конвейера вы можете найти на вкладке Выходные данные в нижней части окна.
  2. После успешного запуска конвейера в верхней панели инструментов выберите Опубликовать все. Это действие опубликует сущности (наборы данных и конвейеры), которые вы создали в службе Synapse Analytics.
  3. Дождитесь сообщения Successfully published (Публикация выполнена). Чтобы отобразить уведомления, нажмите кнопку в виде колокольчика в правом верхнем углу.

Активация и мониторинг конвейера

На этом шаге вы вручную активируете конвейер, опубликованный ранее.

  1. Выберите Добавить триггер на панели инструментов, а затем Trigger Now (Запустить сейчас). На странице Pipeline Run (Запуск конвейера) нажмите кнопку Готово.
  2. Перейдите на вкладку Монитор на левой боковой панели. Вы увидите выполнение конвейера, которое вы только что активировали вручную. Ссылки в столбце действий позволят вам просмотреть подробные сведения о действиях и (или) повторно выполнить конвейер.
  3. Чтобы просмотреть запуски действий, связанные с этим запуском конвейера, щелкните ссылку View Activity Runs (Просмотр запусков действий) в столбце Действия. В нашем примере определено только одно действие, поэтому в списке вы увидите только одну запись. Чтобы увидеть сведения об операции копирования, щелкните ссылку Сведения (значок очков) в столбце Действия. Выберите Конвейеры Runs (Запуски конвейера) в верхней части окна, чтобы вернуться к представлению Pipeline Runs (Запуски конвейера). Чтобы обновить список, нажмите кнопку Обновить.
  4. Убедитесь, что данные правильно записаны в выделенный пул SQL.

Дальнейшие действия

Дополнительные сведения об интеграции данных для Azure Synapse Analytics см. в статье Прием данных в выделенный пул SQL.