Загрузка данных в Azure Synapse Analytics с помощью конвейера Фабрики данных Azure или Synapse
ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics
Совет
Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !
Azure Synapse Analytics — это облачная масштабируемая база данных, которая может обрабатывать большие объемы данных, как реляционные, так и нереляционные. Azure Synapse Analytics построена на основе архитектуры массовой параллельной обработки (MPP), оптимизированной для обработки нагрузок в хранилище корпоративных данных. Оно предоставляет эластичность облака и гибкие возможности масштабирования хранилища и вычислительной мощности независимо друг от друга.
Приступить к работе с Azure Synapse Analytics теперь легко как никогда. Фабрика данных Azure и эквивалентная ей функция конвейеров непосредственно в Azure Synapse предоставляют полностью управляемую облачную службу интеграции данных. Вы можете использовать службу, чтобы заполнить Azure Synapse Analytics данными из существующей системы и сэкономить время при создании решений аналитики.
Конвейеры Фабрики данных Azure и Synapse предлагают следующие преимущества для загрузки данных в Azure Synapse Analytics:
- Простота настройки. Вам доступен интуитивно понятный 5-этапный мастер без необходимости создавать сценарии.
- Расширенная поддержка хранилищ данных. Встроенная поддержка обширного набора локальных и облачных хранилищ данных. Подробный список см. в таблице Поддерживаемые хранилища данных и форматы.
- Безопасность и совместимость. Данные передаются по протоколу HTTPS или ExpressRoute. Наличие глобальной службы гарантирует, что ваши данные никогда не покинут заданных географических границ.
- Непревзойденный уровень производительности благодаря PolyBase. PolyBase — это самый эффективный способ перемещения данных в Azure Synapse Analytics. Промежуточные большие двоичные объекты позволяют обеспечить высокую скорость загрузки данных из источников данных всех типов, в том числе хранилища BLOB-объектов Azure и Data Lake Store. (Polybase по умолчанию поддерживает хранилище BLOB-объектов Azure и Azure Data Lake Store.) Подробности см. в Производительность действия Copy.
В этой статье описывается, как использовать средство "Копирование данных" для загрузки информации из Базы данных SQL Azure в Azure Synapse Analytics. Чтобы копировать данные из других типов хранилищ, необходимо выполнить аналогичные шаги.
Примечание.
Подробности см. в статье Копирование данных в службу Azure Synapse Analytics и из нее.
Необходимые компоненты
- Подписка Azure. Если у вас еще нет подписки Azure, создайте бесплатную учетную запись, прежде чем начинать работу.
- Azure Synapse Analytics: хранилище данных содержит данные, которые копируются из базы данных SQL. Если у вас нет базы Azure Synapse Analytics, см. инструкции в статье о создании Azure Synapse Analytics.
- База данных SQL Azure. В этом руководстве данные из примера набора данных Adventure Works LT копируются в База данных SQL Azure. Этот пример базы данных можно создать в Базе данных SQL, следуя инструкциям в кратком руководстве Создание отдельной базы данных в Базе данных SQL Azure.
- Учетная запись хранения Azure. Учетная запись хранения Azure используется в качестве промежуточного хранилища больших двоичных объектов в операции массового копирования. Если у вас нет учетной записи хранения Azure, см. инструкции по ее созданию.
Создание фабрики данных
Если вы еще не создали фабрику данных, выполните действия, описанные в кратком руководстве по созданию фабрики данных с помощью портала Azure и студии Фабрики данных Azure. После создания перейдите к фабрике данных на портале Azure.
Выберите Открыть на плитке Открыть Azure Data Factory Studio, чтобы запустить приложение интеграции данных в отдельной вкладке.
Загрузка данных в Azure Synapse Analytics
На домашней странице Фабрики данных Azure или рабочей области Azure Synapse выберите команду Принять, чтобы запустить средство "Копирование данных". Затем выберите Built-in copy task (Встроенная задача копирования).
На странице Свойства в разделе Тип задачи выберите Built-in copy task (Встроенная задача копирования), а затем нажмите кнопку Далее.
На странице Исходное хранилище данных сделайте следующее.
Совет
В этом учебнике в качестве типа проверки подлинности для исходного хранилища данных используется проверка подлинности SQL, но при необходимости можно выбрать и другие поддерживаемые методы: субъект-служба и управляемое удостоверение. Дополнительные сведения см. в соответствующих разделах этой статьи. Чтобы безопасно хранить секреты для хранилищ данных, также рекомендуется использовать Azure Key Vault. Дополнительные сведения см. в этой статье.
Выберите + Новое подключение.
В коллекции выберите элемент База данных SQL Azure и нажмите кнопку Продолжить. Вы можете ввести текст "SQL" в поле поиска, чтобы отфильтровать соединители.
На странице Новое подключение (База данных SQL Azure) в раскрывающемся списке выберите имя сервера и имя базы данных, затем укажите имя пользователя и пароль. Выберите Проверить подключение, чтобы проверить настройки, а затем нажмите Создать.
На странице Исходное хранилище данных выберите в качестве источника только что созданное подключение в блоке Подключение.
В разделе Таблицы источника данных введите SalesLT, чтобы отфильтровать таблицы. Установите флажок (Выбрать все), чтобы использовать все таблицы для копирования, а затем нажмите кнопку Далее.
На странице Применить фильтр укажите параметры или нажмите кнопку Далее. Вы можете просмотреть данные и схему входных данных, нажав кнопку Просмотр данных на странице.
На странице Целевое хранилище данных сделайте следующее.
Совет
В этом учебнике в качестве типа проверки подлинности для конечного хранилища данных используется проверка подлинности SQL, но при необходимости можно выбрать другие поддерживаемые методы проверки подлинности: субъект-служба и управляемое удостоверение. Дополнительные сведения см. в соответствующих разделах этой статьи. Чтобы безопасно хранить секреты для хранилищ данных, также рекомендуется использовать Azure Key Vault. Дополнительные сведения см. в этой статье.
Выберите + Создать подключение, чтобы добавить подключение.
Выберите Azure Synapse Analytics из коллекции и нажмите кнопку Продолжить.
На странице Новое подключение (Azure Synapse Analytics) в раскрывающемся списке выберите имя сервера и имя базы данных, затем укажите имя пользователя и пароль. Выберите Проверить подключение, чтобы проверить настройки, а затем нажмите Создать.
На странице Целевое хранилище данных выберите только что созданное подключение в качестве приемника в разделе Подключение.
Просмотрите содержимое раздела Сопоставление таблицы и нажмите кнопку Далее. Отобразится интеллектуальное сопоставление таблиц. Исходные таблицы сопоставляются с целевыми на основе их имен. Если исходная таблица не существует в месте назначения, по умолчанию служба создает таблицу с таким же именем. Вы также можете сопоставить исходную таблицу с имеющейся целевой таблицей.
На странице Сопоставление столбцов проверьте содержимое и нажмите кнопку Далее. Интеллектуальное сопоставление таблиц основано на имени столбца. Если в службе включена возможность автоматического создания таблиц, при наличии несовместимостей между исходным и целевым хранилищами выполняется преобразование типов данных. Если между исходным и целевым столбцами обнаружится преобразование неподдерживаемого типа данных, рядом с соответствующей таблицей появится сообщение об ошибке.
На странице Параметры сделайте следующее.
Укажите CopyFromSQLToSQLDW в поле Имя задачи.
В разделе Staging Settings (Промежуточные параметры) нажмите + Создать, чтобы создать промежуточное хранилище. Это хранилище используется для промежуточного хранения данных перед их загрузкой в Azure Synapse Analytics с помощью PolyBase. После завершения копирования промежуточные данные в хранилище BLOB-объектов Azure будут очищены автоматически.
На странице Новая связанная служба выберите свою учетную запись хранения и нажмите кнопку Создать, чтобы развернуть связанную службу.
Снимите флажок Использовать тип по умолчанию и нажмите кнопку Далее.
На странице Сводка проверьте параметры и нажмите кнопку Далее.
На странице Развертывание выберите Мониторинг, чтобы отслеживать созданный конвейер (задачу).
Обратите внимание, что слева автоматически выбирается вкладка Мониторинг. Когда конвейер успешно выполнится, нажмите ссылку CopyFromSQLToSQLDW в столбце Имя конвейера, чтобы просмотреть сведения о выполнении действия или повторно запустить конвейер.
Чтобы вернуться к представлению "Запуски конвейера", выберите ссылку Все запуски конвейеров в верхней части окна. Щелкните Обновить, чтобы обновить список.
Чтобы отслеживать ход выполнения каждого действия копирования, нажмите ссылку Подробности (значок очков) в столбце Имя действия в окне выполнения действий. Вы можете отслеживать такие сведения, как объем данных, копируемых из источника в приемник, пропускная способность данных, шаги выполнения с длительностью и используемые параметры.
Связанный контент
Перейдите к следующей статье, чтобы узнать о поддержке Azure Synapse Analytics: