Руководство по Использование мастера оценки моделей машинного обучения для выделенных пулов SQL
Узнайте, как легко дополнить данные в выделенных пулах SQL с помощью прогнозных моделей машинного обучения. Модели, создаваемые вашими данными, теперь легко доступны специалистам по анализу данных для прогнозной аналитики. Специалист по данным в Azure Synapse Analytics может просто выбрать модель в реестре моделей Машинного обучения Azure для развертывания в пулах Azure Synapse SQL и запустить прогнозирование, чтобы обогатить данные.
В этом руководстве вы узнаете, как:
- Обучить прогнозирующую модель машинного обучения и внести модель в реестр моделей Машинного обучения Azure.
- Использовать мастер оценки SQL для запуска прогнозов в выделенном пуле SQL.
Если у вас еще нет подписки Azure, создайте бесплатную учетную запись, прежде чем начинать работу.
Предварительные требования
- Рабочая область Azure Synapse Analytics с учетной записью хранения Azure Data Lake Storage 2-го поколения, настроенной в качестве хранилища по умолчанию. При работе с файловой системой Data Lake Storage 2-го поколения вам нужно иметь роль Участник для данных BLOB-объектов хранилища.
- Выделенный пул SQL в рабочей области Azure Synapse Analytics. Дополнительные сведения о см. в статье Создание выделенного пула SQL.
- Связанная служба Машинного обучения Azure в рабочей области Azure Synapse Analytics. Дополнительные сведения см. в разделе Создание связанной службы Машинного обучения Azure в Azure Synapse.
Вход на портал Azure
Войдите на портал Azure.
Обучение модели в Машинном обучении Azure
Прежде чем начать, убедитесь, что используется версия sklearn 0.20.3.
Перед выполнением всех ячеек в записной книжке проверьте, выполняется ли вычислительный экземпляр.
Перейдите в рабочую область Машинного обучения Azure.
Загрузите Predict NYC Taxi Tips.ipynb.
Откройте рабочую область Машинного обучения Azure в Студии Машинного обучения Azure.
Выберите Записные книжки>Отправить файлы. Затем выберите скачанный файл Predict NYC Taxi Tips.ipynb и отправьте его.
После отправки и открытия записной книжки выберите Выполнить все ячейки.
Выполнение одной из ячеек может завершиться ошибкой, после чего вы получите запрос на аутентификацию в Azure. Проследите за этим в выходных данных ячейки и выполните аутентификацию в браузере, перейдя по ссылке и введя код. Затем повторно запустите записную книжку.
Записная книжка обучит модель ONNX и зарегистрирует ее в MLflow. Перейдите в раздел Модели, чтобы проверить, правильно ли зарегистрирована новая модель.
При запуске записной книжки тестовые данные также экспортируются в CSV-файл. Загрузите CSV-файл в локальную систему. Позже вы импортируете CSV-файл в выделенный пул SQL и будете использовать эти данные для тестирования модели.
CSV-файл создается в той же папке, что и файл записной книжки. Нажмите кнопку Обновить в проводнике, если файл не отображается сразу.
Запуск прогнозирований с помощью мастера оценки SQL
Откройте рабочую область Azure Synapse в Synapse Studio.
Выберите Данные>Связанные>Учетные записи хранения. Передайте
test_data.csv
в учетную запись хранения по умолчанию.Перейдите в раздел Разработка>Скрипты SQL. Создайте новый скрипт SQL для загрузки
test_data.csv
в выделенный пул SQL.Примечание
Обновите URL-адрес файла в этом скрипте перед его запуском.
IF NOT EXISTS (SELECT * FROM sys.objects WHERE NAME = 'nyc_taxi' AND TYPE = 'U') CREATE TABLE dbo.nyc_taxi ( tipped int, fareAmount float, paymentType int, passengerCount int, tripDistance float, tripTimeSecs bigint, pickupTimeBin nvarchar(30) ) WITH ( DISTRIBUTION = ROUND_ROBIN, CLUSTERED COLUMNSTORE INDEX ) GO COPY INTO dbo.nyc_taxi (tipped 1, fareAmount 2, paymentType 3, passengerCount 4, tripDistance 5, tripTimeSecs 6, pickupTimeBin 7) FROM '<URL to linked storage account>/test_data.csv' WITH ( FILE_TYPE = 'CSV', ROWTERMINATOR='0x0A', FIELDQUOTE = '"', FIELDTERMINATOR = ',', FIRSTROW = 2 ) GO SELECT TOP 100 * FROM nyc_taxi GO
Перейдите в раздел Данные>Рабочая область. Откройте мастер оценки SQL, щелкнув правой кнопкой мыши таблицу выделенного пула SQL. Выберите Машинное обучение>Спрогнозировать с помощью модели.
Примечание
Параметр машинного обучения не отображается, если для Машинного обучения Azure не создана связанная служба (см. раздел Предварительные требования в начале этого руководства).
Выберите связанную рабочую область Машинного обучения Azure в раскрывающемся списке. При этом будет загружен список моделей машинного обучения из реестра моделей выбранной рабочей области Машинного обучения Azure. В настоящее время поддерживаются только модели ONNX, поэтому на этом шаге будут отображаться только модели ONNX.
Выберите только что обученную модель и щелкните Продолжить.
Сопоставьте столбцы таблицы с входными данными модели и укажите выходные данные модели. Если модель сохранена в формате MLflow и подпись модели заполнена, сопоставление будет выполнено автоматически с использованием логики на основе сходства имен. Интерфейс также поддерживает сопоставление вручную.
Выберите Continue (Продолжить).
Созданный код T-SQL упаковывается внутри хранимой процедуры. Именно поэтому необходимо указать имя хранимой процедуры. Двоичные данные модели, включая метаданные (версия, описание и другая информация), будут физически скопированы из Машинного обучения Azure в таблицу выделенного пула SQL. Следовательно, необходимо указать, в какой таблице будет сохраняться модель.
Вы можете выбрать существующую таблицу или создать новую. По завершении выберите Развернуть модель и открыть скрипт, чтобы развернуть модель и создать T-SQL-скрипт прогнозирования.
После создания скрипта нажмите кнопку Запустить, чтобы выполнить оценку и получить прогнозы.