Zelfstudie: Wizard voor scoren van Machine Learning-modellen voor toegewezen SQL-pools
Leer hoe u uw gegevens eenvoudig kunt verrijken in toegewezen SQL-pools met voorspellende machine learning-modellen. De modellen die uw gegevenswetenschappers maken, zijn nu eenvoudig toegankelijk voor dataprofessionals voor predictive analytics. Een gegevensprofessional in Azure Synapse Analytics kan eenvoudigweg een model selecteren in het Azure Machine Learning-modelregister voor implementatie in Azure Synapse SQL-pools en voorspellingen starten om de gegevens te verrijken.
In deze zelfstudie leert u het volgende:
- Een voorspellend Machine Learning-model trainen en het model registreren in het register met Azure Machine Learning-modellen.
- De SQL-wizard voor scoren gebruiken om voorspellingen te starten in toegewezen SQL-pool.
Als u geen Azure-abonnement hebt, maakt u een gratis account voordat u begint.
Vereiste voorwaarden
- Azure Synapse Analytics-werkruimte met een Azure Data Lake Storage Gen2-opslagaccount dat is geconfigureerd als de standaardopslag. U moet de bijdrager voor opslagblobgegevens zijn van het Data Lake Storage Gen2-bestandssysteem waarmee u werkt.
- Toegewezen SQL-pool in uw Azure Synapse Analytics-werkruimte. Zie Een toegewezen SQL-pool maken voor meer informatie.
- Gekoppelde Azure Machine Learning-service in uw Azure Synapse Analytics-werkruimte. Zie Een gekoppelde Azure Machine Learning-service maken in Azure Synapse voor meer informatie.
Aanmelden bij Azure Portal
Meld u aan bij het Azure-portaal.
Een model trainen in Azure Machine Learning
Controleer voordat u begint of uw versie van sklearn 0.20.3 is.
Controleer voordat u alle cellen in het notebook uitvoert of de rekeneenheid actief is.
Ga naar uw Azure Machine Learning-werkruimte.
Download Predict NYC Taxi Tips.ipynb.
Open de Azure Machine Learning-werkruimte in Azure Machine Learning Studio.
Ga naar Notebooks>Bestanden uploaden. Selecteer vervolgens het bestand Predict NYC Taxi Tips.ipynb dat u hebt gedownload en uploadt.
Nadat het notebook is geüpload en geopend, selecteert u Alle cellen uitvoeren.
Een van de cellen kan mislukken en u vragen om u te verifiëren bij Azure. Kijk hiervoor in de uitvoer van de cel en verifieer in uw browser door de koppeling te volgen en de code in te voeren. Voer vervolgens het notebook opnieuw uit.
Het notebook traint een ONNX-model en registreert het bij MLflow. Ga naar Modellen om te controleren of het nieuwe model juist is geregistreerd.
Als u het notebook uitvoert, worden de testgegevens ook geëxporteerd naar een CSV-bestand. Download het CSV-bestand naar uw lokale systeem. Later importeert u het CSV-bestand in een toegewezen SQL-pool en gebruikt u de gegevens om het model te testen.
Het CSV-bestand wordt gemaakt in dezelfde map als het notitieblokbestand. Selecteer Vernieuwen in Verkenner als het niet direct verschijnt.
Voorspellingen starten met de sql-scorewizard
Open de Azure Synapse-werkruimte met Synapse Studio.
Ga naarGekoppelde>opslagaccounts voor gegevens>. Uploaden
test_data.csv
naar het standaardopslagaccount.Ga naarSQL-scriptsontwikkelen>. Maak een nieuw SQL-script om
test_data.csv
in uw toegewezen SQL-pool te laden.Notitie
Werk de bestands-URL in dit script bij voordat u deze uitvoert.
IF NOT EXISTS (SELECT * FROM sys.objects WHERE NAME = 'nyc_taxi' AND TYPE = 'U') CREATE TABLE dbo.nyc_taxi ( tipped int, fareAmount float, paymentType int, passengerCount int, tripDistance float, tripTimeSecs bigint, pickupTimeBin nvarchar(30) ) WITH ( DISTRIBUTION = ROUND_ROBIN, CLUSTERED COLUMNSTORE INDEX ) GO COPY INTO dbo.nyc_taxi (tipped 1, fareAmount 2, paymentType 3, passengerCount 4, tripDistance 5, tripTimeSecs 6, pickupTimeBin 7) FROM '<URL to linked storage account>/test_data.csv' WITH ( FILE_TYPE = 'CSV', ROWTERMINATOR='0x0A', FIELDQUOTE = '"', FIELDTERMINATOR = ',', FIRSTROW = 2 ) GO SELECT TOP 100 * FROM nyc_taxi GO
Ga naar degegevenswerkruimte>. Open de SQL-scorewizard door met de rechtermuisknop op de specifieke SQL-pool tabel te klikken. Selecteer Machine Learning>Predict met een model.
Notitie
De optie machine learning wordt alleen weergegeven als u een gekoppelde service hebt gemaakt voor Azure Machine Learning. (Zie Vereisten aan het begin van deze zelfstudie.)
Selecteer een gekoppelde Azure Machine Learning-werkruimte in de vervolgkeuzelijst. Met deze stap wordt een lijst met machine learning-modellen geladen uit het modelregister van de gekozen Azure Machine Learning-werkruimte. Momenteel worden alleen ONNX-modellen ondersteund. In deze stap worden dus alleen ONNX-modellen weergegeven.
Selecteer het model dat u zojuist hebt getraind en selecteer vervolgens Doorgaan.
Wijs de tabelkolommen toe aan de modelinvoer en geef de modeluitvoer op. Als het model in MLflow-indeling is opgeslagen en de modelsignatuur is ingevuld, wordt de toewijzing automatisch voor je uitgevoerd met behulp van een logica die is gebaseerd op de gelijkenis van namen. De interface biedt ook ondersteuning voor handmatige toewijzing.
Klik op Doorgaan.
De gegenereerde T-SQL-code wordt verpakt in een opgeslagen procedure. Daarom moet u een opgeslagen procedurenaam opgeven. Het binaire model, inclusief metagegevens (versie, beschrijving en andere informatie), wordt fysiek gekopieerd van Azure Machine Learning naar een toegewezen SQL-pooltabel. U moet dus opgeven in welke tabel het model moet worden opgeslagen.
U kunt een bestaande tabel kiezen of een nieuwe tabel maken. Wanneer u klaar bent, selecteert u Model implementeren + script openen om het model te implementeren en een T-SQL-voorspellingsscript te genereren.
Nadat het script is gegenereerd, selecteert u Uitvoeren om de score uit te voeren en voorspellingen op te halen.