Självstudie: Bedömningsguiden för maskininlärningsmodeller för dedikerade SQL-pooler

Artikel
06/01/2023

Lär dig hur du enkelt utökar dina data i dedikerade SQL-pooler med förutsägande maskininlärningsmodeller. De modeller som dina dataforskare skapar är nu lättillgängliga för dataexperter för förutsägelseanalys. En datatekniker i Azure Synapse Analytics kan helt enkelt välja en modell från Azure Machine Learning-modellregistret för distribution i Azure Synapse SQL-pooler och starta förutsägelser för att utöka data.

I den här självstudien får du lära dig att:

Träna en förutsägande maskininlärningsmodell och registrera modellen i Azure Machine Learning-modellregistret.
Använd SQL-bedömningsguiden för att starta förutsägelser i en dedikerad SQL-pool.

Om du inte har någon Azure-prenumeration kan du skapa ett kostnadsfritt konto innan du börjar.

Förutsättningar

Azure Synapse Analytics-arbetsyta med ett Azure Data Lake Storage Gen2 lagringskonto konfigurerat som standardlagring. Du måste vara Storage Blob Data-deltagare för det Data Lake Storage Gen2 filsystem som du arbetar med.
Dedikerad SQL-pool i din Azure Synapse Analytics-arbetsyta. Mer information finns i Skapa en dedikerad SQL-pool.
Länkad Azure Machine Learning-tjänst i din Azure Synapse Analytics-arbetsyta. Mer information finns i Skapa en länkad Azure Machine Learning-tjänst i Azure Synapse.

Logga in på Azure-portalen.

Träna en modell i Azure Machine Learning

Innan du börjar kontrollerar du att din version av sklearn är 0.20.3.

Innan du kör alla celler i notebook-filen kontrollerar du att beräkningsinstansen körs.

Skärmbild som visar verifiering av Azure Machine Learning-beräkning.

Gå till din Azure Machine Learning-arbetsyta.
Ladda ned Predict NYC Taxi Tips.ipynb.
Öppna Azure Machine Learning-arbetsytan i Azure Machine Learning Studio.
Gå till Notebooks>Ladda upp filer. Välj sedan filen Predict NYC Taxi Tips.ipynb som du laddade ned och ladda upp den.
När anteckningsboken har laddats upp och öppnats väljer du Kör alla celler.

En av cellerna kan misslyckas och be dig att autentisera till Azure. Håll utkik efter detta i cellens utdata och autentisera i webbläsaren genom att följa länken och ange koden. Kör sedan anteckningsboken igen.
Notebook-filen tränar en ONNX-modell och registrerar den med MLflow. Gå till Modeller för att kontrollera att den nya modellen är korrekt registrerad.
Om du kör notebook-filen exporteras även testdata till en CSV-fil. Ladda ned CSV-filen till ditt lokala system. Senare importerar du CSV-filen till en dedikerad SQL-pool och använder data för att testa modellen.

CSV-filen skapas i samma mapp som notebook-filen. Välj Uppdatera i Utforskaren om du inte ser det direkt.

Starta förutsägelser med SQL-bedömningsguiden

Öppna Azure Synapse-arbetsytan med Synapse Studio.
Gå tillLänkade>datalagringskonton>. Ladda upp test_data.csv till standardlagringskontot.

Gå till Utveckla>SQL-skript. Skapa ett nytt SQL-skript som ska läsas test_data.csv in i din dedikerade SQL-pool.

Anteckning

Uppdatera fil-URL:en i det här skriptet innan du kör den.

IF NOT EXISTS (SELECT * FROM sys.objects WHERE NAME = 'nyc_taxi' AND TYPE = 'U')
CREATE TABLE dbo.nyc_taxi
(
    tipped int,
    fareAmount float,
    paymentType int,
    passengerCount int,
    tripDistance float,
    tripTimeSecs bigint,
    pickupTimeBin nvarchar(30)
)
WITH
(
    DISTRIBUTION = ROUND_ROBIN,
    CLUSTERED COLUMNSTORE INDEX
)
GO

COPY INTO dbo.nyc_taxi
(tipped 1, fareAmount 2, paymentType 3, passengerCount 4, tripDistance 5, tripTimeSecs 6, pickupTimeBin 7)
FROM '<URL to linked storage account>/test_data.csv'
WITH
(
    FILE_TYPE = 'CSV',
    ROWTERMINATOR='0x0A',
    FIELDQUOTE = '"',
    FIELDTERMINATOR = ',',
    FIRSTROW = 2
)
GO

SELECT TOP 100 * FROM nyc_taxi
GO

Läsa in data till en dedikerad SQL-pool

Gå tillDataarbetsyta>. Öppna SQL-bedömningsguiden genom att högerklicka på den dedikerade SQL-pooltabellen. Välj Machine Learning>Predict with a model (Förutsäga med en modell).

Anteckning

Maskininlärningsalternativet visas inte om du inte har en länkad tjänst som skapats för Azure Machine Learning. (Se Förutsättningar i början av den här självstudien.)
Välj en länkad Azure Machine Learning-arbetsyta i listrutan. Det här steget läser in en lista över maskininlärningsmodeller från modellregistret för den valda Azure Machine Learning-arbetsytan. För närvarande stöds endast ONNX-modeller, så det här steget visar endast ONNX-modeller.
Välj den modell som du precis har tränat och välj sedan Fortsätt.
Mappa tabellkolumnerna till modellens indata och ange modellutdata. Om modellen sparas i MLflow-format och modellsignaturen fylls i görs mappningen automatiskt åt dig med hjälp av en logik som baseras på likheten mellan namn. Gränssnittet stöder även manuell mappning.

Välj Fortsätt.
Den genererade T-SQL-koden omsluts i en lagrad procedur. Det är därför du måste ange ett lagrat procedurnamn. Modellbinärfilen, inklusive metadata (version, beskrivning och annan information), kopieras fysiskt från Azure Machine Learning till en dedikerad SQL-pooltabell. Så du måste ange vilken tabell som modellen ska sparas i.

Du kan välja antingen Befintlig tabell eller Skapa ny. När du är klar väljer du Distribuera modell + öppet skript för att distribuera modellen och generera ett T-SQL-förutsägelseskript.
När skriptet har genererats väljer du Kör för att köra poängen och hämta förutsägelser.