Analizzare i dati con Azure Machine Learning

Articolo
11/09/2024

Questa esercitazione usa la finestra di progettazione di Azure Machine Learning per creare un modello di Machine Learning predittivo. Il modello si basa sui dati archiviati in Azure Synapse. Lo scenario per l'esercitazione consiste nel prevedere se è probabile che un cliente acquisti una bicicletta o meno adventure Works, il negozio di biciclette, possa creare una campagna di marketing mirata.

Prerequisiti

Per eseguire questa esercitazione, è necessario:

un pool SQL precaricato con i dati di esempio AdventureWorksDW. Per eseguire il provisioning di questo pool SQL, vedere Creare un pool SQL e scegliere di caricare i dati di esempio. Se si dispone già di un data warehouse ma non si dispone di dati di esempio, è possibile caricare manualmente i dati di esempio.
un'area di lavoro di Azure Machine Learning. Seguire questa esercitazione per crearne una nuova.

Ottenere i dati

I dati usati si trovano nella vista dbo.vTargetMail in AdventureWorksDW. Per usare l'archivio dati in questa esercitazione, i dati vengono prima esportati nell'account azure Data Lake Storage perché Azure Synapse attualmente non supporta i set di dati. Azure Data Factory può essere usato per esportare i dati dal data warehouse ad Azure Data Lake Storage usando l'attività di copia. Usare la query seguente per l'importazione:

SELECT [CustomerKey]
  ,[GeographyKey]
  ,[CustomerAlternateKey]
  ,[MaritalStatus]
  ,[Gender]
  ,cast ([YearlyIncome] as int) as SalaryYear
  ,[TotalChildren]
  ,[NumberChildrenAtHome]
  ,[EnglishEducation]
  ,[EnglishOccupation]
  ,[HouseOwnerFlag]
  ,[NumberCarsOwned]
  ,[CommuteDistance]
  ,[Region]
  ,[Age]
  ,[BikeBuyer]
FROM [dbo].[vTargetMail]

Quando i dati sono disponibili in Azure Data Lake Storage, gli archivi dati in Azure Machine Learning vengono usati per connettersi ai servizi di archiviazione di Azure. Seguire questa procedura per creare un archivio dati e un set di dati corrispondente:

Avviare studio di Azure Machine Learning da portale di Azure o accedere al studio di Azure Machine Learning.
Fare clic su Archivi dati nel riquadro sinistro nella sezione Gestisci e quindi fare clic su Nuovo archivio dati.
Specificare un nome per l'archivio dati, selezionare il tipo "Archiviazione BLOB di Azure", specificare la posizione e le credenziali. Scegliere quindi Crea.
Fare quindi clic su Set di dati nel riquadro sinistro nella sezione Asset . Selezionare Crea set di dati con l'opzione Da archivio dati.
Specificare il nome del set di dati e selezionare il tipo da tabulare. Fare quindi clic su Avanti per procedere.
Nella sezione Selezionare o creare un archivio dati selezionare l'opzione Archivio dati creato in precedenza. Selezionare l'archivio dati creato in precedenza. Fare clic su Avanti e specificare il percorso e le impostazioni del file. Assicurarsi di specificare l'intestazione di colonna se i file ne contengono uno.
Infine, fare clic su Crea per creare il set di dati.

Configurare l'esperimento della finestra di progettazione

Seguire quindi i passaggi seguenti per la configurazione della finestra di progettazione:

Fare clic sulla scheda Progettazione nel riquadro sinistro nella sezione Autore .
Selezionare Componenti predefiniti facili da usare per creare una nuova pipeline.
Nel riquadro delle impostazioni a destra specificare il nome della pipeline.
Selezionare anche un cluster di calcolo di destinazione per l'intero esperimento nelle impostazioni pulsante in un cluster di cui è stato eseguito il provisioning in precedenza. Chiudere il riquadro Impostazioni.

Importare i dati

Selezionare la sottoscheda Set di dati nel riquadro sinistro sotto la casella di ricerca.
Trascinare il set di dati creato in precedenza nell'area di disegno.

Eseguire la pulizia dei dati

Per pulire i dati, eliminare colonne non pertinenti per il modello. Segui i passaggi riportati di seguito:

Selezionare la sottoscheda Componenti nel riquadro sinistro.
Trascinare il componente Seleziona colonne nel set di dati in Manipolazione trasformazione < dati nell'area di disegno. Connettere questo componente al componente Set di dati .
Fare clic sul componente per aprire il riquadro delle proprietà. Fare clic su Modifica colonna per specificare le colonne da eliminare.
Escludere due colonne: CustomerAlternateKey e GeographyKey. Cliccare su Salva

Creare il modello

I dati sono suddivisi 80-20: 80% per eseguire il training di un modello di Machine Learning e il 20% per testare il modello. Gli algoritmi "a due classi" vengono usati in questo problema di classificazione binaria.

Trascinare il componente Split Data (Divisione dati ) nell'area di disegno.
Nel riquadro delle proprietà immettere 0,8 per Frazione di righe nel primo set di dati di output.
Trascinare il componente Albero delle decisioni con boosting a due classi nell'area di disegno.
Trascinare il componente Train Model (Esegui training modello ) nell'area di disegno. Specificare gli input collegandoli ai componenti di Albero delle decisioni con boosting a due classi (algoritmo ML) e Split Data (dati su cui eseguire il training dell'algoritmo).
Per Train Model model (Esegui training modello), nell'opzione Etichetta colonna nel riquadro Proprietà selezionare Modifica colonna. Selezionare la colonna BikeBuyer come colonna da stimare e selezionare Salva.

Assegnare un punteggio al modello

Testare ora come viene eseguito il modello sui dati di test. Due algoritmi diversi verranno confrontati per vedere quali sono le prestazioni migliori. Segui i passaggi riportati di seguito:

Trascinare il componente Score Model nell'area di disegno e connetterlo ai componenti Train Model (Esegui training modello ) e Split Data (Divisione dati ).
Trascinare two-Class Bayes Averaged Perceptron nell'area di disegno dell'esperimento. Si confronterà il modo in cui questo algoritmo viene eseguito rispetto all'albero delle decisioni con boosting a due classi.
Copiare e incollare i componenti Train Model e Score Model nell'area di disegno.
Trascinare il componente Evaluate Model nell'area di disegno per confrontare i due algoritmi.
Fare clic su Invia per configurare l'esecuzione della pipeline.
Al termine dell'esecuzione, fare clic con il pulsante destro del mouse sul componente Valuta modello e scegliere Visualizza risultati valutazione.

La metrica fornita include curva ROC, diagramma di precisione/recupero e curva lift. Esaminare queste metriche per vedere che il primo modello ha prestazioni migliori rispetto al secondo. Per esaminare il primo modello stimato, fare clic con il pulsante destro del mouse sul componente Score Model (Punteggio modello) e scegliere Visualize Scored dataset (Visualizza set di dati con punteggio) per visualizzare i risultati stimati.

Verranno visualizzate altre due colonne aggiunte al set di dati di test.

Scored Probabilities: la probabilità che un cliente sia un acquirente di biciclette.
Scored Labels: la classificazione eseguita dal modello – acquirente di biciclette (1) o non acquirente (0). La soglia di probabilità per le etichette è impostata su 50% e può essere modificata.

Confrontare la colonna BikeBuyer (effettiva) con le etichette con punteggio (stima) per verificare il livello di esecuzione del modello. A questo punto, è possibile usare questo modello per eseguire stime per i nuovi clienti. È possibile pubblicare questo modello come servizio Web o scrivere i risultati in Azure Synapse.

Passaggi successivi

Per altre informazioni su Azure Machine Learning, vedere Introduzione a Machine Learning in Azure.

Informazioni sull'assegnazione dei punteggi predefinita nel data warehouse, qui.

Condividi tramite