Identificare gli asset di Azure Machine Learning
Lo scienziato dei dati usa principalmente gli asset nell'area di lavoro di Azure Machine Learning. Gli asset vengono creati e usati in varie fasi di un progetto e includono:
- Modelli
- Ambienti
- Dati
- Componenti
Creare e gestire i modelli
Il prodotto finale di training di un modello è il modello stesso. Puoi eseguire il training di modelli di Machine Learning con vari framework, ad esempio Scikit-learn o PyTorch. Un modo comune per archiviare tali modelli consiste nel creare un pacchetto del modello come file pickle Python (estensione .pkl
).
In alternativa, puoi usare MLflow della piattaforma open source per archiviare il modello nel formato MLModel.
Suggerimento
Altre informazioni sulla registrazione degli artefatti del flusso di lavoro come modelli usando MLflow e il formato MLModel.
Qualsiasi formato venga scelto, i file binari rappresentano il modello e tutti i metadati corrispondenti. Per rendere persistenti tali file, puoi creare o registrare un modello nell'area di lavoro.
Quando si crea un modello nell'area di lavoro, si specifica il nome e la versione. Particolarmente utile quando si distribuisce il modello registrato, il controllo delle versioni consente di tenere traccia del modello specifico che si vuole usare.
Crea e gestisci gli ambienti
Quando si lavora con calcolo cloud, è importante assicurarsi che il codice venga eseguito in qualsiasi calcolo disponibile. Se vuoi eseguire uno script in un'istanza di ambiente di calcolo o in un cluster di calcolo, il codice deve essere eseguito correttamente.
Immagina di lavorare in Python o R usando framework open source per eseguire il training di un modello nel dispositivo locale. Se si vuole usare una libreria, ad esempio Scikit-learn o PyTorch, dovrà essere installarla nel dispositivo.
Analogamente, quando si scrive codice che usa qualsiasi framework o librerie, ci si deve assicurare che le dipendenze necessarie siano installate nel calcolo che eseguirà il codice. Per elencare tutti i requisiti necessari, devi creare ambienti. Quando si crea un ambiente, è necessario specificare il nome e la versione.
Gli ambienti specificano pacchetti software, variabili di ambiente e impostazioni software per eseguire script. Un ambiente viene archiviato come immagine nel Registro Azure Container creato con l'area di lavoro quando viene usato per la prima volta.
Ogni volta che vuoi eseguire uno script, puoi specificare l'ambiente che deve essere usato dalla destinazione di calcolo. L'ambiente installa tutti i requisiti necessari nel calcolo prima di eseguire lo script, rendendo il codice affidabile e riutilizzabile tra destinazioni di calcolo.
Creare e gestire i dati
Mentre gli archivi dati contengono le informazioni di connessione ai servizi di archiviazione dati di Azure, gli asset dati fanno riferimento a un file o una cartella specifici.
Puoi usare asset di dati per accedere facilmente ai dati ogni volta, senza dover fornire l'autenticazione ogni volta che si vuole accedervi.
Quando si crea un asset di dati nell'area di lavoro, si specifica il percorso per puntare al file o alla cartella e al nome e alla versione.
Creare e gestire i componenti
Per eseguire il training dei modelli di Machine Learning, scrivi il codice. In tutti i progetti è possibile riutilizzare codice. Invece di scrivere codice da zero, si desidera riutilizzare frammenti di codice da altri progetti.
Per semplificare la condivisione del codice, puoi creare un componente in un'area di lavoro. Per creare un componente, è necessario specificare il nome, la versione, il codice e l'ambiente necessari per eseguire il codice.
Puoi usare i componenti durante la creazione di pipeline. Un componente rappresenta quindi spesso un passaggio in una pipeline, ad esempio per normalizzare i dati, per eseguire il training di un modello di regressione o per testare il modello sottoposto a training in un set di dati di convalida.