Informazioni sulle entità di primo livello nell'archivio delle funzionalità gestite
Questo documento descrive le entità di primo livello nell'archivio delle funzionalità gestite.
Per altre informazioni sul archivio delle funzionalità gestite, visitare la risorsa Che cos'è archivio delle funzionalità gestite?
Archivio delle funzionalità
È possibile creare e gestire set di funzionalità tramite un archivio delle funzionalità. Un set di funzionalità è una raccolta di funzionalità. Facoltativamente, è possibile associare un archivio di materializzazione (connessione all'archivio offline) a un archivio funzionalità, per precompilare e rendere persistenti le funzionalità a intervalli regolari. Questo approccio può rendere il recupero delle funzionalità durante il training o l'inferenza più veloce e affidabile.
Per altre informazioni sulla configurazione, vedere la risorsa dello schema YAML dell'archivio funzionalità dell'interfaccia della riga di comando (v2).
Entità
Un'entità incapsula le colonne di indice per le entità logiche in un'organizzazione. Esempi di entità includono entità account, entità cliente e così via. Le entità consentono di applicare, come procedura consigliata, l'uso delle stesse definizioni di colonna di indice nei set di funzionalità che usano le stesse entità logiche.
Le entità vengono in genere create una sola volta e quindi riutilizzate tra set di funzionalità. Le entità vengono sottoposte a controllo delle versioni.
Per altre informazioni sulla configurazione, vedere la risorsa dello schema YAML dell'entità della funzionalità dell'interfaccia della riga di comando (v2).
Asset e specifica del set di funzionalità
Un set di funzionalità è una raccolta di funzionalità generate dall'applicazione di una trasformazione sui dati di sistema di origine. I set di funzionalità incapsulano un'origine, la funzione di trasformazione e le impostazioni di materializzazione. Attualmente, è supportato il codice di trasformazione delle funzionalità PySpark.
Creare prima di tutto una specifica del set di funzionalità. Una specifica del set di funzionalità è una definizione autonoma di un set di funzionalità che è possibile sviluppare e testare localmente.
Una specifica del set di funzionalità è in genere costituita da questi parametri:
source
: le origini a cui viene eseguito il mapping di questa funzionalitàtransformation
(facoltativo): la logica di trasformazione, applicata ai dati di origine, per creare funzionalità. In questo caso, viene usato Spark come calcolo supportato.- Nomi delle colonne che rappresentano
index_columns
etimestamp_column
: questi nomi sono necessari quando gli utenti tentano di unire i dati delle funzionalità con i dati di osservazione (maggiori informazioni più avanti) materialization_settings
(facoltativo): obbligatorio se si desidera memorizzare nella cache i valori delle funzionalità in un archivio di materializzazione per un recupero efficiente.
Dopo aver sviluppato e testato la specifica del set di funzionalità nell'ambiente locale/di sviluppo, è possibile registrare la specifica come asset del set di funzionalità con l'archivio funzionalità. L'asset del set di funzionalità offre funzionalità gestite, ad esempio il controllo delle versioni e la materializzazione.
Per altre informazioni sulla specifica YAML del set di funzionalità, vedere la risorsa dello schema YAML dell'interfaccia della riga di comando (v2).
Specifica di recupero delle funzionalità
Una specifica di recupero delle funzionalità è una definizione portabile di un elenco di funzionalità associato a un modello. Consente di semplificare lo sviluppo e l'operazionalizzazione dei modelli di Machine Learning. Una specifica di recupero delle funzionalità è in genere un input per la pipeline di training. Consente di generare i dati di training. È possibile crearne il pacchetto con il modello. Inoltre, il passaggio di inferenza lo usa per cercare le funzionalità. Integra tutte le fasi del ciclo di vita di apprendimento automatico. Le modifiche apportate alla pipeline di training e inferenza possono essere ridotte al minimo durante l'esperimento e la distribuzione.
L'uso di una specifica di recupero delle funzionalità e del componente di recupero delle funzionalità predefinito è facoltativo. Se si vuole, è possibile usare direttamente l'API get_offline_features()
.
Per altre informazioni sulla specifica YAML di recupero delle funzionalità, vedere la risorsa dello schema YAML per il recupero delle funzionalità dell'interfaccia della riga di comando (v2).