Condividi tramite


Monitorare i modelli serviti usando le tabelle di inferenza abilitate tramite Gateway AI

Importante

Questa funzionalità si trova in anteprima pubblica.

Importante

Questo articolo descrive gli argomenti che si applicano alle tabelle di inferenza per i modelli esterni o i carichi di lavoro con velocità effettiva di cui è stato effettuato il provisioning. Per modelli personalizzati, vedere tabelle di inferenza per il monitoraggio e il debug dei modelli.

Questo articolo descrive le tabelle di inferenza abilitate dal Gateway AI per monitorare i modelli serviti. La tabella di inferenza acquisisce automaticamente le richieste in ingresso e le risposte in uscita per un endpoint e le registra come tabella Delta del catalogo Unity. È possibile usare i dati in questa tabella per monitorare, valutare, confrontare e ottimizzare i modelli di Machine Learning.

Che cosa sono le tabelle di inferenza supportate dal Gateway di intelligenza artificiale?

Le tabelle di inferenza abilitate da AI Gateway semplificano il monitoraggio e la diagnostica per i modelli, registrando continuamente gli input e le risposte delle richieste (previsioni) dagli endpoint del servizio di gestione modelli Mosaic AI e salvandoli in una tabella Delta nel Unity Catalog. È quindi possibile usare tutte le funzionalità della piattaforma Databricks, ad esempio query e notebook SQL di Databricks per monitorare, eseguire il debug e ottimizzare i modelli.

È possibile abilitare le tabelle di inferenza su un endpoint di servizio del modello esistente o appena creato, e le richieste a tale endpoint vengono quindi registrate automaticamente in una tabella nel catalogo Unity.

Di seguito sono riportate alcune applicazioni comuni per le tabelle di inferenza:

  • Creare un corpus di training. Unendo tabelle di inferenza con etichette di verità di base, è possibile creare un corpus di training che è possibile usare per ripetere il training o ottimizzare e migliorare il modello. Usando i Databricks Jobs, è possibile configurare un ciclo di feedback continuo e automatizzare il riaddestramento.
  • Monitorare i dati e la qualità del modello. È possibile monitorare continuamente le prestazioni del modello e la deriva dei dati usando Il monitoraggio di Lakehouse. Il monitoraggio di Lakehouse genera automaticamente dashboard di qualità dei dati e dei modelli che è possibile condividere con gli stakeholder. Inoltre, è possibile abilitare gli avvisi per sapere quando è necessario riaddestrare il modello in base ai cambiamenti nei dati in ingresso o a riduzioni delle prestazioni del modello.
  • Eseguire il debug dei problemi di produzione. Le tabelle di inferenza registrano dati come codici di stato HTTP, codice JSON di richiesta e risposta, tempi di esecuzione del modello e tracce di output e durante i tempi di esecuzione del modello. È possibile usare questi dati sulle prestazioni a scopo di debug. È anche possibile usare i dati cronologici nelle tabelle di inferenza per confrontare le prestazioni del modello sulle richieste cronologiche.

Requisiti

Avvertimento

La tabella di inferenza potrebbe arrestare la registrazione dei dati o essere danneggiata se si esegue una delle operazioni seguenti:

  • Modificare lo schema della tabella.
  • Modificare il nome della tabella.
  • Eliminare la tabella.
  • Perdere le autorizzazioni per il catalogo o lo schema in Unity Catalog.

Abilitare e disabilitare le tabelle di inferenza

Questa sezione illustra come abilitare o disabilitare le tabelle di inferenza usando l'interfaccia utente Di servizio. Il proprietario delle tabelle di inferenza è l'utente che ha creato l'endpoint. Tutti gli elenchi di controllo di accesso (ACL) nella tabella seguono le autorizzazioni standard del catalogo Unity e possono essere modificati dal proprietario della tabella.

Per abilitare le tabelle di inferenza durante la creazione dell'endpoint, seguire questa procedura:

  1. Fare clic su Serving nell'interfaccia utente di Databricks Mosaic AI.
  2. Fare clic su Crea endpoint di gestione.
  3. Nella sezione Gateway AI, selezionare Abilita le tabelle di inferenza.

È anche possibile abilitare le tabelle di inferenza in un endpoint esistente. Per modificare una configurazione dell'endpoint esistente, eseguire le operazioni seguenti:

  1. Nella sezione Gateway IA, fai clic su Modifica Gateway IA.
  2. Selezionare Abilitare le tabelle di inferenza.

Seguire queste istruzioni per disabilitare le tabelle di inferenza:

  1. Vai alla pagina dell'endpoint.
  2. Fare clic su Modifica AI Gateway.
  3. Fai clic su Disabilita tabella di inferenza per rimuovere il segno di spunta.
  4. Dopo aver soddisfatto le specifiche del gateway di intelligenza artificiale, fare clic su Update.

Eseguire query e analizzare i risultati nella tabella di inferenza

Dopo che i modelli serviti sono pronti, tutte le richieste effettuate ai modelli vengono registrate automaticamente nella tabella di inferenza, insieme alle risposte. È possibile visualizzare la tabella nell'interfaccia utente, eseguire query sulla tabella da Databricks SQL o da un notebook oppure eseguire query sulla tabella usando l'API REST.

Per visualizzare la tabella nell'interfaccia utente: Nella pagina dell'endpoint fare clic sul nome della tabella di inferenza per aprire la tabella in Esplora cataloghi.

collegamento al nome della tabella di inferenza nella pagina dell'endpoint

Per interrogare la tabella da Databricks SQL o da un notebook di Databricks: Puoi eseguire un codice simile al seguente per interrogare la tabella di inferenza.

SELECT * FROM <catalog>.<schema>.<payload_table>

** Per unire i dati della tabella di inferenza con informazioni dettagliate sul modello di base sottostante servito nell'endpoint:** I dettagli del modello di base vengono acquisiti nella tabella di sistema system.serving.served_entities.

SELECT * FROM <catalog>.<schema>.<payload_table> payload
JOIN system.serving.served_entities se on payload.served_entity_id = se.served_entity_id

schema della tabella di inferenza abilitata per il gateway di intelligenza artificiale

Le tabelle di inferenza abilitate con il gateway di intelligenza artificiale hanno lo schema seguente:

Nome colonna Descrizione Tipo
request_date Data UTC in cui è stata ricevuta la richiesta di gestione del modello. DATTERO
databricks_request_id Identificatore di richiesta generato da Azure Databricks associato a tutte le richieste di gestione del modello. CORDA
request_time Il timestamp a cui viene ricevuta la richiesta. TIMESTAMP
status_code Codice di stato HTTP restituito dal modello. INT
sampling_fraction Frazione di campionamento utilizzata nel caso in cui la richiesta sia stata sotto-campionata. Questo valore è compreso tra 0 e 1, dove 1 rappresenta che sono stati inclusi 100% di richieste in ingresso. DOPPIO
execution_duration_ms Tempo in millisecondi per il quale il modello ha eseguito l'inferenza. Ciò non include latenze di rete sovraccariche e rappresenta solo il tempo impiegato per generare stime dal modello. BIGINT
request Corpo JSON della richiesta non elaborato inviato all'endpoint di gestione del modello. CORDA
response Corpo JSON della risposta non elaborata restituito dall'endpoint di gestione del modello. CORDA
served_entity_id ID univoco dell'entità servita. CORDA
logging_error_codes Errori che si sono verificati quando non è stato possibile registrare i dati. I codici di errore includono MAX_REQUEST_SIZE_EXCEEDED e MAX_RESPONSE_SIZE_EXCEEDED. ARRAY
requester ID dell'utente o del principale del servizio le cui autorizzazioni vengono utilizzate per la richiesta di invocazione dell'endpoint di servizio. CORDA

Limitazioni

  • Carichi di lavoro di velocità effettiva con provisioning:

    • Se si crea un nuovo modello che gestisce un endpoint che usa la velocità effettiva con provisioning, sono supportate solo le tabelle di inferenza abilitate per il gateway di intelligenza artificiale.
    • Se si dispone di un endpoint di gestione del modello esistente che usa la velocità effettiva con provisioning e non aveva mai avuto tabelle di inferenza configurate in precedenza, è possibile aggiornarla per usare le tabelle di inferenza abilitate per gateway di intelligenza artificiale.
    • Se si dispone di un endpoint di gestione del modello esistente che usa la velocità effettiva con provisioning e include tabelle di inferenza attualmente o configurate in precedenza, è possibile non aggiornarlo per usare le tabelle di inferenza abilitate per il gateway di intelligenza artificiale.
  • Il recapito dei log delle tabelle di inferenza è attualmente ottimale, ma è possibile prevedere che i log siano disponibili entro 1 ora da una richiesta. Per altre informazioni, contattare il team dell'account Databricks.

  • La dimensione massima di richiesta e risposta registrata è 1 MiB (1.048.576 byte). I payload di richiesta e risposta che superano questo valore vengono registrati come null e logging_error_codes vengono popolati con MAX_REQUEST_SIZE_EXCEEDED o MAX_RESPONSE_SIZE_EXCEEDED.

Per le limitazioni specifiche di AI Gateway, vedere Limitazioni. Per informazioni generali sulle limitazioni degli endpoint, vedere limiti e aree di gestione dei modelli .