Monitorare i modelli serviti utilizzando le tabelle di inferenza abilitate dal Gateway di intelligenza artificiale

Articolo
02/10/2025

Importante

Questa funzionalità si trova in anteprima pubblica.

Importante

Questo articolo descrive gli argomenti che si applicano alle tabelle di inferenza per modelli esterni, carichi di lavoro con throughput provisioning o modelli di agenti. Per modelli personalizzati , vedere le tabelle di inferenza per il monitoraggio e il debugging dei modelli.

Questo articolo descrive le tabelle di inferenza abilitate dal gateway di intelligenza artificiale per il monitoraggio dei modelli serviti. La tabella di inferenza acquisisce automaticamente le richieste in ingresso e le risposte in uscita per un endpoint e le registra come tabella Delta del catalogo Unity. È possibile usare i dati in questa tabella per monitorare, valutare, confrontare e ottimizzare i modelli di Machine Learning.

Che cosa sono le tabelle di inferenza abilitate per il gateway di intelligenza artificiale?

Le tabelle di inferenza abilitate tramite il gateway di intelligenza artificiale semplificano il monitoraggio e la diagnostica per i modelli registrando continuamente gli input delle richieste di servizio e le risposte (previsioni) dagli endpoint di servizio del modello AI di Mosaic e salvandoli in una tabella Delta nel Catalogo Unity. È quindi possibile usare tutte le funzionalità della piattaforma Databricks, ad esempio query e notebook SQL di Databricks per monitorare, eseguire il debug e ottimizzare i modelli.

È possibile abilitare le tabelle di inferenza in un endpoint esistente o appena creato e le richieste a tale endpoint vengono quindi registrate automaticamente in una tabella nel catalogo unity.

Di seguito sono riportate alcune applicazioni comuni per le tabelle di inferenza:

Creare un corpus di training. Unendo tabelle di inferenza con etichette di verità di base, è possibile creare un corpus di training che è possibile usare per ripetere il training o ottimizzare e migliorare il modello. Usando lavori di Databricks, è possibile configurare un ciclo di feedback continuo e automatizzare il riaddestramento.
Monitorare i dati e la qualità del modello. È possibile monitorare continuamente le prestazioni del modello e la deriva dei dati usando Il monitoraggio di Lakehouse. Il monitoraggio di Lakehouse genera automaticamente dashboard di qualità dei dati e dei modelli che è possibile condividere con gli stakeholder. Inoltre, è possibile abilitare gli avvisi per sapere quando è necessario riaddestrare il modello in base ai cambiamenti nei dati in ingresso o a riduzioni delle prestazioni del modello.
Eseguire il debug dei problemi di produzione. Le tabelle di inferenza registrano dati come codici di stato HTTP, codice JSON di richiesta e risposta, tempi di esecuzione del modello e tracce di output durante i tempi di esecuzione del modello. È possibile usare questi dati sulle prestazioni a scopo di debug. È anche possibile usare i dati cronologici nelle tabelle di inferenza per confrontare le prestazioni del modello sulle richieste cronologiche.

Requisiti

Le tabelle di inferenza abilitate tramite il gateway di intelligenza artificiale sono supportate solo per gli endpoint che usano larghezza di banda approvvigionata o che servono modelli esterni.
Un'area di lavoro di Databricks in uno dei due casi:
- Modelli esterni supportati dalla regione
- Regione supportata per la velocità di trasferimento con provisioning
Per le aree di lavoro con connettività privata configurata nell'account di archiviazione di Unity Catalog, seguire la procedura descritta in Configurare la connettività privata dall'ambiente di calcolo serverless.
Databricks consiglia di abilitare l'ottimizzazione predittiva per migliorare le prestazioni delle tabelle di inferenza.
L'area di lavoro deve avere Unity Catalog abilitato.
Sia l'autore dell'endpoint che il modificatore devono disporre dell'autorizzazione Può gestire per l'endpoint. Vedere Elenchi di controllo di accesso.
Sia l'autore dell'endpoint che il modificatore devono avere le autorizzazioni seguenti nel catalogo Unity:
- Autorizzazioni USE CATALOG sul catalogo specificato.
- USE SCHEMA autorizzazioni per lo schema specificato.
- CREATE TABLE autorizzazioni nello schema.

Avvertimento

La tabella di inferenza potrebbe arrestare la registrazione dei dati o essere danneggiata se si esegue una delle operazioni seguenti:

Modificare lo schema della tabella.
Modificare il nome della tabella.
Eliminare la tabella.
Perdere le autorizzazioni nel catalogo o schema del Unity Catalog.

Abilitare e disabilitare le tabelle di inferenza

Questa sezione illustra come abilitare o disabilitare le tabelle di inferenza usando l'interfaccia utente Di servizio. Il proprietario delle tabelle di inferenza è l'utente che ha creato l'endpoint. Tutti gli elenchi di controllo di accesso (ACL) nella tabella seguono le autorizzazioni standard del catalogo Unity e possono essere modificati dal proprietario della tabella.

Per abilitare le tabelle di inferenza durante la creazione dell'endpoint, seguire questa procedura:

Fare clic su Serving nell'interfaccia utente di Databricks Mosaic AI.
Fare clic su Crea endpoint di gestione.
Nella sezione Gateway di intelligenza artificiale selezionare Abilitare le tabelle di inferenza.

È anche possibile abilitare le tabelle di inferenza in un endpoint esistente. Per modificare una configurazione dell'endpoint esistente, eseguire le operazioni seguenti:

Nella sezione Gateway IA, fai clic su Modifica Gateway IA.
Selezionare Abilitare le tabelle di inferenza.

Seguire queste istruzioni per disabilitare le tabelle di inferenza:

Vai alla pagina dell'endpoint.
Fare clic su Modifica AI Gateway.
Fare clic Abilita tabella di inferenza per rimuovere il segno di spunta.
Dopo esserti soddisfatti delle specifiche del Gateway di intelligenza artificiale, fare clic su Update.

Eseguire query e analizzare i risultati nella tabella di inferenza

Dopo che i modelli serviti sono pronti, tutte le richieste effettuate ai modelli vengono registrate automaticamente nella tabella di inferenza, insieme alle risposte. È possibile visualizzare la tabella nell'interfaccia utente, eseguire query sulla tabella da Databricks SQL o da un notebook oppure eseguire query sulla tabella usando l'API REST.

Per visualizzare la tabella nell'interfaccia utente: Nella pagina dell'endpoint fare clic sul nome della tabella di inferenza per aprire la tabella in Esplora cataloghi.

collegamento al nome della tabella di inferenza nella pagina dell'endpoint

Per eseguire query sulla tabella da Databricks SQL o da un notebook di Databricks: È possibile eseguire codice simile al seguente per eseguire una query sulla tabella di inferenza.

SELECT * FROM <catalog>.<schema>.<payload_table>

** Per unire i dati della tabella di inferenza con informazioni dettagliate sul modello di base sottostante servito nell'endpoint:** I dettagli del modello di base vengono acquisiti nella tabella di sistema system.serving.served_entities.

SELECT * FROM <catalog>.<schema>.<payload_table> payload
JOIN system.serving.served_entities se on payload.served_entity_id = se.served_entity_id

schema della tabella di inferenza con abilitazione per il gateway di intelligenza artificiale

Le tabelle di inferenza abilitate con il gateway di intelligenza artificiale hanno lo schema seguente:

Nome colonna	Descrizione	Tipo
`request_date`	Data UTC in cui è stata ricevuta la richiesta di gestione del modello.	DATTERO
`databricks_request_id`	Identificatore di richiesta generato da Azure Databricks associato a tutte le richieste di gestione del modello.	CORDA
`request_time`	Il timestamp a cui viene ricevuta la richiesta.	TIMESTAMP
`status_code`	Codice di stato HTTP restituito dal modello.	INT
`sampling_fraction`	Frazione di campionamento utilizzata nel caso in cui la richiesta sia stata sotto-campionata. Questo valore è compreso tra 0 e 1, dove 1 rappresenta che sono stati inclusi 100% di richieste in ingresso.	DOPPIO
`execution_duration_ms`	Tempo in millisecondi per il quale il modello ha eseguito l'inferenza. Ciò non include latenze di rete sovraccariche e rappresenta solo il tempo impiegato per generare stime dal modello.	BIGINT
`request`	Corpo JSON della richiesta non elaborato inviato all'endpoint di gestione del modello.	CORDA
`response`	Corpo JSON della risposta non elaborata restituito dall'endpoint di gestione del modello.	CORDA
`served_entity_id`	ID univoco dell'entità servita.	CORDA
`logging_error_codes`	Errori che si sono verificati quando non è stato possibile registrare i dati. I codici di errore includono `MAX_REQUEST_SIZE_EXCEEDED` e `MAX_RESPONSE_SIZE_EXCEEDED`.	ARRAY
`requester`	ID dell'utente o del principale del servizio le cui autorizzazioni vengono utilizzate per la richiesta di invocazione dell'endpoint di servizio.	CORDA

Limitazioni

Carichi di lavoro di velocità effettiva con provisioning:
- Se si crea un nuovo endpoint di servizio del modello che utilizza la velocità effettiva provvisionata, sono supportate solo le tabelle di inferenza abilitate per l'AI Gateway.
- Se si dispone di un endpoint di gestione del modello esistente che usa la velocità effettiva con provisioning e non aveva mai avuto tabelle di inferenza configurate in precedenza, è possibile aggiornarla per usare le tabelle di inferenza abilitate per gateway di intelligenza artificiale.
- Se si dispone di un endpoint di gestione del modello esistente che usa la velocità effettiva con provisioning e include tabelle di inferenza attualmente o configurate in precedenza, è possibile non aggiornarlo per usare le tabelle di inferenza abilitate per il gateway di intelligenza artificiale.
- Per i log di risposta dell'agente di intelligenza artificiale in streaming, vengono aggregati solo i campi e le tracce compatibili con ChatCompletion.
Il recapito dei log delle tabelle di inferenza è attualmente ottimale, ma è possibile prevedere che i log siano disponibili entro 1 ora da una richiesta. Per altre informazioni, contattare il team dell'account Databricks.
La dimensione massima di richiesta e risposta registrata è 1 MiB (1.048.576 byte). I payload di richiesta e risposta che superano questo valore vengono registrati come null e logging_error_codes vengono popolati con MAX_REQUEST_SIZE_EXCEEDED o MAX_RESPONSE_SIZE_EXCEEDED.

Per le limitazioni specifiche di AI Gateway, vedere Limitazioni. Per informazioni generali sulle limitazioni degli endpoint, vedere limiti e aree di gestione dei modelli .

Condividi tramite