Condividi tramite


Eseguire la migrazione degli endpoint di servizio LLM ottimizzati alla velocità effettiva a capacità riservata

Importante

Questa documentazione è stata ritirata e potrebbe non essere aggiornata. I prodotti, i servizi o le tecnologie menzionati in questo contenuto non sono più supportati.

Questo articolo descrive come eseguire la migrazione degli endpoint di gestione LLM esistenti all'esperienza di velocità effettiva con provisioning disponibile usando Foundation Model API.

Cosa sta cambiando?

La velocità effettiva con provisioning offre un'esperienza più semplice per l'avvio di endpoint di gestione LLM ottimizzati. Databricks ha modificato il sistema di gestione del modello LLM in modo che:

  • Gli intervalli di scalabilità orizzontale possono essere configurati in termini nativi di LLM, come token al secondo invece di concorrenza.
  • I clienti non devono più selezionare i tipi di carico di lavoro GPU stessi.

I nuovi endpoint per l'erogazione LLM vengono creati con throughput fornito per impostazione predefinita. Se si vuole continuare a selezionare il tipo di carico di lavoro GPU, questa esperienza è supportata solo tramite l'API.

Eseguire la migrazione degli endpoint di servizio LLM verso il throughput con capacità predefinita.

Il modo più semplice per eseguire la migrazione dell'endpoint esistente alla velocità effettiva con provisioning consiste nell'aggiornare l'endpoint con una nuova versione del modello. Dopo aver selezionato una nuova versione del modello, l'interfaccia utente visualizza l'esperienza della velocità effettiva di provisioning. L'interfaccia utente mostra gli intervalli di token al secondo basati sul benchmarking di Databricks per i casi d'uso tipici.

la velocità effettiva con provisioning LLM che gestisce

Le prestazioni con questa offerta aggiornata sono strettamente migliori grazie ai miglioramenti dell'ottimizzazione e il prezzo dell'endpoint rimane invariato. Si prega di contattare model-serving-feedback@databricks.com per fornire commenti o esprimere preoccupazioni sui prodotti.