Settembre 2020
Queste funzionalità e i miglioramenti della piattaforma Azure Databricks sono stati rilasciati a settembre 2020.
Nota
Le versioni vengono gestite in staging. L'account Azure Databricks potrebbe non essere aggiornato fino a una settimana dopo la data di rilascio iniziale.
Databricks Runtime 7.3, 7.3 ML e 7.3 Genomica sono ora disponibili a livello generale
24 settembre 2020
Databricks Runtime 7.3, Databricks Runtime 7.3 per Machine Learning e Databricks Runtime 7.3 per Genomica sono ora disponibili a livello generale. Apportano molte nuove funzionalità e miglioramenti, tra cui:
- Le ottimizzazioni delle prestazioni di Delta Lake riducono significativamente i costi generali
- Metriche di clonazione
- Miglioramenti
MERGE INTO
di Delta Lake - Specificare la posizione iniziale per Delta Lake Structured Streaming
- Miglioramenti in Auto Loader
- Esecuzione adattiva di query
- Controllo lunghezza colonne del connettore Azure Synapse Analytics
- Miglioramento del comportamento di
dbutils.credentials.showRoles
- Conversione semplificata da pandas a Spark DataFrame
- Nuovo
maxResultSize
nella chiamatatoPandas()
- Possibilità di debug delle UDF pandas e PySpark
- (Solo per ML) Attivazione di Conda sui worker
- (Solo per genomica) Supporto per la lettura di file BGEN con genotipi non compressi o compressi in zstd
- Aggiornamenti della libreria
Per ulteriori informazioni, vedere Databricks Runtime 7.3 LTS (EoS) e Databricks Runtime 7.3 LTS per Machine Learning (EoS).
Cluster a nodo singolo (anteprima pubblica)
23-29 settembre 2020: versione 3.29
Un cluster a nodo singolo è un cluster costituito da un driver Spark e da nessun worker Spark. Al contrario, i cluster in modalità Standard richiedono almeno un worker Spark per eseguire processi Spark. I cluster in modalità nodo singolo sono utili nelle situazioni seguenti:
- Esecuzione di carichi di lavoro di apprendimento automatico a nodo singolo che richiedono Spark per caricare e salvare i dati
- Exploratory data analysis (EDA) leggera
Per i dettagli vedere Calcolo a nodo singolo o a più nodi.
Limitazione di frequenza dell’API REST DBFS
23-29 settembre 2020: versione 3.29
Per garantire un'alta qualità del servizio in condizioni di carico elevato, Azure Databricks ora impone limiti di frequenza per le chiamate API DBFS. I limiti vengono impostati per area di lavoro per assicurare un utilizzo equo e disponibilità elevata. I tentativi automatici sono disponibili usando l'interfaccia della riga di comando di Databricks versione 0.12.0 e successive. È consigliabile che tutti i clienti passino alla versione più recente dell'interfaccia della riga di comando di Databricks.
Nuove icone della barra laterale
23-29 settembre 2020
La barra laterale è stata aggiornata nell'interfaccia utente dell'area di lavoro di Azure Databricks. Non è una rivoluzione, ma pensiamo che le nuove icone siano molto belle.
Aumento del limite di processi in esecuzione
23-29 settembre 2020: versione 3.29
Il limite di esecuzione di processi simultanei è stato aumentato da 150 a 1000 per area di lavoro. Le esecuzioni oltre le prime 150 non saranno più accodate nello stato di attesa. Invece di una coda per le richieste di esecuzione oltre le esecuzioni concorrenti, viene restituita una risposta 429 Too Many Requests
quando si richiede un'esecuzione che non può essere avviata immediatamente. L'aumento dei limiti è stato introdotto gradualmente ed è ora disponibile in tutte le aree di lavoro in tutte le regioni.
Elenchi di controllo di accesso degli artefatti in MLflow
23-29 settembre 2020: versione 3.29
Le autorizzazioni di MLflow Experiment sono ora applicate agli artefatti in MLflow Tracking, consentendo di controllare facilmente l'accesso ai modelli, ai set di dati e ad altri file. Per impostazione predefinita, quando si crea un nuovo esperimento, gli artefatti di esecuzione vengono ora archiviati in un percorso gestito da MLflow. I quattro livelli di autorizzazioni di MLflow Experiment (NO PERMISSIONS, CAN READ, CAN EDIT e CAN MANAGE) si applicano automaticamente per eseguire gli artefatti archiviati in percorsi gestiti da MLflow come indicato di seguito:
- Le autorizzazioni CAN EDIT o CAN MANAGE sono necessarie per registrare gli artefatti di esecuzione in un esperimento.
- Le autorizzazioni CAN READ sono necessarie per elencare e scaricare gli artefatti di esecuzione da un esperimento.
Per ulteriori informazioni, vedere ACL per esperimenti MLflow.
Miglioramenti all'utilizzabilità di MLflow
23-29 settembre 2020: versione 3.29
Questa versione include i seguenti miglioramenti all'utilizzabilità di MLflow:
- Le pagine MLflow Esperimento e Modelli registrati ora contengono suggerimenti per aiutare i nuovi utenti a iniziare.
- La tabella della versione dei modelli mostra ora il testo della descrizione per ogni versione di modello. Una nuova colonna mostra i primi 32 caratteri o la prima riga (a meno che sia più breve) della descrizione.
Nuovo connettore di Power BI per Azure Databricks (anteprima pubblica)
22 settembre 2020
Power BI Desktop versione 2.85.681.0 include un nuovo connettore Di Azure Databricks Power BI che rende l'integrazione tra Azure Databricks e Power BI molto più facile e affidabile. Il nuovo connettore include i miglioramenti seguenti:
- Configurazione di connessione semplice: il nuovo connettore Azure Databricks di Power BI è integrato in Power BI e lo si configura usando una semplice finestra di dialogo con un paio di clic.
- Autenticazione basata sulle credenziali di Microsoft Entra ID, non è più necessario che gli amministratori configurino i token di accesso personale.
- Importazioni e chiamate di metadati ottimizzate più veloci grazie al nuovo driver ODBC di Azure Databricks, che offre miglioramenti significativi delle prestazioni.
- L'accesso ai dati di Azure Databricks tramite Power BI rispetta il controllo di accesso alle tabelle di Azure Databricks e le autorizzazioni dell'account di archiviazione di Azure associate all'identità di Microsoft Entra ID.
Per altre informazioni, vedere Connettere Power BI a Azure Databricks.
Usare le chiavi gestite dal cliente per la radice del file system di Databricks (anteprima pubblica)
15 settembre 2020
È ora possibile usare la propria chiave di crittografia in Azure Key Vault per crittografare l'account di archiviazione DBFS. Vedere Chiavi gestite dal cliente per la radice di DBFS.
I nuovi driver JDBC e ODBC offrono funzionalità BI più veloci e a latenza inferiore
15 settembre 2020
Sono state rilasciate nuove versioni dei driver JDBC e ODBC di Databricks (download) con i miglioramenti seguenti:
- Prestazioni: riduzione della latenza di connessione e di query brevi, miglioramento della velocità di trasferimento dei risultati in base alla serializzazione di Apache Arrow e miglioramento delle prestazioni di recupero dei metadati.
- Esperienza utente: autenticazione con token di accesso OAuth2 di Microsoft Entra ID, messaggi di errore migliorati e ripetizione automatica durante la connessione a un cluster arrestato, gestione più affidabile dei tentativi in caso di errori di rete intermittenti.
- Supporto per le connessioni tramite proxy HTTP.
Per altre informazioni sulla connessione agli strumenti di Business Intelligence con JDBC e ODBC, vedere Driver ODBC e JDBC di Databricks.
Gestione dei modelli MLflow (anteprima pubblica)
9-15 settembre 2020: versione 3.28
MLflow Model Serving è ora disponibile in anteprima pubblica. MLflow Model Serving consente di distribuire un modello MLflow registrato nel Registro modelli come endpoint DELL'API REST ospitato e gestito da Azure Databricks. Quando si abilita la gestione dei modelli per un modello registrato, Azure Databricks crea un cluster e distribuisce tutte le versioni non archiviate di tale modello.
È possibile eseguire query su tutte le versioni del modello mediante richieste dell'API REST con autenticazione standard di Azure Databricks. I diritti di accesso ai modelli vengono ereditati dal Registro modelli. Chiunque disponga dei diritti di lettura per un modello registrato può eseguire query su qualsiasi versione del modello distribuita. Sebbene questo servizio sia in anteprima, se ne consiglia l'uso per applicazioni a bassa velocità effettiva e non critiche.
Per ulteriori informazioni, vedere Gestione di modelli MLflow legacy in Azure Databricks.
Miglioramenti dell’interfaccia utente dei cluster
9-15 settembre 2020: versione 3.28
Nella pagina Cluster sono ora disponibili schede separate per Cluster universali e Cluster di processi. L'elenco di ogni scheda è ora impaginato. È stato inoltre risolto il ritardo che a volte si verificava tra la creazione di un cluster e la possibilità di visualizzarlo nell'interfaccia utente.
Controlli di visibilità per processi, cluster, notebook e altri oggetti dell’area di lavoro
9-15 settembre 2020: versione 3.28
Per impostazione predefinita, tutti gli utenti possono visualizzare tutti i processi, i cluster, i notebook e le cartelle nell'area di lavoro visualizzati nell'interfaccia utente di Azure Databricks e possono elencarli usando l'API Databricks, anche quando il controllo di accesso è abilitato per tali oggetti e un utente non dispone di autorizzazioni per tali oggetti.
Ora qualsiasi amministratore di Azure Databricks può abilitare i controlli di visibilità per notebook e cartelle (oggetti dell'area di lavoro), cluster e processi per garantire che gli utenti possano visualizzare solo gli oggetti a cui è stato concesso l'accesso tramite l'area di lavoro, il cluster o il controllo di accesso ai processi.
Consultare Gli elenchi dei controlli di accesso non possono più essere disabilitati.
Non è più consentito creare token per impostazione predefinita
9-15 settembre 2020: versione 3.28
Per le aree di lavoro create dopo il rilascio della piattaforma Azure Databricks versione 3.28, per impostazione predefinita gli utenti non avranno più la possibilità di generare token di accesso personale. Gli amministratori devono concedere esplicitamente tali autorizzazioni, sia all'intero gruppo users
che a ciascun utente o gruppo. Le aree di lavoro create prima del rilascio della versione 3.28 manterranno le autorizzazioni già presenti.
Vedere Monitorare e revocare i token di accesso personali.
Il registro dei modelli MLflow supporta la condivisione di modelli in più aree di lavoro
9 settembre 2020
Azure Databricks supporta ora l'accesso al registro modelli da più aree di lavoro. È ora possibile registrare modelli, tenere traccia delle esecuzioni dei modelli e caricare modelli tra aree di lavoro. Più team possono ora condividere l'accesso ai modelli e le organizzazioni possono utilizzare più spazi di lavoro per gestire le diverse fasi di sviluppo. Per i dettagli, vedere Condividere modelli tra le aree di lavoro.
Questa funzionalità richiede il client Python MLflow versione 1.11.0 o successiva.
Databricks Runtime 7.3 (beta)
3 settembre 2020
Databricks Runtime 7.3, Databricks Runtime 7.3 per Machine Learning e Databricks Runtime 7.3 per Genomica sono ora disponibili come versioni beta.
Per informazioni, vedere Databricks Runtime 7.3 LTS (EoS) e Databricks Runtime 7.3 LTS per Machine Learning (EoS).
Modifica del nome del tipo di carico di lavoro Azure Databricks
1 settembre 2020
I nomi dei tipi di carico di lavoro usati dai cluster sono stati modificati:
- Ingegneria dei dati -> Calcolo dei processi
- Ingegneria dei dati - Light -> Calcolo processi light
- Analisi dei dati -> Calcolo multiuso
Questi nuovi nomi verranno visualizzati nelle fatture e in EA Portal in combinazione con il piano tariffario attivato (ad esempio "Premium - Calcolo processi - DBU"). Per informazioni dettagliate, vedere Contatori di Azure Databricks.
Anche l'interfaccia utente è cambiata nella versione 3.27 della piattaforma (il cui rilascio è previsto tra il 25 agosto e il 3 settembre):
Nella pagina Cluster sono state modificate le intestazioni dell'elenco:
- Cluster interattivi -> Cluster multiuso
- Cluster automatizzati -> Cluster di processi
Quando si configura un cluster per un processo, le opzioni Tipo di cluster sono state modificate:
- Nuovo cluster automatizzato -> Nuovo cluster di processi
- Cluster interattivo esistente -> Cluster multiuso esistente