Maggio 2020
Queste funzionalità e i miglioramenti della piattaforma Azure Databricks sono stati rilasciati a maggio 2020.
Nota
Le versioni vengono gestite in staging. L'account Azure Databricks potrebbe non essere aggiornato fino a una settimana dopo la data di rilascio iniziale.
Macchine virtuali serie Easv4 (Beta)
29 maggio 2020
Azure Databricks offre ora il supporto beta per le macchine virtuali serie Easv4, che usano un'unità SSD Premium e possono ottenere una frequenza massima aumentata di 3,35 GHz. Questi tipi di istanza possono ottimizzare le prestazioni del carico di lavoro per le applicazioni aziendali a elevato utilizzo di memoria.
Databricks Runtime 6.6 per Genomica disponibile a livello generale
26 maggio 2020
Databricks Runtime 6.6 per Genomica si basa su Databricks Runtime 6.6 e include le nuove funzionalità seguenti:
- Lettore GFF3
- Supporto del genoma di riferimento personalizzato
- Timeout della pipeline per esempio
- Opzione di esportazione BAM
- BLOB manifesto
Databricks Runtime 6.6 ML disponibile a livello generale
26 maggio 2020
Databricks Runtime 6.6 ML è basato su Databricks Runtime 6.6 e include le nuove funzionalità seguenti:
- Mlflow aggiornato: da 1.7.0 a 1.8.0
Per altre informazioni, vedere le note sulla versione completa di Databricks Runtime 6.6 ML (EoS).
Databricks Runtime 6.6 disponibile a livello generale
26 maggio 2020
Databricks Runtime 6.6 offre numerosi aggiornamenti della libreria e nuove funzionalità, incluse le funzionalità Delta Lake seguenti:
- È ora possibile evolvere automaticamente lo schema della tabella con l'operazione
merge
. Ciò è utile negli scenari in cui si desidera eseguire l'upsert dei dati delle modifiche in una tabella e lo schema dei dati cambia nel tempo. Invece di rilevare e applicare modifiche dello schema prima dell'upserting,merge
è possibile evolvere contemporaneamente lo schema ed eseguire l'upsert delle modifiche. Vedere Evoluzione automatica dello schema per l'unione delta Lake. - Le prestazioni delle operazioni di merge che dispongono solo di clausole corrispondenti, ovvero che hanno solo
update
azioni edelete
senzainsert
azioni, sono state migliorate. - Le tabelle Parquet a cui viene fatto riferimento nel metastore Hive sono ora convertibili in Delta Lake tramite gli identificatori di tabella usando
CONVERT TO DELTA
.
Per altre informazioni, vedere le note sulla versione complete di Databricks Runtime 6.6 (EoS).
Limite delle dimensioni dell'endpoint eliminazione dell’API REST DBFS
21-28 maggio 2020: versione 3.20
Quando si elimina un numero elevato di file in modo ricorsivo usando l'API DBFS, l'operazione di eliminazione viene eseguita in incrementi. La chiamata restituisce una risposta dopo circa 45 secondi con un messaggio di errore che chiede di richiamare nuovamente l'operazione di eliminazione fino a quando la struttura di directory non viene eliminata completamente. Ad esempio:
{
"error_code":"PARTIAL_DELETE","message":"The requested operation has deleted 324 files. There are more files remaining. You must make another request to delete more."
}
Visualizzazione semplificata di un numero elevato di modelli registrati MLflow
21-28 maggio 2020: versione 3.20
Il Registro modelli MLflow supporta ora la ricerca sul lato server e la paginazione per i modelli registrati, che consente alle organizzazioni con un numero elevato di modelli di eseguire in modo efficiente elenchi e ricerche. Come in precedenza, è possibile cercare i modelli in base al nome e ottenere i risultati ordinati in base al nome o all'ora dell'ultimo aggiornamento. Tuttavia, se si dispone di un numero elevato di modelli, le pagine verranno caricate molto più velocemente e la ricerca recupererà la visualizzazione più aggiornata dei modelli.
Le librerie configurate per l’installazione in tutti i cluster non vengono installate nei cluster che eseguono Databricks Runtime 7.0 e versioni successive
21-28 maggio 2020: versione 3.20
In Databricks Runtime 7.0 e versioni successive la versione sottostante di Apache Spark usa Scala 2.12. Poiché le librerie compilate in Scala 2.11 possono disabilitare i cluster Databricks Runtime 7.0 in modi imprevisti, i cluster che eseguono Databricks Runtime 7.0 e versioni successive non installano le librerie configurate per l'installazione in tutti i cluster. La scheda Librerie cluster mostra uno stato Skipped
e un messaggio di deprecazione correlato alle modifiche nella gestione della libreria.
Se si dispone di un cluster creato in una versione precedente di Databricks Runtime prima del rilascio della versione 3.20 nell'area di lavoro e ora si modifica tale cluster per usare Databricks Runtime 7.0, tutte le librerie configurate per l'installazione in tutti i cluster verranno installate in tale cluster. In questo caso, eventuali JAR incompatibili nelle librerie installate possono causare la disabilitazione del cluster. La soluzione alternativa consiste nel clonare il cluster o per creare un nuovo cluster.
Databricks Runtime 7.0 per Genomica (Beta)
21 maggio 2020
Databricks Runtime 7.0 per Genomica è basato su Databricks Runtime 7.0 e include le modifiche seguenti alla libreria:
- La libreria ADAM è stata aggiornata dalla versione 0.30.0 alla 0.32.0.
- La libreria Hail non è inclusa in Databricks Runtime 7.0 per Genomica perché non è disponibile alcuna versione basata su Apache Spark 3.0.
Databricks Runtime 7.0 ML (Beta)
21 maggio 2020
Databricks Runtime 7.0 ML è basato su Databricks Runtime 7.0 e include le nuove funzionalità seguenti:
- Librerie Python con ambito notebook e ambienti personalizzati gestiti da comandi conda e pip.
- Aggiornamenti per i pacchetti Python principali, tra cui tensorflow, tensorboard, pytorch, xgboost, sparkdl e hyperopt.
- Appena aggiunti pacchetti Python lightgbm, nltk, petastorm e tracciati.
- RStudio Server Open Source v1.2.
Per altre informazioni, vedere le note sulla versione completa di Databricks Runtime 7.0 ML (EoS).
Databricks Runtime 6.6 per Genomica (Beta)
7 maggio 2020
Databricks Runtime 6.6 per Genomica si basa su Databricks Runtime 6.6 e include le nuove funzionalità seguenti:
- Lettore GFF3
- Supporto del genoma di riferimento personalizzato
- Timeout della pipeline per esempio
- Opzione di esportazione BAM
- BLOB manifesto
Databricks Runtime 6.6 ML (Beta)
7 maggio 2020
Databricks Runtime 6.6 ML è basato su Databricks Runtime 6.6 e include le nuove funzionalità seguenti:
- Mlflow aggiornato: da 1.7.0 a 1.8.0
Per altre informazioni, vedere le note sulla versione completa di Databricks Runtime 6.6 ML (EoS).
Databricks Runtime 6.6 (Beta)
7 maggio 2020
Databricks Runtime 6.6 (Beta) offre numerosi aggiornamenti della libreria e nuove funzionalità, incluse le funzionalità Delta Lake seguenti:
- È ora possibile evolvere automaticamente lo schema della tabella con l'operazione
merge
. Ciò è utile negli scenari in cui si desidera eseguire l'upsert dei dati delle modifiche in una tabella e lo schema dei dati cambia nel tempo. Invece di rilevare e applicare modifiche dello schema prima dell'upserting,merge
è possibile evolvere contemporaneamente lo schema ed eseguire l'upsert delle modifiche. Vedere Evoluzione automatica dello schema per l'unione delta Lake. - Le prestazioni delle operazioni di merge che dispongono solo di clausole corrispondenti, ovvero che hanno solo
update
azioni edelete
senzainsert
azioni, sono state migliorate. - Le tabelle Parquet a cui viene fatto riferimento nel metastore Hive sono ora convertibili in Delta Lake tramite gli identificatori di tabella usando
CONVERT TO DELTA
.
Per altre informazioni, vedere le note sulla versione complete di Databricks Runtime 6.6 (EoS).
Cluster di processo ora contrassegnati con nome e ID del processo
5-12 maggio 2020: versione 3.19
I cluster di processo vengono contrassegnati automaticamente con il nome e l'ID del processo. I tag vengono visualizzati nei report sull'utilizzo fatturabile in modo che sia possibile attribuire facilmente l'utilizzo DBU in base al processo e identificare le anomalie. I tag vengono sanificati in base alle specifiche dei tag del cluster, ad esempio caratteri consentiti, dimensioni massime e numero massimo di tag. Il nome del RunName
processo è contenuto nel tag e l'ID processo è contenuto nel JobId
tag .
Ripristinare celle di notebook eliminate
5-12 maggio 2020: versione 3.19
È ora possibile ripristinare le celle eliminate usando il tasto di scelta rapida (Z
) o selezionando Modifica > Annulla elimina celle.
Limite della coda per i processi in sospeso
5-12 maggio 2020: versione 3.19
Un'area di lavoro è ora limitata a 1000 esecuzioni di processi attivi (in esecuzione e in sospeso). Poiché un'area di lavoro è limitata a 150 esecuzioni simultanee (in esecuzione), un'area di lavoro può avere fino a 850 esecuzioni nella coda in sospeso.