Maggio 2020

Articolo
08/14/2024

Queste funzionalità e i miglioramenti della piattaforma Azure Databricks sono stati rilasciati a maggio 2020.

Nota

Le versioni vengono gestite in staging. L'account Azure Databricks potrebbe non essere aggiornato fino a una settimana dopo la data di rilascio iniziale.

Macchine virtuali serie Easv4 (Beta)

29 maggio 2020

Azure Databricks offre ora il supporto beta per le macchine virtuali serie Easv4, che usano un'unità SSD Premium e possono ottenere una frequenza massima aumentata di 3,35 GHz. Questi tipi di istanza possono ottimizzare le prestazioni del carico di lavoro per le applicazioni aziendali a elevato utilizzo di memoria.

Databricks Runtime 6.6 per Genomica disponibile a livello generale

26 maggio 2020

Databricks Runtime 6.6 per Genomica si basa su Databricks Runtime 6.6 e include le nuove funzionalità seguenti:

Lettore GFF3
Supporto del genoma di riferimento personalizzato
Timeout della pipeline per esempio
Opzione di esportazione BAM
BLOB manifesto

Databricks Runtime 6.6 ML disponibile a livello generale

26 maggio 2020

Databricks Runtime 6.6 ML è basato su Databricks Runtime 6.6 e include le nuove funzionalità seguenti:

Mlflow aggiornato: da 1.7.0 a 1.8.0

Per altre informazioni, vedere le note sulla versione completa di Databricks Runtime 6.6 ML (EoS).

Databricks Runtime 6.6 disponibile a livello generale

26 maggio 2020

Databricks Runtime 6.6 offre numerosi aggiornamenti della libreria e nuove funzionalità, incluse le funzionalità Delta Lake seguenti:

È ora possibile evolvere automaticamente lo schema della tabella con l'operazione merge . Ciò è utile negli scenari in cui si desidera eseguire l'upsert dei dati delle modifiche in una tabella e lo schema dei dati cambia nel tempo. Invece di rilevare e applicare modifiche dello schema prima dell'upserting, merge è possibile evolvere contemporaneamente lo schema ed eseguire l'upsert delle modifiche. Vedere Evoluzione automatica dello schema per l'unione delta Lake.
Le prestazioni delle operazioni di merge che dispongono solo di clausole corrispondenti, ovvero che hanno solo update azioni e delete senza insert azioni, sono state migliorate.
Le tabelle Parquet a cui viene fatto riferimento nel metastore Hive sono ora convertibili in Delta Lake tramite gli identificatori di tabella usando CONVERT TO DELTA.

Per altre informazioni, vedere le note sulla versione complete di Databricks Runtime 6.6 (EoS).

Limite delle dimensioni dell'endpoint eliminazione dell’API REST DBFS

21-28 maggio 2020: versione 3.20

Quando si elimina un numero elevato di file in modo ricorsivo usando l'API DBFS, l'operazione di eliminazione viene eseguita in incrementi. La chiamata restituisce una risposta dopo circa 45 secondi con un messaggio di errore che chiede di richiamare nuovamente l'operazione di eliminazione fino a quando la struttura di directory non viene eliminata completamente. Ad esempio:

{
  "error_code":"PARTIAL_DELETE","message":"The requested operation has deleted 324 files. There are more files remaining. You must make another request to delete more."
}

Visualizzazione semplificata di un numero elevato di modelli registrati MLflow

21-28 maggio 2020: versione 3.20

Il Registro modelli MLflow supporta ora la ricerca sul lato server e la paginazione per i modelli registrati, che consente alle organizzazioni con un numero elevato di modelli di eseguire in modo efficiente elenchi e ricerche. Come in precedenza, è possibile cercare i modelli in base al nome e ottenere i risultati ordinati in base al nome o all'ora dell'ultimo aggiornamento. Tuttavia, se si dispone di un numero elevato di modelli, le pagine verranno caricate molto più velocemente e la ricerca recupererà la visualizzazione più aggiornata dei modelli.

Le librerie configurate per l’installazione in tutti i cluster non vengono installate nei cluster che eseguono Databricks Runtime 7.0 e versioni successive

21-28 maggio 2020: versione 3.20

In Databricks Runtime 7.0 e versioni successive la versione sottostante di Apache Spark usa Scala 2.12. Poiché le librerie compilate in Scala 2.11 possono disabilitare i cluster Databricks Runtime 7.0 in modi imprevisti, i cluster che eseguono Databricks Runtime 7.0 e versioni successive non installano le librerie configurate per l'installazione in tutti i cluster. La scheda Librerie cluster mostra uno stato Skipped e un messaggio di deprecazione correlato alle modifiche nella gestione della libreria.

Se si dispone di un cluster creato in una versione precedente di Databricks Runtime prima del rilascio della versione 3.20 nell'area di lavoro e ora si modifica tale cluster per usare Databricks Runtime 7.0, tutte le librerie configurate per l'installazione in tutti i cluster verranno installate in tale cluster. In questo caso, eventuali JAR incompatibili nelle librerie installate possono causare la disabilitazione del cluster. La soluzione alternativa consiste nel clonare il cluster o per creare un nuovo cluster.

Databricks Runtime 7.0 per Genomica (Beta)

21 maggio 2020

Databricks Runtime 7.0 per Genomica è basato su Databricks Runtime 7.0 e include le modifiche seguenti alla libreria:

La libreria ADAM è stata aggiornata dalla versione 0.30.0 alla 0.32.0.
La libreria Hail non è inclusa in Databricks Runtime 7.0 per Genomica perché non è disponibile alcuna versione basata su Apache Spark 3.0.

Databricks Runtime 7.0 ML (Beta)

21 maggio 2020

Databricks Runtime 7.0 ML è basato su Databricks Runtime 7.0 e include le nuove funzionalità seguenti:

Librerie Python con ambito notebook e ambienti personalizzati gestiti da comandi conda e pip.
Aggiornamenti per i pacchetti Python principali, tra cui tensorflow, tensorboard, pytorch, xgboost, sparkdl e hyperopt.
Appena aggiunti pacchetti Python lightgbm, nltk, petastorm e tracciati.
RStudio Server Open Source v1.2.

Per altre informazioni, vedere le note sulla versione completa di Databricks Runtime 7.0 ML (EoS).

Databricks Runtime 6.6 per Genomica (Beta)

7 maggio 2020

Databricks Runtime 6.6 per Genomica si basa su Databricks Runtime 6.6 e include le nuove funzionalità seguenti:

Lettore GFF3
Supporto del genoma di riferimento personalizzato
Timeout della pipeline per esempio
Opzione di esportazione BAM
BLOB manifesto

Databricks Runtime 6.6 ML (Beta)

7 maggio 2020

Databricks Runtime 6.6 ML è basato su Databricks Runtime 6.6 e include le nuove funzionalità seguenti:

Mlflow aggiornato: da 1.7.0 a 1.8.0

Per altre informazioni, vedere le note sulla versione completa di Databricks Runtime 6.6 ML (EoS).

Databricks Runtime 6.6 (Beta)

7 maggio 2020

Databricks Runtime 6.6 (Beta) offre numerosi aggiornamenti della libreria e nuove funzionalità, incluse le funzionalità Delta Lake seguenti:

È ora possibile evolvere automaticamente lo schema della tabella con l'operazione merge . Ciò è utile negli scenari in cui si desidera eseguire l'upsert dei dati delle modifiche in una tabella e lo schema dei dati cambia nel tempo. Invece di rilevare e applicare modifiche dello schema prima dell'upserting, merge è possibile evolvere contemporaneamente lo schema ed eseguire l'upsert delle modifiche. Vedere Evoluzione automatica dello schema per l'unione delta Lake.
Le prestazioni delle operazioni di merge che dispongono solo di clausole corrispondenti, ovvero che hanno solo update azioni e delete senza insert azioni, sono state migliorate.
Le tabelle Parquet a cui viene fatto riferimento nel metastore Hive sono ora convertibili in Delta Lake tramite gli identificatori di tabella usando CONVERT TO DELTA.

Per altre informazioni, vedere le note sulla versione complete di Databricks Runtime 6.6 (EoS).

Cluster di processo ora contrassegnati con nome e ID del processo

5-12 maggio 2020: versione 3.19

I cluster di processo vengono contrassegnati automaticamente con il nome e l'ID del processo. I tag vengono visualizzati nei report sull'utilizzo fatturabile in modo che sia possibile attribuire facilmente l'utilizzo DBU in base al processo e identificare le anomalie. I tag vengono sanificati in base alle specifiche dei tag del cluster, ad esempio caratteri consentiti, dimensioni massime e numero massimo di tag. Il nome del RunName processo è contenuto nel tag e l'ID processo è contenuto nel JobId tag .

Ripristinare celle di notebook eliminate

5-12 maggio 2020: versione 3.19

È ora possibile ripristinare le celle eliminate usando il tasto di scelta rapida (Z) o selezionando Modifica > Annulla elimina celle.

Limite della coda per i processi in sospeso

5-12 maggio 2020: versione 3.19

Un'area di lavoro è ora limitata a 1000 esecuzioni di processi attivi (in esecuzione e in sospeso). Poiché un'area di lavoro è limitata a 150 esecuzioni simultanee (in esecuzione), un'area di lavoro può avere fino a 850 esecuzioni nella coda in sospeso.

Condividi tramite

Maggio 2020

Macchine virtuali serie Easv4 (Beta)

Databricks Runtime 6.6 per Genomica disponibile a livello generale

Databricks Runtime 6.6 ML disponibile a livello generale

Databricks Runtime 6.6 disponibile a livello generale

Limite delle dimensioni dell'endpoint eliminazione dell’API REST DBFS

Visualizzazione semplificata di un numero elevato di modelli registrati MLflow

Le librerie configurate per l’installazione in tutti i cluster non vengono installate nei cluster che eseguono Databricks Runtime 7.0 e versioni successive

Databricks Runtime 7.0 per Genomica (Beta)

Databricks Runtime 7.0 ML (Beta)

Databricks Runtime 6.6 per Genomica (Beta)

Databricks Runtime 6.6 ML (Beta)

Databricks Runtime 6.6 (Beta)

Cluster di processo ora contrassegnati con nome e ID del processo

Ripristinare celle di notebook eliminate

Limite della coda per i processi in sospeso

Commenti e suggerimenti

Risorse aggiuntive