Databricks Runtime 10.0 (EoS)

Articolo
09/03/2024

Nota

Il supporto per questa versione di Databricks Runtime è terminato. Per la data di fine del supporto, vedere Cronologia di fine del supporto. Per tutte le versioni supportate di Databricks Runtime, vedere Versioni e compatibilità delle note sulla versione di Databricks Runtime.

Le note sulla versione seguenti forniscono informazioni su Databricks Runtime 10.0 e Databricks Runtime 10.0 Photon, con tecnologia Apache Spark 3.2.0. Databricks ha rilasciato questa versione nell'ottobre 2021. Photon è disponibile in anteprima pubblica.

Miglioramenti e nuove funzionalità

Nuova versione di Apache Spark
L'istruzione SELECT supporta ora la clausola QUALIFY per filtrare i risultati della funzione della finestra
Supporto del cluster per JDK 11 (anteprima pubblica)
Il caricatore automatico ora considera gli schemi come nullable

Nuova versione di Apache Spark

Databricks Runtime 10.0 e Databricks Runtime 10.0 Photon includono Apache Spark 3.2.0. Per informazioni dettagliate, vedere Apache Spark.

L'istruzione SELECT supporta ora la clausola QUALIFY per filtrare i risultati della funzione della finestra

L'istruzione SELECT supporta ora la QUALIFY clausola . QUALIFY può essere usato per filtrare i risultati delle funzioni finestra. Una o più funzioni finestra devono essere presenti nell'elenco SELECT o nella QUALIFY condizione. Ad esempio:

SELECT * FROM t QUALIFY SUM(c2) OVER (PARTITION BY c1) > 0;

Supporto del cluster per JDK 11 (anteprima pubblica)

Databricks offre ora il supporto del cluster per Java Development Kit (JDK) 11.

Quando si crea un cluster, è possibile specificare che il cluster usa JDK 11 (sia per il driver che per l'executor). A tale scopo, aggiungere la variabile di ambiente seguente a Opzioni avanzate Variabili> di ambiente Spark>:

JNAME=zulu11-ca-amd64

Il caricatore automatico ora considera gli schemi come nullable

Il caricatore automatico ora considera tutti gli schemi dedotti e forniti dall'utente come nullable per impostazione predefinita. Ciò consente di evitare potenziali danneggiamenti dei dati nei casi in cui i dati contengono campi Null per colonne non nullable. Viene introdotta una nuova configurazione per tenere traccia di questo comportamento, spark.databricks.cloudFiles.schema.forceNullable. Per impostazione predefinita, questa configurazione contiene l'impostazione di spark.sql.streaming.fileSource.schema.forceNullable, usata da FileStreamSource in Apache Spark e impostata su true per impostazione predefinita.

Modifiche di rilievo

Modifiche di rilievo per tutti gli utenti di Spark SQL

Nuova spark.databricks.behaviorChange.SC78546CorrelatedPredicate.enabled configurazione: se impostata su true, consente un subset di predicati di uguaglianza correlati quando viene aggregata una sottoquery. L'impostazione predefinita è true.
Nuova spark.databricks.behaviorChange.SC82201BlockAutoAlias.enabled configurazione: quando è impostata su true, blocca la generazione automatica degli alias quando vengono create le visualizzazioni. L'impostazione predefinita è true.
Nuova spark.databricks.behaviorChange.SC81078CTASWithLocation.enabled configurazione: se impostata su true, non CREATE TABLE AS SELECT è consentita una posizione non vuota. L'impostazione predefinita è true. Si noti che quando spark.sql.legacy.allowNonEmptyLocationInCTAS è impostato anche su true, questa configurazione non ha alcun effetto e CREATE TABLE AS SELECT con una posizione non vuota è sempre consentita.

Modifiche di rilievo per gli utenti di Spark SQL che abilitano la modalità ANSI

Per informazioni sulla modalità ANSI, vedere Conformità ANSI in Databricks Runtime.

Nuova spark.databricks.behaviorChange.SC83587NextDayDOW.enabled configurazione: se impostata su true, un argomento non valido dayOfWeek per la next_day funzione genera un'eccezione IllegalArgumentException in modalità ANSI; in caso contrario, restituisce null. L'impostazione predefinita è true.
Nuova spark.databricks.behaviorChange.SC83796CanCast.enabled configurazione: se impostata su true, abilita nuove regole di sintassi cast esplicite in modalità ANSI. L'impostazione predefinita è true.
Nuova spark.databricks.behaviorChange.SC79099CastStringToBoolean.enabled configurazione: quando è impostata su true, viene generata un'eccezione di errore di analisi durante il cast di una stringa in un valore Boolean; in caso contrario, restituisce null. L'impostazione predefinita è true.
Nuova spark.databricks.behaviorChange.SC79064AbsOutsideRange.enabled configurazione: quando è impostata su true, la abs funzione genera un'eccezione se l'input non è compreso nell'intervallo. L'impostazione predefinita è true.

Modifiche di rilievo per tutti gli utenti Python

L'API delta.tables.DeltaTable.convertToDelta Python restituisce ora l'oggetto Python corretto DeltaTable che può essere usato per eseguire i comandi Delta Lake. In precedenza restituiva un oggetto interno che non poteva essere chiamato direttamente.

Aggiornamenti della libreria

Aggiornamento di Apache Hadoop 3

Databricks Runtime 10.0 aggiorna la dipendenza hadoop da Hadoop 2.7.4 a Hadoop 3.3.1.

Modifiche del comportamento

Hadoop 3 usa le librerie hadoop-client-api e hadoop-client-runtime invece della libreria hadoop-common , che shades alcune dipendenze di terze parti che potrebbero essere usate nelle API pubbliche o nelle estensioni di Hadoop.
Le opzioni di configurazione di Hadoop 3 sono state modificate a partire da Hadoop 2. Per le opzioni di Hadoop 3.3.1, vedere core-default.xml.
Databricks ha aggiornato alcune delle configurazioni predefinite per Hadoop 3 in modo che siano coerenti con Hadoop 2, per assicurarsi che i connettori di archiviazione abbiano le stesse impostazioni di autenticazione predefinite e gli stessi livelli di prestazioni:
- fs.azure.authorization.caching.enable = false
- fs.s3a.attempts.maximum = 10
- fs.s3a.block.size = 67108864
- fs.s3a.connection.timeout = 50000
- fs.s3a.max.total.tasks = 1000
- fs.s3a.retry.limit = 20
- fs.s3a.retry.throttle.interval = 500ms
- fs.s3a.assumed.role.credentials.provider = com.amazonaws.auth.InstanceProfileCredentialsProvider
- fs.s3a.aws.credentials.provider = BasicAWSCredentialsProvider, DatabricksInstanceProfileCredentialsProvider, EnvironmentVariableCredentialsProvider, AnonymousAWSCredentialsProvider
Il connettore Google Cloud Storage (GCS) è stato aggiornato dalla versione 2.1.6 alla versione 2.2.2.
Il connettore Amazon Redshift ora usa lo s3a:// schema . Lo s3n:// schema è deprecato.
Gestisce i nomi delle classi OSS per l'API MetadataStore amazon S3 oltre alle classi ombreggiate. In questo modo è possibile elaborare le configurazioni OSS senza richiedere i nomi delle classi ombreggiate.
- Ad esempio, è possibile specificare la org.apache.hadoop.fs.s3a.s3guard.NullMetadataStore classe nella configurazione di Hadoop.
Rende l'oggetto new Configuration() e sparkContext.hadoopConfiguration coerente.
- Ora ogni volta che viene creata una nuova configurazione hadoop, sarà coerente con la configurazione predefinita di Hadoop in sparkContext.hadoopConfiguration in Databricks Runtime, inclusi gli schemi di file system e la relativa configurazione predefinita.
Anche se i connettori di archiviazione Hadoop inclusi in Databricks Runtime sono completamente compatibili con Hadoop 3.3.1, non è garantito che siano sincronizzati con i connettori Hadoop 3.3.1 oss e potrebbero avere un comportamento diverso.
- Il connettore Amazon S3 consente comunque (anche se con un avviso) l'autenticazione utente:segreto negli URL S3, rispetto a HADOOP-14833 che lo rimuove.
globStatus ora restituisce sempre risultati ordinati(HADOOP-10798)
Aggiunta di fs.s3a.endpoint se unset e fs.s3a.endpoint region è null(SPARK-35878)
- Databricks ha fornito la risoluzione automatica dell'area amazon S3 potrebbe non essere attivata in alcuni casi, a causa dell'endpoint globale impostato. Questo non è un problema, perché AWS SDK risolverà correttamente l'area.
Aggiungere fs.s3a.downgrade.syncable.exceptions se non è impostato (SPARK-35868)
I codec LZ4 e Snappy non si basano sulla libreria Hadoop nativa (HADOOP-17125)

Problemi noti

SPARK-36681 L'uso di SnappyCodec per scrivere il file di sequenza avrà esito negativo con UnsatisfiedLinkError a causa di un problema noto in Hadoop 3.3.1(HADOOP-17891)

Apache Spark

Databricks Runtime 10.0 include Apache Spark 3.2.0.

Caratteristiche salienti

Supportare il livello API Pandas in PySpark(SPARK-34849)
Sessione basata su EventTime (finestra di sessione)(SPARK-10816)
Supporto dei tipi ANSI SQL INTERVAL (SPARK-27790)
MODALITÀ ANSI GA(SPARK-35030)
Standardizzare i messaggi di eccezione in Spark (SPARK-33539)

Core e Spark SQL

Miglioramenti della compatibilità SQL ANSI

Supporto dei tipi ANSI SQL INTERVAL (SPARK-27790)
Nuove regole di sintassi di coercizione dei tipi in modalità ANSI (SPARK-34246)

Miglioramenti delle prestazioni

Ottimizzazione query
- Rimuovere le aggregazioni ridondanti in Optimizer(SPARK-33122)
- Push down limit through Project with Join (SPARK-34622) (Push down limit through Project with Join(SPARK-34622)
- Stima della cardinalità dell'operatore union, sort e range (SPARK-33411)
- Supporto unwrapCastInBinaryComparison in/InSet predicate(SPARK-35316)
- Mantenere le statistiche necessarie dopo l'eliminazione della partizione (SPARK-34119)
Esecuzione di query
- Abilitare il pool di buffer Zstandard per impostazione predefinita (SPARK-34340, SPARK-34390)
- Aggiungere code-gen per tutti i tipi di join di tipo merge (SPARK-34705)
- Broadcast nested loop join improvement(SPARK-34706)
- Supportare due livelli di mappe hash per l'aggregazione hash finale (SPARK-35141)
- Consentire ai writer simultanei di scrivere partizioni dinamiche e tabelle bucket (SPARK-26164)
- Migliorare le prestazioni di elaborazione FETCH_PRIOR in Thriftserver(SPARK-33655)

Miglioramenti del connettore

Parquet
- Aggiornare Parquet alla versione 1.12.1(SPARK-36726)
- Leggere i tipi parquet senza segno archiviati come tipo fisico int32 in parquet(SPARK-34817)
- Leggere il tipo logico Parquet senza segno int64 archiviato come tipo fisico con segno int64 a decimal(20, 0)(SPARK-34786)
- Migliorare parquet nel pushdown del filtro (SPARK-32792)
ORCO
- Aggiornare ORC alla versione 1.6.11(SPARK-36482)
- Supporto dell'evoluzione posizionale forzata ORC (SPARK-32864)
- Supportare la colonna nidificata nel lettore con vettori ORC (SPARK-34862)
- Supportare la compressione ZSTD e LZ4 nell'origine dati ORC (SPARK-33978, SPARK-35612)
Avro
- Aggiornare Avro alla versione 1.10.2(SPARK-34778)
- Supporto dell'evoluzione dello schema Avro per le tabelle Hive partizionate con "avro.schema.literal"(SPARK-26836)
- Aggiungere nuove opzioni dell'origine dati Avro per controllare il rebasing datetime in read(SPARK-34404)
- Aggiunta del supporto per l'URL dello schema fornito dall'utente in Avro(SPARK-34416)
- Aggiunta del supporto per la corrispondenza dello schema Catalyst-to-Avro posizionale (SPARK-34365)
JSON
- Aggiornare Jackson alla versione 2.12.3(SPARK-35550)
- Consentire alle origini dati Json di scrivere caratteri non ascii come punti di codice (SPARK-35047)
JDBC
- Calcolare uno stride di partizione più preciso in JDBCRelation(SPARK-34843)
Supporto metastore Hive per not-in (SPARK-34538)

Miglioramenti delle funzionalità

Sottoquery
- Migliorare le sottoquery correlate (SPARK-35553)
Nuove funzioni predefinite
- ilike(SPARK-36674, SPARK-36736)
- current_user(SPARK-21957)
- product(SPARK-33678)
- regexp_like,regexp (SPARK-33597, SPARK-34376)
- try_add(SPARK-35162)
- try_divide(SPARK-35162)
- bit_get(SPARK-33245)
Usare Apache Hadoop 3.3.1 per impostazione predefinita (SPARK-29250)
Aggiungere il checksum per i blocchi casuali (SPARK-35275)
Abilitare spark.storage.replication.proactive per impostazione predefinita(SPARK-33870)
Supporto della pulizia dell'archiviazione di fallback durante l'arresto di SparkContext(SPARK-34142)
Supportare le enumerazioni Java dall'API del set di dati Scala (SPARK-23862)
ADD JAR con coordinate ivy deve essere compatibile con il comportamento transitivo hive (SPARK-34506)
Supporto del comando ADD ARCHIVE e LIST ARCHIVES (SPARK-34603)
Supportare più percorsi per i comandi ADD FILE/JAR/ARCHIVE (SPARK-35105)
Supportare i file di archivio come risorse per la sintassi CREATE FUNCTION USING (SPARK-35236)
Caricamento di SparkSessionExtensions da ServiceLoader(SPARK-35380)
Aggiungere la funzione frasi alle funzioni. {scala,py}(SPARK-35418)
Applicare spark.sql.hive.metastorePartitionPruning per tabelle non Hive che usano il metastore Hive per la gestione delle partizioni (SPARK-36128)
Propagare la causa della perdita di exec nell'interfaccia utente Web (SPARK-34764)
Evitare l'inlining di oggetti with-CTEs non deterministici (SPARK-36447)
Supporto per l'analisi di tutte le tabelle in un database specifico (SPARK-33687)
Standardizzare i messaggi di eccezione in Spark (SPARK-33539)
Supporto (IGNORE | RESPECT) NULLS for LEAD/LAG/NTH_VALUE/FIRST_VALUE/LAST_VALUE(SPARK-30789)

Altre modifiche rilevanti

Monitor
- Nuove metriche per ExternalShuffleService(SPARK-35258)
- Aggiungere nuove API REST a livello di fase e parametri (SPARK-26399)
- Supporto delle distribuzioni delle metriche delle metriche di esecuzione e attività nell'API REST (SPARK-34488)
- Aggiungere metriche di fallback per l'aggregazione hash (SPARK-35529)
Aggiungere count_distinct come opzione a Dataset#summary(SPARK-34165)
Implementare ScriptTransform in sql/core(SPARK-31936)
Rendere configurabile il timeout heartbeat del driver BlockManagerMaster (SPARK-34278)
Rendere configurabile il nome del servizio shuffle sul lato client e consentire l'override della configurazione basata su classpath sul lato server (SPARK-34828)
ExecutorMetricsPoller deve mantenere la fase di ingresso in stageTCMP fino a quando non si verifica un heartbeat (SPARK-34779)
Sostituire se con la clausola filter in RewriteDistinctAggregates(SPARK-34882)
Correzione dell'errore quando si applica CostBasedJoinReorder in self-join (SPARK-34354)
CREATE TABLE LIKE deve rispettare le proprietà della tabella riservata (SPARK-34935)
Spedire il file ivySettings al driver in modalità cluster YARN (SPARK-34472)
Risolvere le colonne comuni duplicate da USING/NATURAL JOIN(SPARK-34527)
Nascondere le proprietà della visualizzazione interna per descrivere la tabella cmd(SPARK-35318)
Supporto per la risoluzione dei valori attr mancanti per l'hint distribute/cluster by/repartition (SPARK-35331)
Ignorare l'errore durante il controllo del percorso in FileStreamSink.hasMetadata(SPARK-34526)
Migliorare il supporto del commiter magic di s3a inferendo configurazioni mancanti (SPARK-35383)
Consenti di omettere : nella stringa del tipo STRUCT (SPARK-35706)
Aggiungere un nuovo operatore per distinguere se AQE può ottimizzare in modo sicuro (SPARK-35786)
Accodare nuovi campi struct annidati anziché ordinare per unionByName con riempimento null(SPARK-35290)
ArraysZip deve mantenere i nomi dei campi per evitare di essere riscritto dall'analizzatore/optimizer(SPARK-35876)
Usare Void come nome di tipo NullType(SPARK-36224)
Introduzione della nuova API a FileCommitProtocol consente la denominazione flessibile dei file (SPARK-33298)

Modifiche del comportamento

Vedere le guide alla migrazione per ogni componente: Spark Core.

Structured Streaming

Funzionalità principali

Sessione basata su EventTime (finestra di sessione)(SPARK-10816)
Aggiornare il client Kafka alla versione 2.8.0(SPARK-33913)
Trigger.AvailableNow per l'esecuzione di query di streaming come Trigger.Once in più batch in Scala(SPARK-36533)

Altre modifiche rilevanti

Introdurre una nuova opzione nell'origine Kafka per specificare un numero minimo di record da leggere per trigger (SPARK-35312)
Aggiungere offset più recenti all'avanzamento dell'origine (SPARK-33955)

PySpark

Progetto Zen

API Pandas in Spark (SPARK-34849)
- Abilitare mypy per pandas-on-Spark(SPARK-34941)
- Implementare il supporto categoricoDtype (SPARK-35997, SPARK-36185)
- Completare le operazioni di base di Series and Index(SPARK-36103, SPARK-36104, SPARK-36192)
- Associare i comportamenti a 1.3 pandas(SPARK-36367)
- Corrispondenza dei comportamenti delle serie con NaN a pandas'(SPARK-36031, SPARK-36310)
- Implementare l'operatore unario 'inverti' della serie integrale e dell'indice (SPARK-36003)
- Implementare CategoricalIndex.map e DatetimeIndex.map(SPARK-36470)
- Implementare Index.map(SPARK-36469)
supporto faulthanlder per python worker crashed (SPARK-36062)
Usare la regola di denominazione Snake nelle API della funzione (SPARK-34306)
Abilitare spark.sql.execution.pyspark.udf.simplifiedTraceback.enabled per impostazione predefinita(SPARK-35419)
Supporto per dedurre la dict annidata come struct durante la creazione di un dataframe (SPARK-35929)

Altre modifiche rilevanti

Abilitare la modalità thread bloccata per impostazione predefinita (SPARK-35303)
Aggiungere il supporto NullType per le esecuzioni arrow (SPARK-33489)
Aggiungere il supporto di Arrow self_destruct a toPandas (SPARK-32953)
Aggiungere l'API wrapper di destinazione del thread per pyspark (SPARK-35498)

Modifiche del comportamento

Vedere le guide alla migrazione.

MLlib

Miglioramenti delle prestazioni

Ottimizzazione della trasformazione BucketedRandomProjectionLSH (SPARK-34220)
w2v findSynonyms optimization(SPARK-34189)
ottimizzare GEMM di tipo sparse ignorando il controllo associato (SPARK-35707)
Migliorare le prestazioni di ML ALS recommendForAll by GEMV(SPARK-33518)

Miglioramenti del training del modello

Refactoring Logistic Aggregator - Supporto del centro virtuale (SPARK-34797)
Binary Logistic Regression with intercept support centering(SPARK-34858, SPARK-34448)
Regressione logistica multinomiale con centro di supporto intercetta (SPARK-34860)

Miglioramenti di BLAS

Sostituire completamente com.github.fommil.netlib di dev.device.netlib:2.0(SPARK-35295)
Aggiungere un'implementazione DI BLAS vettorializzata (SPARK-33882)
Accelerare il fallback BLAS con dev.diminuisci.netlib(SPARK-35150)

Altre modifiche rilevanti

Correzione di potenziali conflitti di colonna da parte della trasformazione OVR (SPARK-34356)

Deprecazioni e rimozioni

Deprecate spark.launcher.childConnectionTimeout(SPARK-33717)
deprecate GROUP BY ... SET DI RAGGRUPPAMENTO (...) e promuovere GROUP BY GROUPING SETS (...)(SPARK-34932)
Deprecate ps.broadcast API(SPARK-35810)
Deprecare l'argomento num_files (SPARK-35807)
Deprecare DataFrame.to_spark_io(SPARK-35811)

Aggiornamenti di manutenzione

Vedere Aggiornamenti della manutenzione di Databricks Runtime 10.0.

Ambiente di sistema

Sistema operativo: Ubuntu 20.04.3 LTS
Java: Zulu 8.56.0.21-CA-linux64
Scala: 2.12.14
Python: 3.8.10
R: 4.1.1
Delta Lake: 1.0.0

Librerie Python installate

Library	Versione	Library	Versione	Library	Versione
Antergos Linux	2015.10 (ISO-Rolling)	appdirs	1.4.4	backcall	0.2.0
boto3	1.16.7	botocore	1.19.7	certifi	2020.12.5
chardet	4.0.0	cycler	0.10.0	Cython	0.29.23
dbus-python	1.2.16	decorator	5.0.6	distlib	0.3.3
informazioni sulla distribuzione	0.23ubuntu1	facet-overview	1.0.0	filelock	3.0.12
idna	2.10	ipykernel	5.3.4	ipython	7.22.0
ipython-genutils	0.2.0	jedi	0.17.2	jmespath	0.10.0
joblib	1.0.1	jupyter-client	6.1.12	jupyter-core	4.7.1
kiwisolver	1.3.1	koalas	1.8.1	matplotlib	3.4.2
numpy	1.19.2	pandas	1.2.4	parso	0.7.0
patsy	0.5.1	pexpect	4.8.0	pickleshare	0.7.5
Pillow	8.2.0	pip	21.0.1	plotly	5.1.0
prompt-toolkit	3.0.17	protobuf	3.17.2	Psycopg2	2.8.5
ptyprocess	0.7.0	pyarrow	4.0.0	Pygments	2.8.1
pygobject	3.36.0	pyparsing	2.4.7	API Python	2.0.0+ubuntu0.20.4.6
python-dateutil	2.8.1	pytz	2020.5	pyzmq	20.0.0
requests	2.25.1	requests-unixsocket	0.2.0	s3transfer	0.3.7
scikit-learn	0.24.1	scipy	1.6.2	seaborn	0.11.1
setuptools	52.0.0	six	1.15.0	ssh-import-id	5.10
statsmodels	0.12.2	tenacity	8.0.1	threadpoolctl	2.1.0
tornado	6.1	traitlets	5.0.5	aggiornamenti automatici	0.1
urllib3	1.25.11	virtualenv	20.4.1	wcwidth	0.2.5
wheel	0.36.2

Librerie R installate

Le librerie R vengono installate dallo snapshot di Microsoft CRAN nel 2021-09-21.

Library	Versione	Library	Versione	Library	Versione
askpass	1.1	assertthat	0.2.1	backports	1.2.1
base	4.1.1	base64enc	0.1-3	bit	4.0.4
bit64	4.0.5	blob	1.2.2	boot	1.3-28
brew	1.0-6	brio	1.1.2	Scopa	0.7.9
bslib	0.3.0	cachem	1.0.6	callr	3.7.0
caret	6.0-88	cellranger	1.1.0	chron	2.3-56
class	7.3-19	cli	3.0.1	clipr	0.7.1
cluster	2.1.2	codetools	0.2-18	colorspace	2.0-2
commonmark	1.7	compilatore	4.1.1	config	0.3.1
cpp11	0.3.1	crayon	1.4.1	credentials	1.3.1
curl	4.3.2	data.table	1.14.0	datasets	4.1.1
DBI	1.1.1	dbplyr	2.1.1	desc	1.3.0
devtools	2.4.2	diffobj	0.3.4	digest	0.6.27
dplyr	1.0.7	dtplyr	1.1.0	puntini di sospensione	0.3.2
evaluate	0.14	fansi	0.5.0	farver	2.1.0
fastmap	1.1.0	forcats	0.5.1	foreach	1.5.1
foreign	0.8-81	forge	0.2.0	fs	1.5.0
future	1.22.1	future.apply	1.8.1	gargle	1.2.0
generics	0.1.0	gert	1.4.1	ggplot2	3.3.5
gh	1.3.0	gitcreds	0.1.1	glmnet	4.1-2
globals	0.14.0	glue	1.4.2	googledrive	2.0.0
googlesheets4	1.0.0	Gower	0.2.2	grafica	4.1.1
grDevices	4.1.1	grid	4.1.1	gridExtra	2.3
gsubfn	0,7	gtable	0.3.0	haven	2.4.3
highr	0.9	hms	1.1.0	htmltools	0.5.2
htmlwidgets	1.5.4	httpuv	1.6.3	httr	1.4.2
hwriter	1.3.2	hwriterPlus	1.0-3	ids	1.0.1
ini	0.3.1	ipred	0.9-12	isoband	0.2.5
Iteratori	1.0.13	jquerylib	0.1.4	jsonlite	1.7.2
KernSmooth	2.23-20	knitr	1.34	Etichettatura	0.4.2
later	1.3.0	Lattice	0.20-44	Java	1.6.10
lifecycle	1.0.0	listenv	0.8.0	lubridate	1.7.10
magrittr	2.0.1	markdown	1.1	MASS	7.3-54
Matrice	1.3-4	memoise	2.0.0	methods	4.1.1
mgcv	1.8-37	mime	0.11	ModelMetrics	1.2.2.2
modelr	0.1.8	munsell	0.5.0	nlme	3.1-152
nnet	7.3-16	numDeriv	2016.8-1.1	openssl	1.4.5
parallel	4.1.1	parallelly	1.28.1	Concetto fondamentale	1.6.2
pkgbuild	1.2.0	pkgconfig	2.0.3	pkgload	1.2.2
plogr	0.2.0	plyr	1.8.6	praise	1.0.0
prettyunits	1.1.1	Proc	1.18.0	processx	3.5.2
prodlim	2019.11.13	Avanzamento	1.2.2	progressr	0.8.0
promises	1.2.0.1	proto	1.0.0	ps	1.6.0
purrr	0.3.4	r2d3	0.2.5	R6	2.5.1
randomForest	4.6-14	rappdirs	0.3.3	rcmdcheck	1.3.3
RColorBrewer	1.1-2	Rcpp	1.0.7	readr	2.0.1
readxl	1.3.1	ricette	0.1.16	rematch	1.0.1
rematch2	2.1.2	remotes	2.4.0	reprex	2.0.1
reshape2	1.4.4	rlang	0.4.11	rmarkdown	2.11
RODBC	1.3-19	roxygen2	7.1.2	rpart	4.1-15
rprojroot	2.0.2	Rserve	1.8-8	RSQLite	2.2.8
rstudioapi	0.13	rversions	2.1.1	rvest	1.0.1
sass	0.4.0	Scalabilità	1.1.1	selectr	0.4-2
sessioninfo	1.1.1	Forma	1.4.6	shiny	1.6.0
sourcetools	0.1.7	sparklyr	1.7.2	SparkR	3.2.0
spaziale	7.3-11	Spline	4.1.1	sqldf	0.4-11
SQUAREM	2021.1	stats	4.1.1	stats4	4.1.1
stringi	1.7.4	stringr	1.4.0	Sopravvivenza	3.2-13
sys	3.4	tcltk	4.1.1	TeachingDemos	2.10
testthat	3.0.4	tibble	3.1.4	tidyr	1.1.3
tidyselect	1.1.1	tidyverse	1.3.1	timeDate	3043.102
tinytex	0.33	tools	4.1.1	tzdb	0.1.2
usethis	2.0.1	UTF8	1.2.2	utils	4.1.1
uuid	0.1-4	vctrs	0.3.8	viridisLite	0.4.0
vroom	1.5.5	waldo	0.3.1	whisker	0.4
withr	2.4.2	xfun	0.26	xml2	1.3.2
xopen	1.0.0	xtable	1.8-4	yaml	2.2.1
zip	2.2.0

Librerie Java e Scala installate (versione del cluster Scala 2.12)

ID gruppo	ID artefatto	Versione
antlr	antlr	2.7.7
com.amazonaws	amazon-distribuisci-client	1.12.0
com.amazonaws	aws-java-sdk-autoscaling	1.11.655
com.amazonaws	aws-java-sdk-cloudformation	1.11.655
com.amazonaws	aws-java-sdk-cloudfront	1.11.655
com.amazonaws	aws-java-sdk-cloudhsm	1.11.655
com.amazonaws	aws-java-sdk-cloudsearch	1.11.655
com.amazonaws	aws-java-sdk-cloudtrail	1.11.655
com.amazonaws	aws-java-sdk-cloudwatch	1.11.655
com.amazonaws	aws-java-sdk-cloudwatchmetrics	1.11.655
com.amazonaws	aws-java-sdk-codedeploy	1.11.655
com.amazonaws	aws-java-sdk-cognitoidentity	1.11.655
com.amazonaws	aws-java-sdk-cognitosync	1.11.655
com.amazonaws	aws-java-sdk-config	1.11.655
com.amazonaws	aws-java-sdk-core	1.11.655
com.amazonaws	aws-java-sdk-datapipeline	1.11.655
com.amazonaws	aws-java-sdk-directconnect	1.11.655
com.amazonaws	aws-java-sdk-directory	1.11.655
com.amazonaws	aws-java-sdk-dynamodb	1.11.655
com.amazonaws	aws-java-sdk-ec2	1.11.655
com.amazonaws	aws-java-sdk-ecs	1.11.655
com.amazonaws	aws-java-sdk-efs	1.11.655
com.amazonaws	aws-java-sdk-elasticache	1.11.655
com.amazonaws	aws-java-sdk-elasticbeanstalk	1.11.655
com.amazonaws	aws-java-sdk-elasticloadbalancing	1.11.655
com.amazonaws	aws-java-sdk-elastictranscoder	1.11.655
com.amazonaws	aws-java-sdk-emr	1.11.655
com.amazonaws	aws-java-sdk-glacier	1.11.655
com.amazonaws	aws-java-sdk-glue	1.11.655
com.amazonaws	aws-java-sdk-iam	1.11.655
com.amazonaws	aws-java-sdk-importexport	1.11.655
com.amazonaws	aws-java-sdk-consultas	1.11.655
com.amazonaws	aws-java-sdk-kms	1.11.655
com.amazonaws	aws-java-sdk-lambda	1.11.655
com.amazonaws	aws-java-sdk-logs	1.11.655
com.amazonaws	aws-java-sdk-machinelearning	1.11.655
com.amazonaws	aws-java-sdk-opsworks	1.11.655
com.amazonaws	aws-java-sdk-rds	1.11.655
com.amazonaws	aws-java-sdk-redshift	1.11.655
com.amazonaws	aws-java-sdk-route53	1.11.655
com.amazonaws	aws-java-sdk-s3	1.11.655
com.amazonaws	aws-java-sdk-ses	1.11.655
com.amazonaws	aws-java-sdk-simpledb	1.11.655
com.amazonaws	aws-java-sdk-simpleworkflow	1.11.655
com.amazonaws	aws-java-sdk-sns	1.11.655
com.amazonaws	aws-java-sdk-sqs	1.11.655
com.amazonaws	aws-java-sdk-ssm	1.11.655
com.amazonaws	aws-java-sdk-storagegateway	1.11.655
com.amazonaws	aws-java-sdk-sts	1.11.655
com.amazonaws	aws-java-sdk-support	1.11.655
com.amazonaws	aws-java-sdk-swf-libraries	1.11.22
com.amazonaws	aws-java-sdk-workspaces	1.11.655
com.amazonaws	jmespath-java	1.11.655
com.chuusai	shapeless_2.12	2.3.3
com.clearspring.analytics	stream	2.9.6
com.databricks	Rserve	1.8-3
com.databricks	jets3t	0.7.1-0
com.databricks.scalapb	compilerplugin_2.12	0.4.15-10
com.databricks.scalapb	scalapb-runtime_2.12	0.4.15-10
com.mdfsoftware	kryo-shaded	4.0.2
com.mdfsoftware	minlog	1.3.0
com.fasterxml	compagno di classe	1.3.4
com.fasterxml.jackson.core	annotazioni jackson	2.12.2
com.fasterxml.jackson.core	jackson-core	2.12.2
com.fasterxml.jackson.core	jackson-databind	2.12.2
com.fasterxml.jackson.dataformat	jackson-dataformat-cbor	2.12.2
com.fasterxml.jackson.datatype	jackson-datatype-joda	2.12.2
com.fasterxml.jackson.module	jackson-module-paranamer	2.12.2
com.fasterxml.jackson.module	jackson-module-scala_2.12	2.12.2
com.github.ben-manes.caffeina	caffeina	2.3.4
com.github.fommil	jniloader	1.1
com.github.fommil.netlib	core	1.1.2
com.github.fommil.netlib	native_ref-java	1.1
com.github.fommil.netlib	native_ref-java-natives	1.1
com.github.fommil.netlib	native_system-java	1.1
com.github.fommil.netlib	native_system-java-natives	1.1
com.github.fommil.netlib	netlib-native_ref-linux-x86_64-natives	1.1
com.github.fommil.netlib	netlib-native_system-linux-x86_64-natives	1.1
com.github.luben	zstd-jni	1.5.0-4
com.github.wendykierp	JTransforms	3.1
com.google.code.findbugs	jsr305	3.0.0
com.google.code.gson	gson	2.8.6
com.google.crypto.tink	tink	1.6.0
com.google.flatbuffers	flatbuffers-java	1.9.0
com.google.guava	guaiava	15.0
com.google.protobuf	protobuf-java	2.6.1
com.h2database	h2	1.4.195
com.helger	profiler	1.1.1
com.jcraft	jsch	0.1.50
com.jolbox	bonecp	0.8.0.RELEASE
com.lihaoyi	sourcecode_2.12	0.1.9
com.microsoft.sqlserver	mssql-jdbc	9.2.1.jre8
com.microsoft.azure	azure-data-lake-store-sdk	2.3.9
com.ning	compress-lzf	1.0.3
com.sun.istack	istack-commons-runtime	3.0.8
com.sun.mail	javax.mail	1.5.2
com.tdunning	JSON	1.8
com.thoughtworks.paranamer	paranamer	2.8
com.trueaccord.lenses	lenses_2.12	0.4.12
com.twitter	chill-java	0.10.0
com.twitter	chill_2.12	0.10.0
com.twitter	util-app_2.12	7.1.0
com.twitter	util-core_2.12	7.1.0
com.twitter	util-function_2.12	7.1.0
com.twitter	util-jvm_2.12	7.1.0
com.twitter	util-lint_2.12	7.1.0
com.twitter	util-registry_2.12	7.1.0
com.twitter	util-stats_2.12	7.1.0
com.typesafe	config	1.2.1
com.typesafe.scala-logging	scala-logging_2.12	3.7.2
com.univocità	univocità-parser	2.9.1
com.zaxxer	HikariCP	3.1.0
commons-cli	commons-cli	1.2
commons-codec	commons-codec	1.15
commons-collections	commons-collections	3.2.2
commons-dbcp	commons-dbcp	1.4
commons-fileupload	commons-fileupload	1.3.3
commons-httpclient	commons-httpclient	3.1
commons-io	commons-io	2.8.0
commons-lang	commons-lang	2.6
commons-logging	commons-logging	1.1.3
commons-net	commons-net	3.1
commons-pool	commons-pool	1.5.4
dev.sdk.netlib	arpack	1.3.2
dev.sdk.netlib	blas	1.3.2
dev.sdk.netlib	lapack	1.3.2
hive-2.3__hadoop-3.2	jets3t-0.7	liball_deps_2.12
info.ganglia.gmetric4j	gmetric4j	1.0.10
io.airlift	aircompressor	0.19
io.delta	delta-sharing-spark_2.12	0.1.0
io.dropwizard.metrics	metrics-core	4.1.1
io.dropwizard.metrics	metrics-graphite	4.1.1
io.dropwizard.metrics	metrics-healthchecks	4.1.1
io.dropwizard.metrics	metrics-jetty9	4.1.1
io.dropwizard.metrics	metrics-jmx	4.1.1
io.dropwizard.metrics	metrics-json	4.1.1
io.dropwizard.metrics	metrics-jvm	4.1.1
io.dropwizard.metrics	metrics-servlets	4.1.1
io.netty	netty-all	4.1.63.Final
io.prometheus	simpleclient	0.7.0
io.prometheus	simpleclient_common	0.7.0
io.prometheus	simpleclient_dropwizard	0.7.0
io.prometheus	simpleclient_pushgateway	0.7.0
io.prometheus	simpleclient_servlet	0.7.0
io.prometheus.jmx	agente di raccolta	0.12.0
jakarta.annotation	jakarta.annotation-api	1.3.5
jakarta.servlet	jakarta.servlet-api	4.0.3
jakarta.validation	jakarta.validation-api	2.0.2
jakarta.ws.rs	jakarta.ws.rs-api	2.1.6
javax.activation	activation	1.1.1
javax.annotation	javax.annotation-api	1.3.2
javax.el	javax.el-api	2.2.4
javax.jdo	jdo-api	3.0.1
javax.transaction	jta	1.1
javax.transaction	transaction-api	1.1
javax.xml.bind	jaxb-api	2.2.2
javax.xml.stream	stax-api	1.0-2
javolution	javolution	5.5.1
jline	jline	2.14.6
joda-time	joda-time	2.10.5
log4j	apache-log4j-extras	1.2.17
log4j	log4j	1.2.17
maven-trees	hive-2.3__hadoop-3.2	liball_deps_2.12
net.java.dev.jna	jna	5.8.0
net.razorvine	pirolite	4.30
net.sf.jpam	jpam	1.1
net.sf.opencsv	opencsv	2.3
net.sf.supercsv	super-csv	2.2.0
net.snowflake	snowflake-ingest-sdk	0.9.6
net.snowflake	snowflake-jdbc	3.13.3
net.snowflake	spark-snowflake_2.12	2.9.0-spark_3.1
net.sourceforge.f2j	arpack_combined_all	0.1
org.acplt.remotetea	remotetea-oncrpc	1.1.2
org.antlr	ST4	4.0.4
org.antlr	antlr-runtime	3.5.2
org.antlr	antlr4-runtime	4.8
org.antlr	stringtemplate	3.2.1
org.apache.ant	ant	1.9.2
org.apache.ant	ant-jsch	1.9.2
org.apache.ant	ant-launcher	1.9.2
org.apache.arrow	formato freccia	2.0.0
org.apache.arrow	arrow-memory-core	2.0.0
org.apache.arrow	arrow-memory-netty	2.0.0
org.apache.arrow	freccia-vettore	2.0.0
org.apache.avro	avro	1.10.2
org.apache.avro	avro-ipc	1.10.2
org.apache.avro	avro-mapred	1.10.2
org.apache.commons	commons-compress	1,20
org.apache.commons	commons-crypto	1.1.0
org.apache.commons	commons-lang3	3.12.0
org.apache.commons	commons-math3	3.4.1
org.apache.commons	commons-text	1.6
org.apache.curator	curatore-cliente	2.13.0
org.apache.curator	curatore-framework	2.13.0
org.apache.curator	ricette curatori	2.13.0
org.apache.derby	derby	10.14.2.0
org.apache.hadoop	hadoop-client-runtime	3.3.1
org.apache.hive	hive-beeline	2.3.9
org.apache.hive	hive-cli	2.3.9
org.apache.hive	hive-jdbc	2.3.9
org.apache.hive	hive-llap-client	2.3.9
org.apache.hive	hive-llap-common	2.3.9
org.apache.hive	hive-serde	2.3.9
org.apache.hive	hive-shims	2.3.9
org.apache.hive	hive-storage-api	2.7.2
org.apache.hive.shims	hive-shims-0.23	2.3.9
org.apache.hive.shims	hive-shims-common	2.3.9
org.apache.hive.shims	hive-shims-scheduler	2.3.9
org.apache.htrace	htrace-core4	Incubazione 4.1.0
org.apache.httpcomponents	httpclient	4.5.13
org.apache.httpcomponents	httpcore	4.4.12
org.apache.ivy	ivy	2.5.0
org.apache.mesos	mesos-shaded-protobuf	1.4.0
org.apache.orc	orc-core	1.6.10
org.apache.orc	orc-mapreduce	1.6.10
org.apache.orc	orc-shim	1.6.10
org.apache.parquet	parquet-column	1.12.0-databricks-0003
org.apache.parquet	parquet-common	1.12.0-databricks-0003
org.apache.parquet	codifica parquet	1.12.0-databricks-0003
org.apache.parquet	strutture parquet-format-structures	1.12.0-databricks-0003
org.apache.parquet	parquet-hadoop	1.12.0-databricks-0003
org.apache.parquet	parquet-jackson	1.12.0-databricks-0003
org.apache.thrift	libfb303	0.9.3
org.apache.thrift	libthrift	0.12.0
org.apache.xbean	xbean-asm9-shaded	4.20
org.apache.yetus	annotazioni del gruppo di destinatari	0.5.0
org.apache.zookeeper	zookeeper	3.6.2
org.apache.zookeeper	zookeeper-jute	3.6.2
org.checkerframework	checker-qual	3.5.0
org.codehaus.jackson	jackson-core-asl	1.9.13
org.codehaus.jackson	jackson-mapper-asl	1.9.13
org.codehaus.janino	commons-compiler	3.0.16
org.codehaus.janino	janino	3.0.16
org.datanucleus	datanucleus-api-jdo	4.2.4
org.datanucleus	datanucleus-core	4.1.17
org.datanucleus	datanucleus-rdbms	4.1.19
org.datanucleus	javax.jdo	3.2.0-m3
org.eclipse.jetty	jetty-client	9.4.40.v20210413
org.eclipse.jetty	jetty-continuation	9.4.40.v20210413
org.eclipse.jetty	jetty-http	9.4.40.v20210413
org.eclipse.jetty	jetty-io	9.4.40.v20210413
org.eclipse.jetty	jetty-jndi	9.4.40.v20210413
org.eclipse.jetty	jetty-plus	9.4.40.v20210413
org.eclipse.jetty	jetty-proxy	9.4.40.v20210413
org.eclipse.jetty	jetty-security	9.4.40.v20210413
org.eclipse.jetty	jetty-server	9.4.40.v20210413
org.eclipse.jetty	jetty-servlet	9.4.40.v20210413
org.eclipse.jetty	jetty-servlets	9.4.40.v20210413
org.eclipse.jetty	jetty-util	9.4.40.v20210413
org.eclipse.jetty	jetty-util-ajax	9.4.40.v20210413
org.eclipse.jetty	jetty-webapp	9.4.40.v20210413
org.eclipse.jetty	jetty-xml	9.4.40.v20210413
org.eclipse.jetty.websocket	websocket-api	9.4.40.v20210413
org.eclipse.jetty.websocket	websocket-client	9.4.40.v20210413
org.eclipse.jetty.websocket	websocket-common	9.4.40.v20210413
org.eclipse.jetty.websocket	websocket-server	9.4.40.v20210413
org.eclipse.jetty.websocket	websocket-servlet	9.4.40.v20210413
org.fusesource.leveldbjni	leveldbjni-all	1.8
org.glassfish.hk2	hk2-api	2.6.1
org.glassfish.hk2	hk2-locator	2.6.1
org.glassfish.hk2	hk2-utils	2.6.1
org.glassfish.hk2	osgi-resource-locator	1.0.3
org.glassfish.hk2.external	aopalliance-repackaged	2.6.1
org.glassfish.hk2.external	jakarta.inject	2.6.1
org.glassfish.jaxb	jaxb-runtime	2.3.2
org.glassfish.jersey.containers	jersey-container-servlet	2.34
org.glassfish.jersey.containers	jersey-container-servlet-core	2.34
org.glassfish.jersey.core	jersey-client	2.34
org.glassfish.jersey.core	maglia-comune	2.34
org.glassfish.jersey.core	jersey-server	2.34
org.glassfish.jersey.inject	jersey-hk2	2.34
org.hibernate.validator	hibernate-validator	6.1.0.Final
org.javassist	javassist	3.25.0-GA
org.jboss.logging	jboss-logging	3.3.2.Final
org.jdbi	jdbi	2.63.1
org.jetbrains	annotations	17.0.0
org.joda	joda-convert	1.7
org.jodd	jodd-core	3.5.2
org.json4s	json4s-ast_2.12	3.7.0-M11
org.json4s	json4s-core_2.12	3.7.0-M11
org.json4s	json4s-jackson_2.12	3.7.0-M11
org.json4s	json4s-scalap_2.12	3.7.0-M11
org.lz4	lz4-java	1.7.1
org.mariadb.jdbc	mariadb-java-client	2.2.5
org.objenesis	objenesis	2.5.1
org.postgresql	postgresql	42.2.19
org.roaringbitmap	RoaringBitmap	0.9.14
org.roaringbitmap	Spessori	0.9.14
org.rocksdb	rocksdbjni	6.20.3
org.rosuda.REngine	REngine	2.1.0
org.scala-lang	scala-compiler_2.12	2.12.14
org.scala-lang	scala-library_2.12	2.12.14
org.scala-lang	scala-reflect_2.12	2.12.14
org.scala-lang.modules	scala-collection-compat_2.12	2.4.3
org.scala-lang.modules	scala-parser-combinators_2.12	1.1.2
org.scala-lang.modules	scala-xml_2.12	1.2.0
org.scala-sbt	test-interface	1.0
org.scalacheck	scalacheck_2.12	1.14.2
org.scalactic	scalactic_2.12	3.0.8
org.scalanlp	breeze-macros_2.12	1.0
org.scalanlp	breeze_2.12	1.0
org.scalatest	scalatest_2.12	3.0.8
org.slf4j	jcl-over-slf4j	1.7.30
org.slf4j	jul-to-slf4j	1.7.30
org.slf4j	slf4j-api	1.7.30
org.slf4j	slf4j-log4j12	1.7.30
org.spark-project.spark	inutilizzato	1.0.0
org.springframework	spring-core	4.1.4.RELEASE
org.springframework	spring-test	4.1.4.RELEASE
org.threeten	treten-extra	1.5.0
org.cortanaani	xz	1.8
org.typelevel	algebra_2.12	2.0.0-M2
org.typelevel	cats-kernel_2.12	2.0.0-M4
org.typelevel	machinist_2.12	0.6.8
org.typelevel	macro-compat_2.12	1.1.1
org.typelevel	spire-macros_2.12	0.17.0-M1
org.typelevel	spire-platform_2.12	0.17.0-M1
org.typelevel	spire-util_2.12	0.17.0-M1
org.typelevel	spire_2.12	0.17.0-M1
org.wildfly.openssl	wildfly-openssl	1.0.7.Final
org.xerial	sqlite-jdbc	3.8.11.2
org.xerial.snappy	snappy-java	1.1.8.4
org.yaml	snakeyaml	1.24
oro	oro	2.0.8
pl.edu.icm	JLargeArrays	1,5
software.amazon.ion	ion-java	1.0.2
stax	stax-api	1.0.1

Condividi tramite

Databricks Runtime 10.0 (EoS)

Miglioramenti e nuove funzionalità

Nuova versione di Apache Spark

L'istruzione SELECT supporta ora la clausola QUALIFY per filtrare i risultati della funzione della finestra

Supporto del cluster per JDK 11 (anteprima pubblica)

Il caricatore automatico ora considera gli schemi come nullable

Modifiche di rilievo

Modifiche di rilievo per tutti gli utenti di Spark SQL

Modifiche di rilievo per gli utenti di Spark SQL che abilitano la modalità ANSI

Modifiche di rilievo per tutti gli utenti Python

Aggiornamenti della libreria

Aggiornamento di Apache Hadoop 3

Modifiche del comportamento

Problemi noti

Apache Spark

Contenuto della sezione:

Caratteristiche salienti

Core e Spark SQL

Miglioramenti della compatibilità SQL ANSI

Miglioramenti delle prestazioni

Miglioramenti del connettore

Miglioramenti delle funzionalità

Altre modifiche rilevanti

Modifiche del comportamento

Structured Streaming

Funzionalità principali

Altre modifiche rilevanti

PySpark

Progetto Zen

Altre modifiche rilevanti

Modifiche del comportamento

MLlib

Miglioramenti delle prestazioni

Miglioramenti del training del modello

Miglioramenti di BLAS

Altre modifiche rilevanti

Deprecazioni e rimozioni

Aggiornamenti di manutenzione

Ambiente di sistema

Librerie Python installate

Librerie R installate

Librerie Java e Scala installate (versione del cluster Scala 2.12)

Commenti e suggerimenti

Risorse aggiuntive