Databricks Runtime 7.0 (EoS)

Article
09/03/2024

Remarque

La prise en charge de cette version databricks Runtime a pris fin. Pour connaître la date de fin de support, consultez l’historique de fin de support. Pour toutes les versions prises en charge de Databricks Runtime, consultez Notes de publication sur les versions et la compatibilité de Databricks Runtime.

Databricks a publié cette version en juin 2020.

Les notes de publication suivantes fournissent des informations sur Databricks Runtime 7.0, alimenté par Apache Spark 3.0.

Nouvelles fonctionnalités

Databricks Runtime 7.0 comprend les nouvelles fonctionnalités suivantes :

Scala 2.12

Databricks Runtime 7.0 met à niveau Scala de la version 2.11.12 vers la version 2.12.10. La liste des changements entre les versions 2.12 et 2.11 de Scala se trouve dans les notes de publication de Scala 2.12.0.
Auto Loader (Préversion publique), lancé dans Databricks Runtime 6.4, a été amélioré dans Databricks Runtime 7.0.

Auto Loader vous offre un moyen plus efficace de traiter les nouveaux fichiers de données de manière incrémentielle au fur et à mesure qu’ils arrivent dans un magasin d’objets blob dans le cloud pendant l’ETL. Il s’agit d’une amélioration par rapport au streaming structuré basé sur des fichiers, qui identifie les nouveaux fichiers en répertoriant de façon répétée l’annuaire cloud et en suivant les fichiers qui ont été vus, ce qui peut s’avérer très inefficace à mesure que l’annuaire s’agrandit. Le chargeur automatique est également plus pratique et efficace que le streaming structuré basé sur les notifications de fichiers, qui nécessite la configuration manuelle des services de notification de fichiers sur le cloud et ne permet pas de renvoyer des fichiers existants. Pour plus d’informations, consultez Qu’est-ce que Auto Loader ?.

Sur Databricks Runtime 7.0, vous n’avez plus besoin de demander une image Databricks Runtime personnalisée pour utiliser Auto Loader.
COPY INTO (Préversion publique), qui vous permet de charger des données dans Delta Lake avec des nouvelles tentatives idempotentes, a été améliorée dans Databricks Runtime 7.0

Publiée en tant que Préversion publique dans Databricks Runtime 6.4, la commande SQL COPY INTO vous permet de charger des données dans Delta Lake avec des nouvelles tentatives idempotentes. Aujourd’hui, pour charger des données dans Delta Lake, vous devez utiliser les API DataFrame Apache Spark. En cas d’échec lors des chargements, vous devez les gérer efficacement. La nouvelle commande COPY INTO fournit une interface déclarative familière pour charger des données en SQL. La commande garde la trace des fichiers précédemment chargés et vous pouvez la réexécuter en toute sécurité en cas d’échec. Pour plus d’informations, consultez COPY INTO.

Améliorations

Le connecteur Azure Synapse (anciennement SQL Data Warehouse) prend en charge l’instruction COPY.

Le principal avantage de COPY est que les utilisateurs moins privilégiés peuvent écrire des données dans Azure Synapse sans avoir besoin d’autorisations CONTROL strictes sur Azure Synapse.
La commande magic %matplotlib inline n’est plus nécessaire pour afficher les objets Matplolib inclus dans les cellules du notebook. Ils sont toujours affichés inclus par défaut.
Les figures Matplotlib sont maintenant affichées avec transparent=False, de sorte que les arrière-plans spécifiés par l’utilisateur ne sont pas perdus. Ce comportement peut être remplacé en définissant la configuration Spark spark.databricks.workspace.matplotlib.transparent true.
Lors de l’exécution de travaux de production Structured Streaming sur des clusters en mode Concurrence élevée, le redémarrage d’un travail pouvait parfois échouer, car le travail précédemment exécuté n’était pas terminé correctement. Databricks Runtime 6.3 a introduit la possibilité de définir la configuration SQL spark.sql.streaming.stopActiveRunOnRestart true sur votre cluster pour garantir l’arrêt de l’exécution précédente. Cette configuration est définie par défaut dans Databricks Runtime 7.0.

Principaux changements de bibliothèque

Packages Python

Mise à niveau des principaux packages Python :

boto3 1.9.162 -> 1.12.0
matplotlib 3.0.3 -> 3.1.3
numpy 1.16.2 -> 1.18.1
pandas 0.24.2 -> 1.0.1
pip 19.0.3 -> 20.0.2
pyarrow 0.13.0 -> 0.15.1
psycopg2 2.7.6 -> 2.8.4
scikit-learn 0.20.3 -> 0.22.1
scipy 1.2.1 -> 1.4.1
seaborn 0.9.0 -> 0.10.0

Packages Python supprimés :

boto (utiliser boto3)
pycurl

Notes

L’environnement Python de Databricks Runtime 7.0 utilise Python 3.7, qui est différent de la version Python installée sur le système Ubuntu : /usr/bin/python et /usr/bin/python2 sont liés à Python 2.7 et /usr/bin/python3 est lié à Python 3.6.

Packages R

Packages R ajoutés :

broom
highr
isoband
knitr
markdown
modelr
reprex
rmarkdown
rvest
selectr
tidyverse
tinytex
xfun

Packages R supprimés :

abind
bitops
voiture
carData
doMC
gbm
h2o
littler
lme4
mapproj
cartes
maptools
MatrixModels
minqa
mvtnorm
nloptr
openxlsx
pbkrtest
pkgKitten
quantreg
R.methodsS3
R.oo
R.utils
RcppEigen
RCurl
rio
sp
SparseM
statmod
zip

Bibliothèques Java et Scala

Mise à niveau de la version d’Apache Hive utilisée pour gérer les fonctions Hive définies par l’utilisateur et Hive SerDe vers la version 2.3.
Auparavant, les fichiers JAR de Stockage Azure et Key Vault étaient empaquetés dans le cadre de Databricks Runtime, ce qui vous empêchait d’utiliser différentes versions de ces bibliothèques attachées aux clusters. Les classes sous com.microsoft.azure.storage et com.microsoft.azure.keyvault ne sont plus sur le chemin d’accès des classes dans Databricks Runtime. Si vous dépendez de l’un de ces chemins de classe, vous devez désormais attacher le Kit de développement logiciel (SDK) Stockage Azure ou le SDK Azure Key Vault à vos clusters.

Changements de comportement

Cette section répertorie les changements de comportement entre Databricks Runtime 6.6 et Databricks Runtime 7.0. Vous devez en tenir compte lors de la migration des charges de travail des versions antérieures de Databricks Runtime vers Databricks Runtime 7.0 et versions ultérieures.

Changements de comportement de Spark

Databricks Runtime 7.0 étant la première version de Databricks Runtime qui repose sur Spark 3.0, il existe de nombreux changements dont vous devez être conscient lorsque vous migrez des charges de travail de Databricks Runtime 5.5 LTS ou 6.x, qui reposent sur Spark 2.4. Ces changements sont listés dans la section « Changements de comportement » de chaque domaine fonctionnel dans la section Apache Spark de cet article relatif aux notes de publication :

Changements de comportement pour Spark Core, Spark SQL et Structured Streaming
Changements de comportement pour MLlib
Changements de comportement pour SparkR

Autres changements de comportement

La mise à niveau vers Scala 2.12 implique les changements suivants :
- La sérialisation des cellules du package est gérée différemment. L’exemple suivant illustre le changement de comportement et la façon de le gérer.
  
  L’exécution de foo.bar.MyObjectInPackageCell.run() telle que définie dans la cellule de package suivante déclenchera l’erreur java.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$.
```
package foo.bar

case class MyIntStruct(int: Int)

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import org.apache.spark.sql.Column

object MyObjectInPackageCell extends Serializable {

  // Because SparkSession cannot be created in Spark executors,
  // the following line triggers the error
  // Could not initialize class foo.bar.MyObjectInPackageCell$
  val spark = SparkSession.builder.getOrCreate()

  def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100))

  val theUDF = udf(foo)

  val df = {
    val myUDFInstance = theUDF(col("id"))
    spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance)
  }

  def run(): Unit = {
    df.collect().foreach(println)
  }
}
```
  Pour contourner cette erreur, vous pouvez envelopper MyObjectInPackageCell dans une classe sérialisable.
- Certains cas d’utilisation de DataStreamWriter.foreachBatch requièrent une mise à jour du code source. Cette modification est due au fait que Scala 2.12 convertit automatiquement les expressions lambda en types SAM et peut provoquer une ambiguïté.
  
  Par exemple, le code Scala suivant ne peut pas être compilé :
```
streams
  .writeStream
  .foreachBatch { (df, id) => myFunc(df, id) }
```
  Pour corriger l’erreur de compilation, remplacez foreachBatch { (df, id) => myFunc(df, id) } par foreachBatch(myFunc _) ou utilisez l’API Java explicitement : foreachBatch(new VoidFunction2 ...).
Étant donné que la version de Apache Hive utilisée pour gérer les fonctions Hive définies par l’utilisateur et Hive SerDes est mise à niveau vers la version 2.3, deux modifications sont requises :
- L’interface SerDe de Hive est remplacée par la classe abstraite AbstractSerDe. Pour toute implémentation personnalisée de Hive SerDe, la migration vers AbstractSerDe est nécessaire.
- Le réglage de spark.sql.hive.metastore.jars sur builtin signifie que le client de metastore Hive 2.3 sera utilisé pour accéder aux metastores de Databricks Runtime 7.0. Si vous avez besoin d’accéder à des metastores externes basés sur Hive 1.2, définissez spark.sql.hive.metastore.jars sur le dossier qui contient des fichiers JAR Hive 1.2.

Désapprobations et suppressions

L’index de saut de données a été déprécié dans Databricks Runtime 4.3 et supprimé dans Databricks Runtime 7.0. Nous vous recommandons d’utiliser des tables Delta à la place, qui offrent des capacités de saut de données améliorées.
Dans Databricks Runtime 7.0, la version sous-jacente d’Apache Spark utilise Scala 2.12. Étant donné que les bibliothèques compilées avec Scala 2.11 peuvent désactiver les clusters Databricks Runtime 7.0. de manière inattendue, les clusters exécutant Databricks Runtime 7.0 et versions ultérieures n’installent pas les bibliothèques configurées pour être installées sur tous les clusters. L’onglet Bibliothèques du cluster affiche un état Skipped et un message de dépréciation qui explique les modifications apportées à la gestion des bibliothèques. Toutefois, si vous avez un cluster qui a été créé sur une version antérieure de Databricks Runtime avant que la version 3.20 de la plateforme Azure Databricks soit publiée dans votre espace de travail et que vous modifiez maintenant ce cluster pour utiliser Databricks Runtime 7.0, toutes les bibliothèques qui étaient configurées pour être installées sur tous les clusters seront installées sur ce cluster. Dans ce cas, tous les fichiers JAR incompatibles dans les bibliothèques installées peuvent entraîner la désactivation du cluster. La solution de contournement consiste soit à cloner le cluster, soit à créer un nouveau cluster.

Apache Spark

Databricks Runtime 7.0 comprend Apache Spark 3.0.

Core, Spark SQL, Structured Streaming

Points forts

(Project Hydrogen) Scheduler sensible aux accélérateurs (SPARK-24615)
Exécution adaptative des requêtes (SPARK-31412)
Nettoyage de partition dynamique (SPARK-11150)
API UDF pandas repensée avec des conseils de type (SPARK-28264)
Interface utilisateur de Structured Streaming (SPARK-29543)
API de plug-in de catalogue (SPARK-31121)
Meilleure compatibilité ANSI SQL

Une amélioration du niveau de performance

Exécution adaptative des requêtes (SPARK-31412)
- Infrastructure de base (SPARK-23128)
- Ajustement du numéro de partition après une lecture aléatoire (SPARK-28177)
- Réutilisation dynamique des sous-requêtes (SPARK-28753)
- Lecteur local de lecture aléatoire (SPARK-28560)
- Optimisation de la jointure asymétrique (SPARK-29544)
- Optimisation de la lecture des blocs de lecture aléatoire contigus (SPARK-9853)
Nettoyage de partition dynamique (SPARK-11150)
Autres règles de l’optimiseur
- Règle ReuseSubquery (SPARK-27279)
- Règle PushDownLeftSemiAntiJoin (SPARK-19712)
- Règle PushLeftSemiLeftAntiThroughJoin (SPARK-19712)
- Règle ReplaceNullWithFalse (SPARK-25860)
- Règle Éliminer les tris sans limite dans la sous-requête de Join/Aggregation (SPARK-29343)
- Règle PruneHiveTablePartitions (SPARK-15616)
- Nettoyage des champs imbriqués inutiles de Generate (SPARK-27707)
- Règle RewriteNonCorrelatedExists (SPARK-29800)
Réduction des coûts de synchronisation du cache de table (SPARK-26917), (SPARK-26617), (SPARK-26548)
Fractionnement du code d’agrégation en petites fonctions (SPARK-21870)
Ajout du traitement par lot dans les commandes INSERT et ALTER TABLE ADD PARTITION (SPARK-29938)

Améliorations de l’extensibilité

API de plug-in de catalogue (SPARK-31121)
Refactorisation de l’API v2 de la source de données (SPARK-25390)
Prise en charge des metastores Hive 3.0 et 3.1 (SPARK-27970), (SPARK-24360)
Extension de l’interface du plug-in Spark au pilote (SPARK-29396)
Extension du système de métriques Spark avec des métriques définies par l’utilisateur en utilisant des plug-ins d’exécution (SPARK-28091)
API de développement pour le support étendu du traitement en colonnes (SPARK-27396)
Migration de source intégrée utilisant DSV2 : Parquet, ORC, CSV, JSON, Kafka, Text, Avro (SPARK-27589)
Autorise FunctionInjection dans SparkExtensions (SPARK-25560)
Autorise l’inscription de l’agrégateur en tant qu’UDAF (SPARK-27296)

Améliorations des connecteurs

Nettoyage des colonnes à l’aide d’expressions non déterministes (SPARK-29768)
Prise en charge de spark.sql.statistics.fallBackToHdfs dans les tables de sources de données (SPARK-25474)
Autorise le nettoyage de partition avec des filtres de sous-requêtes sur la source du fichier (SPARK-26893)
Évite le pushdown des sous-requêtes dans les filtres de sources de données (SPARK-25482)
Chargement récursif de données à partir de sources de fichiers (SPARK-27990)
Parquet/ORC
- Pushdown des prédicats disjonctifs (SPARK-27699)
- Généralisation du nettoyage des colonnes imbriquées (SPARK-25603) et activation par défaut (SPARK-29805)
- Parquet uniquement
  - Pushdown des prédicats Parquet pour les champs imbriqués (SPARK-17636)
- ORC uniquement
  - Prise en charge du schéma de fusion pour ORC (SPARK-11412)
  - Nettoyage des schémas imbriqués pour ORC (SPARK-27034)
  - Réduction de la complexité de la conversion des prédicats pour ORC (SPARK-27105, SPARK-28108)
  - Mise à niveau d’Apache ORC vers la version 1.5.9 (SPARK-30695)
CSV
- Prise en charge du pushdown des filtres dans les sources de données CSV (SPARK-30323)
Hive SerDe
- Aucune inférence de schéma lors de la lecture d’une table Hive SerDe avec une source de données native (SPARK-27119)
- Les commandes CTAS de Hive doivent utiliser la source de données si elle est convertible (SPARK-25271)
- Utilisation de la source de données native pour optimiser l’insertion d’une table Hive partitionnée (SPARK-28573)
Apache Kafka
- Ajout de la prise en charge des en-têtes Kafka (SPARK-23539)
- Ajout de la prise en charge des jetons de délégation Kafka (SPARK-25501)
- Introduction d’une nouvelle option dans la source Kafka : décalage par timestamp (début/fin) (SPARK-26848)
- Prise en charge de l’option minPartitions dans la source de traitement Kafka et la source de streaming v1 (SPARK-30656)
- Mise à niveau de Kafka vers la version 2.4.1 (SPARK-31126)
Nouvelles sources de données intégrées
- Nouvelles sources de données intégrées pour les fichiers binaires (SPARK-25348)
- Nouvelles sources de données de traitement non opérationnel (SPARK-26550) et récepteur de streaming non opérationnel (SPARK-26649)

Améliorations de la fonctionnalité

[Hydrogen] Scheduler sensible aux accélérateurs (SPARK-24615)
Introduction d’un ensemble complet de conseils de jointure (SPARK-27225)
Ajout du conseil PARTITION BY pour les requêtes SQL (SPARK-28746)
Gestion des métadonnées dans le serveur Thrift (SPARK-28426)
Ajout de fonctions d’ordre supérieur à l’API Scala (SPARK-27297)
Prise en charge d’un contexte simple pour Tout rassembler dans une tâche de cloisonnement (SPARK-30667)
Prise en charge du type UDT par les UDF de Hive (SPARK-28158)
Prise en charge des opérateurs DELETE/UPDATE/MERGE dans Catalyst (SPARK-28351, SPARK-28892, SPARK-28893)
Implémentation de DataFrame.tail (SPARK-30185)
Nouvelles fonctions intégrées
- sinh, cosh, tanh, asinh, acosh, atanh (SPARK-28133)
- any, every, some (SPARK-19851)
- bit_and, bit_or (SPARK-27879)
- bit_count (SPARK-29491)
- bit_xor (SPARK-29545)
- bool_and, bool_or (SPARK-30184)
- count_if (SPARK-27425)
- date_part (SPARK-28690)
- extract (SPARK-23903)
- forall (SPARK-27905)
- from_csv (SPARK-25393)
- make_date (SPARK-28432)
- make_interval (SPARK-29393)
- make_timestamp (SPARK-28459)
- map_entries (SPARK-23935)
- map_filter (SPARK-23937)
- map_zip_with (SPARK-23938)
- max_by, min_by (SPARK-27653)
- schema_of_csv (SPARK-25672)
- to_csv (SPARK-25638)
- transform_keys (SPARK-23939)
- transform_values (SPARK-23940)
- typeof (SPARK-29961)
- version (SPARK-29554)
- xxhash64 (SPARK-27099)
Améliorations des fonctions intégrées existantes
- Amélioration des fonctions/opérations DateHeure intégrées (SPARK-31415)
- Prise en charge du mode FAILFAST pour from_json (SPARK-25243)
- array_sort ajoute un nouveau paramètre de comparaison (SPARK-29020)
- Le filtre peut désormais accepter l’index en entrée ainsi que l’élément (SPARK-28962)

Améliorations de la compatibilité SQL

Passage au calendrier grégorien proleptique (SPARK-26651)
Création de la propre définition du modèle DateHeure de Spark (SPARK-31408)
Introduction de la stratégie d’attribution de magasin ANSI pour l’insertion de table (SPARK-28495)
Suivi de la règle d’attribution de magasin ANSI dans l’insertion de table par défaut (SPARK-28885)
Ajout d’un SQLConf spark.sql.ansi.enabled (SPARK-28989)
Prise en charge de la clause ANSI SQL filter pour l’expression d’agrégation (SPARK-27986)
Prise en charge de la fonction ANSI SQL OVERLAY (SPARK-28077)
Prise en charge des commentaires entre crochets imbriqués ANSI (SPARK-28880)
Exception en cas de dépassement pour les entiers (SPARK-26218)
Vérification de dépassement pour les opérations arithmétiques sur les intervalles (SPARK-30341)
Exception quand une chaîne non valide est castée en type numérique (SPARK-30292)
Cohérence entre le comportement de dépassement des multiplications et divisions d’intervalles et les autres opérations (SPARK-30919)
Ajout d’alias de type ANSI pour char et decimal (SPARK-29941)
L’analyseur SQL définit des mots clés réservés conformes à ANSI (SPARK-26215)
Interdiction des mots-clés réservés comme identifiants lorsque le mode ANSI est activé (SPARK-26976)
Prise en charge de la syntaxe ANSI SQL LIKE ... ESCAPE (SPARK-28083)
Prise en charge de la syntaxe ANSI SQL Boolean-Predicate (SPARK-27924)
Meilleure prise en charge du traitement des sous-requêtes corrélées (SPARK-18455)

Améliorations du monitoring et de la capacité de débogage

Nouvelle interface utilisateur de Structured Streaming (SPARK-29543)
SHS : Permet aux journaux des événements des applications de streaming en cours d’exécution d’être transférés (SPARK-28594)
Ajout d’une API qui permet à un utilisateur de définir et d’observer des métriques arbitraires sur des requêtes de traitement et de streaming (SPARK-29345)
Instrumentation pour le suivi du temps de planification par requête (SPARK-26129)
Place les métriques de lecture aléatoire de base dans l’opérateur SQL exchange (SPARK-26139)
L’instruction SQL est affichée dans l’onglet SQL au lieu du site d’appel (SPARK-27045)
Ajout d’une info-bulle à l’interface utilisateur de Spark (SPARK-29449)
Amélioration des performances simultanées du serveur d’historique (SPARK-29043)
Commande EXPLAIN FORMATTED (SPARK-27395)
Prise en charge du vidage des plans tronqués et du code généré dans un fichier (SPARK-26023)
Amélioration de l’infrastructure de description pour décrire la sortie d’une requête (SPARK-26982)
Ajout de la commande SHOW VIEWS (SPARK-31113)
Amélioration des messages d’erreur de l’analyseur SQL (SPARK-27901)
Prise en charge native du monitoring Prometheus (SPARK-29429)

Améliorations apportées à PySpark

UDF pandas repensées avec des conseils de type (SPARK-28264)
Pipeline pour les UDF pandas (SPARK-26412)
Prise en charge de StructType comme arguments et types de retour pour les UDF pandas scalaires (SPARK-27240)
Prise en charge du cogroupe DataFrame via des UDF pandas (SPARK-27463)
Ajout de mapInPandas pour autoriser un itérateur de DataFrames (SPARK-28198)
Certaines fonctions SQL doivent également prendre des noms de colonnes (SPARK-26979)
Rendre les exceptions SQL de PySpark plus typiques de Python (SPARK-31849)

Amélioration de la documentation et de la couverture des tests

Création d’une référence SQL (SPARK-28588)
Création d’un guide de l’utilisateur pour l’interface utilisateur web (SPARK-28372)
Création d’une page de documentation sur la configuration SQL (SPARK-30510)
Ajout d’informations de version pour la configuration de Spark (SPARK-30839)
Portage des tests de régression depuis PostgreSQL (SPARK-27763)
Couverture des tests du serveur Thrift (SPARK-28608)
Couverture des tests des UDF (UDF Python, UDF pandas, UDF Scala) [SPARK-27921]

Autres changements notables

Mise à niveau intégrée de l’exécution de Hive de la version 1.2.1 vers la version 2.3.6 (SPARK-23710, SPARK-28723, SPARK-31381)
Utilisation de la dépendance d’Apache Hive 2.3 par défaut (SPARK-30034)
Disponibilité générale de Scala 2.12 et suppression de la version 2.11 (SPARK-26132)
Amélioration de la logique pour la temporisation des exécuteurs dans l’allocation dynamique (SPARK-20286)
Blocs RDD conservés sur disque pris en charge par le service de lecture aléatoire et ignorés pour l’allocation dynamique (SPARK-27677)
Acquisition de nouveaux exécuteurs pour éviter les blocages dus à une liste de refus (SPARK-22148)
Autorise le partage des allocateurs de pools de mémoire de Netty (SPARK-24920)
Correction du blocage entre TaskMemoryManager et UnsafeExternalSorter$SpillableIterator (SPARK-27338)
Introduction des API AdmissionControl pour StructuredStreaming (SPARK-30669)
Amélioration des performances de la page principale de l’historique Spark (SPARK-25973)
Accélération et réduction de l’agrégation des métriques dans l’écouteur SQL (SPARK-29562)
Évite le réseau lorsque les blocs de lecture aléatoire sont extraits du même hôte (SPARK-27651)
Amélioration de la liste de fichiers pour DistributedFileSystem (SPARK-27801)

Changements de comportement pour Spark Core, Spark SQL et Structured Streaming

Les guides de migration suivants répertorient les changements de comportement entre les versions 2.4 et 3.0 d’Apache Spark. Ces changements peuvent nécessiter des mises à jour des travaux que vous avez exécutés sur des versions antérieures de Databricks Runtime :

Les changements de comportement suivants ne sont pas abordés dans ces guides de migration :

Dans Spark 3.0, la classe déconseillée org.apache.spark.sql.streaming.ProcessingTime a été supprimée. Utilisez org.apache.spark.sql.streaming.Trigger.ProcessingTime à la place. De même, org.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger a été supprimé en faveur de Trigger.Continuous, et org.apache.spark.sql.execution.streaming.OneTimeTrigger a été masqué en faveur de Trigger.Once. (SPARK-28199)
Dans Databricks Runtime 7.0, lors de la lecture d’une table Hive SerDe, Spark interdit par défaut la lecture de fichiers dans un sous-répertoire qui n’est pas une partition de table. Pour l’activer, définissez la configuration spark.databricks.io.hive.scanNonpartitionedDirectory.enabled sur true. Cela n’affecte pas les lecteurs de fichiers et les lecteurs de fichiers de table natifs Spark.

MLlib

Points forts

La prise en charge de plusieurs colonnes a été ajoutée à Binarizer (SPARK-23578), StringIndexer (SPARK-11215), StopWordsRemover (SPARK-29808) et PySpark QuantileDiscretizer (SPARK-22796)
Prise en charge de la transformation de fonctionnalité basée sur l’arborescence (SPARK-13677)
Ajout de deux nouveaux évaluateurs, MultilabelClassificationEvaluator (SPARK-16692) et RankingEvaluator (SPARK-28045)
Ajout de la prise en charge d’exemples de poids dans DecisionTreeClassifier/Regressor (SPARK-19591), RandomForestClassifier/Regressor (SPARK-9478), GBTClassifier/Regressor (SPARK-9612), RegressionEvaluator (SPARK-24102), BinaryClassificationEvaluator (SPARK-24103), BisectingKMeans (SPARK-30351), KMeans (SPARK-29967) et GaussianMixture (SPARK-30102)
Ajout d’une API R pour PowerIterationClustering (SPARK-19827)
Ajout d’un écouteur Spark ML pour suivre l’état du pipeline ML (SPARK-23674)
Ajout d’un ajustement avec un ensemble de validation aux arborescences d’amplification de gradient en Python (SPARK-24333)
Le transformateur RobustScaler a été ajouté (SPARK-28399)
Le classifieur et le régresseur des machines de factorisation ont été ajoutés (SPARK-29224)
Ajout de la classification naïve bayésienne de distribution Gaussienne (SPARK-16872) et de la classification naïve bayésienne complémentaire (SPARK-29942)
Parité des fonctions ML entre Scala et Python (SPARK-28958)
predictRaw est rendu public dans tous les modèles Classification. predictProbability est rendu public dans tous les modèles Classification, à l’exception de LinearSVCModel (SPARK-30358)

Changements de comportement pour MLlib

Le guide de migration suivant répertorie les changements de comportement entre les versions 2.4 et 3.0 d’Apache Spark. Ces changements peuvent nécessiter des mises à jour des travaux que vous avez exécutés sur des versions antérieures de Databricks Runtime :

Guide de migration : MLlib (Machine Learning)

Les changements de comportement suivants ne sont pas abordés dans le guide de migration :

Dans Spark 3.0, une régression logistique multiclasse dans PySpark renverra désormais (correctement) LogisticRegressionSummary, et non la sous-classe BinaryLogisticRegressionSummary. Il existe encore tout de même certains cas pour lesquels les méthodes supplémentaires exposées par BinaryLogisticRegressionSummary ne fonctionneront pas. (SPARK-31681)
Dans Spark 3.0, Mixins pyspark.ml.param.shared.Has* ne fournit plus de méthode setter set*(self, value), utilisez plutôt le self.set(self.*, value) respectif à la place. Pour plus d’informations, consultez SPARK-29093. (SPARK-29093)

SparkR

Optimisation des flèches dans l’interopérabilité de SparkR (SPARK-26759)
Amélioration des performances grâce aux fonctions R gapply(), dapply(), createDataFrame, collect() vectorisées
« Exécution hâtive » pour interpréteur de commandes R, IDE (SPARK-24572)
API R pour la méthode Power Iteration Clustering (SPARK-19827)

Changements de comportement pour SparkR

Guide de migration : SparkR (R sur Spark)

Dépréciations

Dépréciation du support de Python 2 (SPARK-27884)
Dépréciation du support de R < 3.4 (SPARK-26014)

Problèmes connus

Le jour de l’analyse de l’année à l’aide de la lettre « d » renvoie un résultat incorrect si le champ Year est manquant. Cela peut se produire dans des fonctions SQL comme to_timestamp, qui analyse la chaîne DateHeure en valeurs DateHeure à l’aide d’une chaîne de modèle. (SPARK-31939)
Join/Window/Aggregate dans les sous-requêtes peut entraîner des résultats incorrects si les clés ont les valeurs -0.0 et 0.0. (SPARK-31958)
Une requête de fenêtre peut échouer avec une erreur de jointure réflexive ambiguë de manière inattendue. (SPARK-31956)
Les requêtes de diffusion en continu avec un opérateur dropDuplicates ne pourront peut-être pas redémarrer avec le point de contrôle écrit par Spark 2.x. (SPARK-31990)

Mises à jour de maintenance

Voir Mises à jour de maintenance de Databricks Runtime 7.0.

Environnement du système

Système d’exploitation : Ubuntu 18.04.4 LTS
Java : 1.8.0_252
Scala : 2.12.10
Python : 3.7.5
R : R version 3.6.3 (2020-02-29)
Delta Lake 0.7.0

Bibliothèques Python installées

Bibliothèque	Version	Bibliothèque	Version	Bibliothèque	Version
asn1crypto	1.3.0	backcall	0.1.0	boto3	1.12.0
botocore	1.15.0	certifi	2020.4.5	cffi	1.14.0
chardet	3.0.4	chiffrement	2.8	cycler	0.10.0
Cython	0.29.15	decorator	4.4.1	docutils	0.15.2
entrypoints	0.3	idna	2.8	ipykernel	5.1.4
ipython	7.12.0	ipython-genutils	0.2.0	jedi	0.14.1
jmespath	0.9.4	joblib	0.14.1	jupyter-client	5.3.4
jupyter-core	4.6.1	kiwisolver	1.1.0	matplotlib	3.1.3
numpy	1.18.1	pandas	1.0.1	parso	0.5.2
patsy	0.5.1	pexpect	4.8.0	pickleshare	0.7.5
pip	20.0.2	prompt-toolkit	3.0.3	psycopg2	2.8.4
ptyprocess	0.6.0	pyarrow	0.15.1	pycparser	2.19
Pygments	2.5.2	PyGObject	3.26.1	pyOpenSSL	19.1.0
pyparsing	2.4.6	PySocks	1.7.1	python-apt	1.6.5+ubuntu0.3
python-dateutil	2.8.1	pytz	2019.3	pyzmq	18.1.1
requêtes	2.22.0	s3transfer	0.3.3	scikit-learn	0.22.1
scipy	1.4.1	seaborn	0.10.0	setuptools	45.2.0
six	1.14.0	ssh-import-id	5.7	statsmodels	0.11.0
tornado	6.0.3	traitlets	4.3.3	unattended-upgrades	0.1
urllib3	1.25.8	virtualenv	16.7.10	wcwidth	0.1.8
wheel	0.34.2

Bibliothèques R installées

Les bibliothèques R sont installées à partir de l’instantané CRAN de Microsoft du 22/04/2020.

Bibliothèque	Version	Bibliothèque	Version	Bibliothèque	Version
askpass	1.1	assertthat	0.2.1	backports	1.1.6
base	3.6.3	base64enc	0.1-3	BH	1.72.0-3
bit	1.1-15.2	bit64	0.9-7	objet BLOB	1.2.1
boot	1.3-25	brew	1.0-6	broom	0.5.6
callr	3.4.3	caret	6.0-86	cellranger	1.1.0
chron	2.3-55	class	7.3-17	cli	2.0.2
clipr	0.7.0	cluster	2.1.0	codetools	0.2-16
colorspace	1.4-1	commonmark	1.7	compiler	3.6.3
config	0.3	covr	3.5.0	crayon	1.3.4
crosstalk	1.1.0.1	curl	4.3	data.table	1.12.8
jeux de données	3.6.3	DBI	1.1.0	dbplyr	1.4.3
desc	1.2.0	devtools	2.3.0	digest	0.6.25
dplyr	0.8.5	DT	0,13	ellipsis	0.3.0
evaluate	0.14	fansi	0.4.1	farver	2.0.3
fastmap	1.0.1	forcats	0.5.0	foreach	1.5.0
foreign	0.8-76	forge	0.2.0	fs	1.4.1
generics	0.0.2	ggplot2	3.3.0	gh	1.1.0
git2r	0.26.1	glmnet	3.0-2	globals	0.12.5
glue	1.4.0	gower	0.2.1	graphics	3.6.3
grDevices	3.6.3	grid	3.6.3	gridExtra	2.3
gsubfn	0.7	gtable	0.3.0	haven	2.2.0
highr	0,8	hms	0.5.3	htmltools	0.4.0
htmlwidgets	1.5.1	httpuv	1.5.2	httr	1.4.1
hwriter	1.3.2	hwriterPlus	1.0-3	ini	0.3.1
ipred	0.9-9	isoband	0.2.1	iterators	1.0.12
jsonlite	1.6.1	KernSmooth	2.23-17	knitr	1.28
labeling	0.3	later	1.0.0	lattice	0.20-41
lava	1.6.7	lazyeval	0.2.2	cycle de vie	0.2.0
lubridate	1.7.8	magrittr	1.5	markdown	1.1
MASS	7.3-51.6	Matrice	1.2-18	memoise	1.1.0
methods	3.6.3	mgcv	1.8-31	mime	0.9
ModelMetrics	1.2.2.2	modelr	0.1.6	munsell	0.5.0
nlme	3.1-147	nnet	7.3-14	numDeriv	2016.8-1.1
openssl	1.4.1	parallel	3.6.3	pillar	1.4.3
pkgbuild	1.0.6	pkgconfig	2.0.3	pkgload	1.0.2
plogr	0.2.0	plyr	1.8.6	praise	1.0.0
prettyunits	1.1.1	pROC	1.16.2	processx	3.4.2
prodlim	2019.11.13	progress	1.2.2	promises	1.1.0
proto	1.0.0	ps	1.3.2	purrr	0.3.4
r2d3	0.2.3	R6	2.4.1	randomForest	4.6-14
rappdirs	0.3.1	rcmdcheck	1.3.3	RColorBrewer	1.1-2
Rcpp	1.0.4.6	readr	1.3.1	readxl	1.3.1
recipes	0.1.10	rematch	1.0.1	rematch2	2.1.1
remotes	2.1.1	reprex	0.3.0	reshape2	1.4.4
rex	1.2.0	rjson	0.2.20	rlang	0.4.5
rmarkdown	2.1	RODBC	1.3-16	roxygen2	7.1.0
rpart	4.1-15	rprojroot	1.3-2	Rserve	1.8-6
RSQLite	2.2.0	rstudioapi	0.11	rversions	2.0.1
rvest	0.3.5	scales	1.1.0	selectr	0.4-2
sessioninfo	1.1.1	shape	1.4.4	shiny	1.4.0.2
sourcetools	0.1.7	sparklyr	1.2.0	SparkR	3.0.0
spatial	7.3-11	splines	3.6.3	sqldf	0.4-11
SQUAREM	2020.2	stats	3.6.3	stats4	3.6.3
stringi	1.4.6	stringr	1.4.0	survival	3.1-12
sys	3.3	tcltk	3.6.3	TeachingDemos	2,10
testthat	2.3.2	tibble	3.0.1	tidyr	1.0.2
tidyselect	1.0.0	tidyverse	1.3.0	timeDate	3043.102
tinytex	0,22	tools	3.6.3	usethis	1.6.0
utf8	1.1.4	utils	3.6.3	vctrs	0.2.4
viridisLite	0.3.0	whisker	0,4	withr	2.2.0
xfun	0,13	xml2	1.3.1	xopen	1.0.0
xtable	1.8-4	yaml	2.2.1

Bibliothèques Java et Scala installées (version de cluster Scala 2.12)

ID de groupe	ID d’artefact	Version
antlr	antlr	2.7.7
com.amazonaws	amazon-kinesis-client	1.12.0
com.amazonaws	aws-java-sdk-autoscaling	1.11.655
com.amazonaws	aws-java-sdk-cloudformation	1.11.655
com.amazonaws	aws-java-sdk-cloudfront	1.11.655
com.amazonaws	aws-java-sdk-cloudhsm	1.11.655
com.amazonaws	aws-java-sdk-cloudsearch	1.11.655
com.amazonaws	aws-java-sdk-cloudtrail	1.11.655
com.amazonaws	aws-java-sdk-cloudwatch	1.11.655
com.amazonaws	aws-java-sdk-cloudwatchmetrics	1.11.655
com.amazonaws	aws-java-sdk-codedeploy	1.11.655
com.amazonaws	aws-java-sdk-cognitoidentity	1.11.655
com.amazonaws	aws-java-sdk-cognitosync	1.11.655
com.amazonaws	aws-java-sdk-config	1.11.655
com.amazonaws	aws-java-sdk-core	1.11.655
com.amazonaws	aws-java-sdk-datapipeline	1.11.655
com.amazonaws	aws-java-sdk-directconnect	1.11.655
com.amazonaws	aws-java-sdk-directory	1.11.655
com.amazonaws	aws-java-sdk-dynamodb	1.11.655
com.amazonaws	aws-java-sdk-ec2	1.11.655
com.amazonaws	aws-java-sdk-ecs	1.11.655
com.amazonaws	aws-java-sdk-efs	1.11.655
com.amazonaws	aws-java-sdk-elasticache	1.11.655
com.amazonaws	aws-java-sdk-elasticbeanstalk	1.11.655
com.amazonaws	aws-java-sdk-elasticloadbalancing	1.11.655
com.amazonaws	aws-java-sdk-elastictranscoder	1.11.655
com.amazonaws	aws-java-sdk-emr	1.11.655
com.amazonaws	aws-java-sdk-glacier	1.11.655
com.amazonaws	aws-java-sdk-iam	1.11.655
com.amazonaws	aws-java-sdk-importexport	1.11.655
com.amazonaws	aws-java-sdk-kinesis	1.11.655
com.amazonaws	aws-java-sdk-kms	1.11.655
com.amazonaws	aws-java-sdk-lambda	1.11.655
com.amazonaws	aws-java-sdk-logs	1.11.655
com.amazonaws	aws-java-sdk-machinelearning	1.11.655
com.amazonaws	aws-java-sdk-opsworks	1.11.655
com.amazonaws	aws-java-sdk-rds	1.11.655
com.amazonaws	aws-java-sdk-redshift	1.11.655
com.amazonaws	aws-java-sdk-route53	1.11.655
com.amazonaws	aws-java-sdk-s3	1.11.655
com.amazonaws	aws-java-sdk-ses	1.11.655
com.amazonaws	aws-java-sdk-simpledb	1.11.655
com.amazonaws	aws-java-sdk-simpleworkflow	1.11.655
com.amazonaws	aws-java-sdk-sns	1.11.655
com.amazonaws	aws-java-sdk-sqs	1.11.655
com.amazonaws	aws-java-sdk-ssm	1.11.655
com.amazonaws	aws-java-sdk-storagegateway	1.11.655
com.amazonaws	aws-java-sdk-sts	1.11.655
com.amazonaws	aws-java-sdk-support	1.11.655
com.amazonaws	aws-java-sdk-swf-libraries	1.11.22
com.amazonaws	aws-java-sdk-workspaces	1.11.655
com.amazonaws	jmespath-java	1.11.655
com.chuusai	shapeless_2.12	2.3.3
com.clearspring.analytics	flux	2.9.6
com.databricks	Rserve	1.8-3
com.databricks	jets3t	0.7.1-0
com.databricks.scalapb	compilerplugin_2.12	0.4.15-10
com.databricks.scalapb	scalapb-runtime_2.12	0.4.15-10
com.esotericsoftware	kryo-shaded	4.0.2
com.esotericsoftware	minlog	1.3.0
com.fasterxml	classmate	1.3.4
com.fasterxml.jackson.core	jackson-annotations	2.10.0
com.fasterxml.jackson.core	jackson-core	2.10.0
com.fasterxml.jackson.core	jackson-databind	2.10.0
com.fasterxml.jackson.dataformat	jackson-dataformat-cbor	2.10.0
com.fasterxml.jackson.datatype	jackson-datatype-joda	2.10.0
com.fasterxml.jackson.module	jackson-module-paranamer	2.10.0
com.fasterxml.jackson.module	jackson-module-scala_2.12	2.10.0
com.github.ben-manes.caffeine	caffeine	2.3.4
com.github.fommil	jniloader	1.1
com.github.fommil.netlib	core	1.1.2
com.github.fommil.netlib	native_ref-java	1.1
com.github.fommil.netlib	native_ref-java-natives	1.1
com.github.fommil.netlib	native_system-java	1.1
com.github.fommil.netlib	native_system-java-natives	1.1
com.github.fommil.netlib	netlib-native_ref-linux-x86_64-natives	1.1
com.github.fommil.netlib	netlib-native_system-linux-x86_64-natives	1.1
com.github.joshelser	dropwizard-metrics-hadoop-metrics2-reporter	0.1.2
com.github.luben	zstd-jni	1.4.4-3
com.github.wendykierp	JTransforms	3.1
com.google.code.findbugs	jsr305	3.0.0
com.google.code.gson	gson	2.2.4
com.google.flatbuffers	flatbuffers-java	1.9.0
com.google.guava	guava	15.0
com.google.protobuf	protobuf-java	2.6.1
com.h2database	h2	1.4.195
com.helger	profiler	1.1.1
com.jcraft	jsch	0.1.50
com.jolbox	bonecp	0.8.0.RELEASE
com.microsoft.azure	azure-data-lake-store-sdk	2.2.8
com.microsoft.sqlserver	mssql-jdbc	8.2.1.jre8
com.ning	compress-lzf	1.0.3
com.sun.mail	javax.mail	1.5.2
com.tdunning	json	1.8
com.thoughtworks.paranamer	paranamer	2.8
com.trueaccord.lenses	lenses_2.12	0.4.12
com.twitter	chill-java	0.9.5
com.twitter	chill_2.12	0.9.5
com.twitter	util-app_2.12	7.1.0
com.twitter	util-core_2.12	7.1.0
com.twitter	util-function_2.12	7.1.0
com.twitter	util-jvm_2.12	7.1.0
com.twitter	util-lint_2.12	7.1.0
com.twitter	util-registry_2.12	7.1.0
com.twitter	util-stats_2.12	7.1.0
com.typesafe	config	1.2.1
com.typesafe.scala-logging	scala-logging_2.12	3.7.2
com.univocity	univocity-parsers	2.8.3
com.zaxxer	HikariCP	3.1.0
commons-beanutils	commons-beanutils	1.9.4
commons-cli	commons-cli	1.2
commons-codec	commons-codec	1,10
commons-collections	commons-collections	3.2.2
commons-configuration	commons-configuration	1.6
commons-dbcp	commons-dbcp	1.4
commons-digester	commons-digester	1.8
commons-fileupload	commons-fileupload	1.3.3
commons-httpclient	commons-httpclient	3.1
commons-io	commons-io	2.4
commons-lang	commons-lang	2.6
commons-logging	commons-logging	1.1.3
commons-net	commons-net	3.1
commons-pool	commons-pool	1.5.4
info.ganglia.gmetric4j	gmetric4j	1.0.10
io.airlift	aircompressor	0.10
io.dropwizard.metrics	metrics-core	4.1.1
io.dropwizard.metrics	metrics-graphite	4.1.1
io.dropwizard.metrics	metrics-healthchecks	4.1.1
io.dropwizard.metrics	metrics-jetty9	4.1.1
io.dropwizard.metrics	metrics-jmx	4.1.1
io.dropwizard.metrics	metrics-json	4.1.1
io.dropwizard.metrics	metrics-jvm	4.1.1
io.dropwizard.metrics	metrics-servlets	4.1.1
io.netty	netty-all	4.1.47.Final
jakarta.annotation	jakarta.annotation-api	1.3.5
jakarta.validation	jakarta.validation-api	2.0.2
jakarta.ws.rs	jakarta.ws.rs-api	2.1.6
javax.activation	activation	1.1.1
javax.el	javax.el-api	2.2.4
javax.jdo	jdo-api	3.0.1
javax.servlet	javax.servlet-api	3.1.0
javax.servlet.jsp	jsp-api	2.1
javax.transaction	jta	1.1
javax.transaction	transaction-api	1.1
javax.xml.bind	jaxb-api	2.2.2
javax.xml.stream	stax-api	1.0-2
javolution	javolution	5.5.1
jline	jline	2.14.6
joda-time	joda-time	2.10.5
log4j	apache-log4j-extras	1.2.17
log4j	log4j	1.2.17
net.razorvine	pyrolite	4.30
net.sf.jpam	jpam	1.1
net.sf.opencsv	opencsv	2.3
net.sf.supercsv	super-csv	2.2.0
net.snowflake	snowflake-ingest-sdk	0.9.6
net.snowflake	snowflake-jdbc	3.12.0
net.snowflake	spark-snowflake_2.12	2.5.9-spark_2.4
net.sourceforge.f2j	arpack_combined_all	0.1
org.acplt.remotetea	remotetea-oncrpc	1.1.2
org.antlr	ST4	4.0.4
org.antlr	antlr-runtime	3.5.2
org.antlr	antlr4-runtime	4.7.1
org.antlr	stringtemplate	3.2.1
org.apache.ant	ant	1.9.2
org.apache.ant	ant-jsch	1.9.2
org.apache.ant	ant-launcher	1.9.2
org.apache.arrow	arrow-format	0.15.1
org.apache.arrow	arrow-memory	0.15.1
org.apache.arrow	arrow-vector	0.15.1
org.apache.avro	avro	1.8.2
org.apache.avro	avro-ipc	1.8.2
org.apache.avro	avro-mapred-hadoop2	1.8.2
org.apache.commons	commons-compress	1.8.1
org.apache.commons	commons-crypto	1.0.0
org.apache.commons	commons-lang3	3.9
org.apache.commons	commons-math3	3.4.1
org.apache.commons	commons-text	1.6
org.apache.curator	curator-client	2.7.1
org.apache.curator	curator-framework	2.7.1
org.apache.curator	curator-recipes	2.7.1
org.apache.derby	derby	10.12.1.1
org.apache.directory.api	api-asn1-api	1.0.0-M20
org.apache.directory.api	api-util	1.0.0-M20
org.apache.directory.server	apacheds-i18n	2.0.0-M15
org.apache.directory.server	apacheds-kerberos-codec	2.0.0-M15
org.apache.hadoop	hadoop-annotations	2.7.4
org.apache.hadoop	hadoop-auth	2.7.4
org.apache.hadoop	hadoop-client	2.7.4
org.apache.hadoop	hadoop-common	2.7.4
org.apache.hadoop	hadoop-hdfs	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-app	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-common	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-core	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-jobclient	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-shuffle	2.7.4
org.apache.hadoop	hadoop-yarn-api	2.7.4
org.apache.hadoop	hadoop-yarn-client	2.7.4
org.apache.hadoop	hadoop-yarn-common	2.7.4
org.apache.hadoop	hadoop-yarn-server-common	2.7.4
org.apache.hive	hive-beeline	2.3.7
org.apache.hive	hive-cli	2.3.7
org.apache.hive	hive-common	2.3.7
org.apache.hive	hive-exec-core	2.3.7
org.apache.hive	hive-jdbc	2.3.7
org.apache.hive	hive-llap-client	2.3.7
org.apache.hive	hive-llap-common	2.3.7
org.apache.hive	hive-metastore	2.3.7
org.apache.hive	hive-serde	2.3.7
org.apache.hive	hive-shims	2.3.7
org.apache.hive	hive-storage-api	2.7.1
org.apache.hive	hive-vector-code-gen	2.3.7
org.apache.hive.shims	hive-shims-0.23	2.3.7
org.apache.hive.shims	hive-shims-common	2.3.7
org.apache.hive.shims	hive-shims-scheduler	2.3.7
org.apache.htrace	htrace-core	3.1.0-incubating
org.apache.httpcomponents	httpclient	4.5.6
org.apache.httpcomponents	httpcore	4.4.12
org.apache.ivy	ivy	2.4.0
org.apache.orc	orc-core	1.5.10
org.apache.orc	orc-mapreduce	1.5.10
org.apache.orc	orc-shims	1.5.10
org.apache.parquet	parquet-column	1.10.1.2-databricks4
org.apache.parquet	parquet-common	1.10.1.2-databricks4
org.apache.parquet	parquet-encoding	1.10.1.2-databricks4
org.apache.parquet	parquet-format	2.4.0
org.apache.parquet	parquet-hadoop	1.10.1.2-databricks4
org.apache.parquet	parquet-jackson	1.10.1.2-databricks4
org.apache.thrift	libfb303	0.9.3
org.apache.thrift	libthrift	0.12.0
org.apache.velocity	velocity	1.5
org.apache.xbean	xbean-asm7-shaded	4.15
org.apache.yetus	audience-annotations	0.5.0
org.apache.zookeeper	zookeeper	3.4.14
org.codehaus.jackson	jackson-core-asl	1.9.13
org.codehaus.jackson	jackson-jaxrs	1.9.13
org.codehaus.jackson	jackson-mapper-asl	1.9.13
org.codehaus.jackson	jackson-xc	1.9.13
org.codehaus.janino	commons-compiler	3.0.16
org.codehaus.janino	janino	3.0.16
org.datanucleus	datanucleus-api-jdo	4.2.4
org.datanucleus	datanucleus-core	4.1.17
org.datanucleus	datanucleus-rdbms	4.1.19
org.datanucleus	javax.jdo	3.2.0-m3
org.eclipse.jetty	jetty-client	9.4.18.v20190429
org.eclipse.jetty	jetty-continuation	9.4.18.v20190429
org.eclipse.jetty	jetty-http	9.4.18.v20190429
org.eclipse.jetty	jetty-io	9.4.18.v20190429
org.eclipse.jetty	jetty-jndi	9.4.18.v20190429
org.eclipse.jetty	jetty-plus	9.4.18.v20190429
org.eclipse.jetty	jetty-proxy	9.4.18.v20190429
org.eclipse.jetty	jetty-security	9.4.18.v20190429
org.eclipse.jetty	jetty-server	9.4.18.v20190429
org.eclipse.jetty	jetty-servlet	9.4.18.v20190429
org.eclipse.jetty	jetty-servlets	9.4.18.v20190429
org.eclipse.jetty	jetty-util	9.4.18.v20190429
org.eclipse.jetty	jetty-webapp	9.4.18.v20190429
org.eclipse.jetty	jetty-xml	9.4.18.v20190429
org.fusesource.leveldbjni	leveldbjni-all	1.8
org.glassfish.hk2	hk2-api	2.6.1
org.glassfish.hk2	hk2-locator	2.6.1
org.glassfish.hk2	hk2-utils	2.6.1
org.glassfish.hk2	osgi-resource-locator	1.0.3
org.glassfish.hk2.external	aopalliance-repackaged	2.6.1
org.glassfish.hk2.external	jakarta.inject	2.6.1
org.glassfish.jersey.containers	jersey-container-servlet	2.30
org.glassfish.jersey.containers	jersey-container-servlet-core	2.30
org.glassfish.jersey.core	jersey-client	2.30
org.glassfish.jersey.core	jersey-common	2.30
org.glassfish.jersey.core	jersey-server	2.30
org.glassfish.jersey.inject	jersey-hk2	2.30
org.glassfish.jersey.media	jersey-media-jaxb	2.30
org.hibernate.validator	hibernate-validator	6.1.0.Final
org.javassist	javassist	3.25.0-GA
org.jboss.logging	jboss-logging	3.3.2.Final
org.jdbi	jdbi	2.63.1
org.joda	joda-convert	1.7
org.jodd	jodd-core	3.5.2
org.json4s	json4s-ast_2.12	3.6.6
org.json4s	json4s-core_2.12	3.6.6
org.json4s	json4s-jackson_2.12	3.6.6
org.json4s	json4s-scalap_2.12	3.6.6
org.lz4	lz4-java	1.7.1
org.mariadb.jdbc	mariadb-java-client	2.1.2
org.objenesis	objenesis	2.5.1
org.postgresql	postgresql	42.1.4
org.roaringbitmap	RoaringBitmap	0.7.45
org.roaringbitmap	shims	0.7.45
org.rocksdb	rocksdbjni	6.2.2
org.rosuda.REngine	REngine	2.1.0
org.scala-lang	scala-compiler_2.12	2.12.10
org.scala-lang	scala-library_2.12	2.12.10
org.scala-lang	scala-reflect_2.12	2.12.10
org.scala-lang.modules	scala-collection-compat_2.12	2.1.1
org.scala-lang.modules	scala-parser-combinators_2.12	1.1.2
org.scala-lang.modules	scala-xml_2.12	1.2.0
org.scala-sbt	test-interface	1.0
org.scalacheck	scalacheck_2.12	1.14.2
org.scalactic	scalactic_2.12	3.0.8
org.scalanlp	breeze-macros_2.12	1.0
org.scalanlp	breeze_2.12	1.0
org.scalatest	scalatest_2.12	3.0.8
org.slf4j	jcl-over-slf4j	1.7.30
org.slf4j	jul-to-slf4j	1.7.30
org.slf4j	slf4j-api	1.7.30
org.slf4j	slf4j-log4j12	1.7.30
org.spark-project.spark	unused	1.0.0
org.springframework	spring-core	4.1.4.RELEASE
org.springframework	spring-test	4.1.4.RELEASE
org.threeten	threeten-extra	1.5.0
org.tukaani	xz	1.5
org.typelevel	algebra_2.12	2.0.0-M2
org.typelevel	cats-kernel_2.12	2.0.0-M4
org.typelevel	machinist_2.12	0.6.8
org.typelevel	macro-compat_2.12	1.1.1
org.typelevel	spire-macros_2.12	0.17.0-M1
org.typelevel	spire-platform_2.12	0.17.0-M1
org.typelevel	spire-util_2.12	0.17.0-M1
org.typelevel	spire_2.12	0.17.0-M1
org.xerial	sqlite-jdbc	3.8.11.2
org.xerial.snappy	snappy-java	1.1.7.5
org.yaml	snakeyaml	1.24
oro	oro	2.0.8
pl.edu.icm	JLargeArrays	1.5
software.amazon.ion	ion-java	1.0.2
stax	stax-api	1.0.1
xmlenc	xmlenc	0.52

Partager via

Databricks Runtime 7.0 (EoS)

Nouvelles fonctionnalités

Améliorations

Principaux changements de bibliothèque

Packages Python

Packages R

Bibliothèques Java et Scala

Changements de comportement

Changements de comportement de Spark

Autres changements de comportement

Désapprobations et suppressions

Apache Spark

Dans cette section :

Core, Spark SQL, Structured Streaming

Points forts

Une amélioration du niveau de performance

Améliorations de l’extensibilité

Améliorations des connecteurs

Améliorations de la fonctionnalité

Améliorations de la compatibilité SQL

Améliorations du monitoring et de la capacité de débogage

Améliorations apportées à PySpark

Amélioration de la documentation et de la couverture des tests

Autres changements notables

Changements de comportement pour Spark Core, Spark SQL et Structured Streaming

MLlib

Points forts

Changements de comportement pour MLlib

SparkR

Changements de comportement pour SparkR

Dépréciations

Problèmes connus

Mises à jour de maintenance

Environnement du système

Bibliothèques Python installées

Bibliothèques R installées

Bibliothèques Java et Scala installées (version de cluster Scala 2.12)

Commentaires

Ressources supplémentaires