Databricks Runtime 7.0 (EoS)
Remarque
La prise en charge de cette version databricks Runtime a pris fin. Pour connaître la date de fin de support, consultez l’historique de fin de support. Pour toutes les versions prises en charge de Databricks Runtime, consultez Notes de publication sur les versions et la compatibilité de Databricks Runtime.
Databricks a publié cette version en juin 2020.
Les notes de publication suivantes fournissent des informations sur Databricks Runtime 7.0, alimenté par Apache Spark 3.0.
Nouvelles fonctionnalités
Databricks Runtime 7.0 comprend les nouvelles fonctionnalités suivantes :
Scala 2.12
Databricks Runtime 7.0 met à niveau Scala de la version 2.11.12 vers la version 2.12.10. La liste des changements entre les versions 2.12 et 2.11 de Scala se trouve dans les notes de publication de Scala 2.12.0.
Auto Loader (Préversion publique), lancé dans Databricks Runtime 6.4, a été amélioré dans Databricks Runtime 7.0.
Auto Loader vous offre un moyen plus efficace de traiter les nouveaux fichiers de données de manière incrémentielle au fur et à mesure qu’ils arrivent dans un magasin d’objets blob dans le cloud pendant l’ETL. Il s’agit d’une amélioration par rapport au streaming structuré basé sur des fichiers, qui identifie les nouveaux fichiers en répertoriant de façon répétée l’annuaire cloud et en suivant les fichiers qui ont été vus, ce qui peut s’avérer très inefficace à mesure que l’annuaire s’agrandit. Le chargeur automatique est également plus pratique et efficace que le streaming structuré basé sur les notifications de fichiers, qui nécessite la configuration manuelle des services de notification de fichiers sur le cloud et ne permet pas de renvoyer des fichiers existants. Pour plus d’informations, consultez Qu’est-ce que Auto Loader ?.
Sur Databricks Runtime 7.0, vous n’avez plus besoin de demander une image Databricks Runtime personnalisée pour utiliser Auto Loader.
COPY INTO
(Préversion publique), qui vous permet de charger des données dans Delta Lake avec des nouvelles tentatives idempotentes, a été améliorée dans Databricks Runtime 7.0Publiée en tant que Préversion publique dans Databricks Runtime 6.4, la commande SQL
COPY INTO
vous permet de charger des données dans Delta Lake avec des nouvelles tentatives idempotentes. Aujourd’hui, pour charger des données dans Delta Lake, vous devez utiliser les API DataFrame Apache Spark. En cas d’échec lors des chargements, vous devez les gérer efficacement. La nouvelle commandeCOPY INTO
fournit une interface déclarative familière pour charger des données en SQL. La commande garde la trace des fichiers précédemment chargés et vous pouvez la réexécuter en toute sécurité en cas d’échec. Pour plus d’informations, consultez COPY INTO.
Améliorations
Le connecteur Azure Synapse (anciennement SQL Data Warehouse) prend en charge l’instruction
COPY
.Le principal avantage de
COPY
est que les utilisateurs moins privilégiés peuvent écrire des données dans Azure Synapse sans avoir besoin d’autorisationsCONTROL
strictes sur Azure Synapse.La commande magic
%matplotlib inline
n’est plus nécessaire pour afficher les objets Matplolib inclus dans les cellules du notebook. Ils sont toujours affichés inclus par défaut.Les figures Matplotlib sont maintenant affichées avec
transparent=False
, de sorte que les arrière-plans spécifiés par l’utilisateur ne sont pas perdus. Ce comportement peut être remplacé en définissant la configuration Sparkspark.databricks.workspace.matplotlib.transparent true
.Lors de l’exécution de travaux de production Structured Streaming sur des clusters en mode Concurrence élevée, le redémarrage d’un travail pouvait parfois échouer, car le travail précédemment exécuté n’était pas terminé correctement. Databricks Runtime 6.3 a introduit la possibilité de définir la configuration SQL
spark.sql.streaming.stopActiveRunOnRestart true
sur votre cluster pour garantir l’arrêt de l’exécution précédente. Cette configuration est définie par défaut dans Databricks Runtime 7.0.
Principaux changements de bibliothèque
Packages Python
Mise à niveau des principaux packages Python :
- boto3 1.9.162 -> 1.12.0
- matplotlib 3.0.3 -> 3.1.3
- numpy 1.16.2 -> 1.18.1
- pandas 0.24.2 -> 1.0.1
- pip 19.0.3 -> 20.0.2
- pyarrow 0.13.0 -> 0.15.1
- psycopg2 2.7.6 -> 2.8.4
- scikit-learn 0.20.3 -> 0.22.1
- scipy 1.2.1 -> 1.4.1
- seaborn 0.9.0 -> 0.10.0
Packages Python supprimés :
- boto (utiliser boto3)
- pycurl
Notes
L’environnement Python de Databricks Runtime 7.0 utilise Python 3.7, qui est différent de la version Python installée sur le système Ubuntu : /usr/bin/python
et /usr/bin/python2
sont liés à Python 2.7 et /usr/bin/python3
est lié à Python 3.6.
Packages R
Packages R ajoutés :
- broom
- highr
- isoband
- knitr
- markdown
- modelr
- reprex
- rmarkdown
- rvest
- selectr
- tidyverse
- tinytex
- xfun
Packages R supprimés :
- abind
- bitops
- voiture
- carData
- doMC
- gbm
- h2o
- littler
- lme4
- mapproj
- cartes
- maptools
- MatrixModels
- minqa
- mvtnorm
- nloptr
- openxlsx
- pbkrtest
- pkgKitten
- quantreg
- R.methodsS3
- R.oo
- R.utils
- RcppEigen
- RCurl
- rio
- sp
- SparseM
- statmod
- zip
Bibliothèques Java et Scala
- Mise à niveau de la version d’Apache Hive utilisée pour gérer les fonctions Hive définies par l’utilisateur et Hive SerDe vers la version 2.3.
- Auparavant, les fichiers JAR de Stockage Azure et Key Vault étaient empaquetés dans le cadre de Databricks Runtime, ce qui vous empêchait d’utiliser différentes versions de ces bibliothèques attachées aux clusters. Les classes sous
com.microsoft.azure.storage
etcom.microsoft.azure.keyvault
ne sont plus sur le chemin d’accès des classes dans Databricks Runtime. Si vous dépendez de l’un de ces chemins de classe, vous devez désormais attacher le Kit de développement logiciel (SDK) Stockage Azure ou le SDK Azure Key Vault à vos clusters.
Changements de comportement
Cette section répertorie les changements de comportement entre Databricks Runtime 6.6 et Databricks Runtime 7.0. Vous devez en tenir compte lors de la migration des charges de travail des versions antérieures de Databricks Runtime vers Databricks Runtime 7.0 et versions ultérieures.
Changements de comportement de Spark
Databricks Runtime 7.0 étant la première version de Databricks Runtime qui repose sur Spark 3.0, il existe de nombreux changements dont vous devez être conscient lorsque vous migrez des charges de travail de Databricks Runtime 5.5 LTS ou 6.x, qui reposent sur Spark 2.4. Ces changements sont listés dans la section « Changements de comportement » de chaque domaine fonctionnel dans la section Apache Spark de cet article relatif aux notes de publication :
- Changements de comportement pour Spark Core, Spark SQL et Structured Streaming
- Changements de comportement pour MLlib
- Changements de comportement pour SparkR
Autres changements de comportement
La mise à niveau vers Scala 2.12 implique les changements suivants :
La sérialisation des cellules du package est gérée différemment. L’exemple suivant illustre le changement de comportement et la façon de le gérer.
L’exécution de
foo.bar.MyObjectInPackageCell.run()
telle que définie dans la cellule de package suivante déclenchera l’erreurjava.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$
.package foo.bar case class MyIntStruct(int: Int) import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ import org.apache.spark.sql.Column object MyObjectInPackageCell extends Serializable { // Because SparkSession cannot be created in Spark executors, // the following line triggers the error // Could not initialize class foo.bar.MyObjectInPackageCell$ val spark = SparkSession.builder.getOrCreate() def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100)) val theUDF = udf(foo) val df = { val myUDFInstance = theUDF(col("id")) spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance) } def run(): Unit = { df.collect().foreach(println) } }
Pour contourner cette erreur, vous pouvez envelopper
MyObjectInPackageCell
dans une classe sérialisable.Certains cas d’utilisation de
DataStreamWriter.foreachBatch
requièrent une mise à jour du code source. Cette modification est due au fait que Scala 2.12 convertit automatiquement les expressions lambda en types SAM et peut provoquer une ambiguïté.Par exemple, le code Scala suivant ne peut pas être compilé :
streams .writeStream .foreachBatch { (df, id) => myFunc(df, id) }
Pour corriger l’erreur de compilation, remplacez
foreachBatch { (df, id) => myFunc(df, id) }
parforeachBatch(myFunc _)
ou utilisez l’API Java explicitement :foreachBatch(new VoidFunction2 ...)
.
Étant donné que la version de Apache Hive utilisée pour gérer les fonctions Hive définies par l’utilisateur et Hive SerDes est mise à niveau vers la version 2.3, deux modifications sont requises :
- L’interface
SerDe
de Hive est remplacée par la classe abstraiteAbstractSerDe
. Pour toute implémentation personnalisée de HiveSerDe
, la migration versAbstractSerDe
est nécessaire. - Le réglage de
spark.sql.hive.metastore.jars
surbuiltin
signifie que le client de metastore Hive 2.3 sera utilisé pour accéder aux metastores de Databricks Runtime 7.0. Si vous avez besoin d’accéder à des metastores externes basés sur Hive 1.2, définissezspark.sql.hive.metastore.jars
sur le dossier qui contient des fichiers JAR Hive 1.2.
- L’interface
Désapprobations et suppressions
- L’index de saut de données a été déprécié dans Databricks Runtime 4.3 et supprimé dans Databricks Runtime 7.0. Nous vous recommandons d’utiliser des tables Delta à la place, qui offrent des capacités de saut de données améliorées.
- Dans Databricks Runtime 7.0, la version sous-jacente d’Apache Spark utilise Scala 2.12. Étant donné que les bibliothèques compilées avec Scala 2.11 peuvent désactiver les clusters Databricks Runtime 7.0. de manière inattendue, les clusters exécutant Databricks Runtime 7.0 et versions ultérieures n’installent pas les bibliothèques configurées pour être installées sur tous les clusters. L’onglet Bibliothèques du cluster affiche un état
Skipped
et un message de dépréciation qui explique les modifications apportées à la gestion des bibliothèques. Toutefois, si vous avez un cluster qui a été créé sur une version antérieure de Databricks Runtime avant que la version 3.20 de la plateforme Azure Databricks soit publiée dans votre espace de travail et que vous modifiez maintenant ce cluster pour utiliser Databricks Runtime 7.0, toutes les bibliothèques qui étaient configurées pour être installées sur tous les clusters seront installées sur ce cluster. Dans ce cas, tous les fichiers JAR incompatibles dans les bibliothèques installées peuvent entraîner la désactivation du cluster. La solution de contournement consiste soit à cloner le cluster, soit à créer un nouveau cluster.
Apache Spark
Databricks Runtime 7.0 comprend Apache Spark 3.0.
Dans cette section :
Core, Spark SQL, Structured Streaming
Points forts
- (Project Hydrogen) Scheduler sensible aux accélérateurs (SPARK-24615)
- Exécution adaptative des requêtes (SPARK-31412)
- Nettoyage de partition dynamique (SPARK-11150)
- API UDF pandas repensée avec des conseils de type (SPARK-28264)
- Interface utilisateur de Structured Streaming (SPARK-29543)
- API de plug-in de catalogue (SPARK-31121)
- Meilleure compatibilité ANSI SQL
Une amélioration du niveau de performance
- Exécution adaptative des requêtes (SPARK-31412)
- Infrastructure de base (SPARK-23128)
- Ajustement du numéro de partition après une lecture aléatoire (SPARK-28177)
- Réutilisation dynamique des sous-requêtes (SPARK-28753)
- Lecteur local de lecture aléatoire (SPARK-28560)
- Optimisation de la jointure asymétrique (SPARK-29544)
- Optimisation de la lecture des blocs de lecture aléatoire contigus (SPARK-9853)
- Nettoyage de partition dynamique (SPARK-11150)
- Autres règles de l’optimiseur
- Règle ReuseSubquery (SPARK-27279)
- Règle PushDownLeftSemiAntiJoin (SPARK-19712)
- Règle PushLeftSemiLeftAntiThroughJoin (SPARK-19712)
- Règle ReplaceNullWithFalse (SPARK-25860)
- Règle Éliminer les tris sans limite dans la sous-requête de Join/Aggregation (SPARK-29343)
- Règle PruneHiveTablePartitions (SPARK-15616)
- Nettoyage des champs imbriqués inutiles de Generate (SPARK-27707)
- Règle RewriteNonCorrelatedExists (SPARK-29800)
- Réduction des coûts de synchronisation du cache de table (SPARK-26917), (SPARK-26617), (SPARK-26548)
- Fractionnement du code d’agrégation en petites fonctions (SPARK-21870)
- Ajout du traitement par lot dans les commandes INSERT et ALTER TABLE ADD PARTITION (SPARK-29938)
Améliorations de l’extensibilité
- API de plug-in de catalogue (SPARK-31121)
- Refactorisation de l’API v2 de la source de données (SPARK-25390)
- Prise en charge des metastores Hive 3.0 et 3.1 (SPARK-27970), (SPARK-24360)
- Extension de l’interface du plug-in Spark au pilote (SPARK-29396)
- Extension du système de métriques Spark avec des métriques définies par l’utilisateur en utilisant des plug-ins d’exécution (SPARK-28091)
- API de développement pour le support étendu du traitement en colonnes (SPARK-27396)
- Migration de source intégrée utilisant DSV2 : Parquet, ORC, CSV, JSON, Kafka, Text, Avro (SPARK-27589)
- Autorise FunctionInjection dans SparkExtensions (SPARK-25560)
- Autorise l’inscription de l’agrégateur en tant qu’UDAF (SPARK-27296)
Améliorations des connecteurs
- Nettoyage des colonnes à l’aide d’expressions non déterministes (SPARK-29768)
- Prise en charge de
spark.sql.statistics.fallBackToHdfs
dans les tables de sources de données (SPARK-25474) - Autorise le nettoyage de partition avec des filtres de sous-requêtes sur la source du fichier (SPARK-26893)
- Évite le pushdown des sous-requêtes dans les filtres de sources de données (SPARK-25482)
- Chargement récursif de données à partir de sources de fichiers (SPARK-27990)
- Parquet/ORC
- Pushdown des prédicats disjonctifs (SPARK-27699)
- Généralisation du nettoyage des colonnes imbriquées (SPARK-25603) et activation par défaut (SPARK-29805)
- Parquet uniquement
- Pushdown des prédicats Parquet pour les champs imbriqués (SPARK-17636)
- ORC uniquement
- Prise en charge du schéma de fusion pour ORC (SPARK-11412)
- Nettoyage des schémas imbriqués pour ORC (SPARK-27034)
- Réduction de la complexité de la conversion des prédicats pour ORC (SPARK-27105, SPARK-28108)
- Mise à niveau d’Apache ORC vers la version 1.5.9 (SPARK-30695)
- CSV
- Prise en charge du pushdown des filtres dans les sources de données CSV (SPARK-30323)
- Hive SerDe
- Aucune inférence de schéma lors de la lecture d’une table Hive SerDe avec une source de données native (SPARK-27119)
- Les commandes CTAS de Hive doivent utiliser la source de données si elle est convertible (SPARK-25271)
- Utilisation de la source de données native pour optimiser l’insertion d’une table Hive partitionnée (SPARK-28573)
- Apache Kafka
- Ajout de la prise en charge des en-têtes Kafka (SPARK-23539)
- Ajout de la prise en charge des jetons de délégation Kafka (SPARK-25501)
- Introduction d’une nouvelle option dans la source Kafka : décalage par timestamp (début/fin) (SPARK-26848)
- Prise en charge de l’option
minPartitions
dans la source de traitement Kafka et la source de streaming v1 (SPARK-30656) - Mise à niveau de Kafka vers la version 2.4.1 (SPARK-31126)
- Nouvelles sources de données intégrées
- Nouvelles sources de données intégrées pour les fichiers binaires (SPARK-25348)
- Nouvelles sources de données de traitement non opérationnel (SPARK-26550) et récepteur de streaming non opérationnel (SPARK-26649)
Améliorations de la fonctionnalité
- [Hydrogen] Scheduler sensible aux accélérateurs (SPARK-24615)
- Introduction d’un ensemble complet de conseils de jointure (SPARK-27225)
- Ajout du conseil
PARTITION BY
pour les requêtes SQL (SPARK-28746) - Gestion des métadonnées dans le serveur Thrift (SPARK-28426)
- Ajout de fonctions d’ordre supérieur à l’API Scala (SPARK-27297)
- Prise en charge d’un contexte simple pour Tout rassembler dans une tâche de cloisonnement (SPARK-30667)
- Prise en charge du type UDT par les UDF de Hive (SPARK-28158)
- Prise en charge des opérateurs DELETE/UPDATE/MERGE dans Catalyst (SPARK-28351, SPARK-28892, SPARK-28893)
- Implémentation de DataFrame.tail (SPARK-30185)
- Nouvelles fonctions intégrées
- sinh, cosh, tanh, asinh, acosh, atanh (SPARK-28133)
- any, every, some (SPARK-19851)
- bit_and, bit_or (SPARK-27879)
- bit_count (SPARK-29491)
- bit_xor (SPARK-29545)
- bool_and, bool_or (SPARK-30184)
- count_if (SPARK-27425)
- date_part (SPARK-28690)
- extract (SPARK-23903)
- forall (SPARK-27905)
- from_csv (SPARK-25393)
- make_date (SPARK-28432)
- make_interval (SPARK-29393)
- make_timestamp (SPARK-28459)
- map_entries (SPARK-23935)
- map_filter (SPARK-23937)
- map_zip_with (SPARK-23938)
- max_by, min_by (SPARK-27653)
- schema_of_csv (SPARK-25672)
- to_csv (SPARK-25638)
- transform_keys (SPARK-23939)
- transform_values (SPARK-23940)
- typeof (SPARK-29961)
- version (SPARK-29554)
- xxhash64 (SPARK-27099)
- Améliorations des fonctions intégrées existantes
- Amélioration des fonctions/opérations DateHeure intégrées (SPARK-31415)
- Prise en charge du mode
FAILFAST
pourfrom_json
(SPARK-25243) array_sort
ajoute un nouveau paramètre de comparaison (SPARK-29020)- Le filtre peut désormais accepter l’index en entrée ainsi que l’élément (SPARK-28962)
Améliorations de la compatibilité SQL
- Passage au calendrier grégorien proleptique (SPARK-26651)
- Création de la propre définition du modèle DateHeure de Spark (SPARK-31408)
- Introduction de la stratégie d’attribution de magasin ANSI pour l’insertion de table (SPARK-28495)
- Suivi de la règle d’attribution de magasin ANSI dans l’insertion de table par défaut (SPARK-28885)
- Ajout d’un SQLConf
spark.sql.ansi.enabled
(SPARK-28989) - Prise en charge de la clause ANSI SQL filter pour l’expression d’agrégation (SPARK-27986)
- Prise en charge de la fonction ANSI SQL
OVERLAY
(SPARK-28077) - Prise en charge des commentaires entre crochets imbriqués ANSI (SPARK-28880)
- Exception en cas de dépassement pour les entiers (SPARK-26218)
- Vérification de dépassement pour les opérations arithmétiques sur les intervalles (SPARK-30341)
- Exception quand une chaîne non valide est castée en type numérique (SPARK-30292)
- Cohérence entre le comportement de dépassement des multiplications et divisions d’intervalles et les autres opérations (SPARK-30919)
- Ajout d’alias de type ANSI pour char et decimal (SPARK-29941)
- L’analyseur SQL définit des mots clés réservés conformes à ANSI (SPARK-26215)
- Interdiction des mots-clés réservés comme identifiants lorsque le mode ANSI est activé (SPARK-26976)
- Prise en charge de la syntaxe ANSI SQL
LIKE ... ESCAPE
(SPARK-28083) - Prise en charge de la syntaxe ANSI SQL Boolean-Predicate (SPARK-27924)
- Meilleure prise en charge du traitement des sous-requêtes corrélées (SPARK-18455)
Améliorations du monitoring et de la capacité de débogage
- Nouvelle interface utilisateur de Structured Streaming (SPARK-29543)
- SHS : Permet aux journaux des événements des applications de streaming en cours d’exécution d’être transférés (SPARK-28594)
- Ajout d’une API qui permet à un utilisateur de définir et d’observer des métriques arbitraires sur des requêtes de traitement et de streaming (SPARK-29345)
- Instrumentation pour le suivi du temps de planification par requête (SPARK-26129)
- Place les métriques de lecture aléatoire de base dans l’opérateur SQL exchange (SPARK-26139)
- L’instruction SQL est affichée dans l’onglet SQL au lieu du site d’appel (SPARK-27045)
- Ajout d’une info-bulle à l’interface utilisateur de Spark (SPARK-29449)
- Amélioration des performances simultanées du serveur d’historique (SPARK-29043)
- Commande
EXPLAIN FORMATTED
(SPARK-27395) - Prise en charge du vidage des plans tronqués et du code généré dans un fichier (SPARK-26023)
- Amélioration de l’infrastructure de description pour décrire la sortie d’une requête (SPARK-26982)
- Ajout de la commande
SHOW VIEWS
(SPARK-31113) - Amélioration des messages d’erreur de l’analyseur SQL (SPARK-27901)
- Prise en charge native du monitoring Prometheus (SPARK-29429)
Améliorations apportées à PySpark
- UDF pandas repensées avec des conseils de type (SPARK-28264)
- Pipeline pour les UDF pandas (SPARK-26412)
- Prise en charge de StructType comme arguments et types de retour pour les UDF pandas scalaires (SPARK-27240)
- Prise en charge du cogroupe DataFrame via des UDF pandas (SPARK-27463)
- Ajout de
mapInPandas
pour autoriser un itérateur de DataFrames (SPARK-28198) - Certaines fonctions SQL doivent également prendre des noms de colonnes (SPARK-26979)
- Rendre les exceptions SQL de PySpark plus typiques de Python (SPARK-31849)
Amélioration de la documentation et de la couverture des tests
- Création d’une référence SQL (SPARK-28588)
- Création d’un guide de l’utilisateur pour l’interface utilisateur web (SPARK-28372)
- Création d’une page de documentation sur la configuration SQL (SPARK-30510)
- Ajout d’informations de version pour la configuration de Spark (SPARK-30839)
- Portage des tests de régression depuis PostgreSQL (SPARK-27763)
- Couverture des tests du serveur Thrift (SPARK-28608)
- Couverture des tests des UDF (UDF Python, UDF pandas, UDF Scala) [SPARK-27921]
Autres changements notables
- Mise à niveau intégrée de l’exécution de Hive de la version 1.2.1 vers la version 2.3.6 (SPARK-23710, SPARK-28723, SPARK-31381)
- Utilisation de la dépendance d’Apache Hive 2.3 par défaut (SPARK-30034)
- Disponibilité générale de Scala 2.12 et suppression de la version 2.11 (SPARK-26132)
- Amélioration de la logique pour la temporisation des exécuteurs dans l’allocation dynamique (SPARK-20286)
- Blocs RDD conservés sur disque pris en charge par le service de lecture aléatoire et ignorés pour l’allocation dynamique (SPARK-27677)
- Acquisition de nouveaux exécuteurs pour éviter les blocages dus à une liste de refus (SPARK-22148)
- Autorise le partage des allocateurs de pools de mémoire de Netty (SPARK-24920)
- Correction du blocage entre
TaskMemoryManager
etUnsafeExternalSorter$SpillableIterator
(SPARK-27338) - Introduction des API
AdmissionControl
pour StructuredStreaming (SPARK-30669) - Amélioration des performances de la page principale de l’historique Spark (SPARK-25973)
- Accélération et réduction de l’agrégation des métriques dans l’écouteur SQL (SPARK-29562)
- Évite le réseau lorsque les blocs de lecture aléatoire sont extraits du même hôte (SPARK-27651)
- Amélioration de la liste de fichiers pour
DistributedFileSystem
(SPARK-27801)
Changements de comportement pour Spark Core, Spark SQL et Structured Streaming
Les guides de migration suivants répertorient les changements de comportement entre les versions 2.4 et 3.0 d’Apache Spark. Ces changements peuvent nécessiter des mises à jour des travaux que vous avez exécutés sur des versions antérieures de Databricks Runtime :
- Guide de migration : Spark Core
- Guide de migration : SQL, jeux de données et DataFrame
- Guide de migration : Structured Streaming
- Guide de migration : PySpark (Python sur Spark)
Les changements de comportement suivants ne sont pas abordés dans ces guides de migration :
- Dans Spark 3.0, la classe déconseillée
org.apache.spark.sql.streaming.ProcessingTime
a été supprimée. Utilisezorg.apache.spark.sql.streaming.Trigger.ProcessingTime
à la place. De même,org.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger
a été supprimé en faveur deTrigger.Continuous
, etorg.apache.spark.sql.execution.streaming.OneTimeTrigger
a été masqué en faveur deTrigger.Once
. (SPARK-28199) - Dans Databricks Runtime 7.0, lors de la lecture d’une table Hive SerDe, Spark interdit par défaut la lecture de fichiers dans un sous-répertoire qui n’est pas une partition de table. Pour l’activer, définissez la configuration
spark.databricks.io.hive.scanNonpartitionedDirectory.enabled
surtrue
. Cela n’affecte pas les lecteurs de fichiers et les lecteurs de fichiers de table natifs Spark.
MLlib
Points forts
- La prise en charge de plusieurs colonnes a été ajoutée à Binarizer (SPARK-23578), StringIndexer (SPARK-11215), StopWordsRemover (SPARK-29808) et PySpark QuantileDiscretizer (SPARK-22796)
- Prise en charge de la transformation de fonctionnalité basée sur l’arborescence (SPARK-13677)
- Ajout de deux nouveaux évaluateurs, MultilabelClassificationEvaluator (SPARK-16692) et RankingEvaluator (SPARK-28045)
- Ajout de la prise en charge d’exemples de poids dans DecisionTreeClassifier/Regressor (SPARK-19591), RandomForestClassifier/Regressor (SPARK-9478), GBTClassifier/Regressor (SPARK-9612), RegressionEvaluator (SPARK-24102), BinaryClassificationEvaluator (SPARK-24103), BisectingKMeans (SPARK-30351), KMeans (SPARK-29967) et GaussianMixture (SPARK-30102)
- Ajout d’une API R pour PowerIterationClustering (SPARK-19827)
- Ajout d’un écouteur Spark ML pour suivre l’état du pipeline ML (SPARK-23674)
- Ajout d’un ajustement avec un ensemble de validation aux arborescences d’amplification de gradient en Python (SPARK-24333)
- Le transformateur RobustScaler a été ajouté (SPARK-28399)
- Le classifieur et le régresseur des machines de factorisation ont été ajoutés (SPARK-29224)
- Ajout de la classification naïve bayésienne de distribution Gaussienne (SPARK-16872) et de la classification naïve bayésienne complémentaire (SPARK-29942)
- Parité des fonctions ML entre Scala et Python (SPARK-28958)
- predictRaw est rendu public dans tous les modèles Classification. predictProbability est rendu public dans tous les modèles Classification, à l’exception de LinearSVCModel (SPARK-30358)
Changements de comportement pour MLlib
Le guide de migration suivant répertorie les changements de comportement entre les versions 2.4 et 3.0 d’Apache Spark. Ces changements peuvent nécessiter des mises à jour des travaux que vous avez exécutés sur des versions antérieures de Databricks Runtime :
Les changements de comportement suivants ne sont pas abordés dans le guide de migration :
- Dans Spark 3.0, une régression logistique multiclasse dans PySpark renverra désormais (correctement)
LogisticRegressionSummary
, et non la sous-classeBinaryLogisticRegressionSummary
. Il existe encore tout de même certains cas pour lesquels les méthodes supplémentaires exposées parBinaryLogisticRegressionSummary
ne fonctionneront pas. (SPARK-31681) - Dans Spark 3.0, Mixins
pyspark.ml.param.shared.Has*
ne fournit plus de méthode setterset*(self, value)
, utilisez plutôt leself.set(self.*, value)
respectif à la place. Pour plus d’informations, consultez SPARK-29093. (SPARK-29093)
SparkR
- Optimisation des flèches dans l’interopérabilité de SparkR (SPARK-26759)
- Amélioration des performances grâce aux fonctions R gapply(), dapply(), createDataFrame, collect() vectorisées
- « Exécution hâtive » pour interpréteur de commandes R, IDE (SPARK-24572)
- API R pour la méthode Power Iteration Clustering (SPARK-19827)
Changements de comportement pour SparkR
Le guide de migration suivant répertorie les changements de comportement entre les versions 2.4 et 3.0 d’Apache Spark. Ces changements peuvent nécessiter des mises à jour des travaux que vous avez exécutés sur des versions antérieures de Databricks Runtime :
Dépréciations
- Dépréciation du support de Python 2 (SPARK-27884)
- Dépréciation du support de R < 3.4 (SPARK-26014)
Problèmes connus
- Le jour de l’analyse de l’année à l’aide de la lettre « d » renvoie un résultat incorrect si le champ Year est manquant. Cela peut se produire dans des fonctions SQL comme
to_timestamp
, qui analyse la chaîne DateHeure en valeurs DateHeure à l’aide d’une chaîne de modèle. (SPARK-31939) - Join/Window/Aggregate dans les sous-requêtes peut entraîner des résultats incorrects si les clés ont les valeurs -0.0 et 0.0. (SPARK-31958)
- Une requête de fenêtre peut échouer avec une erreur de jointure réflexive ambiguë de manière inattendue. (SPARK-31956)
- Les requêtes de diffusion en continu avec un opérateur
dropDuplicates
ne pourront peut-être pas redémarrer avec le point de contrôle écrit par Spark 2.x. (SPARK-31990)
Mises à jour de maintenance
Voir Mises à jour de maintenance de Databricks Runtime 7.0.
Environnement du système
- Système d’exploitation : Ubuntu 18.04.4 LTS
- Java : 1.8.0_252
- Scala : 2.12.10
- Python : 3.7.5
- R : R version 3.6.3 (2020-02-29)
- Delta Lake 0.7.0
Bibliothèques Python installées
Bibliothèque | Version | Bibliothèque | Version | Bibliothèque | Version |
---|---|---|---|---|---|
asn1crypto | 1.3.0 | backcall | 0.1.0 | boto3 | 1.12.0 |
botocore | 1.15.0 | certifi | 2020.4.5 | cffi | 1.14.0 |
chardet | 3.0.4 | chiffrement | 2.8 | cycler | 0.10.0 |
Cython | 0.29.15 | decorator | 4.4.1 | docutils | 0.15.2 |
entrypoints | 0.3 | idna | 2.8 | ipykernel | 5.1.4 |
ipython | 7.12.0 | ipython-genutils | 0.2.0 | jedi | 0.14.1 |
jmespath | 0.9.4 | joblib | 0.14.1 | jupyter-client | 5.3.4 |
jupyter-core | 4.6.1 | kiwisolver | 1.1.0 | matplotlib | 3.1.3 |
numpy | 1.18.1 | pandas | 1.0.1 | parso | 0.5.2 |
patsy | 0.5.1 | pexpect | 4.8.0 | pickleshare | 0.7.5 |
pip | 20.0.2 | prompt-toolkit | 3.0.3 | psycopg2 | 2.8.4 |
ptyprocess | 0.6.0 | pyarrow | 0.15.1 | pycparser | 2.19 |
Pygments | 2.5.2 | PyGObject | 3.26.1 | pyOpenSSL | 19.1.0 |
pyparsing | 2.4.6 | PySocks | 1.7.1 | python-apt | 1.6.5+ubuntu0.3 |
python-dateutil | 2.8.1 | pytz | 2019.3 | pyzmq | 18.1.1 |
requêtes | 2.22.0 | s3transfer | 0.3.3 | scikit-learn | 0.22.1 |
scipy | 1.4.1 | seaborn | 0.10.0 | setuptools | 45.2.0 |
six | 1.14.0 | ssh-import-id | 5.7 | statsmodels | 0.11.0 |
tornado | 6.0.3 | traitlets | 4.3.3 | unattended-upgrades | 0.1 |
urllib3 | 1.25.8 | virtualenv | 16.7.10 | wcwidth | 0.1.8 |
wheel | 0.34.2 |
Bibliothèques R installées
Les bibliothèques R sont installées à partir de l’instantané CRAN de Microsoft du 22/04/2020.
Bibliothèque | Version | Bibliothèque | Version | Bibliothèque | Version |
---|---|---|---|---|---|
askpass | 1.1 | assertthat | 0.2.1 | backports | 1.1.6 |
base | 3.6.3 | base64enc | 0.1-3 | BH | 1.72.0-3 |
bit | 1.1-15.2 | bit64 | 0.9-7 | objet BLOB | 1.2.1 |
boot | 1.3-25 | brew | 1.0-6 | broom | 0.5.6 |
callr | 3.4.3 | caret | 6.0-86 | cellranger | 1.1.0 |
chron | 2.3-55 | class | 7.3-17 | cli | 2.0.2 |
clipr | 0.7.0 | cluster | 2.1.0 | codetools | 0.2-16 |
colorspace | 1.4-1 | commonmark | 1.7 | compiler | 3.6.3 |
config | 0.3 | covr | 3.5.0 | crayon | 1.3.4 |
crosstalk | 1.1.0.1 | curl | 4.3 | data.table | 1.12.8 |
jeux de données | 3.6.3 | DBI | 1.1.0 | dbplyr | 1.4.3 |
desc | 1.2.0 | devtools | 2.3.0 | digest | 0.6.25 |
dplyr | 0.8.5 | DT | 0,13 | ellipsis | 0.3.0 |
evaluate | 0.14 | fansi | 0.4.1 | farver | 2.0.3 |
fastmap | 1.0.1 | forcats | 0.5.0 | foreach | 1.5.0 |
foreign | 0.8-76 | forge | 0.2.0 | fs | 1.4.1 |
generics | 0.0.2 | ggplot2 | 3.3.0 | gh | 1.1.0 |
git2r | 0.26.1 | glmnet | 3.0-2 | globals | 0.12.5 |
glue | 1.4.0 | gower | 0.2.1 | graphics | 3.6.3 |
grDevices | 3.6.3 | grid | 3.6.3 | gridExtra | 2.3 |
gsubfn | 0.7 | gtable | 0.3.0 | haven | 2.2.0 |
highr | 0,8 | hms | 0.5.3 | htmltools | 0.4.0 |
htmlwidgets | 1.5.1 | httpuv | 1.5.2 | httr | 1.4.1 |
hwriter | 1.3.2 | hwriterPlus | 1.0-3 | ini | 0.3.1 |
ipred | 0.9-9 | isoband | 0.2.1 | iterators | 1.0.12 |
jsonlite | 1.6.1 | KernSmooth | 2.23-17 | knitr | 1.28 |
labeling | 0.3 | later | 1.0.0 | lattice | 0.20-41 |
lava | 1.6.7 | lazyeval | 0.2.2 | cycle de vie | 0.2.0 |
lubridate | 1.7.8 | magrittr | 1.5 | markdown | 1.1 |
MASS | 7.3-51.6 | Matrice | 1.2-18 | memoise | 1.1.0 |
methods | 3.6.3 | mgcv | 1.8-31 | mime | 0.9 |
ModelMetrics | 1.2.2.2 | modelr | 0.1.6 | munsell | 0.5.0 |
nlme | 3.1-147 | nnet | 7.3-14 | numDeriv | 2016.8-1.1 |
openssl | 1.4.1 | parallel | 3.6.3 | pillar | 1.4.3 |
pkgbuild | 1.0.6 | pkgconfig | 2.0.3 | pkgload | 1.0.2 |
plogr | 0.2.0 | plyr | 1.8.6 | praise | 1.0.0 |
prettyunits | 1.1.1 | pROC | 1.16.2 | processx | 3.4.2 |
prodlim | 2019.11.13 | progress | 1.2.2 | promises | 1.1.0 |
proto | 1.0.0 | ps | 1.3.2 | purrr | 0.3.4 |
r2d3 | 0.2.3 | R6 | 2.4.1 | randomForest | 4.6-14 |
rappdirs | 0.3.1 | rcmdcheck | 1.3.3 | RColorBrewer | 1.1-2 |
Rcpp | 1.0.4.6 | readr | 1.3.1 | readxl | 1.3.1 |
recipes | 0.1.10 | rematch | 1.0.1 | rematch2 | 2.1.1 |
remotes | 2.1.1 | reprex | 0.3.0 | reshape2 | 1.4.4 |
rex | 1.2.0 | rjson | 0.2.20 | rlang | 0.4.5 |
rmarkdown | 2.1 | RODBC | 1.3-16 | roxygen2 | 7.1.0 |
rpart | 4.1-15 | rprojroot | 1.3-2 | Rserve | 1.8-6 |
RSQLite | 2.2.0 | rstudioapi | 0.11 | rversions | 2.0.1 |
rvest | 0.3.5 | scales | 1.1.0 | selectr | 0.4-2 |
sessioninfo | 1.1.1 | shape | 1.4.4 | shiny | 1.4.0.2 |
sourcetools | 0.1.7 | sparklyr | 1.2.0 | SparkR | 3.0.0 |
spatial | 7.3-11 | splines | 3.6.3 | sqldf | 0.4-11 |
SQUAREM | 2020.2 | stats | 3.6.3 | stats4 | 3.6.3 |
stringi | 1.4.6 | stringr | 1.4.0 | survival | 3.1-12 |
sys | 3.3 | tcltk | 3.6.3 | TeachingDemos | 2,10 |
testthat | 2.3.2 | tibble | 3.0.1 | tidyr | 1.0.2 |
tidyselect | 1.0.0 | tidyverse | 1.3.0 | timeDate | 3043.102 |
tinytex | 0,22 | tools | 3.6.3 | usethis | 1.6.0 |
utf8 | 1.1.4 | utils | 3.6.3 | vctrs | 0.2.4 |
viridisLite | 0.3.0 | whisker | 0,4 | withr | 2.2.0 |
xfun | 0,13 | xml2 | 1.3.1 | xopen | 1.0.0 |
xtable | 1.8-4 | yaml | 2.2.1 |
Bibliothèques Java et Scala installées (version de cluster Scala 2.12)
ID de groupe | ID d’artefact | Version |
---|---|---|
antlr | antlr | 2.7.7 |
com.amazonaws | amazon-kinesis-client | 1.12.0 |
com.amazonaws | aws-java-sdk-autoscaling | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudformation | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudfront | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudhsm | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudsearch | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudtrail | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudwatch | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudwatchmetrics | 1.11.655 |
com.amazonaws | aws-java-sdk-codedeploy | 1.11.655 |
com.amazonaws | aws-java-sdk-cognitoidentity | 1.11.655 |
com.amazonaws | aws-java-sdk-cognitosync | 1.11.655 |
com.amazonaws | aws-java-sdk-config | 1.11.655 |
com.amazonaws | aws-java-sdk-core | 1.11.655 |
com.amazonaws | aws-java-sdk-datapipeline | 1.11.655 |
com.amazonaws | aws-java-sdk-directconnect | 1.11.655 |
com.amazonaws | aws-java-sdk-directory | 1.11.655 |
com.amazonaws | aws-java-sdk-dynamodb | 1.11.655 |
com.amazonaws | aws-java-sdk-ec2 | 1.11.655 |
com.amazonaws | aws-java-sdk-ecs | 1.11.655 |
com.amazonaws | aws-java-sdk-efs | 1.11.655 |
com.amazonaws | aws-java-sdk-elasticache | 1.11.655 |
com.amazonaws | aws-java-sdk-elasticbeanstalk | 1.11.655 |
com.amazonaws | aws-java-sdk-elasticloadbalancing | 1.11.655 |
com.amazonaws | aws-java-sdk-elastictranscoder | 1.11.655 |
com.amazonaws | aws-java-sdk-emr | 1.11.655 |
com.amazonaws | aws-java-sdk-glacier | 1.11.655 |
com.amazonaws | aws-java-sdk-iam | 1.11.655 |
com.amazonaws | aws-java-sdk-importexport | 1.11.655 |
com.amazonaws | aws-java-sdk-kinesis | 1.11.655 |
com.amazonaws | aws-java-sdk-kms | 1.11.655 |
com.amazonaws | aws-java-sdk-lambda | 1.11.655 |
com.amazonaws | aws-java-sdk-logs | 1.11.655 |
com.amazonaws | aws-java-sdk-machinelearning | 1.11.655 |
com.amazonaws | aws-java-sdk-opsworks | 1.11.655 |
com.amazonaws | aws-java-sdk-rds | 1.11.655 |
com.amazonaws | aws-java-sdk-redshift | 1.11.655 |
com.amazonaws | aws-java-sdk-route53 | 1.11.655 |
com.amazonaws | aws-java-sdk-s3 | 1.11.655 |
com.amazonaws | aws-java-sdk-ses | 1.11.655 |
com.amazonaws | aws-java-sdk-simpledb | 1.11.655 |
com.amazonaws | aws-java-sdk-simpleworkflow | 1.11.655 |
com.amazonaws | aws-java-sdk-sns | 1.11.655 |
com.amazonaws | aws-java-sdk-sqs | 1.11.655 |
com.amazonaws | aws-java-sdk-ssm | 1.11.655 |
com.amazonaws | aws-java-sdk-storagegateway | 1.11.655 |
com.amazonaws | aws-java-sdk-sts | 1.11.655 |
com.amazonaws | aws-java-sdk-support | 1.11.655 |
com.amazonaws | aws-java-sdk-swf-libraries | 1.11.22 |
com.amazonaws | aws-java-sdk-workspaces | 1.11.655 |
com.amazonaws | jmespath-java | 1.11.655 |
com.chuusai | shapeless_2.12 | 2.3.3 |
com.clearspring.analytics | flux | 2.9.6 |
com.databricks | Rserve | 1.8-3 |
com.databricks | jets3t | 0.7.1-0 |
com.databricks.scalapb | compilerplugin_2.12 | 0.4.15-10 |
com.databricks.scalapb | scalapb-runtime_2.12 | 0.4.15-10 |
com.esotericsoftware | kryo-shaded | 4.0.2 |
com.esotericsoftware | minlog | 1.3.0 |
com.fasterxml | classmate | 1.3.4 |
com.fasterxml.jackson.core | jackson-annotations | 2.10.0 |
com.fasterxml.jackson.core | jackson-core | 2.10.0 |
com.fasterxml.jackson.core | jackson-databind | 2.10.0 |
com.fasterxml.jackson.dataformat | jackson-dataformat-cbor | 2.10.0 |
com.fasterxml.jackson.datatype | jackson-datatype-joda | 2.10.0 |
com.fasterxml.jackson.module | jackson-module-paranamer | 2.10.0 |
com.fasterxml.jackson.module | jackson-module-scala_2.12 | 2.10.0 |
com.github.ben-manes.caffeine | caffeine | 2.3.4 |
com.github.fommil | jniloader | 1.1 |
com.github.fommil.netlib | core | 1.1.2 |
com.github.fommil.netlib | native_ref-java | 1.1 |
com.github.fommil.netlib | native_ref-java-natives | 1.1 |
com.github.fommil.netlib | native_system-java | 1.1 |
com.github.fommil.netlib | native_system-java-natives | 1.1 |
com.github.fommil.netlib | netlib-native_ref-linux-x86_64-natives | 1.1 |
com.github.fommil.netlib | netlib-native_system-linux-x86_64-natives | 1.1 |
com.github.joshelser | dropwizard-metrics-hadoop-metrics2-reporter | 0.1.2 |
com.github.luben | zstd-jni | 1.4.4-3 |
com.github.wendykierp | JTransforms | 3.1 |
com.google.code.findbugs | jsr305 | 3.0.0 |
com.google.code.gson | gson | 2.2.4 |
com.google.flatbuffers | flatbuffers-java | 1.9.0 |
com.google.guava | guava | 15.0 |
com.google.protobuf | protobuf-java | 2.6.1 |
com.h2database | h2 | 1.4.195 |
com.helger | profiler | 1.1.1 |
com.jcraft | jsch | 0.1.50 |
com.jolbox | bonecp | 0.8.0.RELEASE |
com.microsoft.azure | azure-data-lake-store-sdk | 2.2.8 |
com.microsoft.sqlserver | mssql-jdbc | 8.2.1.jre8 |
com.ning | compress-lzf | 1.0.3 |
com.sun.mail | javax.mail | 1.5.2 |
com.tdunning | json | 1.8 |
com.thoughtworks.paranamer | paranamer | 2.8 |
com.trueaccord.lenses | lenses_2.12 | 0.4.12 |
com.twitter | chill-java | 0.9.5 |
com.twitter | chill_2.12 | 0.9.5 |
com.twitter | util-app_2.12 | 7.1.0 |
com.twitter | util-core_2.12 | 7.1.0 |
com.twitter | util-function_2.12 | 7.1.0 |
com.twitter | util-jvm_2.12 | 7.1.0 |
com.twitter | util-lint_2.12 | 7.1.0 |
com.twitter | util-registry_2.12 | 7.1.0 |
com.twitter | util-stats_2.12 | 7.1.0 |
com.typesafe | config | 1.2.1 |
com.typesafe.scala-logging | scala-logging_2.12 | 3.7.2 |
com.univocity | univocity-parsers | 2.8.3 |
com.zaxxer | HikariCP | 3.1.0 |
commons-beanutils | commons-beanutils | 1.9.4 |
commons-cli | commons-cli | 1.2 |
commons-codec | commons-codec | 1,10 |
commons-collections | commons-collections | 3.2.2 |
commons-configuration | commons-configuration | 1.6 |
commons-dbcp | commons-dbcp | 1.4 |
commons-digester | commons-digester | 1.8 |
commons-fileupload | commons-fileupload | 1.3.3 |
commons-httpclient | commons-httpclient | 3.1 |
commons-io | commons-io | 2.4 |
commons-lang | commons-lang | 2.6 |
commons-logging | commons-logging | 1.1.3 |
commons-net | commons-net | 3.1 |
commons-pool | commons-pool | 1.5.4 |
info.ganglia.gmetric4j | gmetric4j | 1.0.10 |
io.airlift | aircompressor | 0.10 |
io.dropwizard.metrics | metrics-core | 4.1.1 |
io.dropwizard.metrics | metrics-graphite | 4.1.1 |
io.dropwizard.metrics | metrics-healthchecks | 4.1.1 |
io.dropwizard.metrics | metrics-jetty9 | 4.1.1 |
io.dropwizard.metrics | metrics-jmx | 4.1.1 |
io.dropwizard.metrics | metrics-json | 4.1.1 |
io.dropwizard.metrics | metrics-jvm | 4.1.1 |
io.dropwizard.metrics | metrics-servlets | 4.1.1 |
io.netty | netty-all | 4.1.47.Final |
jakarta.annotation | jakarta.annotation-api | 1.3.5 |
jakarta.validation | jakarta.validation-api | 2.0.2 |
jakarta.ws.rs | jakarta.ws.rs-api | 2.1.6 |
javax.activation | activation | 1.1.1 |
javax.el | javax.el-api | 2.2.4 |
javax.jdo | jdo-api | 3.0.1 |
javax.servlet | javax.servlet-api | 3.1.0 |
javax.servlet.jsp | jsp-api | 2.1 |
javax.transaction | jta | 1.1 |
javax.transaction | transaction-api | 1.1 |
javax.xml.bind | jaxb-api | 2.2.2 |
javax.xml.stream | stax-api | 1.0-2 |
javolution | javolution | 5.5.1 |
jline | jline | 2.14.6 |
joda-time | joda-time | 2.10.5 |
log4j | apache-log4j-extras | 1.2.17 |
log4j | log4j | 1.2.17 |
net.razorvine | pyrolite | 4.30 |
net.sf.jpam | jpam | 1.1 |
net.sf.opencsv | opencsv | 2.3 |
net.sf.supercsv | super-csv | 2.2.0 |
net.snowflake | snowflake-ingest-sdk | 0.9.6 |
net.snowflake | snowflake-jdbc | 3.12.0 |
net.snowflake | spark-snowflake_2.12 | 2.5.9-spark_2.4 |
net.sourceforge.f2j | arpack_combined_all | 0.1 |
org.acplt.remotetea | remotetea-oncrpc | 1.1.2 |
org.antlr | ST4 | 4.0.4 |
org.antlr | antlr-runtime | 3.5.2 |
org.antlr | antlr4-runtime | 4.7.1 |
org.antlr | stringtemplate | 3.2.1 |
org.apache.ant | ant | 1.9.2 |
org.apache.ant | ant-jsch | 1.9.2 |
org.apache.ant | ant-launcher | 1.9.2 |
org.apache.arrow | arrow-format | 0.15.1 |
org.apache.arrow | arrow-memory | 0.15.1 |
org.apache.arrow | arrow-vector | 0.15.1 |
org.apache.avro | avro | 1.8.2 |
org.apache.avro | avro-ipc | 1.8.2 |
org.apache.avro | avro-mapred-hadoop2 | 1.8.2 |
org.apache.commons | commons-compress | 1.8.1 |
org.apache.commons | commons-crypto | 1.0.0 |
org.apache.commons | commons-lang3 | 3.9 |
org.apache.commons | commons-math3 | 3.4.1 |
org.apache.commons | commons-text | 1.6 |
org.apache.curator | curator-client | 2.7.1 |
org.apache.curator | curator-framework | 2.7.1 |
org.apache.curator | curator-recipes | 2.7.1 |
org.apache.derby | derby | 10.12.1.1 |
org.apache.directory.api | api-asn1-api | 1.0.0-M20 |
org.apache.directory.api | api-util | 1.0.0-M20 |
org.apache.directory.server | apacheds-i18n | 2.0.0-M15 |
org.apache.directory.server | apacheds-kerberos-codec | 2.0.0-M15 |
org.apache.hadoop | hadoop-annotations | 2.7.4 |
org.apache.hadoop | hadoop-auth | 2.7.4 |
org.apache.hadoop | hadoop-client | 2.7.4 |
org.apache.hadoop | hadoop-common | 2.7.4 |
org.apache.hadoop | hadoop-hdfs | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-app | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-common | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-core | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-jobclient | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-shuffle | 2.7.4 |
org.apache.hadoop | hadoop-yarn-api | 2.7.4 |
org.apache.hadoop | hadoop-yarn-client | 2.7.4 |
org.apache.hadoop | hadoop-yarn-common | 2.7.4 |
org.apache.hadoop | hadoop-yarn-server-common | 2.7.4 |
org.apache.hive | hive-beeline | 2.3.7 |
org.apache.hive | hive-cli | 2.3.7 |
org.apache.hive | hive-common | 2.3.7 |
org.apache.hive | hive-exec-core | 2.3.7 |
org.apache.hive | hive-jdbc | 2.3.7 |
org.apache.hive | hive-llap-client | 2.3.7 |
org.apache.hive | hive-llap-common | 2.3.7 |
org.apache.hive | hive-metastore | 2.3.7 |
org.apache.hive | hive-serde | 2.3.7 |
org.apache.hive | hive-shims | 2.3.7 |
org.apache.hive | hive-storage-api | 2.7.1 |
org.apache.hive | hive-vector-code-gen | 2.3.7 |
org.apache.hive.shims | hive-shims-0.23 | 2.3.7 |
org.apache.hive.shims | hive-shims-common | 2.3.7 |
org.apache.hive.shims | hive-shims-scheduler | 2.3.7 |
org.apache.htrace | htrace-core | 3.1.0-incubating |
org.apache.httpcomponents | httpclient | 4.5.6 |
org.apache.httpcomponents | httpcore | 4.4.12 |
org.apache.ivy | ivy | 2.4.0 |
org.apache.orc | orc-core | 1.5.10 |
org.apache.orc | orc-mapreduce | 1.5.10 |
org.apache.orc | orc-shims | 1.5.10 |
org.apache.parquet | parquet-column | 1.10.1.2-databricks4 |
org.apache.parquet | parquet-common | 1.10.1.2-databricks4 |
org.apache.parquet | parquet-encoding | 1.10.1.2-databricks4 |
org.apache.parquet | parquet-format | 2.4.0 |
org.apache.parquet | parquet-hadoop | 1.10.1.2-databricks4 |
org.apache.parquet | parquet-jackson | 1.10.1.2-databricks4 |
org.apache.thrift | libfb303 | 0.9.3 |
org.apache.thrift | libthrift | 0.12.0 |
org.apache.velocity | velocity | 1.5 |
org.apache.xbean | xbean-asm7-shaded | 4.15 |
org.apache.yetus | audience-annotations | 0.5.0 |
org.apache.zookeeper | zookeeper | 3.4.14 |
org.codehaus.jackson | jackson-core-asl | 1.9.13 |
org.codehaus.jackson | jackson-jaxrs | 1.9.13 |
org.codehaus.jackson | jackson-mapper-asl | 1.9.13 |
org.codehaus.jackson | jackson-xc | 1.9.13 |
org.codehaus.janino | commons-compiler | 3.0.16 |
org.codehaus.janino | janino | 3.0.16 |
org.datanucleus | datanucleus-api-jdo | 4.2.4 |
org.datanucleus | datanucleus-core | 4.1.17 |
org.datanucleus | datanucleus-rdbms | 4.1.19 |
org.datanucleus | javax.jdo | 3.2.0-m3 |
org.eclipse.jetty | jetty-client | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-continuation | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-http | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-io | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-jndi | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-plus | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-proxy | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-security | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-server | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-servlet | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-servlets | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-util | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-webapp | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-xml | 9.4.18.v20190429 |
org.fusesource.leveldbjni | leveldbjni-all | 1.8 |
org.glassfish.hk2 | hk2-api | 2.6.1 |
org.glassfish.hk2 | hk2-locator | 2.6.1 |
org.glassfish.hk2 | hk2-utils | 2.6.1 |
org.glassfish.hk2 | osgi-resource-locator | 1.0.3 |
org.glassfish.hk2.external | aopalliance-repackaged | 2.6.1 |
org.glassfish.hk2.external | jakarta.inject | 2.6.1 |
org.glassfish.jersey.containers | jersey-container-servlet | 2.30 |
org.glassfish.jersey.containers | jersey-container-servlet-core | 2.30 |
org.glassfish.jersey.core | jersey-client | 2.30 |
org.glassfish.jersey.core | jersey-common | 2.30 |
org.glassfish.jersey.core | jersey-server | 2.30 |
org.glassfish.jersey.inject | jersey-hk2 | 2.30 |
org.glassfish.jersey.media | jersey-media-jaxb | 2.30 |
org.hibernate.validator | hibernate-validator | 6.1.0.Final |
org.javassist | javassist | 3.25.0-GA |
org.jboss.logging | jboss-logging | 3.3.2.Final |
org.jdbi | jdbi | 2.63.1 |
org.joda | joda-convert | 1.7 |
org.jodd | jodd-core | 3.5.2 |
org.json4s | json4s-ast_2.12 | 3.6.6 |
org.json4s | json4s-core_2.12 | 3.6.6 |
org.json4s | json4s-jackson_2.12 | 3.6.6 |
org.json4s | json4s-scalap_2.12 | 3.6.6 |
org.lz4 | lz4-java | 1.7.1 |
org.mariadb.jdbc | mariadb-java-client | 2.1.2 |
org.objenesis | objenesis | 2.5.1 |
org.postgresql | postgresql | 42.1.4 |
org.roaringbitmap | RoaringBitmap | 0.7.45 |
org.roaringbitmap | shims | 0.7.45 |
org.rocksdb | rocksdbjni | 6.2.2 |
org.rosuda.REngine | REngine | 2.1.0 |
org.scala-lang | scala-compiler_2.12 | 2.12.10 |
org.scala-lang | scala-library_2.12 | 2.12.10 |
org.scala-lang | scala-reflect_2.12 | 2.12.10 |
org.scala-lang.modules | scala-collection-compat_2.12 | 2.1.1 |
org.scala-lang.modules | scala-parser-combinators_2.12 | 1.1.2 |
org.scala-lang.modules | scala-xml_2.12 | 1.2.0 |
org.scala-sbt | test-interface | 1.0 |
org.scalacheck | scalacheck_2.12 | 1.14.2 |
org.scalactic | scalactic_2.12 | 3.0.8 |
org.scalanlp | breeze-macros_2.12 | 1.0 |
org.scalanlp | breeze_2.12 | 1.0 |
org.scalatest | scalatest_2.12 | 3.0.8 |
org.slf4j | jcl-over-slf4j | 1.7.30 |
org.slf4j | jul-to-slf4j | 1.7.30 |
org.slf4j | slf4j-api | 1.7.30 |
org.slf4j | slf4j-log4j12 | 1.7.30 |
org.spark-project.spark | unused | 1.0.0 |
org.springframework | spring-core | 4.1.4.RELEASE |
org.springframework | spring-test | 4.1.4.RELEASE |
org.threeten | threeten-extra | 1.5.0 |
org.tukaani | xz | 1.5 |
org.typelevel | algebra_2.12 | 2.0.0-M2 |
org.typelevel | cats-kernel_2.12 | 2.0.0-M4 |
org.typelevel | machinist_2.12 | 0.6.8 |
org.typelevel | macro-compat_2.12 | 1.1.1 |
org.typelevel | spire-macros_2.12 | 0.17.0-M1 |
org.typelevel | spire-platform_2.12 | 0.17.0-M1 |
org.typelevel | spire-util_2.12 | 0.17.0-M1 |
org.typelevel | spire_2.12 | 0.17.0-M1 |
org.xerial | sqlite-jdbc | 3.8.11.2 |
org.xerial.snappy | snappy-java | 1.1.7.5 |
org.yaml | snakeyaml | 1.24 |
oro | oro | 2.0.8 |
pl.edu.icm | JLargeArrays | 1.5 |
software.amazon.ion | ion-java | 1.0.2 |
stax | stax-api | 1.0.1 |
xmlenc | xmlenc | 0.52 |