Databricks Runtime 7.0 (EoS)
Nota:
El soporte técnico con esta versión de Databricks Runtime ha finalizado. Para obtener la fecha de finalización del soporte técnico, consulte Historial de finalización del soporte técnico. Para ver todas las versiones de Databricks Runtime con soporte técnico, consulte las notas de la versión de Databricks Runtime versiones y compatibilidad.
Databricks publicó esta versión en junio de 2020.
Las siguientes notas de la versión proporcionan información sobre Databricks Runtime 7.0, con tecnología de Apache Spark 3.0.
Nuevas características
Databricks Runtime 7.0 incluye las siguientes características nuevas:
Scala 2.12
Databricks Runtime 7.0 actualiza Scala de 2.11.12 a 2.12.10. La lista de cambios entre Scala 2.12 y 2.11 se encuentra en las notas de la versión de Scala 2.12.0.
Auto Loader (Versión preliminar pública), publicado en Databricks Runtime 6.4, se ha mejorado en Databricks Runtime 7.0
Auto Loader proporciona una manera más eficaz de procesar nuevos archivos de datos de forma incremental a medida que llegan a un almacén de blobs en la nube durante ETL. Se trata de una mejora con respecto a Structured Streaming basado en archivos, que identifica los nuevos archivos enumerando repetidamente el directorio en la nube y haciendo un seguimiento de los archivos que se han visto, y puede ser muy ineficaz a medida que crece el directorio. Auto Loader también es más cómodo y eficaz que Structured Streaming basado en notificaciones de archivos, que requiere que configure manualmente los servicios de notificación de archivos en la nube y no le permite reponer los archivos existentes. Para obtener más información, consulte ¿Qué es el cargador automático?.
En Databricks Runtime 7.0 ya no es necesario solicitar una imagen de Databricks Runtime personalizada para usar Auto Loader.
COPY INTO
(Versión preliminar pública), que permite cargar datos en Delta Lake con reintentos idempotentes, se ha mejorado en Databricks Runtime 7.0Publicado como Versión preliminar pública en Databricks Runtime 6.4, el comando SQL
COPY INTO
permite cargar datos en Delta Lake con reintentos idempotentes. Para cargar datos en Delta Lake hoy en día, debe usar las API de DataFrame de Apache Spark. Si hay errores durante las cargas, debe controlarlos de forma eficaz. El nuevo comandoCOPY INTO
proporciona una interfaz declarativa conocida, para cargar datos en SQL. El comando realiza un seguimiento de los archivos cargados previamente, y el usuario lo vuelve a ejecutar de forma segura en caso de errores. Para obtener más información, consulte COPY INTO.
Mejoras
El conector de Azure Synapse (anteriormente SQL Data Warehouse) admite la instrucción
COPY
.La principal ventaja de
COPY
es que los usuarios con menos privilegios pueden escribir datos en Azure Synapse sin necesidad de permisosCONTROL
estrictos en Azure Synapse.El comando magic
%matplotlib inline
ya no es necesario para mostrar objetos de Matplolibalineados en las celdas del cuaderno. Siempre se muestran alineados de manera predeterminada.Las figuras de Matplolib ahora se representan con
transparent=False
, para que los fondos especificados por el usuario no se pierdan. Este comportamiento puede invalidarse estableciendo la configuraciónspark.databricks.workspace.matplotlib.transparent true
de Spark.Al ejecutar trabajos de producción de Structured Streaming en clústeres de modo de alta simultaneidad, en ocasiones se produciría un error en los reinicios de un trabajo, porque el trabajo que se ejecutaba anteriormente no finalizaba correctamente. Databricks Runtime 6.3 introdujo la capacidad de establecer la configuración
spark.sql.streaming.stopActiveRunOnRestart true
de SQL en el clúster, para asegurarse de que se detiene la ejecución anterior. Esta configuración se establece de manera predeterminada en Databricks Runtime 7.0.
Cambios importantes en la biblioteca
Paquetes de Python
Paquetes importantes de Python actualizados:
- boto3 1.9.162 -> 1.12.0
- matplotlib 3.0.3 -> 3.1.3
- numpy 1.16.2 -> 1.18.1
- pandas 0.24.2 -> 1.0.1
- pip 19.0.3 -> 20.0.2
- pyarrow 0.13.0 -> 0.15.1
- psycopg2 2.7.6 -> 2.8.4
- scikit-learn 0.20.3 -> 0.22.1
- scipy 1.2.1 -> 1.4.1
- seaborn 0.9.0 -> 0.10.0
Paquetes de Python quitados:
- boto (use boto3)
- pycurl
Nota:
El entorno de Python de Databricks Runtime 7.0 usa Python 3.7, que es diferente de la versión de Python con el sistema Ubuntu instalado: /usr/bin/python
y /usr/bin/python2
están vinculados a Python 2.7 y /usr/bin/python3
está vinculado a Python 3.6.
Paquetes de R
Paquetes de R agregados:
- broom
- highr
- isoband
- knitr
- markdown
- modelr
- reprex
- rmarkdown
- rvest
- selectr
- tidyverse
- tinytex
- xfun
Paquetes de R quitados:
- abind
- bitops
- automóvil
- carData
- doMC
- gbm
- h2o
- littler
- lme4
- mapproj
- maps
- maptools
- MatrixModels
- minqa
- mvtnorm
- nloptr
- openxlsx
- pbkrtest
- pkgKitten
- quantreg
- R.methodsS3
- R.oo
- R.utils
- RcppEigen
- RCurl
- rio
- sp
- SparseM
- statmod
- zip
Bibliotecas de Java y Scala
- La versión de Apache Hive usada para controlar funciones definidas por el usuario de Hive y Hive SerDes se ha actualizado a la versión 2.3.
- Anteriormente, los archivos jar de Azure Storage y Key Vault se empaquetaban como parte de Databricks Runtime, lo que impedía usar versiones diferentes de esas bibliotecas asociadas a clústeres. Las clases en
com.microsoft.azure.storage
ycom.microsoft.azure.keyvault
ya no están en la ruta de acceso de clase en Databricks Runtime. Si depende de cualquiera de esas rutas de acceso de clase, ahora debe asociar Azure Storage SDK o Azure Key Vault SDK a los clústeres.
Cambios de comportamiento
En esta sección se enumeran los cambios de comportamiento de Databricks Runtime 6.6 a Databricks Runtime 7.0. Debe tener en cuenta estos cambios a medida que migra cargas de trabajo de versiones anteriores de Databricks Runtime a Databricks Runtime 7.0 y posteriores.
Cambios de comportamiento en Spark
Como Databricks Runtime 7.0 es el primer Databricks Runtime basado en Spark 3.0, hay muchos cambios que debe tener en cuenta al migrar cargas de trabajo desde Databricks Runtime 5.5 LTS o 6.x, que se basan en Spark 2.4. Estos cambios se enumeran en la sección "Cambios de comportamiento" de cada área funcional, en la sección de Apache Spark de este artículo de notas de la versión:
- Cambios de comportamiento para Spark Core, Spark SQL y Structured Streaming
- Cambios de comportamiento para MLlib
- Cambios de comportamiento para SparkR
Otros cambios de comportamiento
La actualización a Scala 2.12 implica los siguientes cambios:
La serialización de celdas de paquetes se controla de forma diferente. En el ejemplo siguiente se muestra el cambio de comportamiento y cómo controlarlo.
Si se ejecuta
foo.bar.MyObjectInPackageCell.run()
como se define en la siguiente celda de paquetes, se desencadenará el errorjava.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$
package foo.bar case class MyIntStruct(int: Int) import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ import org.apache.spark.sql.Column object MyObjectInPackageCell extends Serializable { // Because SparkSession cannot be created in Spark executors, // the following line triggers the error // Could not initialize class foo.bar.MyObjectInPackageCell$ val spark = SparkSession.builder.getOrCreate() def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100)) val theUDF = udf(foo) val df = { val myUDFInstance = theUDF(col("id")) spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance) } def run(): Unit = { df.collect().foreach(println) } }
Para evitar este error, puede encapsular
MyObjectInPackageCell
dentro de una clase serializable.Algunos casos que usan
DataStreamWriter.foreachBatch
requerirán una actualización del código fuente. Este cambio se debe al hecho de que Scala 2.12 tiene conversión automática de expresiones lambda a tipos SAM y puede provocar ambigüedad.Por ejemplo, el siguiente código de Scala no se puede compilar:
streams .writeStream .foreachBatch { (df, id) => myFunc(df, id) }
Para corregir el error de compilación, cambie
foreachBatch { (df, id) => myFunc(df, id) }
aforeachBatch(myFunc _)
o use la API de Java explícitamente:foreachBatch(new VoidFunction2 ...)
.
Dado que la versión de Apache Hive que se usa para controlar las funciones definidas por el usuario de Hive y Hive SerDes se actualiza a la versión 2.3, se requieren dos cambios:
- La interfaz
SerDe
de Hive se sustituye por una clase abstractaAbstractSerDe
. Para cualquier implementación personalizada de HiveSerDe
es necesario migrar aAbstractSerDe
. - Establecer
spark.sql.hive.metastore.jars
enbuiltin
implica que se usará el cliente de metastore de Hive 2.3 para acceder a los metastores de Databricks Runtime 7.0.x. Si necesita acceder a los metastores externos basados en Hive 1.2, establezcaspark.sql.hive.metastore.jars
en la carpeta que contiene los archivos jar de Hive 1.2.
- La interfaz
Desusos y eliminaciones
- El índice de omisión de datos quedó en desuso a partir de Databricks Runtime 4.3 y se eliminó en Databricks Runtime 7.0. Se recomienda usar tablas Delta en su lugar, que ofrecen funcionalidades mejoradas de omisión de datos.
- En Databricks Runtime 7.0, la versión subyacente de Apache Spark usa Scala 2.12. Dado que las bibliotecas compiladas en Scala 2.11 pueden deshabilitar los clústeres de Databricks Runtime 7.0 de formas inesperadas, los clústeres que ejecutan Databricks Runtime 7.0 y posteriores no instalan bibliotecas configuradas para instalarse en todos los clústeres. La pestaña Libraries (Bibliotecas) del clúster muestra un estado
Skipped
y un mensaje de desuso que explica los cambios en el control de bibliotecas. Pero si tiene un clúster que se creó en una versión anterior de Databricks Runtime, antes de que se publicara en el área de trabajo la versión 3.20 de la plataforma Azure Databricks, y ahora edita ese clúster para usar Databricks Runtime 7.0, todas las bibliotecas configuradas para instalarse en todos los clústeres se instalarán en ese clúster. En este caso, los archivos JAR incompatibles de las bibliotecas instaladas pueden hacer que el clúster se deshabilite. La solución alternativa es clonar el clúster o crear uno nuevo.
Apache Spark
Databricks Runtime 7.0 incluye Apache Spark 3.0.
En esta sección:
Core, Spark SQL, Structured Streaming
Aspectos destacados
- (Project Hydrogen) Programador compatible con acelerador (SPARK-24615)
- Ejecución de consultas adaptables (SPARK-31412)
- Eliminación dinámica de particiones (SPARK-11150)
- API UDF de Pandas rediseñada con sugerencias de tipo (SPARK-28264)
- UI de Structured Streaming (SPARK-29543)
- API del complemento de catálogo (SPARK-31121)
- Mejor compatibilidad de SQL ANSI
Mejoras de rendimiento
- Ejecución de consultas adaptables (SPARK-31412)
- Marco básico (SPARK-23128)
- Ajuste posterior del número de partición aleatorio (SPARK-28177)
- Reutilización de subconsulta dinámica (SPARK-28753)
- Lector aleatorio local (SPARK-28560)
- Optimización de la combinación de sesgos (SPARK-29544)
- Optimización de la lectura de bloques aleatorios contiguos (SPARK-9853)
- Eliminación dinámica de particiones (SPARK-11150)
- Otras reglas del optimizador
- Regla ReuseSubquery (SPARK-27279)
- Rule PushDownLeftSemiAntiJoin (SPARK-19712)
- Regla PushLeftSemiLeftAntiThroughJoin (SPARK-19712)
- Rule ReplaceNullWithFalse (SPARK-25860)
- Regla Eliminar ordenaciones sin límite en la subconsulta de combinación/agregación (SPARK-29343)
- Regla PruneHiveTablePartitions (SPARK-15616)
- Eliminar campos anidados innecesarios de Generate (SPARK-27707)
- Rule RewriteNonCorrelatedExists (SPARK-29800)
- Minimizar los costes de sincronización de caché de tablas (SPARK-26917), (SPARK-26617) (SPARK-26548)
- Dividir el código de agregación en funciones pequeñas (SPARK-21870)
- Agregue procesamiento por lotes en los comandos INSERT y ALTER TABLE ADD PARTITION (SPARK-29938)
Mejoras de extensibilidad
- API del complemento de catálogo (SPARK-31121)
- Refactorización de API de origen de datos V2 (SPARK-25390)
- Compatibilidad con la metastore de Hive 3.0 y 3.1 (SPARK-27970), (SPARK-24360)
- Extensión de la interfaz del complemento Spark al controlador (SPARK-29396)
- Extensión del sistema de métricas de Spark con métricas definidas por el usuario mediante complementos de ejecutor (SPARK-28091)
- API de desarrolladores para la compatibilidad ampliada con el procesamiento de columnas (SPARK-27396)
- Migración de origen integrada mediante DSV2: parquet, ORC, CSV, JSON, Kafka, Text, Avro (SPARK-27589)
- Permita FunctionInjection en SparkExtensions (SPARK-25560)
- Permite que el Agregador se registre como UDAF (SPARK-27296)
Mejoras del conector
- Eliminación de columnas mediante expresiones no deterministas (SPARK-29768)
- Compatibilidad con
spark.sql.statistics.fallBackToHdfs
en tablas de origen de datos (SPARK-25474) - Permita la eliminación de particiones con filtros de subconsulta en el origen de archivo (SPARK-26893)
- Evite la delegación de subconsultas en filtros de origen de datos (SPARK-25482)
- Carga recursiva de datos desde orígenes de archivos (SPARK-27990)
- Parquet/ORC
- Delegación de predicados disyuntivos (SPARK-27699)
- Generalizar la eliminación de columnas anidadas (SPARK-25603) y su activación de manera predeterminada (SPARK-29805)
- Solo Parquet
- Aplicación de predicado parquet para campos anidados (SPARK-17636)
- Solo ORC
- Compatibilidad con el esquema de combinación para ORC (SPARK-11412)
- Eliminar esquemas anidados para ORC (SPARK-27034)
- Reducción de complejidad de la conversión de predicados para ORC (SPARK-27105, SPARK-28108)
- Actualización de Apache ORC a 1.5.9 (SPARK-30695)
- CSV
- Compatibilidad con delegación de filtros en el origen de datos de CSV (SPARK-30323)
- Hive SerDe
- No hay inferencia de esquema al leer la tabla serde de Hive con el origen de datos nativo (SPARK-27119)
- Los comandos CTAS de Hive deben usar el origen de datos si es convertible (SPARK-25271)
- Uso del origen de datos nativo para optimizar la inserción de tablas de Hive con particiones (SPARK-28573)
- Apache Kafka
- Adición de compatibilidad con encabezados Kafka (SPARK-23539)
- Adición de compatibilidad con tokens de delegación de Kafka (SPARK-25501)
- Introducción de una nueva opción al origen de Kafka: desplazamiento por marca de tiempo (inicio/final) (SPARK-26848)
- Compatibilidad con la opción
minPartitions
en origen por lotes de Kafka y origen de streaming v1 (SPARK-30656) - Actualización de Kafka a la versión 2.4.1 (SPARK-31126)
- Nuevos orígenes de datos integrados
- Nuevos orígenes de datos de archivos binarios integrados (SPARK-25348)
- Nuevos orígenes de datos por lotes no operativos (SPARK-26550) y receptor de streaming no operativo (SPARK-26649)
Mejoras de las características
- [Hydrogen] Programador compatible con acelerador (SPARK-24615)
- Introducción a un conjunto completo de Sugerencias de combinación (SPARK-27225)
- Agregar sugerencia
PARTITION BY
para consultas SQL (SPARK-28746) - Control de metadatos en un servidor Thrift (SPARK-28426)
- Adición de funciones de orden superior a la API de Scala (SPARK-27297)
- Compatibilidad con la recopilación de todo simple en el contexto de la tarea de barrera (SPARK-30667)
- Las UDF de Hive admiten el tipo UDT (SPARK-28158)
- Compatibilidad con los operadores DELETE/UPDATE/MERGE en Catalyst (SPARK-28351, SPARK-28892, SPARK-28893)
- Implementación de DataFrame.tail (SPARK-30185)
- Nuevas funciones integradas
- sinh, cosh, tanh, asinh, acosh, atanh (SPARK-28133)
- any, every, some (SPARK-19851)
- bit_and, bit_or (SPARK-27879)
- bit_count (SPARK-29491)
- bit_xor (SPARK-29545)
- bool_and, bool_or (SPARK-30184)
- count_if (SPARK-27425)
- date_part (SPARK-28690)
- extract (SPARK-23903)
- forall (SPARK-27905)
- from_csv (SPARK-25393)
- make_date (SPARK-28432)
- make_interval (SPARK-29393)
- make_timestamp (SPARK-28459)
- map_entries (SPARK-23935)
- map_filter (SPARK-23937)
- map_zip_with (SPARK-23938)
- max_by, min_by (SPARK-27653)
- schema_of_csv (SPARK-25672)
- to_csv (SPARK-25638)
- transform_keys (SPARK-23939)
- transform_values (SPARK-23940)
- typeof (SPARK-29961)
- version (SPARK-29554)
- xxhash64 (SPARK-27099)
- Mejoras en las funciones integradas existentes
- Mejoras de las operaciones o funciones integradas de fecha y hora (SPARK-31415)
- Modo de
FAILFAST
compatible parafrom_json
(SPARK-25243) array_sort
agrega un nuevo parámetro de comparador (SPARK-29020)- El filtro ahora puede tomar el índice como entrada, así como el elemento (SPARK-28962)
Mejoras de compatibilidad de SQL
- Cambio al calendario gregoriano proléptico (SPARK-26651)
- Compilación de la definición de patrón de datetime propia de Spark (SPARK-31408)
- Introducción de la directiva de asignación de almacén ANSI para la inserción de tablas (SPARK-28495)
- Seguir la regla de asignación de almacén ANSI, en la inserción de tablas, de manera predeterminada (SPARK-28885)
- Agregar un patrón
spark.sql.ansi.enabled
de SQLConf (SPARK-28989) - Compatibilidad con la cláusula de filtro SQL ANSI para la expresión de agregado (SPARK-27986)
- Compatibilidad con la función
OVERLAY
de SQL ANSI (SPARK-28077) - Compatibilidad con comentarios de ANSI anidados entre corchetes (SPARK-28880)
- Excepción en el desbordamiento para enteros (SPARK-26218)
- Comprobación de desbordamiento para operaciones aritméticas de intervalo (SPARK-30341)
- Excepción cuando la cadena no válida se convierte al tipo numérico (SPARK-30292)
- Hacer que la multiplicación de intervalos y el comportamiento de desbordamiento de división sean coherentes con otras operaciones (SPARK-30919)
- Agregar alias de tipo ANSI para datos char y decimal (SPARK-29941)
- El analizador SQL define palabras clave reservadas compatibles con ANSI (SPARK-26215)
- Prohibición de palabras clave reservadas como identificadores cuando el modo ANSI está encendido (SPARK-26976)
- Compatibilidad con la sintaxis
LIKE ... ESCAPE
de SQL ANSI (SPARK-28083) - Compatibilidad con la sintaxis Boolean-Predicate (booleano-predicado) de SQL ANSI (SPARK-27924)
- Mejor compatibilidad con el procesamiento de subconsulta correlacionada (SPARK-18455)
Mejoras de supervisión y depuración
- UI nueva de Structured Streaming (SPARK-29543)
- SHS: permita que se reviertan los registros de eventos para ejecutar aplicaciones de streaming (SPARK-28594)
- Agregue una API que permita a un usuario definir y observar métricas arbitrarias en consultas por lotes y streaming (SPARK-29345)
- Instrumentación para el seguimiento del tiempo de planificación por consulta (SPARK-26129)
- Coloque las métricas básicas de orden aleatorio en el operador de intercambio SQL (SPARK-26139)
- La instrucción SQL se muestra en SQL Tab en lugar de en callsite (SPARK-27045)
- Adición de información sobre herramientas a SparkUI (SPARK-29449)
- Mejora del rendimiento simultáneo del Historial del servidor (SPARK-29043)
- comando
EXPLAIN FORMATTED
(SPARK-27395) - Compatibilidad con el volcado de planes truncados y el código generado en un archivo (SPARK-26023)
- Mejora del marco de descripción para describir la salida de una consulta (SPARK-26982)
- Agregación del comando
SHOW VIEWS
(SPARK-31113) - Mejora de los mensajes de error del analizador de SQL (SPARK-27901)
- Compatibilidad con la supervisión de Prometheus de forma nativa (SPARK-29429)
Mejoras de PySpark
- UDF de Pandas rediseñados con sugerencias de tipo (SPARK-28264)
- Canalización de UDF de Pandas (SPARK-26412)
- Compatibilidad con StructType como argumentos y tipos de valor devuelto para la UDF escalar de Pandas (SPARK-27240)
- Compatibilidad con DataFrame Cogroup mediante UDF de Pandas (SPARK-27463)
- Agregación de
mapInPandas
para permitir un iterador de DataFrames (SPARK-28198) - Algunas funciones SQL deben tomar también nombres de columna (SPARK-26979)
- Hacer que las excepciones SQL de PySpark se parezcan más a las de Python (SPARK-31849)
Mejoras en la documentación y la cobertura de pruebas
- Crear una referencia SQL (SPARK-28588)
- Creación de una guía de usuario para WebUI (SPARK-28372)
- Creación de una página para la documentación de la configuración SQL (SPARK-30510)
- Agregar información de versión para la configuración de Spark (SPARK-30839)
- Pruebas de regresión de puertos de PostgreSQL (SPARK-27763)
- Cobertura de pruebas de servidores de Thrift (SPARK-28608)
- Cobertura de pruebas de UDF (UDF de Python, UDF de Pandas, UDF de Scala) (SPARK-27921)
Otros cambios importantes
- Actualización de ejecución integrada de Hive de 1.2.1 a 2.3.6 (SPARK-23710, SPARK-28723, SPARK-31381)
- Uso de la dependencia de Apache Hive 2.3 de manera predeterminada (SPARK-30034)
- GA Scala 2.12 y eliminación de la versión 2.11 (SPARK-26132)
- Mejora de la lógica para los ejecutores de tiempo de espera en la asignación dinámica (SPARK-20286)
- Bloques RDD persistentes en disco, servidos por el servicio de orden aleatorio y omitidos para la asignación dinámica (SPARK-27677)
- Adquisición de nuevos ejecutores para evitar el bloqueo debido a la lista de bloqueados (SPARK-22148)
- Permitir el uso compartido de los asignadores de grupo de memoria de Netty (SPARK-24920)
- Corrección del interbloqueo entre
TaskMemoryManager
yUnsafeExternalSorter$SpillableIterator
(SPARK-27338) - Introducción de las API de
AdmissionControl
para StructuredStreaming (SPARK-30669) - Mejora del rendimiento de la página principal del historial de Spark (SPARK-25973)
- Acelere y aligere la agregación de métricas en el agente de escucha SQL (SPARK-29562)
- Evite la red cuando se capturan bloques aleatorios desde el mismo host (SPARK-27651)
- Mejora de la lista de archivos para
DistributedFileSystem
(SPARK-27801)
Cambios de comportamiento para Spark Core, Spark SQL y Structured Streaming
Las siguientes guías de migración enumeran los cambios de comportamiento entre Apache Spark 2.4 y 3.0. Estos cambios pueden requerir actualizaciones de los trabajos que se han estado ejecutando en versiones anteriores de Databricks Runtime:
- Guía de migración: Spark Core
- Guía de migración: SQL, DataSets y DataFrame
- Guía de migración: Structured Streaming
- Guía de migración: PySpark (Python en Spark)
Los siguientes cambios de comportamiento no se tratan en estas guías de migración:
- En Spark 3.0 se ha quitado la clase
org.apache.spark.sql.streaming.ProcessingTime
en desuso. En su lugar, useorg.apache.spark.sql.streaming.Trigger.ProcessingTime
. Del mismo modo, se ha quitadoorg.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger
en favor deTrigger.Continuous
, yorg.apache.spark.sql.execution.streaming.OneTimeTrigger
se ha ocultado en favor deTrigger.Once
. (SPARK-28199) - En Databricks Runtime 7.0, al leer una tabla de Hive SerDe, Spark no permite de manera predeterminada leer archivos en un subdirectorio que no sea una partición de tabla. Para habilitarlo, establezca la configuración
spark.databricks.io.hive.scanNonpartitionedDirectory.enabled
entrue
. Esto no afecta a los lectores de tablas nativas de Spark ni a los lectores de archivos.
MLlib
Aspectos destacados
- Se ha agregado compatibilidad con varias columnas a Binarizer (SPARK-23578), StringIndexer (SPARK-11215), StopWordsRemover (SPARK-29808) y PySpark QuantileDiscretizer (SPARK-22796)
- Compatibilidad con la transformación de la característica basada en árbol (SPARK-13677)
- Se han agregado dos nuevos evaluadores MultilabelClassificationEvaluator (SPARK-16692) y RankingEvaluator (SPARK-28045)
- Se agregó compatibilidad con pesos de ejemplo en DecisionTreeClassifier/Regressor (SPARK-19591), RandomForestClassifier/Regressor (SPARK-9478), GBTClassifier/Regressor (SPARK-9612), RegressionEvaluator (SPARK-24102), BinaryClassificationEvaluator (SPARK-24103), BisectingKMeans (SPARK-30351), KMeans (SPARK-29967) y GaussianMixture (SPARK-30102)
- Se ha agregado la API de R para PowerIterationClustering (SPARK-19827)
- Se ha agregado el agente de escucha de Spark ML, para realizar el seguimiento del estado de la canalización ML (SPARK-23674)
- Se agregó el ajuste con un conjunto de validación a árboles impulsados por gradiente en Python (SPARK-24333)
- Se ha agregado el transformador RobustScaler (SPARK-28399)
- Se han agregado clasificadores y regresores de Factorization Machines (SPARK-29224)
- Se agregaron Gaussian Naive Bayes (SPARK-16872) y Complement Naive Bayes (SPARK-29942)
- Paridad de función ML entre Scala y Python (SPARK-28958)
- predictRaw se hace público en todos los Modelos de clasificación. predictProbability se hace público en todos los Modelos de clasificación excepto LinearSVCModel (SPARK-30358)
Cambios de comportamiento para MLlib
Las siguientes guías de migración enumeran los cambios de comportamiento entre Apache Spark 2.4 y 3.0. Estos cambios pueden requerir actualizaciones de los trabajos que se han estado ejecutando en versiones anteriores de Databricks Runtime:
Los siguientes cambios de comportamiento no se tratan en la guía de migración:
- En Spark 3.0, una regresión logística multiclase en Pyspark ahora devolverá (correctamente)
LogisticRegressionSummary
, no la subclaseBinaryLogisticRegressionSummary
. De todos modos, los métodos adicionales expuestos porBinaryLogisticRegressionSummary
no funcionarán en este caso. (SPARK-31681) - En Spark 3.0, los mixins de
pyspark.ml.param.shared.Has*
ya no proporcionan ningún método Setterset*(self, value)
. En su lugar, use la instrucciónself.set(self.*, value)
correspondiente. Consulte SPARK-29093 para más detalles. (SPARK-29093)
SparkR
- Optimización de flechas en la interoperabilidad de SparkR (SPARK-26759)
- Mejora del rendimiento mediante R vectorizado gapply(), dapply(), createDataFrame, collect()
- "Ejecución diligente" para el shell de R, IDE (SPARK-24572)
- API de R para la agrupación en clústeres de iteración de energía (SPARK-19827)
Cambios de comportamiento en SparkR
Las siguientes guías de migración enumeran los cambios de comportamiento entre Apache Spark 2.4 y 3.0. Estos cambios pueden requerir actualizaciones de los trabajos que se han estado ejecutando en versiones anteriores de Databricks Runtime:
En desuso
- Compatibilidad con Python 2 en desuso (SPARK-27884)
- Compatibilidad con R < 3.4 en desuso (SPARK-26014)
Problemas conocidos
- El análisis del día del año mediante la letra de patrón "D" devuelve un resultado incorrecto si falta el campo de año. Esto puede ocurrir en funciones SQL como
to_timestamp
, que analiza la cadena datetime como valores de datetime (fecha y hora) mediante una cadena de patrón. (SPARK-31939) - Las subconsultas internas de combinación, de ventana o de funciones agregadas pueden dar lugar a resultados incorrectos, si las claves tienen valores -0.0 y 0.0. (SPARK-31958)
- Una consulta de ventana puede producir un error inesperado de autocombinación ambigua. (SPARK-31956)
- Es posible que las consultas de streaming con el operador
dropDuplicates
no puedan reiniciarse con el punto de control escrito por Spark 2.x. (SPARK-31990)
Actualizaciones de mantenimiento
Consulte Actualizaciones de mantenimiento de Databricks Runtime 7.0.
Entorno del sistema
- Sistema operativo: Ubuntu 18.04.4 LTS
- Java: 1.8.0_252
- Scala: 2.12.10
- Python: 3.7.5
- R: Versión R 3.6.3 (29-02-2020)
- Delta Lake 0.7.0
Bibliotecas de Python instaladas
Biblioteca | Versión | Biblioteca | Versión | Biblioteca | Versión |
---|---|---|---|---|---|
asn1crypto | 1.3.0 | backcall | 0.1.0 | boto3 | 1.12.0 |
botocore | 1.15.0 | certifi | 2020.4.5 | cffi | 1.14.0 |
chardet | 3.0.4 | criptografía | 2.8 | cycler | 0.10.0 |
Cython | 0.29.15 | decorator | 4.4.1 | docutils | 0.15.2 |
entrypoints | 0,3 | idna | 2.8 | ipykernel | 5.1.4 |
ipython | 7.12.0 | ipython-genutils | 0.2.0 | jedi | 0.14.1 |
jmespath | 0.9.4 | joblib | 0.14.1 | jupyter-client | 5.3.4 |
jupyter-core | 4.6.1 | kiwisolver | 1.1.0 | matplotlib | 3.1.3 |
numpy | 1.18.1 | pandas | 1.0.1 | parso | 0.5.2 |
patsy | 0.5.1 | pexpect | 4.8.0 | pickleshare | 0.7.5 |
pip | 20.0.2 | prompt-toolkit | 3.0.3 | psycopg2 | 2.8.4 |
ptyprocess | 0.6.0 | pyarrow | 0.15.1 | pycparser | 2.19 |
Pygments | 2.5.2 | PyGObject | 3.26.1 | pyOpenSSL | 19.1.0 |
pyparsing | 2.4.6 | PySocks | 1.7.1 | python-apt | 1.6.5+ubuntu0.3 |
Python-dateutil | 2.8.1 | pytz | 2019.3 | pyzmq | 18.1.1 |
Solicitudes | 2.22.0 | s3transfer | 0.3.3 | scikit-learn | 0.22.1 |
scipy | 1.4.1 | seaborn | 0.10.0 | setuptools | 45.2.0 |
six (seis) | 1.14.0 | ssh-import-id | 5.7 | statsmodels | 0.11.0 |
tornado | 6.0.3 | traitlets | 4.3.3 | unattended-upgrades | 0,1 |
urllib3 | 1.25.8 | virtualenv | 16.7.10 | wcwidth | 0.1.8 |
wheel | 0.34.2 |
Bibliotecas de R instaladas
Las bibliotecas de R se instalan desde la instantánea de Microsoft CRAN del 22-04-2020.
Biblioteca | Versión | Biblioteca | Versión | Biblioteca | Versión |
---|---|---|---|---|---|
askpass | 1.1 | assertthat | 0.2.1 | backports | 1.1.6 |
base | 3.6.3 | base64enc | 0.1-3 | BH | 1.72.0-3 |
bit | 1.1-15.2 | bit64 | 0.9-7 | blob | 1.2.1 |
boot | 1.3-25 | brew | 1.0-6 | broom | 0.5.6 |
callr | 3.4.3 | caret | 6.0-86 | cellranger | 1.1.0 |
chron | 2.3-55 | clase | 7.3-17 | cli | 2.0.2 |
clipr | 0.7.0 | cluster | 2.1.0 | codetools | 0.2-16 |
colorspace | 1.4-1 | commonmark | 1.7 | compiler | 3.6.3 |
config | 0,3 | covr | 3.5.0 | crayon | 1.3.4 |
diafonía | 1.1.0.1 | curl | 4.3 | data.table | 1.12.8 |
conjuntos de datos | 3.6.3 | DBI | 1.1.0 | dbplyr | 1.4.3 |
desc | 1.2.0 | devtools | 2.3.0 | digest | 0.6.25 |
dplyr | 0.8.5 | DT | 0,13 | ellipsis | 0.3.0 |
evaluate | 0.14 | fansi | 0.4.1 | farver | 2.0.3 |
fastmap | 1.0.1 | forcats | 0.5.0 | foreach | 1.5.0 |
foreign | 0.8-76 | forge | 0.2.0 | fs | 1.4.1 |
generics | 0.0.2 | ggplot2 | 3.3.0 | gh | 1.1.0 |
git2r | 0.26.1 | glmnet | 3.0-2 | globals | 0.12.5 |
glue | 1.4.0 | gower | 0.2.1 | elementos gráficos | 3.6.3 |
grDevices | 3.6.3 | grid | 3.6.3 | gridExtra | 2.3 |
gsubfn | 0.7 | gtable | 0.3.0 | haven | 2.2.0 |
highr | 0.8 | hms | 0.5.3 | htmltools | 0.4.0 |
htmlwidgets | 1.5.1 | httpuv | 1.5.2 | httr | 1.4.1 |
hwriter | 1.3.2 | hwriterPlus | 1.0-3 | ini | 0.3.1 |
ipred | 0.9-9 | isoband | 0.2.1 | iterators | 1.0.12 |
jsonlite | 1.6.1 | KernSmooth | 2.23-17 | knitr | 1.28 |
labeling | 0,3 | later | 1.0.0 | lattice | 0.20-41 |
lava | 1.6.7 | lazyeval | 0.2.2 | ciclo de vida | 0.2.0 |
lubridate | 1.7.8 | magrittr | 1.5 | markdown | 1.1 |
MASS | 7.3-51.6 | Matriz | 1.2-18 | memoise | 1.1.0 |
methods | 3.6.3 | mgcv | 1.8-31 | mime | 0.9 |
ModelMetrics | 1.2.2.2 | modelr | 0.1.6 | munsell | 0.5.0 |
nlme | 3.1-147 | nnet | 7.3-14 | numDeriv | 2016.8-1.1 |
openssl | 1.4.1 | parallel | 3.6.3 | pillar | 1.4.3 |
pkgbuild | 1.0.6 | pkgconfig | 2.0.3 | pkgload | 1.0.2 |
plogr | 0.2.0 | plyr | 1.8.6 | praise | 1.0.0 |
prettyunits | 1.1.1 | pROC | 1.16.2 | processx | 3.4.2 |
prodlim | 2019.11.13 | progreso | 1.2.2 | promises | 1.1.0 |
proto | 1.0.0 | ps | 1.3.2 | purrr | 0.3.4 |
r2d3 | 0.2.3 | R6 | 2.4.1 | randomForest | 4.6-14 |
rappdirs | 0.3.1 | rcmdcheck | 1.3.3 | RColorBrewer | 1.1-2 |
Rcpp | 1.0.4.6 | readr | 1.3.1 | readxl | 1.3.1 |
recipes | 0.1.10 | rematch | 1.0.1 | rematch2 | 2.1.1 |
remotes | 2.1.1 | reprex | 0.3.0 | reshape2 | 1.4.4 |
rex | 1.2.0 | rjson | 0.2.20 | rlang | 0.4.5 |
rmarkdown | 2.1 | RODBC | 1.3-16 | roxygen2 | 7.1.0 |
rpart | 4.1-15 | rprojroot | 1.3-2 | Rserve | 1.8-6 |
RSQLite | 2.2.0 | rstudioapi | 0,11 | rversions | 2.0.1 |
rvest | 0.3.5 | scales | 1.1.0 | selectr | 0.4-2 |
sessioninfo | 1.1.1 | shape | 1.4.4 | shiny | 1.4.0.2 |
sourcetools | 0.1.7 | sparklyr | 1.2.0 | SparkR | 3.0.0 |
spatial | 7.3-11 | splines | 3.6.3 | sqldf | 0.4-11 |
SQUAREM | 2020.2 | stats | 3.6.3 | stats4 | 3.6.3 |
stringi | 1.4.6 | stringr | 1.4.0 | survival | 3.1-12 |
sys | 3.3 | tcltk | 3.6.3 | TeachingDemos | 2,10 |
testthat | 2.3.2 | tibble | 3.0.1 | tidyr | 1.0.2 |
tidyselect | 1.0.0 | tidyverse | 1.3.0 | timeDate | 3043.102 |
tinytex | 0,22 | tools | 3.6.3 | usethis | 1.6.0 |
utf8 | 1.1.4 | utils | 3.6.3 | vctrs | 0.2.4 |
viridisLite | 0.3.0 | whisker | 0,4 | withr | 2.2.0 |
xfun | 0,13 | xml2 | 1.3.1 | xopen | 1.0.0 |
xtable | 1.8-4 | yaml | 2.2.1 |
Bibliotecas de Java y Scala instaladas (versión de clúster de Scala 2.12)
Identificador de grupo | Identificador de artefacto | Versión |
---|---|---|
antlr | antlr | 2.7.7 |
com.amazonaws | amazon-kinesis-client | 1.12.0 |
com.amazonaws | aws-java-sdk-autoscaling | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudformation | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudfront | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudhsm | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudsearch | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudtrail | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudwatch | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudwatchmetrics | 1.11.655 |
com.amazonaws | aws-java-sdk-codedeploy | 1.11.655 |
com.amazonaws | aws-java-sdk-cognitoidentity | 1.11.655 |
com.amazonaws | aws-java-sdk-cognitosync | 1.11.655 |
com.amazonaws | aws-java-sdk-config | 1.11.655 |
com.amazonaws | aws-java-sdk-core | 1.11.655 |
com.amazonaws | aws-java-sdk-datapipeline | 1.11.655 |
com.amazonaws | aws-java-sdk-directconnect | 1.11.655 |
com.amazonaws | aws-java-sdk-directory | 1.11.655 |
com.amazonaws | aws-java-sdk-dynamodb | 1.11.655 |
com.amazonaws | aws-java-sdk-ec2 | 1.11.655 |
com.amazonaws | aws-java-sdk-ecs | 1.11.655 |
com.amazonaws | aws-java-sdk-efs | 1.11.655 |
com.amazonaws | aws-java-sdk-elasticache | 1.11.655 |
com.amazonaws | aws-java-sdk-elasticbeanstalk | 1.11.655 |
com.amazonaws | aws-java-sdk-elasticloadbalancing | 1.11.655 |
com.amazonaws | aws-java-sdk-elastictranscoder | 1.11.655 |
com.amazonaws | aws-java-sdk-emr | 1.11.655 |
com.amazonaws | aws-java-sdk-glacier | 1.11.655 |
com.amazonaws | aws-java-sdk-iam | 1.11.655 |
com.amazonaws | aws-java-sdk-importexport | 1.11.655 |
com.amazonaws | aws-java-sdk-kinesis | 1.11.655 |
com.amazonaws | aws-java-sdk-kms | 1.11.655 |
com.amazonaws | aws-java-sdk-lambda | 1.11.655 |
com.amazonaws | aws-java-sdk-logs | 1.11.655 |
com.amazonaws | aws-java-sdk-machinelearning | 1.11.655 |
com.amazonaws | aws-java-sdk-opsworks | 1.11.655 |
com.amazonaws | aws-java-sdk-rds | 1.11.655 |
com.amazonaws | aws-java-sdk-redshift | 1.11.655 |
com.amazonaws | aws-java-sdk-route53 | 1.11.655 |
com.amazonaws | aws-java-sdk-s3 | 1.11.655 |
com.amazonaws | aws-java-sdk-ses | 1.11.655 |
com.amazonaws | aws-java-sdk-simpledb | 1.11.655 |
com.amazonaws | aws-java-sdk-simpleworkflow | 1.11.655 |
com.amazonaws | aws-java-sdk-sns | 1.11.655 |
com.amazonaws | aws-java-sdk-sqs | 1.11.655 |
com.amazonaws | aws-java-sdk-ssm | 1.11.655 |
com.amazonaws | aws-java-sdk-storagegateway | 1.11.655 |
com.amazonaws | aws-java-sdk-sts | 1.11.655 |
com.amazonaws | aws-java-sdk-support | 1.11.655 |
com.amazonaws | aws-java-sdk-swf-libraries | 1.11.22 |
com.amazonaws | aws-java-sdk-workspaces | 1.11.655 |
com.amazonaws | jmespath-java | 1.11.655 |
com.chuusai | shapeless_2.12 | 2.3.3 |
com.clearspring.analytics | flujo | 2.9.6 |
com.databricks | Rserve | 1.8-3 |
com.databricks | jets3t | 0.7.1-0 |
com.databricks.scalapb | compilerplugin_2.12 | 0.4.15-10 |
com.databricks.scalapb | scalapb-runtime_2.12 | 0.4.15-10 |
com.esotericsoftware | kryo-shaded | 4.0.2 |
com.esotericsoftware | minlog | 1.3.0 |
com.fasterxml | classmate | 1.3.4 |
com.fasterxml.jackson.core | jackson-annotations | 2.10.0 |
com.fasterxml.jackson.core | jackson-core | 2.10.0 |
com.fasterxml.jackson.core | jackson-databind | 2.10.0 |
com.fasterxml.jackson.dataformat | jackson-dataformat-cbor | 2.10.0 |
com.fasterxml.jackson.datatype | jackson-datatype-joda | 2.10.0 |
com.fasterxml.jackson.module | jackson-module-paranamer | 2.10.0 |
com.fasterxml.jackson.module | jackson-module-scala_2.12 | 2.10.0 |
com.github.ben-manes.caffeine | caffeine | 2.3.4 |
com.github.fommil | jniloader | 1.1 |
com.github.fommil.netlib | core | 1.1.2 |
com.github.fommil.netlib | native_ref-java | 1.1 |
com.github.fommil.netlib | native_ref-java-natives | 1.1 |
com.github.fommil.netlib | native_system-java | 1.1 |
com.github.fommil.netlib | native_system-java-natives | 1.1 |
com.github.fommil.netlib | netlib-native_ref-linux-x86_64-natives | 1.1 |
com.github.fommil.netlib | netlib-native_system-linux-x86_64-natives | 1.1 |
com.github.joshelser | dropwizard-metrics-hadoop-metrics2-reporter | 0.1.2 |
com.github.luben | zstd-jni | 1.4.4-3 |
com.github.wendykierp | JTransforms | 3.1 |
com.google.code.findbugs | jsr305 | 3.0.0 |
com.google.code.gson | gson | 2.2.4 |
com.google.flatbuffers | flatbuffers-java | 1.9.0 |
com.google.guava | guava | 15.0 |
com.google.protobuf | protobuf-java | 2.6.1 |
com.h2database | h2 | 1.4.195 |
com.helger | profiler | 1.1.1 |
com.jcraft | jsch | 0.1.50 |
com.jolbox | bonecp | 0.8.0.RELEASE |
com.microsoft.azure | azure-data-lake-store-sdk | 2.2.8 |
com.microsoft.sqlserver | mssql-jdbc | 8.2.1.jre8 |
com.ning | compress-lzf | 1.0.3 |
com.sun.mail | javax.mail | 1.5.2 |
com.tdunning | json | 1.8 |
com.thoughtworks.paranamer | paranamer | 2.8 |
com.trueaccord.lenses | lenses_2.12 | 0.4.12 |
com.twitter | chill-java | 0.9.5 |
com.twitter | chill_2.12 | 0.9.5 |
com.twitter | util-app_2.12 | 7.1.0 |
com.twitter | util-core_2.12 | 7.1.0 |
com.twitter | util-function_2.12 | 7.1.0 |
com.twitter | util-jvm_2.12 | 7.1.0 |
com.twitter | util-lint_2.12 | 7.1.0 |
com.twitter | util-registry_2.12 | 7.1.0 |
com.twitter | util-stats_2.12 | 7.1.0 |
com.typesafe | config | 1.2.1 |
com.typesafe.scala-logging | scala-logging_2.12 | 3.7.2 |
com.univocity | univocity-parsers | 2.8.3 |
com.zaxxer | HikariCP | 3.1.0 |
commons-beanutils | commons-beanutils | 1.9.4 |
commons-cli | commons-cli | 1.2 |
commons-codec | commons-codec | 1.10 |
commons-collections | commons-collections | 3.2.2 |
commons-configuration | commons-configuration | 1.6 |
commons-dbcp | commons-dbcp | 1.4 |
commons-digester | commons-digester | 1.8 |
commons-fileupload | commons-fileupload | 1.3.3 |
commons-httpclient | commons-httpclient | 3.1 |
commons-io | commons-io | 2.4 |
commons-lang | commons-lang | 2.6 |
commons-logging | commons-logging | 1.1.3 |
commons-net | commons-net | 3.1 |
commons-pool | commons-pool | 1.5.4 |
info.ganglia.gmetric4j | gmetric4j | 1.0.10 |
io.airlift | aircompressor | 0,10 |
io.dropwizard.metrics | metrics-core | 4.1.1 |
io.dropwizard.metrics | metrics-graphite | 4.1.1 |
io.dropwizard.metrics | metrics-healthchecks | 4.1.1 |
io.dropwizard.metrics | metrics-jetty9 | 4.1.1 |
io.dropwizard.metrics | metrics-jmx | 4.1.1 |
io.dropwizard.metrics | metrics-json | 4.1.1 |
io.dropwizard.metrics | metrics-jvm | 4.1.1 |
io.dropwizard.metrics | metrics-servlets | 4.1.1 |
io.netty | netty-all | 4.1.47.Final |
jakarta.annotation | jakarta.annotation-api | 1.3.5 |
jakarta.validation | jakarta.validation-api | 2.0.2 |
jakarta.ws.rs | jakarta.ws.rs-api | 2.1.6 |
javax.activation | activation | 1.1.1 |
javax.el | javax.el-api | 2.2.4 |
javax.jdo | jdo-api | 3.0.1 |
javax.servlet | javax.servlet-api | 3.1.0 |
javax.servlet.jsp | jsp-api | 2.1 |
javax.transaction | jta | 1.1 |
javax.transaction | transaction-api | 1.1 |
javax.xml.bind | jaxb-api | 2.2.2 |
javax.xml.stream | stax-api | 1.0-2 |
javolution | javolution | 5.5.1 |
jline | jline | 2.14.6 |
joda-time | joda-time | 2.10.5 |
log4j | apache-log4j-extras | 1.2.17 |
log4j | log4j | 1.2.17 |
net.razorvine | pyrolite | 4.30 |
net.sf.jpam | jpam | 1.1 |
net.sf.opencsv | opencsv | 2.3 |
net.sf.supercsv | super-csv | 2.2.0 |
net.snowflake | snowflake-ingest-sdk | 0.9.6 |
net.snowflake | snowflake-jdbc | 3.12.0 |
net.snowflake | spark-snowflake_2.12 | 2.5.9-spark_2.4 |
net.sourceforge.f2j | arpack_combined_all | 0,1 |
org.acplt.remotetea | remotetea-oncrpc | 1.1.2 |
org.antlr | ST4 | 4.0.4 |
org.antlr | antlr-runtime | 3.5.2 |
org.antlr | antlr4-runtime | 4.7.1 |
org.antlr | stringtemplate | 3.2.1 |
org.apache.ant | ant | 1.9.2 |
org.apache.ant | ant-jsch | 1.9.2 |
org.apache.ant | ant-launcher | 1.9.2 |
org.apache.arrow | arrow-format | 0.15.1 |
org.apache.arrow | arrow-memory | 0.15.1 |
org.apache.arrow | arrow-vector | 0.15.1 |
org.apache.avro | avro | 1.8.2 |
org.apache.avro | avro-ipc | 1.8.2 |
org.apache.avro | avro-mapred-hadoop2 | 1.8.2 |
org.apache.commons | commons-compress | 1.8.1 |
org.apache.commons | commons-crypto | 1.0.0 |
org.apache.commons | commons-lang3 | 3.9 |
org.apache.commons | commons-math3 | 3.4.1 |
org.apache.commons | commons-text | 1.6 |
org.apache.curator | curator-client | 2.7.1 |
org.apache.curator | curator-framework | 2.7.1 |
org.apache.curator | curator-recipes | 2.7.1 |
org.apache.derby | derby | 10.12.1.1 |
org.apache.directory.api | api-asn1-api | 1.0.0-M20 |
org.apache.directory.api | api-util | 1.0.0-M20 |
org.apache.directory.server | apacheds-i18n | 2.0.0-M15 |
org.apache.directory.server | apacheds-kerberos-codec | 2.0.0-M15 |
org.apache.hadoop | hadoop-annotations | 2.7.4 |
org.apache.hadoop | hadoop-auth | 2.7.4 |
org.apache.hadoop | hadoop-client | 2.7.4 |
org.apache.hadoop | hadoop-common | 2.7.4 |
org.apache.hadoop | hadoop-hdfs | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-app | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-common | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-core | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-jobclient | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-shuffle | 2.7.4 |
org.apache.hadoop | hadoop-yarn-api | 2.7.4 |
org.apache.hadoop | hadoop-yarn-client | 2.7.4 |
org.apache.hadoop | hadoop-yarn-common | 2.7.4 |
org.apache.hadoop | hadoop-yarn-server-common | 2.7.4 |
org.apache.hive | hive-beeline | 2.3.7 |
org.apache.hive | hive-cli | 2.3.7 |
org.apache.hive | hive-common | 2.3.7 |
org.apache.hive | hive-exec-core | 2.3.7 |
org.apache.hive | hive-jdbc | 2.3.7 |
org.apache.hive | hive-llap-client | 2.3.7 |
org.apache.hive | hive-llap-common | 2.3.7 |
org.apache.hive | hive-metastore | 2.3.7 |
org.apache.hive | hive-serde | 2.3.7 |
org.apache.hive | hive-shims | 2.3.7 |
org.apache.hive | hive-storage-api | 2.7.1 |
org.apache.hive | hive-vector-code-gen | 2.3.7 |
org.apache.hive.shims | hive-shims-0.23 | 2.3.7 |
org.apache.hive.shims | hive-shims-common | 2.3.7 |
org.apache.hive.shims | hive-shims-scheduler | 2.3.7 |
org.apache.htrace | htrace-core | 3.1.0-incubating |
org.apache.httpcomponents | httpclient | 4.5.6 |
org.apache.httpcomponents | httpcore | 4.4.12 |
org.apache.ivy | ivy | 2.4.0 |
org.apache.orc | orc-core | 1.5.10 |
org.apache.orc | orc-mapreduce | 1.5.10 |
org.apache.orc | orc-shims | 1.5.10 |
org.apache.parquet | parquet-column | 1.10.1.2-databricks4 |
org.apache.parquet | parquet-common | 1.10.1.2-databricks4 |
org.apache.parquet | parquet-encoding | 1.10.1.2-databricks4 |
org.apache.parquet | parquet-format | 2.4.0 |
org.apache.parquet | parquet-hadoop | 1.10.1.2-databricks4 |
org.apache.parquet | parquet-jackson | 1.10.1.2-databricks4 |
org.apache.thrift | libfb303 | 0.9.3 |
org.apache.thrift | libthrift | 0.12.0 |
org.apache.velocity | velocity | 1.5 |
org.apache.xbean | xbean-asm7-shaded | 4.15 |
org.apache.yetus | audience-annotations | 0.5.0 |
org.apache.zookeeper | zookeeper | 3.4.14 |
org.codehaus.jackson | jackson-core-asl | 1.9.13 |
org.codehaus.jackson | jackson-jaxrs | 1.9.13 |
org.codehaus.jackson | jackson-mapper-asl | 1.9.13 |
org.codehaus.jackson | jackson-xc | 1.9.13 |
org.codehaus.janino | commons-compiler | 3.0.16 |
org.codehaus.janino | janino | 3.0.16 |
org.datanucleus | datanucleus-api-jdo | 4.2.4 |
org.datanucleus | datanucleus-core | 4.1.17 |
org.datanucleus | datanucleus-rdbms | 4.1.19 |
org.datanucleus | javax.jdo | 3.2.0-m3 |
org.eclipse.jetty | jetty-client | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-continuation | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-http | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-io | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-jndi | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-plus | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-proxy | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-security | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-server | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-servlet | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-servlets | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-util | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-webapp | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-xml | 9.4.18.v20190429 |
org.fusesource.leveldbjni | leveldbjni-all | 1.8 |
org.glassfish.hk2 | hk2-api | 2.6.1 |
org.glassfish.hk2 | hk2-locator | 2.6.1 |
org.glassfish.hk2 | hk2-utils | 2.6.1 |
org.glassfish.hk2 | osgi-resource-locator | 1.0.3 |
org.glassfish.hk2.external | aopalliance-repackaged | 2.6.1 |
org.glassfish.hk2.external | jakarta.inject | 2.6.1 |
org.glassfish.jersey.containers | jersey-container-servlet | 2,30 |
org.glassfish.jersey.containers | jersey-container-servlet-core | 2,30 |
org.glassfish.jersey.core | jersey-client | 2,30 |
org.glassfish.jersey.core | jersey-common | 2,30 |
org.glassfish.jersey.core | jersey-server | 2,30 |
org.glassfish.jersey.inject | jersey-hk2 | 2,30 |
org.glassfish.jersey.media | jersey-media-jaxb | 2,30 |
org.hibernate.validator | hibernate-validator | 6.1.0.Final |
org.javassist | javassist | 3.25.0-GA |
org.jboss.logging | jboss-logging | 3.3.2.Final |
org.jdbi | jdbi | 2.63.1 |
org.joda | joda-convert | 1.7 |
org.jodd | jodd-core | 3.5.2 |
org.json4s | json4s-ast_2.12 | 3.6.6 |
org.json4s | json4s-core_2.12 | 3.6.6 |
org.json4s | json4s-jackson_2.12 | 3.6.6 |
org.json4s | json4s-scalap_2.12 | 3.6.6 |
org.lz4 | lz4-java | 1.7.1 |
org.mariadb.jdbc | mariadb-java-client | 2.1.2 |
org.objenesis | objenesis | 2.5.1 |
org.postgresql | postgresql | 42.1.4 |
org.roaringbitmap | RoaringBitmap | 0.7.45 |
org.roaringbitmap | shims | 0.7.45 |
org.rocksdb | rocksdbjni | 6.2.2 |
org.rosuda.REngine | REngine | 2.1.0 |
org.scala-lang | scala-compiler_2.12 | 2.12.10 |
org.scala-lang | scala-library_2.12 | 2.12.10 |
org.scala-lang | scala-reflect_2.12 | 2.12.10 |
org.scala-lang.modules | scala-collection-compat_2.12 | 2.1.1 |
org.scala-lang.modules | scala-parser-combinators_2.12 | 1.1.2 |
org.scala-lang.modules | scala-xml_2.12 | 1.2.0 |
org.scala-sbt | test-interface | 1,0 |
org.scalacheck | scalacheck_2.12 | 1.14.2 |
org.scalactic | scalactic_2.12 | 3.0.8 |
org.scalanlp | breeze-macros_2.12 | 1,0 |
org.scalanlp | breeze_2.12 | 1,0 |
org.scalatest | scalatest_2.12 | 3.0.8 |
org.slf4j | jcl-over-slf4j | 1.7.30 |
org.slf4j | jul-to-slf4j | 1.7.30 |
org.slf4j | slf4j-api | 1.7.30 |
org.slf4j | slf4j-log4j12 | 1.7.30 |
org.spark-project.spark | unused | 1.0.0 |
org.springframework | spring-core | 4.1.4.RELEASE |
org.springframework | spring-test | 4.1.4.RELEASE |
org.threeten | threeten-extra | 1.5.0 |
org.tukaani | xz | 1.5 |
org.typelevel | algebra_2.12 | 2.0.0-M2 |
org.typelevel | cats-kernel_2.12 | 2.0.0-M4 |
org.typelevel | machinist_2.12 | 0.6.8 |
org.typelevel | macro-compat_2.12 | 1.1.1 |
org.typelevel | spire-macros_2.12 | 0.17.0-M1 |
org.typelevel | spire-platform_2.12 | 0.17.0-M1 |
org.typelevel | spire-util_2.12 | 0.17.0-M1 |
org.typelevel | spire_2.12 | 0.17.0-M1 |
org.xerial | sqlite-jdbc | 3.8.11.2 |
org.xerial.snappy | snappy-java | 1.1.7.5 |
org.yaml | snakeyaml | 1.24 |
oro | oro | 2.0.8 |
pl.edu.icm | JLargeArrays | 1.5 |
software.amazon.ion | ion-java | 1.0.2 |
stax | stax-api | 1.0.1 |
xmlenc | xmlenc | 0,52 |