Actualizaciones de mantenimiento para Databricks Runtime (archivado)
En esta página archivada se enumeran las actualizaciones de mantenimiento publicadas para las versiones de Databricks Runtime que ya no se admiten. Para agregar una actualización de mantenimiento a un clúster existente, debe reiniciarlo.
Importante
Esta documentación se ha retirado y es posible que no se actualice. Los productos, los servicios o las tecnologías mencionados en este contenido han alcanzado el final de la compatibilidad. Ver las notas de la versión de Databricks Runtime versiones y compatibilidad.
Nota:
Este artículo contiene referencias al término lista de permitidos, el cual Azure Databricks no usa. Cuando se quite el término del software, se quitará también del artículo.
Versiones de Databricks Runtime
Actualizaciones de mantenimiento por versión:
- Databricks Runtime 15.1
- Databricks Runtime 15.0
- Databricks Runtime 14.0
- Databricks Runtime 13.1
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS
- Databricks Runtime 9.1 LTS
- Databricks Runtime 13.0 (EoS)
- Databricks Runtime 12.1 (EoS)
- Databricks Runtime 12.0 (EoS)
- Databricks Runtime 11.2 (EoS)
- Databricks Runtime 11.1 (EoS)
- Databricks Runtime 11.0 (EoS)
- Databricks Runtime 10.5 (EoS)
- Databricks Runtime 10.3 (EoS)
- Databricks Runtime 10.2 (EoS)
- Databricks Runtime 10.1 (EoS)
- Databricks Runtime 10.0 (EoS)
- Databricks Runtime 9.0 (EoS)
- Databricks Runtime 8.4 (EoS)
- Databricks Runtime 8.3 (EoS)
- Databricks Runtime 8.2 (EoS)
- Databricks Runtime 8.1 (EoS)
- Databricks Runtime 8.0 (EoS)
- Databricks Runtime 7.6 (EoS)
- Databricks Runtime 7.5 (EoS)
- Databricks Runtime 7.3 LTS (EoS)
- Soporte extendido para Databricks Runtime 6.4 (EoS)
- Databricks Runtime 5.5 LTS (EoS)
- Soporte extendido de Databricks Light 2.4
- Databricks Runtime 7.4 (EoS)
- Databricks Runtime 7.2 (EoS)
- Databricks Runtime 7.1 (EoS)
- Databricks Runtime 7.0 (EoS)
- Databricks Runtime 6.6 (EoS)
- Databricks Runtime 6.5 (EoS)
- Databricks Runtime 6.3 (EoS)
- Databricks Runtime 6.2 (EoS)
- Databricks Runtime 6.1 (EoS)
- Databricks Runtime 6.0 (EoS)
- Databricks Runtime 5.4 ML (EoS)
- Databricks Runtime 5.4 (EoS)
- Databricks Runtime 5.3 (EoS)
- Databricks Runtime 5.2 (EoS)
- Databricks Runtime 5.1 (EoS)
- Databricks Runtime 5.0 (EoS)
- Databricks Runtime 4.3 (EoS)
- Databricks Runtime 4.2 (EoS)
- Databricks Runtime 4.1 ML (EoS)
- Databricks Runtime 4.1 (EoS)
- Databricks Runtime 4.0 (EoS)
- Databricks Runtime 3.5 LTS (EoS)
- Databricks Runtime 3.4 (EoS)
Para obtener las actualizaciones de mantenimiento en versiones admitidas de Databricks Runtime, consulte Actualizaciones de mantenimiento de Databricks Runtime.
Databricks Runtime 15.1
Consulte Databricks Runtime 15.1 (EoS).
- 22 de octubre de 2024
- [SPARK-49863][SQL] Corrección de NormalizeFloatingNumbers para conservar la nulabilidad de las estructuras anidadas
- [SPARK-46632][SQL] Corrección de la eliminación de subexpresión cuando las expresiones ternarias equivalentes tienen distintos elementos secundarios
- [SPARK-49782][SQL] La regla ResolveDataFrameDropColumns resuelve UnresolvedAttribute con salida secundaria
- [SPARK-49905] Use ShuffleOrigin dedicado para el operador con estado para evitar que se modifique el orden aleatorio de AQE.
- [SPARK-49829] Revise la optimización para agregar la entrada al almacén de estado en la combinación de flujo-secuencia (corrección de corrección)
- Actualizaciones de seguridad del sistema operativo
- 10 de octubre de 2024
- [SPARK-49688][CONNECT] Corrección de una carrera de datos entre interrupción y ejecución del plan
- [SPARK-49743][SQL] OptimizeCsvJsonExpr no debe cambiar los campos de esquema al eliminar GetArrayStructFields
- [BACKPORT][[SPARK-49474]]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Clasificación de la clase error de la función de usuario FlatMapGroupsWithState
- Actualizaciones de seguridad del sistema operativo
- 25 de septiembre de 2024
- [SPARK-49628][SQL] ConstantFolding debe copiar una expresión con estado antes de evaluar
- [SPARK-48719][SQL] Corrección del error de cálculo de RegrSlope & RegrIntercept cuando el primer parámetro es NULL
- [SPARK-49492][CONNECT] Reintentar intentó activar ExecutionHolder inactivo
- [SPARK-49000][SQL] Se ha corregido "select count(distinct 1) from t" donde t está vacía mediante la expansión de RewriteDistinctAggregates
- [SPARK-49458][CONNECT][PYTHON] Proporcionar el identificador de sesión del lado servidor a través de ReattachExecute
- Actualizaciones de seguridad del sistema operativo
- 17 de septiembre de 2024
- [SPARK-49336][CONNECT] Limitar el nivel de anidamiento al truncar un mensaje protobuf
- [SPARK-49526][CONNECT] Compatibilidad con rutas de acceso de estilo Windows en ArtifactManager
- [SPARK-49409][CONNECT] Ajuste el valor predeterminado de CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-43242][CORE] Se ha corregido el error "Tipo inesperado de BlockId" en diagnóstico de daños aleatorios.
- [SPARK-49366][CONNECT] Tratar el nodo Union como hoja en la resolución de columnas de trama de datos
- 29 de agosto de 2024
- [SPARK-49263][CONNECT] Cliente python de Spark Connect: control constante de las opciones del lector de tramas de datos booleanas
- [SPARK-49056][SQL] ErrorClassesJsonReader no puede controlar null correctamente
- [SPARK-48862][PYTHON][CONNECT] Se evita llamar a
_proto_to_string
cuando el nivel INFO no está habilitado - [SPARK-49146][SS] Mover errores de aserción relacionados con la marca de agua que falta en las consultas de streaming en modo anexado al marco de errores
- 14 de agosto de 2024
- [SPARK-48941][SPARK-48970] Correcciones de lector y escritor de ML de portabilidad con versiones anteriores
- [SPARK-48050][SS] Registro del plan lógico al inicio de la consulta
- [SPARK-48706][PYTHON] El UDF de Python en funciones de orden superior no debe producir un error interno
- [SPARK-48597][SQL] Introducir un marcador para la propiedad isStreaming en la representación de texto del plan lógico
- [SPARK-49065][SQL] La fusión mediante cambio de base en formateadores o analizadores heredados debe admitir zonas horarias predeterminadas que no son JVM.
- [SPARK-49047][PYTHON] [CONNECT] Truncar el mensaje para el registro
- [SPARK-48740][SQL] Captura del error de especificación de ventana que falta antes
- 1 de agosto de 2024
- En el proceso sin servidor para cuadernos y trabajos, el modo SQL ANSI está habilitado de forma predeterminada. Consulte Parámetros de configuración de Spark admitidos.
- En el proceso configurado con el modo de acceso compartido, las lecturas y escrituras por lotes de Kafka ahora tienen las mismas limitaciones que las documentadas para los flujos estructurados. Consulte Limitaciones y requisitos de streaming para el modo de acceso compartido a Unity Catalog.
- La salida de una instrucción
SHOW CREATE TABLE
ahora incluye todos los filtros de fila o máscaras de columna definidos en una vista materializada o una tabla de streaming. Consulte SHOW CREATE TABLE. Para obtener más información sobre cómo usar filtros de fila y máscaras de columna, vea Filtrar datos confidenciales de la tabla mediante filtros de fila y máscaras de columna. - [SPARK-48544][SQL] Reducción de la presión de memoria de conjuntos de sets TreeNode
- [SPARK-46957][CORE] Los archivos aleatorios migrados retirados deben poder limpiarse del ejecutor
- [SPARK-47202][PYTHON] Corrección de datetimes de interrupción de error tipográfico con tzinfo
- [SPARK-48713][SQL] Agregar comprobación de intervalo de índice para UnsafeRow.pointTo cuando baseObject es una matriz de bytes
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correcciones del sistema de escritura de Spark ML de portabilidad con versiones anteriores
- [SPARK-48810][CONNECT] API Session stop () debe ser idempotent y no producir un error si el servidor ya ha cerrado la sesión
- [SPARK-48873][SQL] Uso de UnsafeRow en el analizador JSON.
- [SPARK-48934][SS] Tipos datetime de Python convertidos incorrectamente para establecer el tiempo de espera en applyInPandasWithState
- [SPARK-48705][PYTHON] Use explícitamente worker_main cuando empiece por pyspark
- [SPARK-48889][SS] testStream para descargar almacenes de estado antes de finalizar
- [SPARK-48047][SQL] Reducción de la presión de memoria de etiquetas TreeNode vacías
- [SPARK-48463] Hacer que StringIndexer admita columnas de entrada anidadas
- Actualizaciones de seguridad del sistema operativo
- 11 de julio de 2024
- (Cambio de comportamiento) Los DataFrames almacenados en caché en los orígenes de tabla Delta ahora se invalidan si se sobrescribe la tabla de origen. Este cambio significa que todos los cambios de estado en las tablas Delta ahora invalidan los resultados almacenados en caché. Se usa
.checkpoint()
para conservar un estado de tabla durante toda la vigencia de un dataframe. - Snowflake JDBC Driver se actualiza a la versión 3.16.1.
- Esta versión incluye una corrección de un problema que impedía que la pestaña Entorno de la interfaz de usuario de Spark se mostrara correctamente al ejecutarse en Databricks Container Services.
- En el proceso sin servidor para cuadernos y trabajos, el modo SQL ANSI está habilitado de forma predeterminada. Consulte Parámetros de configuración de Spark admitidos.
- Para omitir particiones no válidas al leer datos, orígenes de datos basados en archivos, como Parquet, ORC, CSV o JSON, puede establecer la opción ignoreInvalidPartitionPaths del origen de datos en true. Por ejemplo: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...) `. También puede usar la configuración de SQL spark.sql.files.ignoreInvalidPartitionPaths. Sin embargo, la opción del origen de datos tiene prioridad sobre la configuración de SQL. Esta configuración es false de forma predeterminada.
- [SPARK-48383][SS] Se produce un error mejor para las particiones no coincidentes en la opción startOffset en Kafka
- [SPARK-48481][SQL][SS] No aplicar OptimizeOneRowPlan en el conjunto de datos de streaming
- [SPARK-48100][SQL] Corregir problemas al omitir campos de estructura anidados no seleccionados en el esquema
- [SPARK-47463][SQL] Use V2Predicate para encapsular la expresión con el tipo de valor devuelto booleano
- [SPARK-48445][SQL] No inserte UDF insertadas con elementos secundarios costosos
- [SPARK-48292][CORE] Revertir [SPARK-39195][SQL] Spark OutputCommitCoordinator debe anular la fase cuando el archivo confirmado no sea coherente con el estado de la tarea
- [SPARK-48566][PYTHON] Se ha corregido un error por el que los índices de partición eran incorrectos cuando UDTF analizar() utilizaba tanto select como partitionColumns.
- [SPARK-48648][PYTHON][CONNECT] Hacer que SparkConnectClient.tags sea correctamente subprocesocal
- [SPARK-48503][SQL] Corregir subconsultas escalares no válidas con agrupación por en columnas no equivalentes permitidas incorrectamente
- [SPARK-48252][SQL] Actualizar CommonExpressionRef cuando sea necesario
- [SPARK-48475][PYTHON] Optimizar _get_jvm_function en PySpark.
- [SPARK-48294][SQL] Controlar minúsculas en nestedTypeMissingElementTypeError
- [SPARK-48286] Corregir el análisis de columna con existe una expresión predeterminada: se ha agregado un error orientado al usuario
- [SPARK-47309][SQL] XML: Agregar pruebas de inferencia de esquema para etiquetas de valor
- [SPARK-47309][SQL][XML] Agregar pruebas unitarias de inferencia de esquema
- [SPARK-48273][SQL] Corregir la reescritura tardía de PlanWithUnresolvedIdentifier
- Actualizaciones de seguridad del sistema operativo
- (Cambio de comportamiento) Los DataFrames almacenados en caché en los orígenes de tabla Delta ahora se invalidan si se sobrescribe la tabla de origen. Este cambio significa que todos los cambios de estado en las tablas Delta ahora invalidan los resultados almacenados en caché. Se usa
- 17 de junio de 2024
applyInPandasWithState()
está disponible en clústeres compartidos.- Corrige un error en el que la optimización de la ventana de clasificación mediante Photon TopK controla incorrectamente las particiones con estructuras.
- [SPARK-48310][PYTHON][CONNECT] Las propiedades almacenadas en caché deben devolver copias
- [SPARK-48276][PYTHON][CONNECT] Agregue el método de
__repr__
que falta paraSQLExpression
- [SPARK-48277] Mensaje de error Mejorar para ErrorClassesJsonReader.getErrorMessage
- [SPARK-47764][CORE][SQL] Limpieza de dependencias aleatorias basadas en ShuffleCleanupMode
- Actualizaciones de seguridad del sistema operativo
- 21 de mayo de 2024
- Se ha corregido un error en la función try_divide() en la que las entradas que contienen decimales producían excepciones inesperadas.
- [SPARK-48173][SQL] CheckAnalysis debería ver todo el plan de consulta
- [SPARK-48016][SQL] Corrección de un error en try_divide función cuando con decimales
- [SPARK-48105][SS] Corregir la condición de carrera entre la descarga del almacén de estado y la creación de instantáneas
- [SPARK-48197][SQL] Evitar el error de aserción para una función lambda no válida
- [SPARK-48180][SQL] Mejorar el error cuando la llamada UDTF con TABLA arg olvida paréntesis alrededor de varios archivos PARTITION/ORDER BY exprs
- [SPARK-48014][SQL] Cambie el error makeFromJava en EvaluatePython a un error orientado al usuario
- [SPARK-48056][CONNECT][PYTHON] Volver a ejecutar el plan si se produce un error de SESSION_NOT_FOUND y no se ha recibido ninguna respuesta parcial
- [SPARK-48146][SQL] Corregir la función de agregado en Con aserción secundaria de expresión
- [SPARK-47994][SQL] Se ha corregido el error con la inserción de filtros de columna CASE WHEN en SQLServer
- Actualizaciones de seguridad del sistema operativo
- 9 de mayo de 2024
- [SPARK-47543][CONNECT][PYTHON] Inferencia de dict como MapType de Dataframe de Pandas para permitir la creación de Dataframes
- [SPARK-47739][SQL] Registrar el tipo de avro lógico
- [SPARK-48044][PYTHON][CONNECT]
DataFrame.isStreaming
de caché - [SPARK-47855][CONNECT] Agregar
spark.sql.execution.arrow.pyspark.fallback.enabled
en la lista no admitida - [SPARK-48010][SQL] Evitar llamadas repetidas a conf.resolver en resolveExpression
- [SPARK-47941] [SS] [Connect] Propagación de errores de inicialización de trabajo de ForeachBatch a los usuarios para PySpark
- [SPARK-47819][CONNECT][Cherry-pick-15.0] Usar la devolución de llamada asincrónica para la limpieza de la ejecución
- [SPARK-47956][SQL] Comprobación de integridad de la referencia de LCA sin resolver
- [SPARK-47839][SQL] Corrección del error agregado en RewriteWithExpression
- [SPARK-48018][SS] Corrección de groupId null que provoca un error de param que falta al iniciar KafkaException.couldNotReadOffsetRange
- [SPARK-47371] [SQL] XML: ignorar etiquetas de fila encontradas en CDATA
- [SPARK-47907][SQL] Colocar bang en una configuración
- [SPARK-47895]grupo [SQL] por todos deben ser idempotentes
- [SPARK-47973]sitio de llamada de registro [CORE] en SparkContext.stop() y versiones posteriores en SparkContext.assertNotStopped()
- [SPARK-47986][CONNECT][PYTHON] No se puede crear una nueva sesión cuando el servidor cierra la sesión predeterminada
- Actualizaciones de seguridad del sistema operativo
Databricks Runtime 15.0
Consulte Databricks Runtime 15.0 (EoS).
- 30 de mayo de 2024
- (Cambio de comportamiento)
dbutils.widgets.getAll()
ahora se admite para obtener todos los valores de widget en un cuaderno.
- (Cambio de comportamiento)
- 25 de abril de 2024
- [SPARK-47786] SELECT DISTINCT () no debe convertirse en SELECT DISTINCT struct() (revertir al comportamiento anterior)
- [SPARK-47802][SQL] Revertir () del significado struct() de nuevo al significado *
- [SPARK-47509][SQL] Bloquear expresiones de subconsulta en funciones lambda y de orden superior
- [SPARK-47722] Esperar hasta que finalice el trabajo en segundo plano de RocksDB antes de cerrar
- [SPARK-47081][CONNECT][FOLLOW] Mejorar la facilidad de uso del controlador de progreso
- [SPARK-47694][CONNECT] Hacer que el tamaño máximo del mensaje sea configurable en el lado cliente
- [SPARK-47669][SQL][CONNECT][PYTHON] Agregar
Column.try_cast
- [SPARK-47664][PYTHON][CONNECT][Cherry-pick-15.0] Validar el nombre de columna con el esquema almacenado en caché
- [SPARK-47818][CONNECT][Cherry-pick-15.0] Introducir la caché del plan en SparkConnectPlanner para mejorar el rendimiento de las solicitudes de análisis
- [SPARK-47704][SQL] El análisis de JSON produce un error “java.lang.ClassCastException” cuando spark.sql.json.enablePartialResults está habilitado
- [SPARK-47755][CONNECT] Pivot debe producir un error cuando el número de valores distintos es demasiado grande
- [SPARK-47713][SQL][CONNECT] Corregir un error de autocombinación
- [SPARK-47812][CONNECT] Admitir la serialización de SparkSession para el trabajo ForEachBatch
- [SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
produce un error con un plan no válido - [SPARK-47862][PYTHON][CONNECT] Corregir la generación de archivos proto
- [SPARK-47800][SQL] Crear un nuevo método para la conversión de identificador a tableIdentifier
- Actualizaciones de seguridad del sistema operativo
- 3 de abril de 2024
- (Cambio de comportamiento) Para garantizar un comportamiento coherente entre los tipos de proceso, las UDF de PySpark en clústeres compartidos ahora coinciden con el comportamiento de las UDF en clústeres sin aislamiento y clústeres asignados. Esta actualización incluye los siguientes cambios que podrían interrumpir el código existente:
- Las UDF con un tipo de valor devuelto de
string
ya no convierten implícitamente valores nostring
en valoresstring
. Anteriormente, las UDF con un tipo de valor devuelto destr
encapsularían el valor devuelto con una funciónstr()
independientemente del tipo de datos real del valor devuelto. - Las UDF con
timestamp
tipos devueltos ya no aplican implícitamente una conversión atimestamp
contimezone
. - Las configuraciones del clúster de Spark
spark.databricks.sql.externalUDF.*
ya no se aplican a las UDF de PySpark en clústeres compartidos. - La configuración del clúster de Spark
spark.databricks.safespark.externalUDF.plan.limit
ya no afecta a las UDF de PySpark, lo que elimina la limitación de la versión preliminar pública de 5 UDF por consulta para UDF de PySpark. - La configuración del clúster de Spark
spark.databricks.safespark.sandbox.size.default.mib
ya no se aplica a las UDF de PySpark en clústeres compartidos. En su lugar, se usa la memoria disponible en el sistema. Para limitar la memoria de las UDF de PySpark, usespark.databricks.pyspark.udf.isolation.memoryLimit
con un valor mínimo de100m
.
- Las UDF con un tipo de valor devuelto de
- El
TimestampNTZ
tipo de datos ahora se admite como una columna de agrupación en clústeres con clústeres líquidos. Consulte Uso de clústeres líquidos para tablas Delta. - [SPARK-47218][SQL] XML: omitir etiquetas de fila comentadas en tokenizador XML
- [SPARK-46990][SQL] Corrección de la carga de archivos Avro vacíos emitidos por evento-central
- [SPARK-47033][SQL] Corrección de EJECUTAR USO INMEDIATO no reconoce los nombres de variables de sesión
- [SPARK-47368][SQL] Quitar de la comprobación de configuración inferTimestampNTZ en ParquetRowConverter
- [SPARK-47561][SQL] Corrección de problemas de orden de reglas del analizador sobre alias
- [SPARK-47638][PS] [CONNECT] Omitir la validación de nombres de columna en PS
- [SPARK-46906][BACKPORT][SS] Agregar una comprobación de cambio de operador con estado para streaming
- [SPARK-47569][SQL] No permitir la comparación de variantes.
- [SPARK-47241][SQL] Corrección de problemas de orden de reglas para ExtractGenerator
- [SPARK-47218] [SQL] XML: Se ha cambiado SchemaOfXml para que se produzca un error en el modo DROPMALFORMED
- [SPARK-47300][SQL]
quoteIfNeeded
debe citar identificador comienza con dígitos - [SPARK-47009][SQL] [Intercalación] Habilitación de soporte con la creación de tablas para la intercalación
- [SPARK-47322][PYTHON][CONNECT] Hacer que la duplicación de nombres de columna de
withColumnsRenamed
control sea coherente conwithColumnRenamed
- [SPARK-47544][PYTHON] El método compilación es incompatible con visual studio código intellisense
- [SPARK-47511][SQL] Canonicalizar expresiones con reasignación de identificadores
- [SPARK-47385] Corrija los codificadores de tupla con entradas de opción.
- [SPARK-47200][SS] Clase de error de la función de usuario receptor de lotes Foreach
- [SPARK-47135][SS] Implementación de clases de error para excepciones de pérdida de datos de Kafka
- [SPARK-38708][SQL] Actualizar el cliente de Metastore de Hive a la versión 3.1.3 para Hive 3.1
- [SPARK-47305][SQL] Corrija PruneFilters para etiquetar la marca isStreaming de LocalRelation correctamente cuando el plan tiene tanto procesamiento por lotes como streaming
- [SPARK-47380][CONNECT] Asegúrese en el lado servidor de que SparkSession sea el mismo
- Actualizaciones de seguridad del sistema operativo
- (Cambio de comportamiento) Para garantizar un comportamiento coherente entre los tipos de proceso, las UDF de PySpark en clústeres compartidos ahora coinciden con el comportamiento de las UDF en clústeres sin aislamiento y clústeres asignados. Esta actualización incluye los siguientes cambios que podrían interrumpir el código existente:
Databricks Runtime 14.0
Consulte Databricks Runtime 14.0 (EoS).
- 8 de febrero de 2024
- [SPARK-46396] La inferencia de marca de tiempo no debe producir una excepción.
- [SPARK-46794] Quitar subconsultas de restricciones LogicalRDD.
- [SPARK-45182] Omitir la finalización de tareas de la fase anterior después de volver a intentar la fase primaria indeterminada según lo determinado por la suma de comprobación.
- [SPARK-46933] Agregar métrica de tiempo de ejecución de consultas a conectores que usan JDBCRDD.
- [SPARK-45957] Evitar generar el plan de ejecución para comandos que no son ejecutables.
- [SPARK-46861] Evitar interbloqueo en DAGScheduler.
- [SPARK-46930] Agregar soporte para un prefijo personalizado para los campos de tipo Union en Avro.
- [SPARK-46941] No se puede insertar el nodo de límite de grupo de ventanas para el cálculo superior k si contiene SizeBasedWindowFunction.
- [SPARK-45582] Asegúrese de que la instancia de almacén no se usa después de llamar a la confirmación en la agregación de streaming del modo de salida.
- Actualizaciones de seguridad del sistema operativo
- 31 de enero de 2024
- [SPARK-46541] Corregir la referencia de columna ambigua en la unión automática.
- [SPARK-46676] dropDuplicatesWithinWatermark no debe producir un error en la canonización del plan.
- [SPARK-46769] Refinar la inferencia de esquema relacionada con la marca de tiempo.
- [SPARK-45498] Seguimiento: omitir la finalización de tareas de los intentos de fase antiguos.
- Revierta [SPARK-46769] Refinar la inferencia de esquema relacionada con la marca de tiempo.
- [SPARK-46383] Reducir el uso del montón de controladores al reducir la duración de
TaskInfo.accumulables()
. - [SPARK-46633] Corregir lector Avro para manipular bloques de longitud cero.
- [SPARK-46677] Corrección
dataframe["*"]
resolución. - [SPARK-46684] Corregir CoGroup.applyInPandas/Arrow para pasar argumentos correctamente.
- [SPARK-46763] corregir el error de aserción en ReplaceDeduplicateWithAggregate para los atributos duplicados.
- [SPARK-46610] Crear tabla debe producir una excepción cuando no hay ningún valor para una clave en las opciones.
- Actualizaciones de seguridad del sistema operativo
- 17 de enero de 2024
- El nodo
shuffle
del plan de explicación devuelto por una consulta de Photon se actualiza para agregar la marcacausedBroadcastJoinBuildOOM=true
cuando se produce un error de memoria insuficiente durante un orden aleatorio que forma parte de una combinación de difusión. - Para evitar una mayor latencia al comunicarse a través de TLSv1.3, esta versión de mantenimiento incluye una revisión a la instalación de JDK 8 para corregir el error de JDK (JDK-8293562).
- [SPARK-46394] Corregir problemas de spark.catalog.listDatabases() en esquemas con caracteres especiales cuando
spark.sql.legacy.keepCommandOutputSchema
se establece en true. - [SPARK-46250] Análisis pormenorizado de test_parity_listener.
- [SPARK-45814] Hacer que la llamada ArrowConverters.createEmptyArrowBatch se cierre() para evitar la pérdida de memoria.
- [SPARK-46173] Omitir la llamada a trimAll durante el análisis de fechas.
- [SPARK-46484] Hacer que las funciones auxiliares
resolveOperators
conserven el identificador del plan. - [SPARK-46466] El lector de parquet vectorizado nunca debe fusionarse mediante cambio de base para la marca de tiempo ntz.
- [SPARK-46056] Corregir NPE de lectura vectorizada de Parquet con el valor predeterminado byteArrayDecimalType.
- [SPARK-46058] Agregar una marca independiente para privateKeyPassword.
- [SPARK-46478] Revertir SPARK-43049 para usar oracle varchar(255) para la cadena.
- [SPARK-46132] Se admite la contraseña de clave para las claves JKS para RPC SSL.
- [SPARK-46417] No se produce un error al llamar a hive.getTable y throwException es false.
- [SPARK-46261]
DataFrame.withColumnsRenamed
debe mantener el orden de los diccionarios/mapas. - [SPARK-46370] Se ha corregido el error al consultar desde la tabla después de cambiar los valores predeterminados de columna.
- [SPARK-46609] Evitar la explosión exponencial en PartitioningPreservingUnaryExecNode.
- [SPARK-46600] Mover código compartido entre SqlConf y SqlApiConf a SqlApiConfHelper.
- [SPARK-46538] Corregir el problema de referencia de columna ambigua en
ALSModel.transform
. - [SPARK-46337] Hacer que
CTESubstitution
conservePLAN_ID_TAG
. - [SPARK-46602] Propagar
allowExisting
en la creación de la vista cuando la vista o tabla no exista. - [SPARK-46260]
DataFrame.withColumnsRenamed
debe respetar el orden de los diccionarios. - [SPARK-46145] spark.catalog.listTables no produce una excepción cuando no se encuentra la tabla o vista.
- El nodo
- 14 de diciembre de 2023
- Se ha corregido un problema que provocaba que los caracteres de subrayado con escape en operaciones getColumns procedentes de clientes JDBC o ODBC se administraban incorrectamente y se interpretaban erróneamente como caracteres comodín.
- [SPARK-46255] Compatibilidad con tipo complejo:> conversión de cadenas.
- [SPARK-46028] Hacer que
Column.__getitem__
acepte la columna de entrada. - [SPARK-45920] Agrupar por ordinal debe ser idempotente.
- [SPARK-45433] Corrección de la inferencia de esquema CSV/JSON cuando las marcas de tiempo no coinciden con el valor timestampFormat especificado.
- [SPARK-45509] Corregir el comportamiento de referencia de columnas df para Spark Connect.
- Actualizaciones de seguridad del sistema operativo
- 29 de noviembre de 2023
- Se ha instalado un nuevo paquete,
pyarrow-hotfix
, para corregir una vulnerabilidad de RCE de PyArrow. - Se ha corregido un problema que provocaba que los caracteres de subrayado con escape en operaciones
getColumns
procedentes de clientes JDBC o ODBC se interpretaran erróneamente como caracteres comodín. - Al ingerir datos CSV mediante Auto Loader o Streaming Tables, los archivos CSV de gran tamaño ahora se pueden dividir y se pueden procesar en paralelo durante la inferencia de esquemas y el procesamiento de datos.
- Se ha actualizado el conector de Spark-snowflake a la versión 2.12.0.
- [SPARK-45859] Objetos UDF creados en
ml.functions
diferido. - Revierta [SPARK-45592].
- [SPARK-45892] Validación del plan del optimizador de refactorización para desacoplar
validateSchemaOutput
yvalidateExprIdUniqueness
. - [SPARK-45592] Se ha corregido el problema de corrección en AQE con
InMemoryTableScanExec
. - [SPARK-45620] Las API relacionadas con UDF de Python ahora usan camelCase.
- [SPARK-44784] Se han hecho herméticas las pruebas SBT.
- [SPARK-45770] Se ha corregido la resolución de columna con
DataFrameDropColumns
paraDataframe.drop
. - [SPARK-45544] compatibilidad integrada con SSL en
TransportContext
. - [SPARK-45730] Restricciones de tiempo mejoradas para
ReloadingX509TrustManagerSuite
. - Actualizaciones de seguridad del sistema operativo
- Se ha instalado un nuevo paquete,
- 10 de noviembre de 2023
- Se han cambiado las consultas de fuente de distribución de datos en las vistas materializadas y las tablas de streaming de Unity Catalog para mostrar mensajes de error.
- [SPARK-45545]
SparkTransportConf
heredaSSLOptions
tras la creación. - [SPARK-45584] Se ha corregido un error de ejecución de subconsulta con
TakeOrderedAndProjectExec
. - [SPARK-45427] Se ha agregado la configuración SSL de RPC a
SSLOptions
ySparkTransportConf
. - [SPARK-45541] Se ha agregado
SSLFactory
. - [SPARK-45430]
FramelessOffsetWindowFunction
ya no genera un error cuandoIGNORE NULLS
yoffset > rowCount
. - [SPARK-45429] Se han agregado clases auxiliares para la comunicación RPC de SSL.
- [SPARK-44219][SQL] Se han agregado validaciones adicionales por regla para las reescrituras de optimización.
- [SPARK-45543] Se ha corregido un problema en el que
InferWindowGroupLimit
provocaba un error si las otras funciones de ventana no tenían el mismo marco de ventana que las funciones de clasificación. - Actualizaciones de seguridad del sistema operativo
- 23 de octubre de 2023
- [SPARK-45426] Se ha agregado compatibilidad con
ReloadingX509TrustManager
. - [SPARK-45396] Se ha agregado la entrada de documento para el módulo
PySpark.ml.connect
y se ha agregadoEvaluator
a__all__
enml.connect
. - [SPARK-45256] Se ha corregido un problema que provocaba que
DurationWriter
generara un error al escribir más valores de los estipulados en la capacidad inicial. - [SPARK-45279] Se ha adjuntado
plan_id
a todos los planes lógicos. - [SPARK-45250] Se ha agregado compatibilidad con el perfil de recursos de tarea en el nivel de fase para clústeres YARN cuando la asignación dinámica está deshabilitada.
- [SPARK-45182] Se ha agregado compatibilidad para revertir la fase de asignación aleatoria, por lo que todas las tareas de fase se pueden reintentar cuando la salida de la fase sea indeterminada.
- [SPARK-45419][SS] Evite reutilizar archivos
rocksdb sst
en una instancia derocksdb
diferente quitando la entrada del mapa de versiones de archivo de las versiones más grandes. - [SPARK-45386] Se ha corregido un problema que provocaba que
StorageLevel.NONE
devolviera 0 de forma incorrecta. - Actualizaciones de seguridad del sistema operativo
- [SPARK-45426] Se ha agregado compatibilidad con
- 13 de octubre de 2023
- Dependencia de Snowflake-jdbc actualizada de la versión 3.13.29 a 3.13.33.
- La función
array_insert
se basa en 1 para los índices positivos y negativos, mientras que antes se basaba en 0 para los índices negativos. Ahora inserta un nuevo elemento al final de las matrices de entrada para el índice -1. Para restaurar el comportamiento anterior, establezcaspark.sql.legacy.negativeIndexInArrayInsert
entrue
. - Azure Databricks ya no omite los archivos dañados cuando una inferencia de esquema CSV con Auto Loader ha habilitado
ignoreCorruptFiles
. - [SPARK-45227] Se ha corregido un problema sutil de seguridad de subprocesos con
CoarseGrainedExecutorBackend
. - [SPARK-44658]
ShuffleStatus.getMapStatus
debe devolverNone
, en lugar deSome(null)
. - [SPARK-44910]
Encoders.bean
no admite superclases con argumentos de tipo genérico. - [SPARK-45346] La inferencia de esquema Parquet respeta las marcas que distinguen mayúsculas de minúsculas al combinar el esquema.
- Revierta [SPARK-42946].
- [SPARK-42205] Se ha actualizado el protocolo JSON para quitar el registro de Accumulables en una tarea o en eventos de inicio de fase.
- [SPARK-45360] El generador de sesiones de Spark admite la inicialización desde
SPARK_REMOTE
. - [SPARK-45316] Agregue nuevos parámetros
ignoreCorruptFiles
/ignoreMissingFiles
aHadoopRDD
yNewHadoopRDD
. - [SPARK-44909] Omita la ejecución del servidor de streaming de registro del distribuidor torch cuando no esté disponible.
- [SPARK-45084]
StateOperatorProgress
ahora usa un número de partición aleatorio preciso. - [SPARK-45371] Se han corregido problemas de sombreado en el cliente Scala de Spark Connect.
- [SPARK-45178] Reserva para ejecutar un único lote para
Trigger.AvailableNow
con orígenes no admitidos en lugar de usar el contenedor. - [SPARK-44840] Haga que
array_insert()
se base en 1 para índices negativos. - [SPARK-44551]: se han editado los comentarios para sincronizarlos con OSS.
- [SPARK-45078] La función
ArrayInsert
hace ahora una conversión explícita cuando el tipo de elemento no es igual al tipo de componente derivado. - [SPARK-45339] Pyspark ahora registra los errores de reintento.
- [SPARK-45057] Evite adquirir bloqueo de lectura cuando
keepReadLock
sea falso. - [SPARK-44908] Se ha corregido la funcionalidad cruzada de parámetros
foldCol
de validador. - Actualizaciones de seguridad del sistema operativo
Databricks Runtime 13.1
Consulte Databricks Runtime 13.1 (EoS).
- 29 de noviembre de 2023
- Se ha corregido un problema que provocaba que los caracteres de subrayado con escape en operaciones
getColumns
procedentes de clientes JDBC o ODBC se interpretaran erróneamente como caracteres comodín. - [SPARK-44846] Se han quitado expresiones de agrupación complejas después de
RemoveRedundantAggregates
. - [SPARK-43802] Se ha corregido un problema que provocaba un error en codegen para expresiones unhex y unbase64.
- [SPARK-43718] Se ha corregido la nulabilidad para las claves en combinaciones
USING
. - Actualizaciones de seguridad del sistema operativo
- Se ha corregido un problema que provocaba que los caracteres de subrayado con escape en operaciones
- 14 de noviembre de 2023
- Los filtros de partición en las consultas de streaming de Delta Lake se insertan antes de la limitación de frecuencia para lograr un mejor uso.
- Se han cambiado las consultas de fuente de distribución de datos en las vistas materializadas y las tablas de streaming de Unity Catalog para mostrar mensajes de error.
- [SPARK-45584] Se ha corregido un error de ejecución de subconsulta con
TakeOrderedAndProjectExec
. - [SPARK-45430]
FramelessOffsetWindowFunction
ya no genera un error cuandoIGNORE NULLS
yoffset > rowCount
. - [SPARK-45543] Se ha corregido un problema en el que
InferWindowGroupLimit
provocaba un error si las otras funciones de ventana no tenían el mismo marco de ventana que las funciones de clasificación. - Actualizaciones de seguridad del sistema operativo
- 24 de octubre de 2023
- [SPARK-43799] Se ha agregado la opción binaria de descriptor a la API
Protobuf
de PySpark. - Revierta [SPARK-42946].
- [SPARK-45346] La inferencia del esquema Parquet respeta ahora las marcas que distinguen mayúsculas de minúsculas al combinar el esquema.
- Actualizaciones de seguridad del sistema operativo
- [SPARK-43799] Se ha agregado la opción binaria de descriptor a la API
- 13 de octubre de 2023
- Dependencia de Snowflake-jdbc actualizada de la versión 3.13.29 a 3.13.33.
- Ya no se omiten los archivos dañados cuando
ignoreCorruptFiles
está habilitado durante la inferencia de esquemas CSV con el cargador automático. - [SPARK-44658]
ShuffleStatus.getMapStatus
devuelveNone
, en lugar deSome(null)
. - [SPARK-45178] Reserva para ejecutar un único lote para
Trigger.AvailableNow
con orígenes no admitidos en lugar de usar el contenedor. - [SPARK-42205] Se ha actualizado el protocolo JSON para quitar el registro de Accumulables en una tarea o en eventos de inicio de fase.
- Actualizaciones de seguridad del sistema operativo
- 12 de septiembre de 2023
- [SPARK-44718] Haga coincidir la configuración predeterminada del modo memoria
ColumnVector
con el valor de configuraciónOffHeapMemoryMode
. - SPARK-44878 Se ha desactivado el límite estricto para el administrador de escritura de
RocksDB
para evitar la excepción de inserción en la memoria caché llena. - Correcciones varias.
- [SPARK-44718] Haga coincidir la configuración predeterminada del modo memoria
- 30 de agosto de 2023
- [SPARK-44871] Se ha corregido el comportamiento de `percentile_disc.
- [SPARK-44714] Facilitar la restricción de la resolución LCA con respecto a las consultas.
- [SPARK-44245]
PySpark.sql.dataframe sample()
las pruebas de documentación actuales son meramente ilustrativas. - [SPARK-44818] Se ha corregido la carrera para la interrupción de tareas pendiente emitida antes de inicializarse
taskThread
. - Actualizaciones de seguridad del sistema operativo
- 15 de agosto de 2023
- [SPARK-44485] Se ha optimizado
TreeNode.generateTreeString
. - [SPARK-44643] Se ha corregido
Row.__repr__
cuando la fila está vacía. - [SPARK-44504] La tarea de mantenimiento ahora limpia los proveedores cargados en caso de error de detención.
- [SPARK-44479] Se ha corregido la conversión
protobuf
a partir de un tipo de estructura vacío. - [SPARK-44464] Se ha corregido
applyInPandasWithStatePythonRunner
de las filas de salida que tienenNull
como primer valor de columna. - Correcciones varias.
- [SPARK-44485] Se ha optimizado
- 27 de julio de 2023
- Se ha corregido un error en el que
dbutils.fs.ls()
devolvíaINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
cuando se le llamaba para una ruta de acceso de ubicación de almacenamiento que entraba en conflicto con otra ubicación de almacenamiento externa o administrada. - [SPARK-44199]
CacheManager
ya no actualizafileIndex
innecesariamente. - [SPARK-44448] Se ha corregido un error de resultados incorrectos de
DenseRankLimitIterator
yInferWindowGroupLimit
. - Actualizaciones de seguridad del sistema operativo
- Se ha corregido un error en el que
- 24 de julio de 2023
- Revierta [SPARK-42323].
- [SPARK-41848] Se ha corregido un problema de sobrecarga de programación de tareas con
TaskResourceProfile
. - [SPARK-44136] [SS] Se ha corregido un problema que provocaba que
StateManager
se materializara en un ejecutor en lugar del controlador enFlatMapGroupsWithStateExec
. - [SPARK-44337] Se ha corregido un problema que provocaba que cualquier campo establecido en
Any.getDefaultInstance
generara errores de análisis. - Actualizaciones de seguridad del sistema operativo
- 27 de junio de 2023
- Actualizaciones de seguridad del sistema operativo
- 15 de junio de 2023
approx_count_distinct
fotonizado.- El analizador JSON en el modo
failOnUnknownFields
quita un registro en modoDROPMALFORMED
y produce un error directamente en el modoFAILFAST
. - La biblioteca Snowflake-jdbc se actualiza a la versión 3.13.29 para solucionar un problema de seguridad.
- El campo de atributos de
PubSubRecord
se almacena como JSON en lugar de cadena de una asignación de Scala para facilitar la serialización y deserialización. - El comando
EXPLAIN EXTENDED
ahora devuelve la idoneidad de la memoria caché de resultados de la consulta. - Mejora el rendimiento de las actualizaciones incrementales con
SHALLOW CLONE
Iceberg y Parquet. - [SPARK-43032] Corrección de errores de SQM de Python.
- [SPARK-43404] Omita la reutilización del archivo sst para la misma versión del almacén de estado de RocksDB a fin de evitar errores de coincidencia de id.
- [SPARK-43340] Gestione el campo de seguimiento de pila que faltaba en los registros de eventos.
- [SPARK-43527] Se ha corregido
catalog.listCatalogs
en PySpark. - [SPARK-43541][SQL] Propague todas las etiquetas
Project
en la resolución de expresiones y columnas que faltan. - [SPARK-43300]
NonFateSharingCache
Contenedor para la caché de Guava. - [SPARK-43378] Cierre correctamente los objetos de secuencia en
deserializeFromChunkedBuffer
. - [SPARK-42852] Revierta los cambios relacionados con
NamedLambdaVariable
deEquivalentExpressions
. - [SPARK-43779]
ParseToDate
ahora cargaEvalMode
en el subproceso principal. - [SPARK-43413] Corrija la nulabilidad
ListQuery
de la subconsultaIN
. - [SPARK-43889] Agregue la comprobación del nombre de columna para que
__dir__()
filtre los nombres de columna propensos a errores. - [SPARK-43043] Se ha mejorado el rendimiento de
MapOutputTracker
.updateMapOutput - [SPARK-43522] Se ha corregido la creación de un nombre de columna de estructura con el índice de matriz.
- [SPARK-43457] Agente de usuario de Augument con versiones del sistema operativo, Python y Spark.
- [SPARK-43286] Se ha actualizado el modo CBC de
aes_encrypt
para generar IV aleatorios. - [SPARK-42851][SQL] Proteja
EquivalentExpressions.addExpr()
consupportedExpression()
. - Revierta [SPARK-43183].
- Actualizaciones de seguridad del sistema operativo
Databricks Runtime 12.2 LTS
Consulte Databricks Runtime 12.2 LTS.
- 29 de noviembre de 2023
- Se ha corregido un problema que provocaba que los caracteres de subrayado con escape en operaciones
getColumns
procedentes de clientes JDBC o ODBC se interpretaran erróneamente como caracteres comodín. - [SPARK-42205] Se han quitado los registros acumulables de los eventos de inicio de
Stage
yTask
. - [SPARK-44846] Se han quitado expresiones de agrupación complejas después de
RemoveRedundantAggregates
. - [SPARK-43718] Se ha corregido la nulabilidad para las claves en combinaciones
USING
. - [SPARK-45544] compatibilidad integrada con SSL en
TransportContext
. - [SPARK-43973] La interfaz de usuario de flujo estructurado ahora muestra correctamente las consultas con errores.
- [SPARK-45730] Restricciones de tiempo mejoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-45859] Objetos UDF creados en
ml.functions
diferido. - Actualizaciones de seguridad del sistema operativo
- Se ha corregido un problema que provocaba que los caracteres de subrayado con escape en operaciones
- 14 de noviembre de 2023
- Los filtros de partición en las consultas de streaming de Delta Lake se insertan antes de la limitación de frecuencia para lograr un mejor uso.
- [SPARK-45545]
SparkTransportConf
heredaSSLOptions
tras la creación. - [SPARK-45427] Se ha agregado la configuración SSL de RPC a
SSLOptions
ySparkTransportConf
. - [SPARK-45584] Se ha corregido un error de ejecución de subconsulta con
TakeOrderedAndProjectExec
. - [SPARK-45541] Se ha agregado
SSLFactory
. - [SPARK-45430]
FramelessOffsetWindowFunction
ya no genera un error cuandoIGNORE NULLS
yoffset > rowCount
. - [SPARK-45429] Se han agregado clases auxiliares para la comunicación RPC de SSL.
- Actualizaciones de seguridad del sistema operativo
- 24 de octubre de 2023
- [SPARK-45426] Se ha agregado compatibilidad con
ReloadingX509TrustManager
. - Correcciones varias.
- [SPARK-45426] Se ha agregado compatibilidad con
- 13 de octubre de 2023
- Dependencia de Snowflake-jdbc actualizada de la versión 3.13.29 a 3.13.33.
- [SPARK-42553] Asegure al menos una unidad de tiempo después del intervalo.
- [SPARK-45346] La inferencia de esquema Parquet respeta las marcas que distinguen mayúsculas de minúsculas al combinar el esquema.
- [SPARK-45178] Reserva para ejecutar un único lote para
Trigger.AvailableNow
con orígenes no admitidos en lugar de usar el contenedor. - [SPARK-45084]
StateOperatorProgress
para utilizar un número de partición aleatorio efectivo y preciso.
- 12 de septiembre de 2023
- [SPARK-44873] Se ha agregado soporte para
alter view
con columnas anidadas en el cliente de Hive. - [SPARK-44718] Haga coincidir la configuración predeterminada del modo memoria
ColumnVector
con el valor de configuraciónOffHeapMemoryMode
. - [SPARK-43799] Se ha agregado la opción binaria de descriptor a la API
Protobuf
de PySpark. - Correcciones varias.
- [SPARK-44873] Se ha agregado soporte para
- 30 de agosto de 2023
- [SPARK-44485] Se ha optimizado
TreeNode.generateTreeString
. - [SPARK-44818] Se ha corregido la carrera para la interrupción de tareas pendiente emitida antes de inicializarse
taskThread
. - [SPARK-44871][11.3-13.0] Se ha corregido el comportamiento de
percentile_disc
. - [SPARK-44714] Restricción sencilla de la resolución de LCA con respecto a las consultas.
- Actualizaciones de seguridad del sistema operativo
- [SPARK-44485] Se ha optimizado
- 15 de agosto de 2023
- [SPARK-44504] La tarea de mantenimiento limpia los proveedores cargados en caso de error de detención.
- [SPARK-44464] Se ha corregido
applyInPandasWithStatePythonRunner
de las filas de salida que tienenNull
como primer valor de columna. - Actualizaciones de seguridad del sistema operativo
- 29 de julio de 2023
- Se ha corregido un error en el que
dbutils.fs.ls()
devolvíaINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
cuando se le llamaba para una ruta de acceso de ubicación de almacenamiento que entraba en conflicto con otra ubicación de almacenamiento externa o administrada. - [SPARK-44199]
CacheManager
ya no actualizafileIndex
innecesariamente. - Actualizaciones de seguridad del sistema operativo
- Se ha corregido un error en el que
- 24 de julio de 2023
- [SPARK-44337] Se ha corregido un problema que provocaba que cualquier campo establecido en
Any.getDefaultInstance
generara errores de análisis. - [SPARK-44136] [SS] Se ha corregido un problema que provocaba que
StateManager
se materializara en un ejecutor en lugar del controlador enFlatMapGroupsWithStateExec
. - Actualizaciones de seguridad del sistema operativo
- [SPARK-44337] Se ha corregido un problema que provocaba que cualquier campo establecido en
- 23 de junio de 2023
- Actualizaciones de seguridad del sistema operativo
- 15 de junio de 2023
approx_count_distinct
fotonizado.- La biblioteca Snowflake-jdbc se actualiza a la versión 3.13.29 para solucionar un problema de seguridad.
- [SPARK-43779]
ParseToDate
ahora cargaEvalMode
en el subproceso principal. - [SPARK-43156][SPARK-43098] prueba de error de recuento de subconsulta escalar extendida con
decorrelateInnerQuery
desactivado. - Actualizaciones de seguridad del sistema operativo
- 2 de junio de 2023
- El analizador JSON en el modo
failOnUnknownFields
quita un registro en modoDROPMALFORMED
y produce un error directamente en el modoFAILFAST
. - Mejora el rendimiento de las actualizaciones incrementales con
SHALLOW CLONE
Iceberg y Parquet. - Se solucionó un problema en Auto Loader donde los diferentes formatos de archivos de origen eran inconsistentes cuando el esquema proporcionado no incluía particiones inferidas. Este problema podría provocar errores inesperados al leer archivos con columnas que faltan en el esquema de partición inferido.
- [SPARK-43404] Omita la reutilización del archivo sst para la misma versión del almacén de estado de RocksDB a fin de evitar errores de coincidencia de id.
- [SPARK-43413][11.3-13.0] Se ha corregido la nulabilidad de
IN
de la subconsultaListQuery
. - [SPARK-43522] Se ha corregido la creación de un nombre de columna de estructura con el índice de matriz.
- [SPARK-43541][SQL] Propague todas las etiquetas
Project
en la resolución de expresiones y columnas que faltan. - [SPARK-43527] Se ha corregido
catalog.listCatalogs
en PySpark. - [SPARK-43123] Los metadatos de campo internos ya no se filtran a los catálogos.
- [SPARK-43340] Se ha corregido el campo de seguimiento de pila que faltaba en los registros de eventos.
- [SPARK-42444]
DataFrame.drop
ahora controla las columnas duplicadas correctamente. - [SPARK-42937]
PlanSubqueries
ahora estableceInSubqueryExec#shouldBroadcast
en true. - [SPARK-43286] Se ha actualizado el modo CBC de
aes_encrypt
para generar IV aleatorios. - [SPARK-43378] Cierre correctamente los objetos de secuencia en
deserializeFromChunkedBuffer
.
- El analizador JSON en el modo
- 17 de mayo de 2023
- Los exámenes de Parquet ahora son sólidos con respecto a los OEM al examinar archivos excepcionalmente estructurados ajustando dinámicamente el tamaño del lote. Los metadatos de archivo se analizan para reducir de forma preventiva el tamaño del lote y se reducen de nuevo en los reintentos de tareas como una red de seguridad final.
- Si se leyó un archivo Avro con solo la opción
failOnUnknownFields\
o con autocargador en el modo de evolución del esquemafailOnNewColumns\
, las columnas que tienen tipos de datos diferentes se leerían comonull\
en lugar de producir un error que indica que el archivo no se puede leer. Estas lecturas ahora producen un error y recomiendan a los usuarios que usen la opciónrescuedDataColumn\
. - El cargador automático ahora hace lo siguiente.
-
- Lee y ya no recupera los tipos
Integer
,Short
,Byte
si se proporciona uno de estos tipos de datos, pero el archivo Avro sugiere uno de los otros dos tipos.
- Lee y ya no recupera los tipos
-
- Impide que los tipos de intervalo de lectura sean tipos de fecha o marca de tiempo para evitar obtener fechas dañadas.
-
- Evita la lectura de los tipos
Decimal
con menor precisión.
- Evita la lectura de los tipos
- [SPARK-43172] Expone el host y el token del cliente de conexión de Spark.
- [SPARK-43293]
__qualified_access_only
se omite en columnas normales. - [SPARK-43098] Se ha corregido un error de corrección
COUNT
cuando la subconsulta escalar se agrupa por cláusula. - [SPARK-43085] Compatibilidad con la asignación de columnas
DEFAULT
para nombres de tabla de varias partes. - [SPARK-43190]
ListQuery.childOutput
ahora es coherente con la salida secundaria. - [SPARK-43192] Se ha quitado la validación del conjunto de caracteres del agente de usuario.
- Actualizaciones de seguridad del sistema operativo
- 25 de abril de 2023
- Si se leyó un archivo Parquet con solo la opción
failOnUnknownFields
o con autocargador en el modo de evolución del esquemafailOnNewColumns
, las columnas que tenían tipos de datos diferentes se leerían comonull
en lugar de producir un error que indica que el archivo no se puede leer. Estas lecturas ahora producen un error y recomiendan a los usuarios que usen la opciónrescuedDataColumn
. - Auto Loader ahora lee correctamente y ya no recupera los tipos
Integer
,Short
,Byte
si se proporciona uno de estos tipos de datos. El archivo Parquet sugiere uno de los otros dos tipos. Cuando la columna de datos rescatada estaba anteriormente, la falta de coincidencia del tipo de datos provocaba que las columnas se guardaran aunque fueran legibles. - [SPARK-43009] Se ha parametrizado
sql()
con constantes deAny
- [SPARK-42406] Finalice los campos recursivos de Protobuf quitando el campo
- [SPARK-43038] Compatibilidad con el modo CBC mediante
aes_encrypt()
/aes_decrypt()
- [SPARK-42971] Cambie para imprimir
workdir
siappDirs
es NULL cuando el trabajador gestione el eventoWorkDirCleanup
- [SPARK-43018] Corrección del error de comandos de INSERT con literales de marca de tiempo
- Actualizaciones de seguridad del sistema operativo
- Si se leyó un archivo Parquet con solo la opción
- 11 de abril de 2023
- Admite formatos de origen de datos heredados en el comando
SYNC
. - Corrige un error en el comportamiento %autoreload de los cuadernos que están fuera de un repositorio.
- Se ha corregido un error por el que la evolución del esquema del cargador automático puede entrar en un bucle de error infinito, cuando se detecta una nueva columna en el esquema de un objeto JSON anidado.
- [SPARK-42928] Hace que
resolvePersistentFunction
se sincronice. - [SPARK-42936] Corrige el error de LCA cuando su agregado secundario puede resolver directamente la cláusula.
- [SPARK-42967] Corrige
SparkListenerTaskStart.stageAttemptId
cuándo se inicia una tarea después de cancelar la fase. - Actualizaciones de seguridad del sistema operativo
- Admite formatos de origen de datos heredados en el comando
- 29 de marzo de 2023
Databricks SQL ahora admite la especificación de valores predeterminados para columnas de tablas de Delta Lake, ya sea en tiempo de creación de tablas o después. Los comandos
INSERT
,UPDATE
,DELETE
yMERGE
posteriores pueden hacer referencia al valor predeterminado de cualquier columna mediante la palabra claveDEFAULT
explícita. Además, si alguna asignaciónINSERT
contiene una lista explícita de menos columnas que la tabla de destino, los valores predeterminados de columna correspondientes se sustituyen por las columnas restantes (o NULL si no se especifica ningún valor predeterminado).Por ejemplo:
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; \> 0, 2023-03-28 1, 2023-03-28z
Auto Loader ahora inicia al menos una limpieza sincrónica de registros de RocksDB para flujos
Trigger.AvailableNow
para asegurarse de que el punto de control se pueda limpiar periódicamente para flujos de cargador automático de ejecución rápida. Esto puede hacer que algunas secuencias tarden más tiempo antes de que se apaguen, pero le ahorrarán costos de almacenamiento y mejorará la experiencia del cargador automático en futuras ejecuciones.Ahora puede modificar una tabla Delta para agregar compatibilidad con las características de tabla mediante
DeltaTable.addFeatureSupport(feature_name)
.[SPARK-42794] Aumente lockAcquireTimeoutMs a 2 minutos para adquirir el almacén de estado de RocksDB en Structure Streaming
[SPARK-42521] Agregue NULL a cada INSERT con listas especificadas por el usuario de menos columnas que la tabla de destino
[SPARK-42702][SPARK-42623] Admita consultas con parámetros en subconsulta y CTE.
[SPARK-42668] Detectar excepciones al intentar cerrar la secuencia comprimida en la detención de HDFSStateStoreProvider
[SPARK-42403][CORE] JsonProtocol debe controlar cadenas JSON nulas
- 8 de marzo de 2023
- Se ha mejorado el mensaje de error "Error al inicializar la configuración" para proporcionar más contexto para el cliente.
- Hay un cambio terminológico para agregar características a una tabla Delta mediante la propiedad table. La sintaxis preferida ahora es
'delta.feature.featureName'='supported'
en lugar de'delta.feature.featureName'='enabled'
. Para la compatibilidad con versiones anteriores, usar'delta.feature.featureName'='enabled'
todavía funciona y seguirá funcionando. - A partir de esta versión, es posible crear o reemplazar una tabla por una propiedad de tabla
delta.ignoreProtocolDefaults
adicional para omitir las configuraciones de Spark relacionadas con el protocolo, que incluye versiones predeterminadas de lector y escritor, así como características de tabla compatibles de forma predeterminada. - [SPARK-42070] Cambiar el valor predeterminado del argumento de la función Mask de -1 a NULL
- [SPARK-41793] Resultado incorrecto para los marcos de ventana definidos por una cláusula de alcance en decimales significativos
- [SPARK-42484] Mejor mensaje de error de UnsafeRowUtils
- [SPARK-42516] Capturar siempre la configuración de zona horaria de sesión al crear vistas
- [SPARK-42635] Corrija la expresión TimestampAdd.
- [SPARK-42622] Se ha desactivado la sustitución en valores
- [SPARK-42534] Corrección de la cláusula de límite de DB2Dialect
- [SPARK-42121] Agregar funciones integradas con valores de tabla posexplode, posexplode_outer, json_tuple y pila
- [SPARK-42045] Modo SQL ANSI: Round/Bround debe devolver un error en desbordamiento de enteros pequeños o pequeños o significativos
- Actualizaciones de seguridad del sistema operativo
Databricks Runtime 11.3 LTS
Consulte Databricks Runtime 11.3 LTS.
- 29 de noviembre de 2023
- Se ha corregido un problema que provocaba que los caracteres de subrayado con escape en operaciones
getColumns
procedentes de clientes JDBC o ODBC se interpretaran erróneamente como caracteres comodín. - [SPARK-43973] La interfaz de usuario de flujo estructurado ahora muestra correctamente las consultas con errores.
- [SPARK-45730] Restricciones de tiempo mejoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-45544] compatibilidad integrada con SSL en
TransportContext
. - [SPARK-45859] Objetos UDF creados en
ml.functions
diferido. - [SPARK-43718] Se ha corregido la nulabilidad para las claves en combinaciones
USING
. - [SPARK-44846] Se han quitado expresiones de agrupación complejas después de
RemoveRedundantAggregates
. - Actualizaciones de seguridad del sistema operativo
- Se ha corregido un problema que provocaba que los caracteres de subrayado con escape en operaciones
- 14 de noviembre de 2023
- Los filtros de partición en las consultas de streaming de Delta Lake se insertan antes de la limitación de frecuencia para lograr un mejor uso.
- [SPARK-42205] Se han quitado los registros acumulables de los eventos de inicio de fase y tarea.
- [SPARK-45545]
SparkTransportConf
heredaSSLOptions
tras la creación. - Revierta [SPARK-33861].
- [SPARK-45541] Se ha agregado
SSLFactory
. - [SPARK-45429] Se han agregado clases auxiliares para la comunicación RPC de SSL.
- [SPARK-45584] Se ha corregido un error de ejecución de subconsulta con
TakeOrderedAndProjectExec
. - [SPARK-45430]
FramelessOffsetWindowFunction
ya no genera un error cuandoIGNORE NULLS
yoffset > rowCount
. - [SPARK-45427] Se ha agregado la configuración SSL de RPC a
SSLOptions
ySparkTransportConf
. - Actualizaciones de seguridad del sistema operativo
- 24 de octubre de 2023
- [SPARK-45426] Se ha agregado compatibilidad con
ReloadingX509TrustManager
. - Correcciones varias.
- [SPARK-45426] Se ha agregado compatibilidad con
- 13 de octubre de 2023
- Dependencia de Snowflake-jdbc actualizada de la versión 3.13.29 a 3.13.33.
- [SPARK-45178] Reserva para ejecutar un único lote para
Trigger.AvailableNow
con orígenes no admitidos en lugar de usar el contenedor. - [SPARK-45084]
StateOperatorProgress
para utilizar un número de partición aleatorio efectivo y preciso. - [SPARK-45346] La inferencia del esquema Parquet respeta ahora las marcas que distinguen mayúsculas de minúsculas al combinar el esquema.
- Actualizaciones de seguridad del sistema operativo
- 10 de septiembre de 2023
- Correcciones varias.
- 30 de agosto de 2023
- [SPARK-44818] Se ha corregido la carrera para la interrupción de tareas pendiente emitida antes de inicializarse
taskThread
. - [SPARK-44871][11.3-13.0] Se ha corregido el comportamiento de
percentile_disc
. - Actualizaciones de seguridad del sistema operativo
- [SPARK-44818] Se ha corregido la carrera para la interrupción de tareas pendiente emitida antes de inicializarse
- 15 de agosto de 2023
- [SPARK-44485] Se ha optimizado
TreeNode.generateTreeString
. - [SPARK-44504] La tarea de mantenimiento limpia los proveedores cargados en caso de error de detención.
- [SPARK-44464] Se ha corregido
applyInPandasWithStatePythonRunner
de las filas de salida que tienenNull
como primer valor de columna. - Actualizaciones de seguridad del sistema operativo
- [SPARK-44485] Se ha optimizado
- 27 de julio de 2023
- Se ha corregido un error en el que
dbutils.fs.ls()
devolvíaINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
cuando se le llamaba para una ruta de acceso de ubicación de almacenamiento que entraba en conflicto con otra ubicación de almacenamiento externa o administrada. - [SPARK-44199]
CacheManager
ya no actualizafileIndex
innecesariamente. - Actualizaciones de seguridad del sistema operativo
- Se ha corregido un error en el que
- 24 de julio de 2023
- [SPARK-44136] Se ha corregido un problema que provocaba que StateManager se materializara en el ejecutor en lugar del controlador en FlatMapGroupsWithStateExec.
- Actualizaciones de seguridad del sistema operativo
- 23 de junio de 2023
- Actualizaciones de seguridad del sistema operativo
- 15 de junio de 2023
approx_count_distinct
fotonizado.- La biblioteca Snowflake-jdbc se actualiza a la versión 3.13.29 para solucionar un problema de seguridad.
- [SPARK-43779]
ParseToDate
ahora cargaEvalMode
en el subproceso principal. - [SPARK-40862] Admite subconsultas no agregadas en RewriteCorrelatedScalarSubquery
- [SPARK-43156][SPARK-43098] Prueba de errores de recuento de subconsulta escalar extendida con
decorrelateInnerQuery
desactivado. - [SPARK-43098] Se ha corregido el error COUNT de corrección cuando la subconsulta escalar tiene un grupo por cláusula
- Actualizaciones de seguridad del sistema operativo
- 2 de junio de 2023
- El analizador JSON en el modo
failOnUnknownFields
quita un registro en modoDROPMALFORMED
y produce un error directamente en el modoFAILFAST
. - Mejora el rendimiento de las actualizaciones incrementales con
SHALLOW CLONE
Iceberg y Parquet. - Se solucionó un problema en Auto Loader donde los diferentes formatos de archivos de origen eran inconsistentes cuando el esquema proporcionado no incluía particiones inferidas. Este problema podría provocar errores inesperados al leer archivos con columnas que faltan en el esquema de partición inferido.
- [SPARK-43404] Omita la reutilización del archivo sst para la misma versión del almacén de estado de RocksDB a fin de evitar errores de coincidencia de id.
- [SPARK-43527] Se ha corregido
catalog.listCatalogs
en PySpark. - [SPARK-43413][11.3-13.0] Se ha corregido la nulabilidad de
IN
de la subconsultaListQuery
. - [SPARK-43340] Se ha corregido el campo de seguimiento de pila que faltaba en los registros de eventos.
- El analizador JSON en el modo
Databricks Runtime 10.4 LTS
Consulte Databricks Runtime 10.4 LTS.
- 29 de noviembre de 2023
- [SPARK-45544] compatibilidad integrada con SSL en
TransportContext
. - [SPARK-45859] Objetos UDF creados en
ml.functions
diferido. - [SPARK-43718] Se ha corregido la nulabilidad para las claves en combinaciones
USING
. - [SPARK-45730] Restricciones de tiempo mejoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-42205] Se han quitado los registros acumulables de los eventos de inicio de fase y tarea.
- [SPARK-44846] Se han quitado expresiones de agrupación complejas después de
RemoveRedundantAggregates
. - Actualizaciones de seguridad del sistema operativo
- [SPARK-45544] compatibilidad integrada con SSL en
- 14 de noviembre de 2023
- [SPARK-45541] Se ha agregado
SSLFactory
. - [SPARK-45545]
SparkTransportConf
heredaSSLOptions
tras la creación. - [SPARK-45427] Se ha agregado la configuración SSL de RPC a
SSLOptions
ySparkTransportConf
. - [SPARK-45429] Se han agregado clases auxiliares para la comunicación RPC de SSL.
- [SPARK-45584] Se ha corregido un error de ejecución de subconsulta con
TakeOrderedAndProjectExec
. - Revierta [SPARK-33861].
- Actualizaciones de seguridad del sistema operativo
- [SPARK-45541] Se ha agregado
- 24 de octubre de 2023
- [SPARK-45426] Se ha agregado compatibilidad con
ReloadingX509TrustManager
. - Actualizaciones de seguridad del sistema operativo
- [SPARK-45426] Se ha agregado compatibilidad con
- 13 de octubre de 2023
- [SPARK-45084]
StateOperatorProgress
para utilizar un número de partición aleatorio efectivo y preciso. - [SPARK-45178] Reserva para ejecutar un único lote para
Trigger.AvailableNow
con orígenes no admitidos en lugar de usar el contenedor. - Actualizaciones de seguridad del sistema operativo
- [SPARK-45084]
- 10 de septiembre de 2023
- Correcciones varias.
- 30 de agosto de 2023
- [SPARK-44818] Se ha corregido la carrera para la interrupción de tareas pendiente emitida antes de inicializarse
taskThread
. - Actualizaciones de seguridad del sistema operativo
- [SPARK-44818] Se ha corregido la carrera para la interrupción de tareas pendiente emitida antes de inicializarse
- 15 de agosto de 2023
- [SPARK-44504] La tarea de mantenimiento limpia los proveedores cargados en caso de error de detención.
- [SPARK-43973] La interfaz de usuario de flujo estructurado ahora muestra correctamente las consultas con errores.
- Actualizaciones de seguridad del sistema operativo
- 23 de junio de 2023
- Actualizaciones de seguridad del sistema operativo
- 15 de junio de 2023
- La biblioteca Snowflake-jdbc se actualiza a la versión 3.13.29 para solucionar un problema de seguridad.
- [SPARK-43098] Se ha corregido el error COUNT de corrección cuando la subconsulta escalar tiene un grupo por cláusula
- [SPARK-40862] Admite subconsultas no agregadas en RewriteCorrelatedScalarSubquery
- [SPARK-43156][SPARK-43098] Prueba de recuento de subconsulta escalar extendida con
decorrelateInnerQuery
desactivado. - Actualizaciones de seguridad del sistema operativo
- 2 de junio de 2023
- El analizador JSON en el modo
failOnUnknownFields
quita un registro en modoDROPMALFORMED
y produce un error directamente en el modoFAILFAST
. - Se ha corregido un problema en el análisis de datos de rescate de JSON para evitar
UnknownFieldException
. - Se solucionó un problema en Auto Loader donde los diferentes formatos de archivos de origen eran inconsistentes cuando el esquema proporcionado no incluía particiones inferidas. Este problema podría provocar errores inesperados al leer archivos con columnas que faltan en el esquema de partición inferido.
- [SPARK-43404] Omita la reutilización del archivo sst para la misma versión del almacén de estado de RocksDB a fin de evitar errores de coincidencia de id.
- [SPARK-43413] Se ha corregido la nulabilidad de
IN
de la subconsultaListQuery
. - Actualizaciones de seguridad del sistema operativo
- El analizador JSON en el modo
- 17 de mayo de 2023
- Los exámenes de Parquet ahora son sólidos con respecto a los OEM al examinar archivos excepcionalmente estructurados ajustando dinámicamente el tamaño del lote. Los metadatos de archivo se analizan para reducir de forma preventiva el tamaño del lote y se reducen de nuevo en los reintentos de tareas como una red de seguridad final.
- [SPARK-41520] Patrón de árbol dividido
AND_OR
para separarAND
yOR
. - [SPARK-43190]
ListQuery.childOutput
ahora es coherente con la salida secundaria. - Actualizaciones de seguridad del sistema operativo
- 25 de abril de 2023
- [SPARK-42928] Haga que
resolvePersistentFunction
se sincronice. - Actualizaciones de seguridad del sistema operativo
- [SPARK-42928] Haga que
- 11 de abril de 2023
- Se ha corregido un error por el que la evolución del esquema del cargador automático puede entrar en un bucle de error infinito, cuando se detecta una nueva columna en el esquema de un objeto JSON anidado.
- [SPARK-42937]
PlanSubqueries
ahora estableceInSubqueryExec#shouldBroadcast
en true. - [SPARK-42967] Se ha corregido SparkListenerTaskStart.stageAttemptId cuando se inicia una tarea después de cancelar la fase.
- 29 de marzo de 2023
- [SPARK-42668] Detectar excepciones al intentar cerrar la secuencia comprimida en la detención de HDFSStateStoreProvider
- [SPARK-42635] Corrija…
- Actualizaciones de seguridad del sistema operativo
- 14 de marzo de 2023
- [SPARK-41162] Corrección de anti- y semicombinación para la unión automática con agregaciones
- [SPARK-33206] Corrección del cálculo de la ponderación de la memoria caché de índices aleatorios para archivos de índice pequeños
- [SPARK-42484] Se ha mejorado el mensaje de error
UnsafeRowUtils
- Correcciones varias.
- 28 de febrero de 2023
- Se ha agregado compatibilidad con la columna generada para date_format aaaa-MM-dd. Este cambio es compatible con la eliminación de particiones para aaaa-MM-dd como elemento date_format en columnas generadas.
- Los usuarios ahora pueden leer y escribir determinadas tablas Delta que requieren la versión 3 del lector y la versión 7 del escritor mediante Databricks Runtime 9.1 LTS o posterior. Para ello, las características de tabla enumeradas en el protocolo de las tablas deben ser compatibles con la versión actual de Databricks Runtime.
- Se ha agregado compatibilidad con la columna generada para date_format aaaa-MM-dd. Este cambio es compatible con la eliminación de particiones para aaaa-MM-dd como elemento date_format en columnas generadas.
- Actualizaciones de seguridad del sistema operativo
- 16 de febrero de 2023
- [SPARK-30220] Habilitación mediante subconsultas Exists/In fuera del nodo Filtro
- Actualizaciones de seguridad del sistema operativo
- 31 de enero de 2023
- Los tipos de tabla de las tablas JDBC ahora son EXTERNAL de manera predeterminada.
- 18 de enero de 2023
- El conector de Azure Synapse devuelve un mensaje de error más descriptivo cuando un nombre de columna contiene caracteres no válidos, como espacios en blanco o punto y coma. En tales casos, se devolverá el siguiente mensaje:
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
. - [SPARK-38277] Borrado del lote de escritura después de la confirmación del almacén de estado de RocksDB
- [SPARK-41199] Corrección del problema de métricas cuando el origen de streaming DSv1 y el origen de streaming DSv2 se usan conjuntamente
- [SPARK-41198] Corrección de métricas en la consulta de streaming con origen de streaming CTE y DSv1
- [SPARK-41339] Cierre y nueva creación del lote de escritura de RocksDB en lugar de simplemente borrar
- [SPARK-41732] Aplicación de la eliminación basada en patrones de árbol para la regla SessionWindowing
- Actualizaciones de seguridad del sistema operativo
- El conector de Azure Synapse devuelve un mensaje de error más descriptivo cuando un nombre de columna contiene caracteres no válidos, como espacios en blanco o punto y coma. En tales casos, se devolverá el siguiente mensaje:
- 29 de noviembre de 2022
- Los usuarios pueden configurar el comportamiento de los espacios en blanco iniciales y finales al escribir datos mediante el conector de Redshift. Se han agregado las siguientes opciones para controlar el control de espacios en blanco:
csvignoreleadingwhitespace
, cuando se establece entrue
, quita el espacio en blanco inicial de los valores durante las escrituras cuandotempformat
se establece enCSV
oCSV GZIP
. Los espacios en blanco se conservan cuando la configuración se establece enfalse
. De forma predeterminada, el valor estrue
.csvignoretrailingwhitespace
, cuando se establece entrue
, quita el espacio en blanco final de los valores durante las escrituras cuandotempformat
se establece enCSV
oCSV GZIP
. Los espacios en blanco se conservan cuando la configuración se establece enfalse
. De forma predeterminada, el valor estrue
.
- Se ha corregido un error con el análisis de JSON en el cargador automático cuando todas las columnas se dejaban como cadenas (
cloudFiles.inferColumnTypes
no se había establecido o se había establecido enfalse
) y el JSON contenía objetos anidados. - Actualizaciones de seguridad del sistema operativo
- Los usuarios pueden configurar el comportamiento de los espacios en blanco iniciales y finales al escribir datos mediante el conector de Redshift. Se han agregado las siguientes opciones para controlar el control de espacios en blanco:
- 15 de noviembre de 2022
- Se ha actualizado Apache commons-text a 1.10.0.
- [SPARK-40646] Se ha corregido el análisis de JSON para estructuras, mapas y matrices, por lo que cuando una parte de un registro no coincide con el esquema, el resto del registro todavía se puede analizar correctamente en lugar de devolver valores NULL. Para participar en el comportamiento mejorado, establezca
spark.sql.json.enablePartialResults
entrue
. La marca está deshabilitada de forma predeterminada para conservar el comportamiento original. - [SPARK-40292] Corrección de nombres de columna en la función
arrays_zip
cuando se hace referencia a matrices desde estructuras anidadas - Actualizaciones de seguridad del sistema operativo
- 1 de noviembre de 2022
- Se ha corregido un problema por el que si una tabla Delta tenía una columna definida por el usuario denominada
_change_type
, pero la opción Change data feed (Cambiar fuente de distribución de datos) estaba deshabilitada en esa tabla, los datos de esa columna se rellenaban incorrectamente con valores NULL al ejecutarMERGE
. - Se ha corregido un problema con el cargador automático en el que un archivo se puede duplicar en el mismo microproceso cuando
allowOverwrites
está habilitado. - [SPARK-40697] Agrega relleno de caracteres de lectura para cubrir archivos de datos externos
- [SPARK-40596] Rellenar ExecutorDecommission con mensajes en ExecutorDecommissionInfo
- Actualizaciones de seguridad del sistema operativo
- Se ha corregido un problema por el que si una tabla Delta tenía una columna definida por el usuario denominada
- 18 de octubre de 2022
- Actualizaciones de seguridad del sistema operativo
- 5 de octubre de 2022
- [SPARK-40468] Corrección de la eliminación de columnas en CSV cuando se selecciona
_corrupt_record
. - Actualizaciones de seguridad del sistema operativo
- [SPARK-40468] Corrección de la eliminación de columnas en CSV cuando se selecciona
- 22 de septiembre de 2022
- Los usuarios pueden establecer spark.conf.set (
spark.databricks.io.listKeysWithPrefix.azure.enabled
ytrue
) para volver a habilitar la lista integrada para Auto Loader en ADLS Gen2. La lista integrada se desactivó anteriormente debido a problemas de rendimiento, pero puede haber provocado un aumento en los costos de almacenamiento para los clientes. - [SPARK-40315] Adición de hashCode() para el literal de ArrayBasedMapData
- [SPARK-40213] Compatibilidad con la conversión de valores ASCII para caracteres Latino-1
- [SPARK-40380] Corrección del plegado constante de InvokeLike para evitar literales no serializables insertados en el plan
- [SPARK-38404] Mejora de la resolución de CTE cuando un CTE anidado hace referencia a un CTE externo
- [SPARK-40089] Corrección de la ordenación para algunos tipos decimales
- [SPARK-39887] RemoveRedundantAliases debe mantener alias que hacen que la salida de los nodos de proyección sea única
- Los usuarios pueden establecer spark.conf.set (
- 6 de septiembre de 2022
- [SPARK-40235] Uso del bloqueo interrumpible en lugar de sincronizado en Executor.updateDependencies()
- [SPARK-40218] GROUPING SETS debe conservar las columnas de agrupación
- [SPARK-39976] ArrayIntersect debe controlar null en la primera expresión correctamente
- [SPARK-40053] Adición de
assume
a casos de cancelación dinámica que requieren entorno de tiempo de ejecución de Python - [SPARK-35542] Corrección: el creador de depósitos diseñado para varias columnas con parámetros splitsArray, inputCols y outputCols no se puede cargar después de guardarlo
- [SPARK-40079] Adición de la validación inputCols de Imputer para el caso de entrada vacío
- 24 de agosto de 2022
- [SPARK-39983] No almacenar en caché las relaciones de difusión no serializadas en el controlador
- [SPARK-39775] Deshabilitación de la validación de valores predeterminados al analizar esquemas de Avro
- [SPARK-39962] Aplicar proyección cuando los atributos de grupo están vacíos
- [SPARK-37643] Si charVarcharAsString es true, para la consulta de predicados del tipo de datos char debe omitir la regla rpadding.
- Actualizaciones de seguridad del sistema operativo
- 9 de agosto de 2022
- [SPARK-39847] Corrección de la condición de carrera en RocksDBLoader.loadLibrary() si se interrumpe el subproceso del autor de la llamada
- [SPARK-39731] Corrección del problema en los orígenes de datos CSV y JSON cuando se analicen fechas en formato "yyyyMMdd" con la directiva de analizador de hora CORREGIDA
- Actualizaciones de seguridad del sistema operativo
- 27 de julio de 2022
- [SPARK-39625][SQL] Agregar Dataset.as (StructType)
- [SPARK-39689] Compatibilidad con 2 caracteres
lineSep
en el origen de datos CSV - [SPARK-39104] El elemento InMemoryRelation#isCachedColumnBuffersLoaded debe ser seguro para subprocesos
- [SPARK-39570] Ahora, la tabla insertada permitirá el uso de expresiones con alias
- [SPARK-39702] Reducción de la sobrecarga de memoria de TransportCipher$EncryptedMessage mediante un byteRawChannel compartido
- [SPARK-39575] agregar ByteBuffer#rewind después de ByteBuffer#get en AvroDeserializer
- [SPARK-39476] Deshabilitación de la optimización de conversión de desajustado al convertir de Long a Float/Double o de Integer a Float
- [SPARK-38868] No propagar excepciones del predicado de filtro al optimizar las combinaciones externas
- Actualizaciones de seguridad del sistema operativo
- 20 de julio de 2022
- Haga que la operación Merge Delta sea coherente cuando el origen no es determinista.
- [SPARK-39355] Una sola columna usa comillas para construir UnresolvedAttribute
- [SPARK-39548] Comando CreateView con una consulta de cláusula de ventana da un problema de definición de ventana errónea no encontrada
- [SPARK-39419] Se ha corregido el elemento ArraySort para que produzca una excepción si el comparador devuelve un valor nulo
- Se ha deshabilitado el uso de las API integradas en la nube por parte del cargador automático para la lista de directorios en Azure.
- Actualizaciones de seguridad del sistema operativo
- 5 de julio de 2022
- [SPARK-39376] Se han ocultado las columnas duplicadas en la expansión de estrella del alias de subconsulta de NATURAL/USING JOIN.
- Actualizaciones de seguridad del sistema operativo
- 15 de junio de 2022
- [SPARK-39283] Se ha corregido el interbloqueo entre TaskMemoryManager y UnsafeExternalSorter.SpillableIterator
- [SPARK-39285] Spark no debe comprobar los nombres de campo al leer archivos
- [SPARK-34096] Mejorar el rendimiento de nth_value omite los valores NULL en la ventana de desplazamiento
- [SPARK-36718] Se ha corregido la comprobación
isExtractOnly
en CollapseProject
- 2 de junio de 2022
- [SPARK-39093] Se evita un error de compilación de codegen al dividir intervalos de año y mes o intervalos de día y hora por un entero.
- [SPARK-38990] Se evita la excepción NullPointerException al evaluar el formato de date_trunc y trunc como una referencia enlazada.
- Actualizaciones de seguridad del sistema operativo
- 18 de mayo de 2022
- Corrige una posible pérdida de memoria integrada en el cargador automático.
- [SPARK-38918] La eliminación de columnas anidadas debe filtrar los atributos que no pertenecen a la relación actual
- [SPARK-37593] Reducción del tamaño de página predeterminado por LONG_ARRAY_OFFSET si se usan G1GC y ON_HEAP
- [SPARK-39084] Corregir df.rdd.isEmpty() mediante TaskContext para detener el iterador en la finalización de la tarea
- [SPARK-32268] Agregar columnPruning en injectBloomFilter
- [SPARK-38974] Filtrar funciones registradas con un nombre de base de datos determinado en funciones de lista
- [SPARK-38931] Crear directorio dfs raíz para RocksDBFileManager con un número desconocido de claves en el primer punto de control
- Actualizaciones de seguridad del sistema operativo
- 19 de abril de 2022
- Se ha actualizado el SDK de AWS de Java de la versión 1.11.655 a la 1.12.1899.
- Se ha corregido un problema que provocaba que las bibliotecas con ámbito de cuaderno no funcionara en trabajos de streaming por lotes.
- [SPARK-38616] Se realiza un seguimiento del texto de la consulta SQL en el nodo de árbol de Catalyst
- Actualizaciones de seguridad del sistema operativo
- 6 de abril de 2022
- Las siguientes funciones Spark SQL pasan a estar disponibles en esta versión:
timestampadd()
ydateadd()
: agregue una duración de tiempo en una unidad especificada a una expresión de marca de tiempo.timestampdiff()
ydatediff()
: calcule la diferencia de tiempo entre dos expresiones de marca de tiempo en una unidad especificada.
- El Parquet-MR se ha actualizado a la versión 1.12.2
- Compatibilidad mejorada con esquemas completos en archivos parquet
- [SPARK-38631] Utiliza una implementación basada en Java para descomprimir en Utils.unpack
- [SPARK-38509][SPARK-38481] Selección exclusiva de tres cambios de
timestmapadd/diff
. - [SPARK-38523] Corrección que hace referencia a la columna de registro dañada de CSV
- [SPARK-38237] Permitir a
ClusteredDistribution
requerir claves de agrupación en clústeres completas - [SPARK-38437][SQL] Serialización Lenient de datetime desde el origen de datos
- [SPARK-38180] Permitir expresiones seguras de conversión vertical en predicados de igualdad correlacionados
- [SPARK-38155] No permitir agregados distintos en subconsultas laterales con predicados no admitidos
- Actualizaciones de seguridad del sistema operativo
- Las siguientes funciones Spark SQL pasan a estar disponibles en esta versión:
Databricks Runtime 9.1 LTS
Consulte Databricks Runtime 9.1 LTS.
- 29 de noviembre de 2023
- [SPARK-45859] Objetos UDF creados en
ml.functions
diferido. - [SPARK-45544] compatibilidad integrada con SSL en
TransportContext
. - [SPARK-45730] Restricciones de tiempo mejoradas para
ReloadingX509TrustManagerSuite
. - Actualizaciones de seguridad del sistema operativo
- [SPARK-45859] Objetos UDF creados en
- 14 de noviembre de 2023
- [SPARK-45545]
SparkTransportConf
heredaSSLOptions
tras la creación. - [SPARK-45429] Se han agregado clases auxiliares para la comunicación RPC de SSL.
- [SPARK-45427] Se ha agregado la configuración SSL de RPC a
SSLOptions
ySparkTransportConf
. - [SPARK-45584] Se ha corregido un error de ejecución de subconsulta con
TakeOrderedAndProjectExec
. - [SPARK-45541] Se ha agregado
SSLFactory
. - [SPARK-42205] Se han quitado los registros acumulables de los eventos de inicio de fase y tarea.
- Actualizaciones de seguridad del sistema operativo
- [SPARK-45545]
- 24 de octubre de 2023
- [SPARK-45426] Se ha agregado compatibilidad con
ReloadingX509TrustManager
. - Actualizaciones de seguridad del sistema operativo
- [SPARK-45426] Se ha agregado compatibilidad con
- 13 de octubre de 2023
- Actualizaciones de seguridad del sistema operativo
- 10 de septiembre de 2023
- Correcciones varias.
- 30 de agosto de 2023
- Actualizaciones de seguridad del sistema operativo
- 15 de agosto de 2023
- Actualizaciones de seguridad del sistema operativo
- 23 de junio de 2023
- La biblioteca Snowflake-jdbc se actualiza a la versión 3.13.29 para solucionar un problema de seguridad.
- Actualizaciones de seguridad del sistema operativo
- 15 de junio de 2023
- [SPARK-43098] Se ha corregido el error COUNT de corrección cuando la subconsulta escalar tiene un grupo por cláusula
- [SPARK-43156][SPARK-43098] Extender la prueba de errores de recuento de subconsulta escalares con
decorrelateInnerQuery
desactivado. - [SPARK-40862] Admite subconsultas no agregadas en RewriteCorrelatedScalarSubquery
- Actualizaciones de seguridad del sistema operativo
- 2 de junio de 2023
- El analizador JSON en el modo
failOnUnknownFields
quita un registro en modoDROPMALFORMED
y produce un error directamente en el modoFAILFAST
. - Se ha corregido un problema en el análisis de datos de rescate de JSON para evitar
UnknownFieldException
. - Se solucionó un problema en Auto Loader donde los diferentes formatos de archivos de origen eran inconsistentes cuando el esquema proporcionado no incluía particiones inferidas. Este problema podría provocar errores inesperados al leer archivos con columnas que faltan en el esquema de partición inferido.
- [SPARK-37520] Agregar las funciones de cadena
startswith()
yendswith()
- [SPARK-43413] Se ha corregido la nulabilidad de
IN
de la subconsultaListQuery
. - Actualizaciones de seguridad del sistema operativo
- El analizador JSON en el modo
- 17 de mayo de 2023
- Actualizaciones de seguridad del sistema operativo
- 25 de abril de 2023
- Actualizaciones de seguridad del sistema operativo
- 11 de abril de 2023
- Se ha corregido un error por el que la evolución del esquema del cargador automático puede entrar en un bucle de error infinito, cuando se detecta una nueva columna en el esquema de un objeto JSON anidado.
- [SPARK-42967] Se ha corregido SparkListenerTaskStart.stageAttemptId cuando se inicia una tarea después de cancelar la fase.
- 29 de marzo de 2023
- Actualizaciones de seguridad del sistema operativo
- 14 de marzo de 2023
- [SPARK-42484] Se ha mejorado el mensaje de error de
UnsafeRowUtils
. - Correcciones varias.
- [SPARK-42484] Se ha mejorado el mensaje de error de
- 28 de febrero de 2023
- Los usuarios ahora pueden leer y escribir determinadas tablas Delta que requieren la versión 3 del lector y la versión 7 del escritor mediante Databricks Runtime 9.1 LTS o posterior. Para ello, las características de tabla enumeradas en el protocolo de las tablas deben ser compatibles con la versión actual de Databricks Runtime.
- Actualizaciones de seguridad del sistema operativo
- 16 de febrero de 2023
- Actualizaciones de seguridad del sistema operativo
- 31 de enero de 2023
- Los tipos de tabla de las tablas JDBC ahora son EXTERNAL de manera predeterminada.
- 18 de enero de 2023
- Actualizaciones de seguridad del sistema operativo
- 29 de noviembre de 2022
- Se ha corregido un error con el análisis de JSON en el cargador automático cuando todas las columnas se dejaban como cadenas (
cloudFiles.inferColumnTypes
no se había establecido o se había establecido enfalse
) y el JSON contenía objetos anidados. - Actualizaciones de seguridad del sistema operativo
- Se ha corregido un error con el análisis de JSON en el cargador automático cuando todas las columnas se dejaban como cadenas (
- 15 de noviembre de 2022
- Se ha actualizado Apache commons-text a 1.10.0.
- Actualizaciones de seguridad del sistema operativo
- Correcciones varias.
- 1 de noviembre de 2022
- Se ha corregido un problema por el que si una tabla Delta tenía una columna definida por el usuario denominada
_change_type
, pero la opción Change data feed (Cambiar fuente de distribución de datos) estaba deshabilitada en esa tabla, los datos de esa columna se rellenaban incorrectamente con valores NULL al ejecutarMERGE
. - Se ha corregido un problema con el cargador automático en el que un archivo se puede duplicar en el mismo microproceso cuando
allowOverwrites
está habilitado. - [SPARK-40596] Rellenar ExecutorDecommission con mensajes en ExecutorDecommissionInfo
- Actualizaciones de seguridad del sistema operativo
- Se ha corregido un problema por el que si una tabla Delta tenía una columna definida por el usuario denominada
- 18 de octubre de 2022
- Actualizaciones de seguridad del sistema operativo
- 5 de octubre de 2022
- Correcciones varias.
- Actualizaciones de seguridad del sistema operativo
- 22 de septiembre de 2022
- Los usuarios pueden establecer spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) para volver a habilitar la lista integrada para Auto Loader en ADLS Gen2. La lista integrada se desactivó anteriormente debido a problemas de rendimiento, pero puede haber provocado un aumento en los costos de almacenamiento para los clientes.
- [SPARK-40315] Adición de hashCode() para el literal de ArrayBasedMapData
- [SPARK-40089] Corrección de la ordenación para algunos tipos decimales
- [SPARK-39887] RemoveRedundantAliases debe mantener alias que hacen que la salida de los nodos de proyección sea única
- 6 de septiembre de 2022
- [SPARK-40235] Uso del bloqueo interrumpible en lugar de sincronizado en Executor.updateDependencies()
- [SPARK-35542] Corrección: el creador de depósitos diseñado para varias columnas con parámetros splitsArray, inputCols y outputCols no se puede cargar después de guardarlo
- [SPARK-40079] Adición de la validación inputCols de Imputer para el caso de entrada vacío
- 24 de agosto de 2022
- [SPARK-39666] Uso de UnsafeProjection.create para respetar
spark.sql.codegen.factoryMode
en ExpressionEncoder - [SPARK-39962] Aplicar proyección cuando los atributos de grupo están vacíos
- Actualizaciones de seguridad del sistema operativo
- [SPARK-39666] Uso de UnsafeProjection.create para respetar
- 9 de agosto de 2022
- Actualizaciones de seguridad del sistema operativo
- 27 de julio de 2022
- Haga que la operación Merge Delta sea coherente cuando el origen no es determinista.
- [SPARK-39689] Compatibilidad con 2 caracteres
lineSep
en el origen de datos CSV - [SPARK-39575] Se ha agregado
ByteBuffer#rewind
después deByteBuffer#get
enAvroDeserializer
. - [SPARK-37392] Se ha corregido el error de rendimiento del optimizador de catalizadores.
- Actualizaciones de seguridad del sistema operativo
- 13 de julio de 2022
- [SPARK-39419]
ArraySort
produce una excepción si el comparador devuelve un valor null. - Se ha deshabilitado el uso de las API integradas en la nube por parte del cargador automático para la lista de directorios en Azure.
- Actualizaciones de seguridad del sistema operativo
- [SPARK-39419]
- 5 de julio de 2022
- Actualizaciones de seguridad del sistema operativo
- Correcciones varias.
- 15 de junio de 2022
- [SPARK-39283] Corrección del interbloqueo entre
TaskMemoryManager
yUnsafeExternalSorter.SpillableIterator
.
- [SPARK-39283] Corrección del interbloqueo entre
- 2 de junio de 2022
- [SPARK-34554] Implemente el método
copy()
enColumnarMap
. - Actualizaciones de seguridad del sistema operativo
- [SPARK-34554] Implemente el método
- 18 de mayo de 2022
- Se ha corregido una posible pérdida de memoria integrada en Auto Loader.
- Actualice la versión del SDK de AWS de la versión 1.11.655 a la 1.11.678.
- [SPARK-38918] La eliminación de columnas anidadas debe filtrar los atributos que no pertenecen a la relación actual
- [SPARK-39084] Corrección de
df.rdd.isEmpty()
medianteTaskContext
para detener el iterador al finalizar la tarea - Actualizaciones de seguridad del sistema operativo
- 19 de abril de 2022
- Actualizaciones de seguridad del sistema operativo
- Correcciones varias.
- 6 de abril de 2022
- [SPARK-38631] Utiliza una implementación basada en Java para descomprimir en Utils.unpack
- Actualizaciones de seguridad del sistema operativo
- 22 de marzo de 2022
- Se cambió el directorio de trabajo actual de los cuadernos en los clústeres de alta simultaneidad con el control de acceso a la tabla o el paso de credenciales habilitado al directorio de inicio del usuario. Anteriormente, el directorio activo era
/databricks/driver
. - [SPARK-38437][SQL] Serialización Lenient de datetime desde el origen de datos
- [SPARK-38180] Permitir expresiones seguras de conversión vertical en predicados de igualdad correlacionados
- [SPARK-38155] No permitir agregados distintos en subconsultas laterales con predicados no admitidos
- [SPARK-27442] Se ha quitado un campo de comprobación al leer o escribir datos en un elemento parquet.
- Se cambió el directorio de trabajo actual de los cuadernos en los clústeres de alta simultaneidad con el control de acceso a la tabla o el paso de credenciales habilitado al directorio de inicio del usuario. Anteriormente, el directorio activo era
- 14 de marzo de 2022
- [SPARK-38236] Rutas de acceso de archivo absolutas especificadas en la tabla create/alter tratadas como relativas
- [SPARK-34069] Interrumpa el subproceso de tarea si la propiedad local
SPARK_JOB_INTERRUPT_ON_CANCEL
está establecida en true.
- 23 de febrero de 2022
- [SPARK-37859] Las tablas SQL creadas con JDBC mediante Spark 3.1 no son legibles en la versión 3.2
- 8 de febrero de 2022
- [SPARK-27442] Se ha quitado un campo de comprobación al leer o escribir datos en un elemento parquet.
- Actualizaciones de seguridad del sistema operativo
- 1 de febrero de 2022
- Actualizaciones de seguridad del sistema operativo
- 26 de enero de 2022
- Se ha corregido un error por el que las transacciones simultáneas en tablas Delta podían confirmarse en un orden no serializable bajo determinadas condiciones poco frecuentes.
- Se ha corregido un error por el que el comando
OPTIMIZE
podía producir un error si el dialecto ANSI SQL estaba habilitado.
- 19 de enero de 2022
- Correcciones secundarias y mejoras de seguridad.
- Actualizaciones de seguridad del sistema operativo
- 4 de noviembre de 2021
- Se ha corregido un error que podía provocar un error en los flujos de Structured Streaming con un elemento
ArrayIndexOutOfBoundsException
. - Se ha corregido una condición de carrera que podía provocar un error de consulta con una excepción IOException como
java.io.IOException: No FileSystem for scheme
o que las modificaciones asparkContext.hadoopConfiguration
no se aplicaran a las consultas. - El conector de Apache Spark para uso compartido de Delta se ha actualizado a la versión 0.2.0.
- Se ha corregido un error que podía provocar un error en los flujos de Structured Streaming con un elemento
- 20 de octubre de 2021
- Se ha actualizado el conector de BigQuery de la versión 0.18.1 a la 0.22.2. Esto agrega compatibilidad con el tipo BigNumeric.
Databricks Runtime 13.0 (EoS)
Consulte Databricks Runtime 13.0 (EoS).
13 de octubre de 2023
- Dependencia de Snowflake-jdbc actualizada de la versión 3.13.29 a 3.13.33.
- [SPARK-42553] [SC-124560][SQL] Asegurar al menos una unidad de tiempo después del intervalo.
- [SPARK-45178] Retroceder para ejecutar un único lote para
Trigger.AvailableNow
con orígenes no admitidos en lugar de usar el contenedor. - [SPARK-44658][CORE]
ShuffleStatus.getMapStatus
devuelveNone
en lugar deSome(null)
. - [SPARK-42205][CORE] Quitar el registro de Accumulables en eventos de inicio de tareas y fases en
JsonProtocol
. - Actualizaciones de seguridad del sistema operativo
12 de septiembre de 2023
- [SPARK-44485][SQL] Optimice
TreeNode.generateTreeString
. - [SPARK-44718][SQL] Hacer coincidir la configuración predeterminada del modo memoria
ColumnVector
con el valor de configuraciónOffHeapMemoryMode
. - Correcciones de errores varios.
- [SPARK-44485][SQL] Optimice
30 de agosto de 2023
- [SPARK-44818][Backport] Se ha corregido la carrera para la interrupción de tareas pendiente emitida antes de inicializar
taskThread
. - [SPARK-44714] Facilitar la restricción de la resolución LCA con respecto a las consultas.
- [SPARK-44245][PYTHON]
pyspark.sql.dataframe sample()
doctests ahora es solo ilustrativo. - [SPARK-44871][11.3-13.0][SQL] Se ha corregido el comportamiento
percentile_disc
. - Actualizaciones de seguridad del sistema operativo
- [SPARK-44818][Backport] Se ha corregido la carrera para la interrupción de tareas pendiente emitida antes de inicializar
15 de agosto de 2023
- [SPARK-44643][SQL][PYTHON] Corregir
Row.__repr__
cuando la fila está vacía. - [SPARK-44504][Backport] La trea de mantenimiento limpia los proveedores cargados en caso de error de detención.
- [SPARK-44479][CONNECT][PYTHON] Se ha corregido la conversión
protobuf
a partir de un tipo de estructura vacío. - [SPARK-44464][SS] Se ha corregido
applyInPandasWithStatePythonRunner
de las filas de salida que tienenNull
como primer valor de columna. - Correcciones de errores varios.
- [SPARK-44643][SQL][PYTHON] Corregir
29 de julio de 2023
- Se ha corregido un error por el que
dbutils.fs.ls()
devolvíaINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
cuando se llamaba para una ruta de acceso de ubicación de almacenamiento que entraba en conflicto con otra ubicación de almacenamiento externa o administrada. - [SPARK-44199]
CacheManager
ya no actualizafileIndex
innecesariamente. - Actualizaciones de seguridad del sistema operativo
- Se ha corregido un error por el que
24 de julio de 2023
- [SPARK-44337][PROTOBUF] Se ha corregido un problema que provocaba que cualquier campo establecido en
Any.getDefaultInstance
provocara errores de análisis. - [SPARK-44136] [SS] Se ha corregido un problema que provocaba que
StateManager
se materializara en un ejecutor en lugar de en el controlador enFlatMapGroupsWithStateExec
. - Reversión de "[SPARK-42323][SQL] Se ha asignado nombre a
_LEGACY_ERROR_TEMP_2332
. - Actualizaciones de seguridad del sistema operativo
- [SPARK-44337][PROTOBUF] Se ha corregido un problema que provocaba que cualquier campo establecido en
23 de junio de 2023
- Actualizaciones de seguridad del sistema operativo
15 de junio de 2023
approx_count_distinct
fotonizado.- La biblioteca Snowflake-jdbc se actualiza a la versión 3.13.29 para solucionar un problema de seguridad.
- [SPARK-43156][SPARK-43098][SQL] Ampliar la prueba de errores de recuento de subconsultas escalares con decorrelateInnerQuery deshabilitado
- [SPARK-43779][SQL]
ParseToDate
ahora cargaEvalMode
en el subproceso principal. - [SPARK-42937][SQL]
PlanSubqueries
debe establecerInSubqueryExec#shouldBroadcast
en true - Actualizaciones de seguridad del sistema operativo
2 de junio de 2023
- El analizador JSON en el modo
failOnUnknownFields
quita un registro en modoDROPMALFORMED
y produce un error directamente en el modoFAILFAST
. - Mejora drásticamente el rendimiento de la actualización incremental con
SHALLOW CLONE
de Iceberg y Parquet. - Se solucionó un problema en Auto Loader donde los diferentes formatos de archivos de origen eran inconsistentes cuando el esquema proporcionado no incluía particiones inferidas. Este problema podría provocar errores inesperados al leer archivos con columnas que faltan en el esquema de partición inferido.
- [SPARK-43404][Backport] Omitir la reutilización del archivo sst para la misma versión del almacén de estado de RocksDB para evitar errores de coincidencia de identificador.
- [SPARK-43340][CORE] Se ha corregido el campo de seguimiento de pila que faltaba en los registros de eventos.
- [SPARK-43300][CORE] contenedor
NonFateSharingCache
para la caché de Guava. - [SPARK-43378][CORE] Cierra correctamente los objetos de secuencia en
deserializeFromChunkedBuffer
. - [SPARK-16484][SQL] usa registros de 8 bits para representar DataSketches.
- [SPARK-43522][SQL] Se ha corregido la creación de un nombre de columna de estructura con el índice de matriz.
- [SPARK-43413][11.3-13.0][SQL] Se ha corregido
IN
la nulabilidad de la subconsultaListQuery
. - [SPARK-43043][CORE] mejoró el rendimiento de
MapOutputTracker.updateMapOutput
. - [SPARK-16484][SQL] se agregó compatibilidad con DataSketches HllSketch.
- [SPARK-43123][SQL] Los metadatos de campo internos ya no se filtran a los catálogos.
- [SPARK-42851][SQL] Proteger
EquivalentExpressions.addExpr()
consupportedExpression()
. - [SPARK-43336][SQL] La conversión entre
Timestamp
yTimestampNTZ
requiere zona horaria. - [SPARK-43286][SQL] Se actualizó el modo
aes_encrypt
CBC para generar IV aleatorios. - [SPARK-42852][SQL] Revirtió
NamedLambdaVariable
cambios relacionados deEquivalentExpressions
. - [SPARK-43541][SQL] Propagar todas las etiquetas
Project
en la resolución de expresiones y columnas que faltan - [SPARK-43527][PYTHON] Se corrigió
catalog.listCatalogs
en PySpark. - Actualizaciones de seguridad del sistema operativo
- El analizador JSON en el modo
31 de mayo de 2023
- La compatibilidad de escritura optimizada predeterminada para tablas Delta registradas en el catálogo de Unity se ha ampliado para incluir
CTAS
instrucciones y operacionesINSERT
para tablas con particiones. Este comportamiento se alinea con los valores predeterminados en los almacenes de SQL. Consulte Escrituras optimizadas para Delta Lake en Azure Databricks.
- La compatibilidad de escritura optimizada predeterminada para tablas Delta registradas en el catálogo de Unity se ha ampliado para incluir
17 de mayo de 2023
- Se ha corregido una regresión en la que
_metadata.file_path
y_metadata.file_name
devolverían cadenas con formato incorrecto. Por ejemplo, ahora una ruta de acceso con espacios se representa comos3://test-bucket/some%20directory/some%20data.csv
en lugar des3://test-bucket/some directory/some data.csv
. - Los exámenes de Parquet ahora son sólidos con respecto a los OEM al examinar archivos excepcionalmente estructurados ajustando dinámicamente el tamaño del lote. Los metadatos de archivo se analizan para reducir de forma preventiva el tamaño del lote y se reducen de nuevo en los reintentos de tareas como una red de seguridad final.
-
- Si se leyó un archivo Avro con solo la opción
failOnUnknownFields\
o con autocargador en el modo de evolución del esquemafailOnNewColumns\
, las columnas que tienen tipos de datos diferentes se leerían comonull\
en lugar de producir un error que indica que el archivo no se puede leer. Estas lecturas ahora producen un error y recomiendan a los usuarios que usen la opciónrescuedDataColumn\
.
- Si se leyó un archivo Avro con solo la opción
- El cargador automático ahora hace lo siguiente.
-
- Lee y ya no recupera los tipos
Integer
,Short
,Byte
si se proporciona uno de estos tipos de datos, pero el archivo Avro sugiere uno de los otros dos tipos.
- Lee y ya no recupera los tipos
-
- Impide que los tipos de intervalo de lectura sean tipos de fecha o marca de tiempo para evitar obtener fechas dañadas.
-
- Evita la lectura de los tipos
Decimal
con menor precisión.
- Evita la lectura de los tipos
- [SPARK-43172] [CONNECT] Expone el host y el token del cliente de conexión de Spark.
- [SPARK-43293][SQL]
__qualified_access_only
se omite en columnas normales. - [SPARK-43098][SQL] Se ha corregido un error de corrección
COUNT
cuando la subconsulta escalar se agrupa por cláusula. - [SPARK-43085][SQL] Compatibilidad con la asignación de columnas
DEFAULT
para nombres de tabla de varias partes. - [SPARK-43190][SQL]
ListQuery.childOutput
ahora es coherente con la salida secundaria. - [SPARK-43192] [CONNECT] Se quitó la validación del conjunto de caracteres del agente de usuario.
- Se ha corregido una regresión en la que
25 de abril de 2023
- Puede modificar una tabla Delta para agregar compatibilidad con una característica de tabla Delta mediante
DeltaTable.addFeatureSupport(feature_name)
. - El comando
SYNC
ahora admite formatos de origen de datos heredados. - Se ha corregido un error por el que el uso del formateador de Python antes de ejecutar cualquier otro comando en un cuaderno de Python podía hacer que faltase la ruta de acceso del cuaderno
sys.path.
- Azure Databricks ahora admite la especificación de valores predeterminados para las columnas de las tablas Delta. Los comandos
INSERT
,UPDATE
,DELETE
yMERGE
pueden hacer referencia al valor predeterminado de una columna mediante la palabra claveDEFAULT
explícita. Para los comandosINSERT
con una lista explícita de menos columnas que la tabla de destino, los valores predeterminados de columna correspondientes se sustituyen por las columnas restantes (oNULL
si no se especifica ningún valor predeterminado).
- Puede modificar una tabla Delta para agregar compatibilidad con una característica de tabla Delta mediante
Corrige un error en el que el terminal web no se podía usar para acceder a los archivos de
/Workspace
para algunos usuarios.- Si se leyó un archivo Parquet con solo la opción
failOnUnknownFields
o con autocargador en el modo de evolución del esquemafailOnNewColumns
, las columnas que tenían tipos de datos diferentes se leerían comonull
en lugar de producir un error que indica que el archivo no se puede leer. Estas lecturas ahora producen un error y recomiendan a los usuarios que usen la opciónrescuedDataColumn
. - El cargador automático ahora lee correctamente y ya no recupera los tipos
Integer
,Short
,Byte
si se proporciona uno de estos tipos de datos. El archivo Parquet sugiere uno de los otros dos tipos. Cuando la columna de datos rescatada se habilitó anteriormente, la falta de coincidencia del tipo de datos provocaría que las columnas se rescataran aunque fueran legibles. - Se ha corregido un error por el que la evolución del esquema del cargador automático puede entrar en un bucle de error infinito, cuando se detecta una nueva columna en el esquema de un objeto JSON anidado.
- [SPARK-42794][SS] Aumente lockAcquireTimeoutMs a 2 minutos para adquirir el almacén de estado de RocksDB en Structure Streaming.
- [SPARK-39221][SQL] Hacer que la información confidencial se redacte correctamente para la pestaña trabajo o fase del servidor thrift.
- [SPARK-42971][CORE] Cambie para imprimir
workdir
siappDirs
es NULL cuando el evento de controladorWorkDirCleanup
de trabajo. - [SPARK-42936][SQL] Corrija el error de LCA cuando su agregado secundario pueda resolver directamente la cláusula having.
- [SPARK-43018][SQL] Corrección del error de
INSERT
comandos con literales de marca de tiempo. - Reversión de [SPARK-42754][SQL][UI] Se ha corregido el problema de compatibilidad con versiones anteriores en la ejecución de SQL anidada.
- Reversión [SPARK-41498] Propagación de metadatos a través de Union.
- [SPARK-43038] [SQL] Compatibilidad con el modo CBC mediante
aes_encrypt()
/aes_decrypt()
. - [SPARK-42928][SQL] Realizar
resolvePersistentFunction
sincronización. - [SPARK-42521][SQL] Agregue
NULL
valores paraINSERT
con listas especificadas por el usuario de menos columnas que la tabla de destino. - [SPARK-41391][SQL] El nombre de columna de salida de
groupBy.agg(count_distinct)
era incorrecto. - [SPARK-42548][SQL] Agregar
ReferenceAllColumns
para omitir la reescritura de atributos. - [SPARK-42423][SQL] Agregar el inicio y la longitud del bloque de archivos de columna de metadatos.
- [SPARK-42796][SQL] Admite el acceso a
TimestampNTZ
columnas enCachedBatch
. - [SPARK-42266][PYTHON] Quite el directorio primario en shell.py ejecute cuando se use IPython.
- [SPARK-43011][SQL]
array_insert
debe producir un error con 0 índice. - [SPARK-41874][CONNECT][PYTHON] Compatibilidad
SameSemantics
con Spark Connect. - [SPARK-42702][SPARK-42623][SQL] Admite consultas con parámetros en subconsulta y CTE.
- [SPARK-42967][CORE] Corrección
SparkListenerTaskStart.stageAttemptId
cuando se inicia una tarea después de cancelar la fase. - Actualizaciones de seguridad del sistema operativo
- Si se leyó un archivo Parquet con solo la opción
Databricks Runtime 12.1 (EoS)
Consulte Databricks Runtime 12.1 (EoS).
23 de junio de 2023
- Actualizaciones de seguridad del sistema operativo
15 de junio de 2023
approx_count_distinct
fotonizado.- La biblioteca Snowflake-jdbc se actualiza a la versión 3.13.29 para solucionar un problema de seguridad.
- [SPARK-43779][SQL]
ParseToDate
ahora cargaEvalMode
en el subproceso principal. - [SPARK-43156][SPARK-43098][SQL] Ampliar la prueba de errores de recuento de subconsultas escalares con decorrelateInnerQuery deshabilitado
- Actualizaciones de seguridad del sistema operativo
2 de junio de 2023
- El analizador JSON en el modo
failOnUnknownFields
quita un registro en modoDROPMALFORMED
y produce un error directamente en el modoFAILFAST
. - Mejora drásticamente el rendimiento de la actualización incremental con
SHALLOW CLONE
de Iceberg y Parquet. - Se solucionó un problema en Auto Loader donde los diferentes formatos de archivos de origen eran inconsistentes cuando el esquema proporcionado no incluía particiones inferidas. Este problema podría provocar errores inesperados al leer archivos con columnas que faltan en el esquema de partición inferido.
- [SPARK-43404][Backport] Omitir la reutilización del archivo sst para la misma versión del almacén de estado de RocksDB para evitar errores de coincidencia de identificador.
- [SPARK-43413][11.3-13.0][SQL] Se ha corregido
IN
la nulabilidad de la subconsultaListQuery
. - [SPARK-43522][SQL] Se ha corregido la creación de un nombre de columna de estructura con el índice de matriz.
- [SPARK-42444][PYTHON]
DataFrame.drop
ahora controla correctamente las columnas duplicadas. - [SPARK-43541][SQL] Propagar todas las etiquetas
Project
en la resolución de expresiones y columnas que faltan - [SPARK-43340][CORE] Se ha corregido el campo de seguimiento de pila que faltaba en los registros de eventos.
- [SPARK-42937][SQL]
PlanSubqueries
ahora estableceInSubqueryExec#shouldBroadcast
en verdadero. - [SPARK-43527][PYTHON] Se corrigió
catalog.listCatalogs
en PySpark. - [SPARK-43378][CORE] Cierra correctamente los objetos de secuencia en
deserializeFromChunkedBuffer
.
- El analizador JSON en el modo
17 de mayo de 2023
- Los exámenes de Parquet ahora son sólidos con respecto a los OEM al examinar archivos excepcionalmente estructurados ajustando dinámicamente el tamaño del lote. Los metadatos de archivo se analizan para reducir de forma preventiva el tamaño del lote y se reducen de nuevo en los reintentos de tareas como una red de seguridad final.
- Si se leyó un archivo Avro con solo la opción
failOnUnknownFields\
o con autocargador en el modo de evolución del esquemafailOnNewColumns\
, las columnas que tienen tipos de datos diferentes se leerían comonull\
en lugar de producir un error que indica que el archivo no se puede leer. Estas lecturas ahora producen un error y recomiendan a los usuarios que usen la opciónrescuedDataColumn\
. - El cargador automático ahora hace lo siguiente.
-
- Lee y ya no recupera los tipos
Integer
,Short
,Byte
si se proporciona uno de estos tipos de datos, pero el archivo Avro sugiere uno de los otros dos tipos.
- Lee y ya no recupera los tipos
-
- Impide que los tipos de intervalo de lectura sean tipos de fecha o marca de tiempo para evitar obtener fechas dañadas.
-
- Evita la lectura de los tipos
Decimal
con menor precisión.
- Evita la lectura de los tipos
- [SPARK-43098][SQL] Se ha corregido un error de corrección
COUNT
cuando la subconsulta escalar se agrupa por cláusula. - [SPARK-43190][SQL]
ListQuery.childOutput
ahora es coherente con la salida secundaria. - Actualizaciones de seguridad del sistema operativo
25 de abril de 2023
- Si se leyó un archivo Parquet con solo la opción
failOnUnknownFields
o con autocargador en el modo de evolución del esquemafailOnNewColumns
, las columnas que tenían tipos de datos diferentes se leerían comonull
en lugar de producir un error que indica que el archivo no se puede leer. Estas lecturas ahora producen un error y recomiendan a los usuarios que usen la opciónrescuedDataColumn
. - El cargador automático ahora lee correctamente y ya no recupera los tipos
Integer
,Short
,Byte
si se proporciona uno de estos tipos de datos. El archivo Parquet sugiere uno de los otros dos tipos. Cuando la columna de datos rescatada se habilitó anteriormente, la falta de coincidencia del tipo de datos provocaría que las columnas se rescataran aunque fueran legibles. - [SPARK-43009][SQL] Parametrizado
sql()
conAny
constantes. - [SPARK-42971][CORE] Cambie para imprimir
workdir
siappDirs
es NULL cuando el evento de controladorWorkDirCleanup
de trabajo. - Actualizaciones de seguridad del sistema operativo
- Si se leyó un archivo Parquet con solo la opción
11 de abril de 2023
- Admite formatos de origen de datos heredados en el comando SYNC.
- Corrige un error en el comportamiento %autoreload de los cuadernos que están fuera de un repositorio.
- Se ha corregido un error por el que la evolución del esquema del cargador automático puede entrar en un bucle de error infinito, cuando se detecta una nueva columna en el esquema de un objeto JSON anidado.
- [SPARK-42928][SQL] Realiza
resolvePersistentFunction
sincronizado. - [SPARK-42967][CORE] Corrige
SparkListenerTaskStart.stageAttemptId
cuándo se inicia una tarea después de cancelar la fase. - Actualizaciones de seguridad del sistema operativo
29 de marzo de 2023
- Auto Loader ahora desencadena al menos una limpieza sincrónica de registros de RocksDB para flujos
Trigger.AvailableNow
para asegurarse de que el punto de control se pueda limpiar periódicamente para flujos de cargador automático de ejecución rápida. Esto puede hacer que algunas secuencias tarden más tiempo antes de que se apaguen, pero le ahorrarán costos de almacenamiento y mejorará la experiencia del cargador automático en futuras ejecuciones. - Ahora puede modificar una tabla Delta para agregar compatibilidad con las características de tabla mediante
DeltaTable.addFeatureSupport(feature_name)
. - [SPARK-42702][SPARK-42623][SQL] Admite consultas con parámetros en subconsulta y CTE
- [SPARK-41162][SQL] Corrección de anti-y semicombinación para la unión automática con agregaciones
- [SPARK-42403][CORE] JsonProtocol debe controlar cadenas JSON nulas
- [SPARK-42668][SS] Detectar excepción al intentar cerrar la secuencia comprimida en HDFSStateStoreProvider abort
- [SPARK-42794][SS] Aumente lockAcquireTimeoutMs a 2 minutos para adquirir el almacén de estado de RocksDB en Structure Streaming
- Auto Loader ahora desencadena al menos una limpieza sincrónica de registros de RocksDB para flujos
14 de marzo de 2023
- Hay un cambio terminológico para agregar características a una tabla Delta mediante la propiedad table. La sintaxis preferida ahora es
'delta.feature.featureName'='supported'
en lugar de'delta.feature.featureName'='enabled'
. Para la compatibilidad con versiones anteriores, usar'delta.feature.featureName'='enabled'
todavía funciona y seguirá funcionando. - [SPARK-42622][CORE] Deshabilitar la sustitución en valores
- [SPARK-42534][SQL] Corrección de la cláusula DB2Dialect Limit
- [SPARK-42635][SQL] Corrija la expresión TimestampAdd.
- [SPARK-42516][SQL] Capturar siempre la configuración de zona horaria de sesión al crear vistas
- [SPARK-42484] [SQL] Mensaje de error UnsafeRowUtils better
- [SPARK-41793][SQL] Resultado incorrecto para los marcos de ventana definidos por una cláusula de alcance en decimales grandes
- Actualizaciones de seguridad del sistema operativo
- Hay un cambio terminológico para agregar características a una tabla Delta mediante la propiedad table. La sintaxis preferida ahora es
24 de febrero de 2023
- Ahora puede usar un conjunto unificado de opciones (
host
,port
,database
,user
,password
) para conectarse a los orígenes de datos admitidos en la federación de consultas (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Tenga en cuenta queport
es opcional y usa el número de puerto predeterminado para cada origen de datos si no se proporciona.
Ejemplo de configuración de conexión de PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Ejemplo de configuración de conexión de Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
- [SPARK-41989][PYTHON] Evite interrumpir la configuración del registro de pyspark.pandas
- [SPARK-42346][SQL] Reescribir agregados distintos después de la combinación de subconsultas
- [SPARK-41990][SQL] Usar
FieldReference.column
en lugar de en la conversión deapply
filtros V1 a V2 - Revertir [SPARK-41848][CORE] Corregir la tarea con TaskResourceProfile
- [SPARK-42162] Introducción de la expresión MultiCommutativeOp como optimización de memoria para grandes árboles canónicos de expresiones conmutaciones
- Actualizaciones de seguridad del sistema operativo
- Ahora puede usar un conjunto unificado de opciones (
16 de febrero de 2023
- El comando SYNC admite la sincronización de tablas de Metastore de Hive recreadas. Si una tabla HMS se ha sincronizado (SYNCed) anteriormente en el catálogo de Unity, pero luego se quitó y se volvió a crear, una nueva sincronización posterior funcionará en lugar de iniciar TABLE_ALREADY_EXISTS código de estado.
- [SPARK-41219][SQL] IntegralDivide use decimal(1, 0) para representar 0
- [SPARK-36173][CORE] Compatibilidad con la obtención del número de CPU en TaskContext
- [SPARK-41848][CORE] Corregir la tarea con TaskResourceProfile
- [SPARK-42286][SQL] Reserva a la ruta de acceso de código codegen anterior para expr complejo con CAST
31 de enero de 2023
- La creación de un esquema con una ubicación definida ahora requiere que el usuario tenga privilegios SELECT y MODIFY en ANY FILE.
- [SPARK-41581][SQL] Asignar nombre a _LEGACY_ERROR_TEMP_1230
- [SPARK-41996][SQL][SS] Corrección de la prueba de kafka para comprobar las particiones perdidas para tener en cuenta las operaciones lentas de Kafka
- [SPARK-41580][SQL] Asignar nombre a _LEGACY_ERROR_TEMP_2137
- [SPARK-41666][PYTHON] Compatibilidad con SQL parametrizado por
sql()
- [SPARK-41579][SQL] Asignar nombre a _LEGACY_ERROR_TEMP_1249
- [SPARK-41573][SQL] Asignar nombre a _LEGACY_ERROR_TEMP_2136
- [SPARK-41574][SQL] Asignar nombre a _LEGACY_ERROR_TEMP_2009
- [SPARK-41049][Seguimiento] Corrección de una regresión de sincronización de código para ConvertToLocalRelation
- [SPARK-41576][SQL] Asignar nombre a _LEGACY_ERROR_TEMP_2051
- [SPARK-41572][SQL] Asignar nombre a _LEGACY_ERROR_TEMP_2149
- [SPARK-41575][SQL] Asignar nombre a _LEGACY_ERROR_TEMP_2054
- Actualizaciones de seguridad del sistema operativo
Databricks Runtime 12.0 (EoS)
Consulte Databricks Runtime 12.0 (EoS).
15 de junio de 2023
approx_count_distinct
fotonizado.- La biblioteca Snowflake-jdbc se actualiza a la versión 3.13.29 para solucionar un problema de seguridad.
- [SPARK-43156][SPARK-43098][SQL] Ampliar la prueba de errores de recuento de subconsultas escalares con decorrelateInnerQuery deshabilitado
- [SPARK-43779][SQL]
ParseToDate
ahora cargaEvalMode
en el subproceso principal. - Actualizaciones de seguridad del sistema operativo
2 de junio de 2023
- El analizador JSON en el modo
failOnUnknownFields
quita un registro en modoDROPMALFORMED
y produce un error directamente en el modoFAILFAST
. - Mejora drásticamente el rendimiento de la actualización incremental con
SHALLOW CLONE
de Iceberg y Parquet. - Se solucionó un problema en Auto Loader donde los diferentes formatos de archivos de origen eran inconsistentes cuando el esquema proporcionado no incluía particiones inferidas. Este problema podría provocar errores inesperados al leer archivos con columnas que faltan en el esquema de partición inferido.
- [SPARK-42444][PYTHON]
DataFrame.drop
ahora controla correctamente las columnas duplicadas. - [SPARK-43404][Backport] Omitir la reutilización del archivo sst para la misma versión del almacén de estado de RocksDB para evitar errores de coincidencia de identificador.
- [SPARK-43413][11.3-13.0][SQL] Se ha corregido
IN
la nulabilidad de la subconsultaListQuery
. - [SPARK-43527][PYTHON] Se corrigió
catalog.listCatalogs
en PySpark. - [SPARK-43522][SQL] Se ha corregido la creación de un nombre de columna de estructura con el índice de matriz.
- [SPARK-43541][SQL] Propagar todas las etiquetas
Project
en la resolución de expresiones y columnas que faltan - [SPARK-43340][CORE] Se ha corregido el campo de seguimiento de pila que faltaba en los registros de eventos.
- [SPARK-42937][SQL]
PlanSubqueries
establecióInSubqueryExec#shouldBroadcast
en verdadero.
- El analizador JSON en el modo
17 de mayo de 2023
- Los exámenes de Parquet ahora son sólidos con respecto a los OEM al examinar archivos excepcionalmente estructurados ajustando dinámicamente el tamaño del lote. Los metadatos de archivo se analizan para reducir de forma preventiva el tamaño del lote y se reducen de nuevo en los reintentos de tareas como una red de seguridad final.
- Si se leyó un archivo Avro con solo la opción
failOnUnknownFields\
o con autocargador en el modo de evolución del esquemafailOnNewColumns\
, las columnas que tienen tipos de datos diferentes se leerían comonull\
en lugar de producir un error que indica que el archivo no se puede leer. Estas lecturas ahora producen un error y recomiendan a los usuarios que usen la opciónrescuedDataColumn\
. - El cargador automático ahora hace lo siguiente.
-
- Lee y ya no recupera los tipos
Integer
,Short
,Byte
si se proporciona uno de estos tipos de datos, pero el archivo Avro sugiere uno de los otros dos tipos.
- Lee y ya no recupera los tipos
-
- Impide que los tipos de intervalo de lectura sean tipos de fecha o marca de tiempo para evitar obtener fechas dañadas.
-
- Evita la lectura de los tipos
Decimal
con menor precisión.
- Evita la lectura de los tipos
- [SPARK-43172] [CONNECT] Expone el host y el token del cliente de conexión de Spark.
- [SPARK-41520][SQL] Patrón de árbol dividido
AND_OR
para separarAND
yOR
. - [SPARK-43098][SQL] Se ha corregido un error de corrección
COUNT
cuando la subconsulta escalar se agrupa por cláusula. - [SPARK-43190][SQL]
ListQuery.childOutput
ahora es coherente con la salida secundaria. - Actualizaciones de seguridad del sistema operativo
25 de abril de 2023
- Si se leyó un archivo Parquet con solo la opción
failOnUnknownFields
o con autocargador en el modo de evolución del esquemafailOnNewColumns
, las columnas que tenían tipos de datos diferentes se leerían comonull
en lugar de producir un error que indica que el archivo no se puede leer. Estas lecturas ahora producen un error y recomiendan a los usuarios que usen la opciónrescuedDataColumn
. - El cargador automático ahora lee correctamente y ya no recupera los tipos
Integer
,Short
,Byte
si se proporciona uno de estos tipos de datos. El archivo Parquet sugiere uno de los otros dos tipos. Cuando la columna de datos rescatada se habilitó anteriormente, la falta de coincidencia del tipo de datos provocaría que las columnas se rescataran aunque fueran legibles. - [SPARK-42971][CORE] Cambie para imprimir
workdir
siappDirs
es NULL cuando el evento de controladorWorkDirCleanup
de trabajo - Actualizaciones de seguridad del sistema operativo
- Si se leyó un archivo Parquet con solo la opción
11 de abril de 2023
- Admite formatos de origen de datos heredados en el comando
SYNC
. - Corrige un error en el comportamiento %autoreload de los cuadernos que están fuera de un repositorio.
- Se ha corregido un error por el que la evolución del esquema del cargador automático puede entrar en un bucle de error infinito, cuando se detecta una nueva columna en el esquema de un objeto JSON anidado.
- [SPARK-42928][SQL] Realiza
resolvePersistentFunction
sincronizado. - [SPARK-42967][CORE] Corrige
SparkListenerTaskStart.stageAttemptId
cuándo se inicia una tarea después de cancelar la fase. - Actualizaciones de seguridad del sistema operativo
- Admite formatos de origen de datos heredados en el comando
29 de marzo de 2023
- [SPARK-42794][SS] Aumente lockAcquireTimeoutMs a 2 minutos para adquirir el almacén de estado de RocksDB en Structure Streaming
- [SPARK-41162][SQL] Corrección de anti-y semicombinación para la unión automática con agregaciones
- [SPARK-42403][CORE] JsonProtocol debe controlar cadenas JSON nulas
- [SPARK-42668][SS] Detectar excepción al intentar cerrar la secuencia comprimida en HDFSStateStoreProvider abort
- Correcciones de errores varios.
14 de marzo de 2023
- [SPARK-42534][SQL] Corrección de la cláusula DB2Dialect Limit
- [SPARK-42622][CORE] Deshabilitar la sustitución en valores
- [SPARK-41793][SQL] Resultado incorrecto para los marcos de ventana definidos por una cláusula de alcance en decimales grandes
- [SPARK-42484] [SQL] Mensaje de error UnsafeRowUtils better
- [SPARK-42635][SQL] Corrija la expresión TimestampAdd.
- [SPARK-42516][SQL] Capturar siempre la configuración de zona horaria de sesión al crear vistas
- Actualizaciones de seguridad del sistema operativo
24 de febrero de 2023
Opciones de conexión estandarizadas para la federación de consultas
Ahora puede usar un conjunto unificado de opciones (
host
,port
,database
,user
,password
) para conectarse a los orígenes de datos admitidos en la federación de consultas (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Tenga en cuenta queport
es opcional y usará el número de puerto predeterminado para cada origen de datos si no se proporciona.Ejemplo de configuración de conexión de PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Ejemplo de configuración de conexión de Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
Revertir [SPARK-41848][CORE] Corregir la tarea con TaskResourceProfile
[SPARK-42162] Introducción de la expresión MultiCommutativeOp como optimización de memoria para grandes árboles canónicos de expresiones conmutaciones
[SPARK-41990][SQL] Usar
FieldReference.column
en lugar de en la conversión deapply
filtros V1 a V2[SPARK-42346][SQL] Reescribir agregados distintos después de la combinación de subconsultas
Actualizaciones de seguridad del sistema operativo
16 de febrero de 2023
- Los usuarios ahora pueden leer y escribir determinadas tablas Delta que requieren la versión 3 del lector y la versión 7 del escritor mediante Databricks Runtime 9.1 o posterior. Para ello, las características de tabla enumeradas en el protocolo de las tablas deben ser compatibles con la versión actual de Databricks Runtime.
- El comando SYNC admite la sincronización de tablas de Metastore de Hive recreadas. Si una tabla HMS se ha sincronizado (SYNCed) anteriormente en el catálogo de Unity, pero luego se quitó y se volvió a crear, una nueva sincronización posterior funcionará en lugar de iniciar TABLE_ALREADY_EXISTS código de estado.
- [SPARK-36173][CORE] Compatibilidad con la obtención del número de CPU en TaskContext
- [SPARK-42286][SQL] Reserva a la ruta de acceso de código codegen anterior para expr complejo con CAST
- [SPARK-41848][CORE] Corregir la tarea con TaskResourceProfile
- [SPARK-41219][SQL] IntegralDivide use decimal(1, 0) para representar 0
25 de enero de 2023
- [SPARK-41660] [SQL] Solo propaga columnas de metadatos si se usan
- [SPARK-41379] [SS][PYTHON] Proporcionar una sesión de Spark clonada en DataFrame en la función de usuario para el receptor foreachBatch en PySpark
- [SPARK-41669] [SQL] Eliminación temprana en canCollapseExpressions
- Actualizaciones de seguridad del sistema operativo
18 de enero de 2023
- El comando SQL
REFRESH FUNCTION
ahora admite funciones SQL y funciones de tablas SQL. Por ejemplo, el comando se podría usar para actualizar una función SQL persistente que se actualizó en otra sesión de SQL. - El origen de datos Java Database Connectivity (JDBC) v1 ahora admite la aplicación de la cláusula LIMIT para mejorar el rendimiento en las consultas. Esta característica está habilitada de manera predeterminada y se puede deshabilitar al establecer
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
enfalse
. - En los clústeres de las ACL de tablas heredadas, la creación de funciones que hacen referencia a clases JVM ahora requiere el privilegio
MODIFY_CLASSPATH
. - El origen de datos Java Database Connectivity (JDBC) v1 ahora admite la aplicación de la cláusula LIMIT para mejorar el rendimiento en las consultas. Esta característica está habilitada de manera predeterminada y se puede deshabilitar al establecer spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled en false.
- El conector de Azure Synapse ahora devuelve un mensaje de error más descriptivo cuando un nombre de columna contiene caracteres no válidos, como espacios en blanco o punto y coma. En tales casos, se devolverá el siguiente mensaje:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - El streaming estructurado de Spark ahora funciona con format("deltasharing") en una tabla de uso compartido diferencial como origen.
- [SPARK-38277][SS] Borrado del lote de escritura después de la confirmación del almacén de estado de RocksDB
- [SPARK-41733][SQL][SS] Aplicación de la eliminación basada en patrones de árbol para la regla ResolveWindowTime
- [SPARK-39591][SS] Seguimiento de progreso asincrónico
- [SPARK-41339][SQL] Cierre y nueva creación del lote de escritura de RocksDB en lugar de simplemente borrar
- [SPARK-41198][SS] Corrección de métricas en la consulta de streaming con origen de streaming CTE y DSv1
- [SPARK-41539][SQL] Reasignación de estadísticas y restricciones frente a la salida en el plan lógico para LogicalRDD
- [SPARK-41732][SQL][SS] Aplicación de la eliminación basada en patrones de árbol para la regla SessionWindowing
- [SPARK-41862][SQL] Solución del error de corrección relacionado con los valores DEFAULT en el lector Orc
- [SPARK-41199][SS] Corrección del problema de métricas cuando el origen de streaming DSv1 y el origen de streaming DSv2 se usan conjuntamente
- [SPARK-41261][PYTHON][SS] Corrección del problema para applyInPandasWithState cuando las columnas de claves de agrupación no se colocan en orden desde el primer momento
- Actualizaciones de seguridad del sistema operativo
- El comando SQL
17 de mayo de 2023
- Los exámenes de Parquet ahora son sólidos con respecto a los OEM al examinar archivos excepcionalmente estructurados ajustando dinámicamente el tamaño del lote. Los metadatos de archivo se analizan para reducir de forma preventiva el tamaño del lote y se reducen de nuevo en los reintentos de tareas como una red de seguridad final.
- Se ha corregido una regresión que provocaba que los trabajos de Azure Databricks persistan después de no conectarse al metastore durante la inicialización del clúster.
- [SPARK-41520][SQL] Patrón de árbol dividido
AND_OR
para separarAND
yOR
. - [SPARK-43190][SQL]
ListQuery.childOutput
ahora es coherente con la salida secundaria. - Actualizaciones de seguridad del sistema operativo
25 de abril de 2023
- Si se leyó un archivo Parquet con solo la opción
failOnUnknownFields
o con autocargador en el modo de evolución del esquemafailOnNewColumns
, las columnas que tenían tipos de datos diferentes se leerían comonull
en lugar de producir un error que indica que el archivo no se puede leer. Estas lecturas ahora producen un error y recomiendan a los usuarios que usen la opciónrescuedDataColumn
. - El cargador automático ahora lee correctamente y ya no recupera los tipos
Integer
,Short
,Byte
si se proporciona uno de estos tipos de datos. El archivo Parquet sugiere uno de los otros dos tipos. Cuando la columna de datos rescatada se habilitó anteriormente, la falta de coincidencia del tipo de datos provocaría que las columnas se rescataran aunque fueran legibles. - [SPARK-42937][SQL]
PlanSubqueries
ahora estableceInSubqueryExec#shouldBroadcast
en verdadero. - Actualizaciones de seguridad del sistema operativo
- Si se leyó un archivo Parquet con solo la opción
11 de abril de 2023
- Admite formatos de origen de datos heredados en el comando SYNC.
- Corrige un error en el comportamiento %autoreload de los cuadernos que están fuera de un repositorio.
- Se ha corregido un error por el que la evolución del esquema del cargador automático puede entrar en un bucle de error infinito, cuando se detecta una nueva columna en el esquema de un objeto JSON anidado.
- [SPARK-42928][SQL] Haga que resolvePersistentFunction se sincronice.
- [SPARK-42967][CORE] Corregir SparkListenerTaskStart.stageAttemptId cuando se inicia una tarea después de cancelar la fase.
29 de marzo de 2023
- [SPARK-42794][SS] Aumente lockAcquireTimeoutMs a 2 minutos para adquirir el almacén de estado de RocksDB en Structure Streaming
- [SPARK-42403][CORE] JsonProtocol debe controlar cadenas JSON nulas
- [SPARK-42668][SS] Detectar excepción al intentar cerrar la secuencia comprimida en HDFSStateStoreProvider abort
- Actualizaciones de seguridad del sistema operativo
14 de marzo de 2023
- [SPARK-42635][SQL] Corrija la expresión TimestampAdd.
- [SPARK-41793][SQL] Resultado incorrecto para los marcos de ventana definidos por una cláusula de alcance en decimales grandes
- [SPARK-42484] [SQL] Mensaje de error UnsafeRowUtils better
- [SPARK-42534][SQL] Corrección de la cláusula DB2Dialect Limit
- [SPARK-41162][SQL] Corrección de anti-y semicombinación para la unión automática con agregaciones
- [SPARK-42516][SQL] Capturar siempre la configuración de zona horaria de sesión al crear vistas
- Correcciones de errores varios.
28 de febrero de 2023
Opciones de conexión estandarizadas para la federación de consultas
Ahora puede usar un conjunto unificado de opciones (
host
,port
,database
,user
,password
) para conectarse a los orígenes de datos admitidos en la federación de consultas (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Tenga en cuenta queport
es opcional y usa el número de puerto predeterminado para cada origen de datos si no se proporciona.Ejemplo de configuración de conexión de PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Ejemplo de configuración de conexión de Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
[SPARK-42286][SQL] Reserva a la ruta de acceso de código codegen anterior para expr complejo con CAST
[SPARK-41989][PYTHON] Evite interrumpir la configuración del registro de pyspark.pandas
[SPARK-42346][SQL] Reescribir agregados distintos después de la combinación de subconsultas
[SPARK-41360] [CORE] Evitar el nuevo registro de BlockManager si se ha perdido el ejecutor
[SPARK-42162] Introducción de la expresión MultiCommutativeOp como optimización de memoria para grandes árboles canónicos de expresiones conmutaciones
[SPARK-41990][SQL] Usar
FieldReference.column
en lugar de en la conversión deapply
filtros V1 a V2Actualizaciones de seguridad del sistema operativo
16 de febrero de 2023
- Los usuarios ahora pueden leer y escribir determinadas tablas Delta que requieren la versión 3 del lector y la versión 7 del escritor mediante Databricks Runtime 9.1 o posterior. Para ello, las características de tabla enumeradas en el protocolo de las tablas deben ser compatibles con la versión actual de Databricks Runtime.
- El comando SYNC admite la sincronización de tablas de Metastore de Hive recreadas. Si una tabla HMS se ha sincronizado (SYNCed) anteriormente en el catálogo de Unity, pero luego se quitó y se volvió a crear, una nueva sincronización posterior funcionará en lugar de iniciar TABLE_ALREADY_EXISTS código de estado.
- [SPARK-41219][SQL] IntegralDivide use decimal(1, 0) para representar 0
- [SPARK-40382] [SQL] Se agrupan expresiones de agregado distintas mediante elementos secundarios semánticamente equivalentes en
RewriteDistinctAggregates
- Actualizaciones de seguridad del sistema operativo
25 de enero de 2023
- [SPARK-41379] [SS][PYTHON] Proporcionar una sesión de Spark clonada en DataFrame en la función de usuario para el receptor foreachBatch en PySpark
- [SPARK-41660] [SQL] Solo propaga columnas de metadatos si se usan
- [SPARK-41669] [SQL] Eliminación temprana en canCollapseExpressions
- Correcciones de errores varios.
18 de enero de 2023
- El comando SQL
REFRESH FUNCTION
ahora admite funciones SQL y funciones de tablas SQL. Por ejemplo, el comando se podría usar para actualizar una función SQL persistente que se actualizó en otra sesión de SQL. - El origen de datos Java Database Connectivity (JDBC) v1 ahora admite la aplicación de la cláusula LIMIT para mejorar el rendimiento en las consultas. Esta característica está habilitada de manera predeterminada y se puede deshabilitar al establecer
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
enfalse
. - El origen de datos Java Database Connectivity (JDBC) v1 ahora admite la aplicación de la cláusula LIMIT para mejorar el rendimiento en las consultas. Esta característica está habilitada de manera predeterminada y se puede deshabilitar al establecer spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled en false.
- El conector de Azure Synapse ahora devuelve un mensaje de error más descriptivo cuando un nombre de columna contiene caracteres no válidos, como espacios en blanco o punto y coma. En tales casos, se devolverá el siguiente mensaje:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - [SPARK-41198][SS] Corrección de métricas en la consulta de streaming con origen de streaming CTE y DSv1
- [SPARK-41862][SQL] Solución del error de corrección relacionado con los valores DEFAULT en el lector Orc
- [SPARK-41539][SQL] Reasignación de estadísticas y restricciones frente a la salida en el plan lógico para LogicalRDD
- [SPARK-39591][SS] Seguimiento de progreso asincrónico
- [SPARK-41199][SS] Corrección del problema de métricas cuando el origen de streaming DSv1 y el origen de streaming DSv2 se usan conjuntamente
- [SPARK-41261][PYTHON][SS] Corrección del problema para applyInPandasWithState cuando las columnas de claves de agrupación no se colocan en orden desde el primer momento
- [SPARK-41339][SQL] Cierre y nueva creación del lote de escritura de RocksDB en lugar de simplemente borrar
- [SPARK-41732][SQL][SS] Aplicación de la eliminación basada en patrones de árbol para la regla SessionWindowing
- [SPARK-38277][SS] Borrado del lote de escritura después de la confirmación del almacén de estado de RocksDB
- Actualizaciones de seguridad del sistema operativo
- El comando SQL
29 de noviembre de 2022
- Los usuarios pueden configurar el comportamiento de los espacios en blanco iniciales y finales al escribir datos mediante el conector de Redshift. Se han agregado las siguientes opciones para controlar el control de espacios en blanco:
csvignoreleadingwhitespace
, cuando se establece entrue
, quita el espacio en blanco inicial de los valores durante las escrituras cuandotempformat
se estableceCSV
en oCSV GZIP
. Los espacios en blanco se conservan cuando la configuración se establece enfalse
. De forma predeterminada, el valor estrue
.csvignoretrailingwhitespace
, cuando se establece entrue
, quita el espacio en blanco final de los valores durante las escrituras cuandotempformat
se establece enCSV
oCSV GZIP
. Los espacios en blanco se conservan cuando la configuración se establece enfalse
. De forma predeterminada, el valor estrue
.
- Se ha corregido un error con el análisis de JSON en el cargador automático cuando todas las columnas se dejaban como cadenas (
cloudFiles.inferColumnTypes
no se estableció o se estableció enfalse
) y el JSON contenía objetos anidados. - Actualice la dependencia
snowflake-jdbc
a la versión 3.13.22. - Los tipos de tabla de las tablas JDBC ahora son EXTERNAL de manera predeterminada.
- [SPARK-40906][SQL]
Mode
debe copiar claves antes de insertar en la asignación - Actualizaciones de seguridad del sistema operativo
- Los usuarios pueden configurar el comportamiento de los espacios en blanco iniciales y finales al escribir datos mediante el conector de Redshift. Se han agregado las siguientes opciones para controlar el control de espacios en blanco:
15 de noviembre de 2022
- Las ACL de tabla y los clústeres compartidos de UC ahora permiten el método Dataset.toJSON de Python.
- [SPARK-40646] Se ha corregido el análisis de JSON para estructuras, mapas y matrices, por lo que cuando una parte de un registro no coincide con el esquema, el resto del registro todavía se puede analizar correctamente en lugar de devolver valores NULL. Participar en el conjunto de comportamientos mejorado
spark.sql.json.enablePartialResults
entrue
. La marca está deshabilitada de forma predeterminada para conservar el comportamiento original. - [SPARK-40903][SQL] Evite reordenar la adición decimal para la canonización si se cambia el tipo de datos
- [SPARK-40618] [SQL] Corrección del error en la regla MergeScalarSubqueries con subconsultas anidadas mediante el seguimiento de referencias
- [SPARK-40697] [SQL] Agrega relleno de caracteres de lectura para cubrir archivos de datos externos
- Actualizaciones de seguridad del sistema operativo
1 de noviembre de 2022
- Structured Streaming en el catálogo de Unity ahora admite la actualización de tokens de acceso temporales. Las cargas de trabajo de streaming que se ejecutan con el catálogo de Unity de todos los fines o los clústeres de trabajos ya no generan errores tras la expiración del token inicial.
- Se ha corregido un problema por el que si una tabla Delta tenía una columna definida por el usuario denominada
_change_type
, pero la opción Change data feed (Cambiar fuente de distribución de datos) estaba deshabilitada en esa tabla, los datos de esa columna se rellenaban incorrectamente con valores NULL al ejecutarMERGE
. - Se ha corregido un problema por el que la ejecución
MERGE
y el uso de exactamente 99 columnas del origen en la condición podía dar lugar ajava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
. - Se ha corregido un problema con el cargador automático en el que un archivo se puede duplicar en el mismo microproceso cuando
allowOverwrites
está habilitado. - Se ha actualizado Apache commons-text a 1.10.0.
- [SPARK-38881][DSTREAMS][KINESIS][PYSPARK] Se ha agregado compatibilidad con la configuración de CloudWatch MetricsLevel
- [SPARK-40596][CORE] Rellenar ExecutorDecommission con mensajes en ExecutorDecommissionInfo
- [SPARK-40670][SS][PYTHON] Corregir NPE en applyInPandasWithState cuando el esquema de entrada tiene columnas "que no aceptan valores NULL"
- Actualizaciones de seguridad del sistema operativo
Databricks Runtime 11.2 (EoS)
Consulte Databricks Runtime 11.2 (EoS).
- 28 de febrero de 2023
- [SPARK-42286][SQL] Reserva a la ruta de acceso de código codegen anterior para expr complejo con CAST
- [SPARK-42346][SQL] Reescribir agregados distintos después de la combinación de subconsultas
- Actualizaciones de seguridad del sistema operativo
- 16 de febrero de 2023
- Los usuarios ahora pueden leer y escribir determinadas tablas Delta que requieren la versión 3 del lector y la versión 7 del escritor mediante Databricks Runtime 9.1 o posterior. Para ello, las características de tabla enumeradas en el protocolo de las tablas deben ser compatibles con la versión actual de Databricks Runtime.
- El comando SYNC admite la sincronización de tablas de Metastore de Hive recreadas. Si una tabla HMS se ha sincronizado (SYNCed) anteriormente en el catálogo de Unity, pero luego se quitó y se volvió a crear, una nueva sincronización posterior funcionará en lugar de iniciar TABLE_ALREADY_EXISTS código de estado.
- [SPARK-41219][SQL] IntegralDivide use decimal(1, 0) para representar 0
- Actualizaciones de seguridad del sistema operativo
- 31 de enero de 2023
- Los tipos de tabla de las tablas JDBC ahora son EXTERNAL de manera predeterminada.
- [SPARK-41379] [SS][PYTHON] Proporcionar una sesión de Spark clonada en DataFrame en la función de usuario para el receptor foreachBatch en PySpark
- 18 de enero de 2023
- El conector de Azure Synapse ahora devuelve un mensaje de error más descriptivo cuando un nombre de columna contiene caracteres no válidos, como espacios en blanco o punto y coma. En tales casos, se devolverá el siguiente mensaje:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - [SPARK-41198][SS] Corrección de métricas en la consulta de streaming con origen de streaming CTE y DSv1
- [SPARK-41862][SQL] Solución del error de corrección relacionado con los valores DEFAULT en el lector Orc
- [SPARK-41539][SQL] Reasignación de estadísticas y restricciones frente a la salida en el plan lógico para LogicalRDD
- [SPARK-41199][SS] Corrección del problema de métricas cuando el origen de streaming DSv1 y el origen de streaming DSv2 se usan conjuntamente
- [SPARK-41339][SQL] Cierre y nueva creación del lote de escritura de RocksDB en lugar de simplemente borrar
- [SPARK-41732][SQL][SS] Aplicación de la eliminación basada en patrones de árbol para la regla SessionWindowing
- [SPARK-38277][SS] Borrado del lote de escritura después de la confirmación del almacén de estado de RocksDB
- Actualizaciones de seguridad del sistema operativo
- El conector de Azure Synapse ahora devuelve un mensaje de error más descriptivo cuando un nombre de columna contiene caracteres no válidos, como espacios en blanco o punto y coma. En tales casos, se devolverá el siguiente mensaje:
- 29 de noviembre de 2022
- Los usuarios pueden configurar el comportamiento de los espacios en blanco iniciales y finales al escribir datos mediante el conector de Redshift. Se han agregado las siguientes opciones para controlar el control de espacios en blanco:
csvignoreleadingwhitespace
, cuando se establece entrue
, quita el espacio en blanco inicial de los valores durante las escrituras cuandotempformat
se estableceCSV
en oCSV GZIP
. Los espacios en blanco se conservan cuando la configuración se establece enfalse
. De forma predeterminada, el valor estrue
.csvignoretrailingwhitespace
, cuando se establece entrue
, quita el espacio en blanco final de los valores durante las escrituras cuandotempformat
se establece enCSV
oCSV GZIP
. Los espacios en blanco se conservan cuando la configuración se establece enfalse
. De forma predeterminada, el valor estrue
.
- Se ha corregido un error con el análisis de JSON en el cargador automático cuando todas las columnas se dejaban como cadenas (
cloudFiles.inferColumnTypes
no se estableció o se estableció enfalse
) y el JSON contenía objetos anidados. - [SPARK-40906][SQL]
Mode
debe copiar claves antes de insertar en la asignación - Actualizaciones de seguridad del sistema operativo
- Los usuarios pueden configurar el comportamiento de los espacios en blanco iniciales y finales al escribir datos mediante el conector de Redshift. Se han agregado las siguientes opciones para controlar el control de espacios en blanco:
- 15 de noviembre de 2022
- [SPARK-40646] Se ha corregido el análisis de JSON para estructuras, mapas y matrices, por lo que cuando una parte de un registro no coincide con el esquema, el resto del registro todavía se puede analizar correctamente en lugar de devolver valores NULL. Para participar en el comportamiento mejorado, establezca
spark.sql.json.enablePartialResults
entrue
. La marca está deshabilitada de forma predeterminada para conservar el comportamiento original. - [SPARK-40618] [SQL] Corrección del error en la regla MergeScalarSubqueries con subconsultas anidadas mediante el seguimiento de referencias
- [SPARK-40697] [SQL] Agrega relleno de caracteres de lectura para cubrir archivos de datos externos
- Actualizaciones de seguridad del sistema operativo
- [SPARK-40646] Se ha corregido el análisis de JSON para estructuras, mapas y matrices, por lo que cuando una parte de un registro no coincide con el esquema, el resto del registro todavía se puede analizar correctamente en lugar de devolver valores NULL. Para participar en el comportamiento mejorado, establezca
- 1 de noviembre de 2022
- Se ha actualizado Apache commons-text a 1.10.0.
- Se ha corregido un problema por el que si una tabla Delta tenía una columna definida por el usuario denominada
_change_type
, pero la opción Change data feed (Cambiar fuente de distribución de datos) estaba deshabilitada en esa tabla, los datos de esa columna se rellenaban incorrectamente con valores NULL al ejecutarMERGE
. - Se ha corregido un problema por el que la ejecución
MERGE
y el uso de exactamente 99 columnas del origen en la condición podía dar lugar ajava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
. - Se ha corregido un problema con el cargador automático en el que un archivo se puede duplicar en el mismo microproceso cuando
allowOverwrites
está habilitado. - [SPARK-40596][CORE] Rellenar ExecutorDecommission con mensajes en ExecutorDecommissionInfo
- Actualizaciones de seguridad del sistema operativo
- 19 de octubre de 2022
- Se ha corregido un problema con el uso de COPY INTO con credenciales temporales en clústeres o almacenes habilitados para el catálogo de Unity.
- [SPARK-40213][SQL] Compatibilidad con la conversión de valores ASCII para caracteres Latino-1
- Actualizaciones de seguridad del sistema operativo
- 5 de octubre de 2022
- Los usuarios pueden establecer spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) para volver a habilitar la lista nativa para Auto Loader en ADLS Gen2. La lista nativa se desactivó anteriormente debido a problemas de rendimiento, pero puede haber provocado un aumento en los costos de almacenamiento para los clientes. Este cambio se implementó en DBR 10.4 y 9.1 en la actualización de mantenimiento anterior.
- [SPARK-40315][SQL]Compatibilidad con la codificación o descodificación URL como función integrada y funciones relacionadas con direcciones URL ordenadas
- [SPARK-40156][SQL]
url_decode()
debe devolver una clase de error - [SPARK-40169] No inserte filtros de Parquet sin referencia al esquema de datos
- [SPARK-40460][SS] Corrección de métricas de streaming al seleccionar
_metadata
- [SPARK-40468][SQL] Corrección de la eliminación de columnas en CSV cuando se selecciona _corrupt_record
- [SPARK-40055][SQL] listCatalogs también debe devolver spark_catalog incluso cuando la implementación de spark_catalog es defaultSessionCatalog
- Actualizaciones de seguridad del sistema operativo
- 22 de septiembre de 2022
- [SPARK-40315][SQL] Adición de hashCode() para el literal de ArrayBasedMapData
- [SPARK-40389][SQL] Los decimales no pueden transmitirse como tipos enteros si la conversión puede desbordarse
- [SPARK-40380][SQL] Corrección del plegado constante de InvokeLike para evitar literales no serializables insertados en el plan
- [SPARK-40066][SQL][SEGUIMIENTO] Compruebe si ElementAt se resuelve antes de obtener su dataType
- [SPARK-40109][SQL] Nueva función SQL: get()
- [SPARK-40066][SQL] Modo ANSI: siempre devuelve null en el acceso no válido a la columna de asignación
- [SPARK-40089][SQL] Corrección de la ordenación para algunos tipos decimales
- [SPARK-39887][SQL] RemoveRedundantAliases debe mantener alias que hacen que la salida de los nodos de proyección sea única
- [SPARK-40152][SQL] Corrección del problema de compilación de codegen split_part
- [SPARK-40235] [CORE] Uso del bloqueo interrumpible en lugar de sincronizarse en Executor.updateDependencies()
- [SPARK-40212] [SQL] SparkSQL castPartValue no controla correctamente byte, short ni float
- [SPARK-40218] [SQL] GROUPING SETS debe conservar las columnas de agrupación
- [SPARK-35542][ML] Corrección: se ha creado un creador de depósitos para varias columnas con parámetros
- [SPARK-40079] Adición de la validación inputCols de Imputer para el caso de entrada vacío
- [SPARK-39912][SPARK-39828][SQL] Ajustar CatalogImpl
Databricks Runtime 11.1 (EoS)
Consulte Databricks Runtime 11.1 (EoS).
31 de enero de 2023
- [SPARK-41379] [SS][PYTHON] Proporcionar una sesión de Spark clonada en DataFrame en la función de usuario para el receptor foreachBatch en PySpark
- Correcciones de errores varios.
18 de enero de 2023
- El conector de Azure Synapse ahora devuelve un mensaje de error más descriptivo cuando un nombre de columna contiene caracteres no válidos, como espacios en blanco o punto y coma. En tales casos, se devolverá el siguiente mensaje:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - [SPARK-41198][SS] Corrección de métricas en la consulta de streaming con origen de streaming CTE y DSv1
- [SPARK-41862][SQL] Solución del error de corrección relacionado con los valores DEFAULT en el lector Orc
- [SPARK-41199][SS] Corrección del problema de métricas cuando el origen de streaming DSv1 y el origen de streaming DSv2 se usan conjuntamente
- [SPARK-41339][SQL] Cierre y nueva creación del lote de escritura de RocksDB en lugar de simplemente borrar
- [SPARK-41732][SQL][SS] Aplicación de la eliminación basada en patrones de árbol para la regla SessionWindowing
- [SPARK-38277][SS] Borrado del lote de escritura después de la confirmación del almacén de estado de RocksDB
- Actualizaciones de seguridad del sistema operativo
- El conector de Azure Synapse ahora devuelve un mensaje de error más descriptivo cuando un nombre de columna contiene caracteres no válidos, como espacios en blanco o punto y coma. En tales casos, se devolverá el siguiente mensaje:
29 de noviembre de 2022
- Los usuarios pueden configurar el comportamiento de los espacios en blanco iniciales y finales al escribir datos mediante el conector de Redshift. Se han agregado las siguientes opciones para controlar el control de espacios en blanco:
csvignoreleadingwhitespace
, cuando se establece entrue
, quita el espacio en blanco inicial de los valores durante las escrituras cuandotempformat
se estableceCSV
en oCSV GZIP
. Los espacios en blanco se conservan cuando la configuración se establece enfalse
. De forma predeterminada, el valor estrue
.csvignoretrailingwhitespace
, cuando se establece entrue
, quita el espacio en blanco final de los valores durante las escrituras cuandotempformat
se establece enCSV
oCSV GZIP
. Los espacios en blanco se conservan cuando la configuración se establece enfalse
. De forma predeterminada, el valor estrue
.
- Se ha corregido un error con el análisis de JSON en el cargador automático cuando todas las columnas se dejaban como cadenas (
cloudFiles.inferColumnTypes
no se estableció o se estableció enfalse
) y el JSON contenía objetos anidados. - [SPARK-39650][SS] Corrección del esquema de valores incorrecto en la desduplicación de streaming con compatibilidad con versiones anteriores
- Actualizaciones de seguridad del sistema operativo
- Los usuarios pueden configurar el comportamiento de los espacios en blanco iniciales y finales al escribir datos mediante el conector de Redshift. Se han agregado las siguientes opciones para controlar el control de espacios en blanco:
15 de noviembre de 2022
- [SPARK-40646] Se ha corregido el análisis de JSON para estructuras, mapas y matrices, por lo que cuando una parte de un registro no coincide con el esquema, el resto del registro todavía se puede analizar correctamente en lugar de devolver valores NULL. Para participar en el comportamiento mejorado, establezca
spark.sql.json.enablePartialResults
entrue
. La marca está deshabilitada de forma predeterminada para conservar el comportamiento original. - Actualizaciones de seguridad del sistema operativo
- [SPARK-40646] Se ha corregido el análisis de JSON para estructuras, mapas y matrices, por lo que cuando una parte de un registro no coincide con el esquema, el resto del registro todavía se puede analizar correctamente en lugar de devolver valores NULL. Para participar en el comportamiento mejorado, establezca
1 de noviembre de 2022
- Se ha actualizado Apache commons-text a 1.10.0.
- Se ha corregido un problema por el que si una tabla Delta tenía una columna definida por el usuario denominada
_change_type
, pero la opción Change data feed (Cambiar fuente de distribución de datos) estaba deshabilitada en esa tabla, los datos de esa columna se rellenaban incorrectamente con valores NULL al ejecutarMERGE
. - Se ha corregido un problema por el que la ejecución
MERGE
y el uso de exactamente 99 columnas del origen en la condición podía dar lugar ajava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
. - Se ha corregido un problema con el cargador automático en el que un archivo se puede duplicar en el mismo microproceso cuando
allowOverwrites
está habilitado. - [SPARK-40697] [SQL] Agrega relleno de caracteres de lectura para cubrir archivos de datos externos
- [SPARK-40596][CORE] Rellenar ExecutorDecommission con mensajes en ExecutorDecommissionInfo
- Actualizaciones de seguridad del sistema operativo
18 de octubre de 2022
- Se ha corregido un problema con el uso de COPY INTO con credenciales temporales en clústeres o almacenes habilitados para el catálogo de Unity.
- [SPARK-40213][SQL] Compatibilidad con la conversión de valores ASCII para caracteres Latino-1
- Actualizaciones de seguridad del sistema operativo
5 de octubre de 2022
- Los usuarios pueden establecer spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) para volver a habilitar la lista nativa para Auto Loader en ADLS Gen2. La lista nativa se desactivó anteriormente debido a problemas de rendimiento, pero puede haber provocado un aumento en los costos de almacenamiento para los clientes. Este cambio se implementó en DBR 10.4 y 9.1 en la actualización de mantenimiento anterior.
- [SPARK-40169] No inserte filtros de Parquet sin referencia al esquema de datos
- [SPARK-40460][SS] Corrección de métricas de streaming al seleccionar
_metadata
- [SPARK-40468][SQL] Corrección de la eliminación de columnas en CSV cuando se selecciona _corrupt_record
- [SPARK-40055][SQL] listCatalogs también debe devolver spark_catalog incluso cuando la implementación de spark_catalog es defaultSessionCatalog
- Actualizaciones de seguridad del sistema operativo
22 de septiembre de 2022
- [SPARK-40315][SQL] Adición de hashCode() para el literal de ArrayBasedMapData
- [SPARK-40380][SQL] Corrección del plegado constante de InvokeLike para evitar literales no serializables insertados en el plan
- [SPARK-40089][SQL] Corrección de la ordenación para algunos tipos decimales
- [SPARK-39887][SQL] RemoveRedundantAliases debe mantener alias que hacen que la salida de los nodos de proyección sea única
- [SPARK-40152][SQL] Corrección del problema de compilación de codegen split_part
6 de septiembre de 2022
- Hemos actualizado el modelo de permisos en Controles de acceso a tablas (ACL de tabla) para que solo se necesiten permisos MODIFY para cambiar el esquema de una tabla o las propiedades de una tabla con ALTER TABLE. Anteriormente, estas operaciones requerían que un usuario fuera propietario de la tabla. La propiedad sigue siendo necesaria para conceder permisos en una tabla, cambiar su propietario, cambiar su ubicación o cambiar su nombre. Este cambio hace que el modelo de permisos para las ACL de tabla sea más coherente con Unity Catalog.
- [SPARK-40235] [CORE] Uso del bloqueo interrumpible en lugar de sincronizarse en Executor.updateDependencies()
- [SPARK-40212] [SQL] SparkSQL castPartValue no controla correctamente byte, short ni float
- [SPARK-40218] [SQL] GROUPING SETS debe conservar las columnas de agrupación
- [SPARK-39976] [SQL] ArrayIntersect debe controlar null en la primera expresión correctamente
- [SPARK-40053] [CORE][SQL][TESTS] Adición de
assume
a casos de cancelación dinámica que requieren entorno de tiempo de ejecución de Python - [SPARK-35542] [CORE][ML] Corrección: Bucketizer creado para varias columnas con parámetros splitsArray, inputCols y outputCols no se puede cargar después de guardarlo
- [SPARK-40079] [CORE] Adición de la validación inputCols de Imputer para el caso de entrada vacío
24 de agosto de 2022
- Los recursos compartidos, los proveedores y los destinatarios ahora admiten comandos SQL para cambiar propietarios, comentar o cambiar el nombre
- [SPARK-39983] [CORE][SQL] No almacenar en caché las relaciones de difusión no serializadas en el controlador
- [SPARK-39912][SPARK-39828][SQL] Ajustar CatalogImpl
- [SPARK-39775][CORE][AVRO] Deshabilitación de la validación de valores predeterminados al analizar esquemas de Avro
- [SPARK-39806] Se ha corregido el problema en las consultas que acceden al bloqueo de la estructura METADATA en tablas con particiones.
- [SPARK-39867][SQL] El límite global no debe heredar OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] Se aplica proyección cuando los atributos de grupo están vacíos
- [SPARK-39839][SQL] Control del caso especial de decimales de longitud variable null con offsetAndSize distinto de cero en la comprobación de integridad estructural UnsafeRow
- [SPARK-39713][SQL] Modo ANSI: agregar sugerencia de uso de try_element_at para el error INVALID_ARRAY_INDEX
- [SPARK-39847][SS] Corrección de la condición de carrera en RocksDBLoader.loadLibrary() si se interrumpe el subproceso del autor de la llamada
- [SPARK-39731][SQL] Corrección del problema en los orígenes de datos CSV y JSON cuando se analicen fechas en formato "yyyyMMdd" con la directiva de analizador de hora CORREGIDA
- Actualizaciones de seguridad del sistema operativo
10 de agosto de 2022
- En el caso de las tablas de Delta con control de acceso a tablas, la evolución automática del esquema a través de instrucciones DML, como
INSERT
yMERGE
, ahora está disponible para todos los usuarios que tienen permisosMODIFY
en dichas tablas. Además, los permisos necesarios para realizar la evolución del esquema conCOPY INTO
ahora se han reducido deOWNER
aMODIFY
para la coherencia con otros comandos. Estos cambios hacen que el modelo de seguridad de la ACL de tabla sea más coherente con el modelo de seguridad de Unity Catalog, así como con otras operaciones, como el reemplazo de una tabla. - [SPARK-39889] Mejora del mensaje de error de división por 0
- [SPARK-39795] [SQL] Nueva función de SQL: try_to_timestamp
- [SPARK-39749] Usar siempre la representación de cadena sin formato en la conversión decimal como cadena en modo ANSI
- [SPARK-39625] Cambio del nombre de df.as a df.to
- [SPARK-39787] [SQL] Uso de la clase de error en el error de análisis de la función to_timestamp
- [SPARK-39625][SQL] Agregar Dataset.as(StructType)
- [SPARK-39689] Compatibilidad con 2 caracteres
lineSep
en el origen de datos CSV - [SPARK-39579] [SQL][PYTHON][R] Hacer que ListFunctions/getFunction/functionExists sea compatible con el espacio de nombres de 3 capas
- [SPARK-39702][CORE] Reducción de la sobrecarga de memoria de TransportCipher$EncryptedMessage mediante un byteRawChannel compartido
- [SPARK-39575][AVRO] agregar ByteBuffer#rewind después de ByteBuffer#get en AvroDeserializer
- [SPARK-39265] [SQL] Corrección del error de prueba cuando SPARK_ANSI_SQL_MODE está habilitado
- [SPARK-39441][SQL] Acelerar DeduplicateRelations
- [SPARK-39497][SQL] Mejora de la excepción de análisis de la columna de clave de asignación que falta
- [SPARK-39476][SQL] Deshabilitación de la optimización de conversión de desajustado al convertir de Long a Float/Double o de Integer a Float
- [SPARK-39434][SQL] Proporcionar contexto de consulta de error en tiempo de ejecución cuando el índice de matriz está fuera del límite
- En el caso de las tablas de Delta con control de acceso a tablas, la evolución automática del esquema a través de instrucciones DML, como
Databricks Runtime 11.0 (EoS)
Consulte Databricks Runtime 11.0 (EoS).
- 29 de noviembre de 2022
- Los usuarios pueden configurar el comportamiento de los espacios en blanco iniciales y finales al escribir datos mediante el conector de Redshift. Se han agregado las siguientes opciones para controlar el control de espacios en blanco:
csvignoreleadingwhitespace
, cuando se establece entrue
, quita el espacio en blanco inicial de los valores durante las escrituras cuandotempformat
se estableceCSV
en oCSV GZIP
. Los espacios en blanco se conservan cuando la configuración se establece enfalse
. De forma predeterminada, el valor estrue
.csvignoretrailingwhitespace
, cuando se establece entrue
, quita el espacio en blanco final de los valores durante las escrituras cuandotempformat
se establece enCSV
oCSV GZIP
. Los espacios en blanco se conservan cuando la configuración se establece enfalse
. De forma predeterminada, el valor estrue
.
- Se ha corregido un error con el análisis de JSON en el cargador automático cuando todas las columnas se dejaban como cadenas (
cloudFiles.inferColumnTypes
no se estableció o se estableció enfalse
) y el JSON contenía objetos anidados. - [SPARK-39650][SS] Corrección del esquema de valores incorrecto en la desduplicación de streaming con compatibilidad con versiones anteriores
- Actualizaciones de seguridad del sistema operativo
- Los usuarios pueden configurar el comportamiento de los espacios en blanco iniciales y finales al escribir datos mediante el conector de Redshift. Se han agregado las siguientes opciones para controlar el control de espacios en blanco:
- 15 de noviembre de 2022
- [SPARK-40646] Se ha corregido el análisis de JSON para estructuras, mapas y matrices, por lo que cuando una parte de un registro no coincide con el esquema, el resto del registro todavía se puede analizar correctamente en lugar de devolver valores NULL. Para participar en el comportamiento mejorado, establezca
spark.sql.json.enablePartialResults
entrue
. La marca está deshabilitada de forma predeterminada para conservar el comportamiento original.
- [SPARK-40646] Se ha corregido el análisis de JSON para estructuras, mapas y matrices, por lo que cuando una parte de un registro no coincide con el esquema, el resto del registro todavía se puede analizar correctamente en lugar de devolver valores NULL. Para participar en el comportamiento mejorado, establezca
- 1 de noviembre de 2022
- Se ha actualizado Apache commons-text a 1.10.0.
- Se ha corregido un problema por el que si una tabla Delta tenía una columna definida por el usuario denominada
_change_type
, pero la opción Change data feed (Cambiar fuente de distribución de datos) estaba deshabilitada en esa tabla, los datos de esa columna se rellenaban incorrectamente con valores NULL al ejecutarMERGE
. - Se ha corregido un problema con el cargador automático en el que un archivo se puede duplicar en el mismo microproceso cuando
allowOverwrites
está habilitado. - [SPARK-40697] [SQL] Agrega relleno de caracteres de lectura para cubrir archivos de datos externos
- [SPARK-40596][CORE] Rellenar ExecutorDecommission con mensajes en ExecutorDecommissionInfo
- Actualizaciones de seguridad del sistema operativo
- 18 de octubre de 2022
- [SPARK-40213][SQL] Compatibilidad con la conversión de valores ASCII para caracteres Latino-1
- Actualizaciones de seguridad del sistema operativo
- 5 de octubre de 2022
- Los usuarios pueden establecer spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) para volver a habilitar la lista nativa para Auto Loader en ADLS Gen2. La lista nativa se desactivó anteriormente debido a problemas de rendimiento, pero puede haber provocado un aumento en los costos de almacenamiento para los clientes. Este cambio se implementó en DBR 10.4 y 9.1 en la actualización de mantenimiento anterior.
- [SPARK-40169] No inserte filtros de Parquet sin referencia al esquema de datos
- [SPARK-40460][SS] Corrección de métricas de streaming al seleccionar
_metadata
- [SPARK-40468][SQL] Corrección de la eliminación de columnas en CSV cuando se selecciona _corrupt_record
- Actualizaciones de seguridad del sistema operativo
- 22 de septiembre de 2022
- [SPARK-40315][SQL] Adición de hashCode() para el literal de ArrayBasedMapData
- [SPARK-40380][SQL] Corrección del plegado constante de InvokeLike para evitar literales no serializables insertados en el plan
- [SPARK-40089][SQL] Corrección de la ordenación para algunos tipos decimales
- [SPARK-39887][SQL] RemoveRedundantAliases debe mantener alias que hacen que la salida de los nodos de proyección sea única
- [SPARK-40152][SQL] Corrección del problema de compilación de codegen split_part
- 6 de septiembre de 2022
- [SPARK-40235] [CORE] Uso del bloqueo interrumpible en lugar de sincronizarse en Executor.updateDependencies()
- [SPARK-40212] [SQL] SparkSQL castPartValue no controla correctamente byte, short ni float
- [SPARK-40218] [SQL] GROUPING SETS debe conservar las columnas de agrupación
- [SPARK-39976] [SQL] ArrayIntersect debe controlar null en la primera expresión correctamente
- [SPARK-40053] [CORE][SQL][TESTS] Adición de
assume
a casos de cancelación dinámica que requieren entorno de tiempo de ejecución de Python - [SPARK-35542] [CORE][ML] Corrección: Bucketizer creado para varias columnas con parámetros splitsArray, inputCols y outputCols no se puede cargar después de guardarlo
- [SPARK-40079] [CORE] Adición de la validación inputCols de Imputer para el caso de entrada vacío
- 24 de agosto de 2022
- [SPARK-39983] [CORE][SQL] No almacenar en caché las relaciones de difusión no serializadas en el controlador
- [SPARK-39775][CORE][AVRO] Deshabilitación de la validación de valores predeterminados al analizar esquemas de Avro
- [SPARK-39806] Se ha corregido el problema en las consultas que acceden al bloqueo de la estructura METADATA en tablas con particiones.
- [SPARK-39867][SQL] El límite global no debe heredar OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] Se aplica proyección cuando los atributos de grupo están vacíos
- Actualizaciones de seguridad del sistema operativo
- 9 de agosto de 2022
- [SPARK-39713][SQL] Modo ANSI: agregar sugerencia de uso de try_element_at para el error INVALID_ARRAY_INDEX
- [SPARK-39847] Corrección de la condición de carrera en RocksDBLoader.loadLibrary() si se interrumpe el subproceso del autor de la llamada
- [SPARK-39731][SQL] Corrección del problema en los orígenes de datos CSV y JSON cuando se analicen fechas en formato "yyyyMMdd" con la directiva de analizador de hora CORREGIDA
- [SPARK-39889] Mejora del mensaje de error de división por 0
- [SPARK-39795] [SQL] Nueva función de SQL: try_to_timestamp
- [SPARK-39749] Usar siempre la representación de cadena sin formato en la conversión decimal como cadena en modo ANSI
- [SPARK-39625][SQL] Add Dataset.to(StructType)
- [SPARK-39787] [SQL] Uso de la clase de error en el error de análisis de la función to_timestamp
- Actualizaciones de seguridad del sistema operativo
- 27 de julio de 2022
- [SPARK-39689] Compatibilidad con 2 caracteres
lineSep
en el origen de datos CSV - [SPARK-39104] [SQL] El elemento InMemoryRelation#isCachedColumnBuffersLoaded debe ser seguro para subprocesos
- [SPARK-39702][CORE] Reducir la sobrecarga de memoria de TransportCipher$EncryptedMessage mediante un byteRawChannel compartido
- [SPARK-39575][AVRO] agregar ByteBuffer#rewind después de ByteBuffer#get en AvroDeserializer
- [SPARK-39497][SQL] Mejora de la excepción de análisis de la columna de clave de asignación que falta
- [SPARK-39441][SQL] Acelera DeduplicateRelations
- [SPARK-39476][SQL] Deshabilitación de la conversión de desencapsulado al convertir de Long a Float/Double o de Integer a Float
- [SPARK-39434][SQL] Proporcionar contexto de consulta de error en tiempo de ejecución cuando el índice de matriz está fuera del límite
- [SPARK-39570] [SQL] Ahora, la tabla insertada permitirá el uso de expresiones con alias
- Actualizaciones de seguridad del sistema operativo
- [SPARK-39689] Compatibilidad con 2 caracteres
- 13 de julio de 2022
- Hacer que la operación Merge de Delta sea coherente cuando el origen no es determinista.
- Se ha corregido un problema por TVF de cloud_files_state al ejecutarse en rutas que no son DBFS.
- Se ha deshabilitado el uso de las API nativas en la nube por parte del cargador automático para la lista de directorios en Azure.
- [SPARK-38796][SQL] Se han actualizado las funciones to_number y try_to_number para que admitan las solicitudes PR que tengan números positivos
- [SPARK-39272][SQL] Se ha aumentado por valor de 1 la posición inicial del contexto de consulta
- [SPARK-39419][SQL] Se ha corregido el elemento ArraySort para que produzca una excepción si el comparador devuelve un valor nulo
- Actualizaciones de seguridad del sistema operativo
- 5 de julio de 2022
- Mejora de los mensajes de error de un intervalo de clases de error.
- [SPARK-39451] [SQL] Compatibilidad con la conversión de intervalos a enteros en modo ANSI
- [SPARK-39361] No se usa el patrón de conversión con generación de excepciones extendido de Log4J2 en las configuraciones de registro predeterminadas.
- [SPARK-39354][SQL] Se garantiza que se muestre
Table or view not found
incluso si hay erroresdataTypeMismatchError
relacionados conFilter
al mismo tiempo. - [SPARK-38675][CORE] Corrección de la condición de carrera durante el desbloqueo en BlockInfoManager
- [SPARK-39392][SQL] Se han refinado los mensajes de error ANSI para las sugerencias de las funciones try_*.
- [SPARK-39214][SQL][3.3] Se han mejorado los errores que ocurren en relación con las funciones CAST.
- [SPARK-37939][SQL] Uso de clases de error en los errores de análisis de las propiedades
- [SPARK-39085][SQL] Se ha movido el mensaje de error
INCONSISTENT_BEHAVIOR_CROSS_VERSION
al archivo error-classes.json. - [SPARK-39376][SQL] Se han ocultado las columnas duplicadas en la expansión de estrella del alias de subconsulta de NATURAL/USING JOIN.
- [SPARK-39283][CORE] Se ha corregido el interbloqueo entre TaskMemoryManager y UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark no debe comprobar los nombres de campo al leer archivos
- Actualizaciones de seguridad del sistema operativo
Databricks Runtime 10.5 (EoS)
Consulte Databricks Runtime 10.5 (EoS).
- 1 de noviembre de 2022
- Se ha corregido un problema por el que si una tabla Delta tenía una columna definida por el usuario denominada
_change_type
, pero la opción Change data feed (Cambiar fuente de distribución de datos) estaba deshabilitada en esa tabla, los datos de esa columna se rellenaban incorrectamente con valores NULL al ejecutarMERGE
. - [SPARK-40697] [SQL] Agrega relleno de caracteres de lectura para cubrir archivos de datos externos
- [SPARK-40596][CORE] Rellenar ExecutorDecommission con mensajes en ExecutorDecommissionInfo
- Actualizaciones de seguridad del sistema operativo
- Se ha corregido un problema por el que si una tabla Delta tenía una columna definida por el usuario denominada
- 18 de octubre de 2022
- Actualizaciones de seguridad del sistema operativo
- 5 de octubre de 2022
- Los usuarios pueden establecer spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) para volver a habilitar la lista nativa para Auto Loader en ADLS Gen2. La lista nativa se desactivó anteriormente debido a problemas de rendimiento, pero puede haber provocado un aumento en los costos de almacenamiento para los clientes. Este cambio se implementó en DBR 10.4 y 9.1 en la actualización de mantenimiento anterior.
- reload4j se ha actualizado a la versión 1.2.19 para corregir las vulnerabilidades.
- [SPARK-40460][SS] Corrección de métricas de streaming al seleccionar
_metadata
- [SPARK-40468][SQL] Corrección de la eliminación de columnas en CSV cuando se selecciona _corrupt_record
- Actualizaciones de seguridad del sistema operativo
- 22 de septiembre de 2022
- [SPARK-40315][SQL] Adición de hashCode() para el literal de ArrayBasedMapData
- [SPARK-40213][SQL] Compatibilidad con la conversión de valores ASCII para caracteres Latino-1
- [SPARK-40380][SQL] Corrección del plegado constante de InvokeLike para evitar literales no serializables insertados en el plan
- [SPARK-38404][SQL] Mejora de la resolución de CTE cuando un CTE anidado hace referencia a un CTE externo
- [SPARK-40089][SQL] Corrección de la ordenación para algunos tipos decimales
- [SPARK-39887][SQL] RemoveRedundantAliases debe mantener alias que hacen que la salida de los nodos de proyección sea única
- Actualizaciones de seguridad del sistema operativo
- 6 de septiembre de 2022
- [SPARK-40235] [CORE] Uso del bloqueo interrumpible en lugar de sincronizarse en Executor.updateDependencies()
- [SPARK-39976] [SQL] ArrayIntersect debe controlar null en la primera expresión correctamente
- [SPARK-40053] [CORE][SQL][TESTS] Adición de
assume
a casos de cancelación dinámica que requieren entorno de tiempo de ejecución de Python - [SPARK-35542] [CORE][ML] Corrección: Bucketizer creado para varias columnas con parámetros splitsArray, inputCols y outputCols no se puede cargar después de guardarlo
- [SPARK-40079] [CORE] Adición de la validación inputCols de Imputer para el caso de entrada vacío
- 24 de agosto de 2022
- [SPARK-39983] [CORE][SQL] No almacenar en caché las relaciones de difusión no serializadas en el controlador
- [SPARK-39775][CORE][AVRO] Deshabilitación de la validación de valores predeterminados al analizar esquemas de Avro
- [SPARK-39806] Se ha corregido el problema en las consultas que acceden al bloqueo de la estructura METADATA en tablas con particiones.
- [SPARK-39962][PYTHON][SQL] Se aplica proyección cuando los atributos de grupo están vacíos
- [SPARK-37643][SQL] si charVarcharAsString es true, para la consulta de predicados del tipo de datos char debe omitir la regla rpadding.
- Actualizaciones de seguridad del sistema operativo
- 9 de agosto de 2022
- [SPARK-39847] Corrección de la condición de carrera en RocksDBLoader.loadLibrary() si se interrumpe el subproceso del autor de la llamada
- [SPARK-39731][SQL] Corrección del problema en los orígenes de datos CSV y JSON cuando se analicen fechas en formato "yyyyMMdd" con la directiva de analizador de hora CORREGIDA
- Actualizaciones de seguridad del sistema operativo
- 27 de julio de 2022
- [SPARK-39625][SQL] Agregar Dataset.as(StructType)
- [SPARK-39689] Compatibilidad con 2 caracteres
lineSep
en el origen de datos CSV - [SPARK-39104] [SQL] El elemento InMemoryRelation#isCachedColumnBuffersLoaded debe ser seguro para subprocesos
- [SPARK-39570] [SQL] Ahora, la tabla insertada permitirá el uso de expresiones con alias
- [SPARK-39702][CORE] Reducir la sobrecarga de memoria de TransportCipher$EncryptedMessage mediante un byteRawChannel compartido
- [SPARK-39575][AVRO] agregar ByteBuffer#rewind después de ByteBuffer#get en AvroDeserializer
- [SPARK-39476][SQL] Deshabilitación de la conversión de desencapsulado al convertir de Long a Float/Double o de Integer a Float
- Actualizaciones de seguridad del sistema operativo
- 13 de julio de 2022
- Hacer que la operación Merge de Delta sea coherente cuando el origen no es determinista.
- [SPARK-39355][SQL] Una sola columna usa comillas para construir UnresolvedAttribute
- [SPARK-39548][SQL] Comando CreateView con una consulta de cláusula de ventana da un problema de definición de ventana errónea no encontrada
- [SPARK-39419][SQL] Se ha corregido el elemento ArraySort para que produzca una excepción si el comparador devuelve un valor nulo
- Se ha deshabilitado el uso de las API nativas en la nube por parte del cargador automático para la lista de directorios en Azure.
- Actualizaciones de seguridad del sistema operativo
- 5 de julio de 2022
- [SPARK-39376][SQL] Se han ocultado las columnas duplicadas en la expansión de estrella del alias de subconsulta de NATURAL/USING JOIN.
- Actualizaciones de seguridad del sistema operativo
- 15 de junio de 2022
- [SPARK-39283][CORE] Se ha corregido el interbloqueo entre TaskMemoryManager y UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark no debe comprobar los nombres de campo al leer archivos
- [SPARK-34096][SQL] Mejorar el rendimiento de nth_value omite los valores NULL en la ventana de desplazamiento
- [SPARK-36718][SQL][FOLLOWUP] Se ha corregido la comprobación
isExtractOnly
en CollapseProject
- 2 de junio de 2022
- [SPARK-39166][SQL] Se proporciona contexto de consulta de error en tiempo de ejecución para la aritmética binaria cuando WSCG está desactivado.
- [SPARK-39093][SQL] Se evita un error de compilación de codegen al dividir intervalos de año y mes o intervalos de día y hora por un entero.
- [SPARK-38990][SQL] Se evita la excepción NullPointerException al evaluar el formato de date_trunc y trunc como una referencia enlazada.
- Actualizaciones de seguridad del sistema operativo
- 18 de mayo de 2022
- Corrige una posible pérdida de memoria nativa en el cargador automático.
- [SPARK-38868][SQL]No propagar excepciones del predicado de filtro al optimizar las combinaciones externas
- [SPARK-38796][SQL] Implemente las funciones to_number y try_to_number SQL según una nueva especificación
- [SPARK-38918][SQL] La eliminación de columnas anidadas debe filtrar los atributos que no pertenecen a la relación actual
- [SPARK-38929] [SQL] Mejora de los mensajes de error para los errores de conversión en ANSI
- [SPARK-38926][SQL] Tipos de salida en mensajes de error en estilo SQL
- [SPARK-39084][PYSPARK] Corregir df.rdd.isEmpty() mediante TaskContext para detener el iterador en la finalización de la tarea
- [SPARK-32268][SQL] Agregar columnPruning en injectBloomFilter
- [SPARK-38908][SQL] Proporcionar contexto de consulta en tiempo de ejecución de conversión de cadena a número/fecha/marca de tiempo/booleano
- [SPARK-39046][SQL] Devolver una cadena de contexto vacía si TreeNode.origin se ha establecido erróneamente
- [SPARK-38974][SQL] Filtrar funciones registradas con un nombre de base de datos determinado en funciones de lista
- [SPARK-38762][SQL] Proporcionar contexto de consulta en errores de desbordamiento decimal
- [SPARK-38931][SS] Crear directorio dfs raíz para RocksDBFileManager con un número desconocido de claves en el primer punto de control
- [SPARK-38992][CORE] Evitar el uso de bash -c en ShellBasedGroupsMappingProvider
- [SPARK-38716][SQL] proporcionar contexto de consulta en el error la clave de asignación no existe
- [SPARK-38889][SQL] Compile filtros de columna booleanos para usar el tipo de bits para el origen de datos MSSQL
- [SPARK-38698][SQL] Proporcionar contexto de consulta en el error en tiempo de ejecución de Divide/Div/Reminder/Pmod
- [SPARK-38823][SQL] Hacer que
NewInstance
no se pueda plegar para corregir el problema de daños en el búfer de agregación - [SPARK-38809][SS] Implementar la opción para omitir valores NULL en la implementación de hash simétrico de combinaciones de flujo a flujo
- [SPARK-38676][SQL] Proporcionar contexto de consulta SQL en el mensaje de error de tiempo de ejecución Add/Subtract/Multiply
- [SPARK-38677][PYSPARK] Python MonitorThread debe detectar interbloqueo debido a la E/S de bloqueo
- Actualizaciones de seguridad del sistema operativo
Databricks Runtime 10.3 (EoS)
Consulte Databricks Runtime 10.3 (EoS).
- 27 de julio de 2022
- [SPARK-39689] Compatibilidad con 2 caracteres
lineSep
en el origen de datos CSV - [SPARK-39104] [SQL] El elemento InMemoryRelation#isCachedColumnBuffersLoaded debe ser seguro para subprocesos
- [SPARK-39702][CORE] Reducir la sobrecarga de memoria de TransportCipher$EncryptedMessage mediante un byteRawChannel compartido
- Actualizaciones de seguridad del sistema operativo
- [SPARK-39689] Compatibilidad con 2 caracteres
- 20 de julio de 2022
- Hacer que la operación Merge de Delta sea coherente cuando el origen no es determinista.
- [SPARK-39476][SQL] Deshabilitación de la conversión de desencapsulado al convertir de Long a Float/Double o de Integer a Float
- [SPARK-39548][SQL] Comando CreateView con una consulta de cláusula de ventana da un problema de definición de ventana errónea no encontrada
- [SPARK-39419][SQL] Se ha corregido el elemento ArraySort para que produzca una excepción si el comparador devuelve un valor nulo
- Actualizaciones de seguridad del sistema operativo
- 5 de julio de 2022
- [SPARK-39376][SQL] Se han ocultado las columnas duplicadas en la expansión de estrella del alias de subconsulta de NATURAL/USING JOIN.
- Actualizaciones de seguridad del sistema operativo
- 15 de junio de 2022
- [SPARK-39283][CORE] Se ha corregido el interbloqueo entre TaskMemoryManager y UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark no debe comprobar los nombres de campo al leer archivos
- [SPARK-34096][SQL] Mejorar el rendimiento de nth_value omite los valores NULL en la ventana de desplazamiento
- [SPARK-36718][SQL][FOLLOWUP] Se ha corregido la comprobación
isExtractOnly
en CollapseProject
- 2 de junio de 2022
- [SPARK-38990][SQL] Se evita la excepción NullPointerException al evaluar el formato de date_trunc y trunc como una referencia enlazada.
- Actualizaciones de seguridad del sistema operativo
- 18 de mayo de 2022
- Corrige una posible pérdida de memoria nativa en el cargador automático.
- [SPARK-38918][SQL] La eliminación de columnas anidadas debe filtrar los atributos que no pertenecen a la relación actual
- [SPARK-37593][CORE] Reducir el tamaño de página predeterminado por LONG_ARRAY_OFFSET si se usan G1GC y ON_HEAP
- [SPARK-39084][PYSPARK] Corregir df.rdd.isEmpty() mediante TaskContext para detener el iterador en la finalización de la tarea
- [SPARK-32268][SQL] Agregar columnPruning en injectBloomFilter
- [SPARK-38974][SQL] Filtrar funciones registradas con un nombre de base de datos determinado en funciones de lista
- [SPARK-38889][SQL] Compile filtros de columna booleanos para usar el tipo de bits para el origen de datos MSSQL
- Actualizaciones de seguridad del sistema operativo
- 4 de mayo de 2022
- Se ha actualizado el SDK de AWS de Java de la versión 1.11.655 a la 1.12.1899.
- 19 de abril de 2022
- [SPARK-38616] [SQL] Se realiza un seguimiento del texto de la consulta SQL en el nodo de árbol de Catalyst.
- Actualizaciones de seguridad del sistema operativo
- 6 de abril de 2022
- [SPARK-38631][CORE] Usa la implementación basada en Java para anular el tarring en Utils.unpack
- Actualizaciones de seguridad del sistema operativo
- 22 de marzo de 2022
- Se cambió el directorio de trabajo actual de los cuadernos en los clústeres de alta simultaneidad con el control de acceso a la tabla o el paso de credenciales habilitado al directorio de inicio del usuario. Anteriormente, el directorio de trabajo era
/databricks/driver
. - [SPARK-38437][SQL] Serialización Lenient de datetime desde el origen de datos
- [SPARK-38180][SQL] Permitir expresiones seguras de conversión vertical en predicados de igualdad correlacionados
- [SPARK-38155][SQL] No permitir agregados distintos en subconsultas laterales con predicados no admitidos
- [SPARK-38325][SQL] modo ANSI: evite el posible error en tiempo de ejecución en HashJoin.extractKeyExprAt()
- Se cambió el directorio de trabajo actual de los cuadernos en los clústeres de alta simultaneidad con el control de acceso a la tabla o el paso de credenciales habilitado al directorio de inicio del usuario. Anteriormente, el directorio de trabajo era
- 14 de marzo de 2022
- Se ha mejorado la detección de conflictos de transacciones para transacciones vacías en Delta Lake.
- [SPARK-38185][SQL] Corrección de los datos incorrectos si la función de agregado está vacía
- [SPARK-38318][SQL] Regresión al reemplazar una vista de conjunto de datos
- [SPARK-38236][SQL] Rutas de acceso de archivo absolutas especificadas en la tabla create/alter tratadas como relativas
- [SPARK-35937][SQL] La extracción del campo de fecha de la marca de tiempo debería funcionar en modo ANSI
- [SPARK-34069][SQL] Las tareas de eliminación de barreras deben respetar
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Permiso de asignación de almacenes entre TimestampNTZ y Date/Timestamp
- 23 de febrero de 2022
- [SPARK-27442][SQL] Retirada del nombre del campo de comprobación al leer o escribir datos en Parquet
Databricks Runtime 10.2 (EoS)
Consulte Databricks Runtime 10.2 (EoS).
- 15 de junio de 2022
- [SPARK-39283][CORE] Se ha corregido el interbloqueo entre TaskMemoryManager y UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark no debe comprobar los nombres de campo al leer archivos
- [SPARK-34096][SQL] Mejorar el rendimiento de nth_value omite los valores NULL en la ventana de desplazamiento
- 2 de junio de 2022
- [SPARK-38918][SQL] La eliminación de columnas anidadas debe filtrar los atributos que no pertenecen a la relación actual
- [SPARK-38990][SQL] Se evita la excepción NullPointerException al evaluar el formato de date_trunc y trunc como una referencia enlazada.
- Actualizaciones de seguridad del sistema operativo
- 18 de mayo de 2022
- Corrige una posible pérdida de memoria nativa en el cargador automático.
- [SPARK-39084][PYSPARK] Corregir df.rdd.isEmpty() mediante TaskContext para detener el iterador en la finalización de la tarea
- [SPARK-38889][SQL] Compile filtros de columna booleanos para usar el tipo de bits para el origen de datos MSSQL
- [SPARK-38931][SS] Crear directorio dfs raíz para RocksDBFileManager con un número desconocido de claves en el primer punto de control
- Actualizaciones de seguridad del sistema operativo
- 4 de mayo de 2022
- Se ha actualizado el SDK de AWS de Java de la versión 1.11.655 a la 1.12.1899.
- 19 de abril de 2022
- Actualizaciones de seguridad del sistema operativo
- Correcciones de errores varios.
- 6 de abril de 2022
- [SPARK-38631][CORE] Usa la implementación basada en Java para anular el tarring en Utils.unpack
- Actualizaciones de seguridad del sistema operativo
- 22 de marzo de 2022
- Se cambió el directorio de trabajo actual de los cuadernos en los clústeres de alta simultaneidad con el control de acceso a la tabla o el paso de credenciales habilitado al directorio de inicio del usuario. Anteriormente, el directorio de trabajo era
/databricks/driver
. - [SPARK-38437][SQL] Serialización Lenient de datetime desde el origen de datos
- [SPARK-38180][SQL] Permitir expresiones seguras de conversión vertical en predicados de igualdad correlacionados
- [SPARK-38155][SQL] No permitir agregados distintos en subconsultas laterales con predicados no admitidos
- [SPARK-38325][SQL] modo ANSI: evite el posible error en tiempo de ejecución en HashJoin.extractKeyExprAt()
- Se cambió el directorio de trabajo actual de los cuadernos en los clústeres de alta simultaneidad con el control de acceso a la tabla o el paso de credenciales habilitado al directorio de inicio del usuario. Anteriormente, el directorio de trabajo era
- 14 de marzo de 2022
- Se ha mejorado la detección de conflictos de transacciones para transacciones vacías en Delta Lake.
- [SPARK-38185][SQL] Corrección de los datos incorrectos si la función de agregado está vacía
- [SPARK-38318][SQL] Regresión al reemplazar una vista de conjunto de datos
- [SPARK-38236][SQL] Rutas de acceso de archivo absolutas especificadas en la tabla create/alter tratadas como relativas
- [SPARK-35937][SQL] La extracción del campo de fecha de la marca de tiempo debería funcionar en modo ANSI
- [SPARK-34069][SQL] Las tareas de eliminación de barreras deben respetar
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Permiso de asignación de almacenes entre TimestampNTZ y Date/Timestamp
- 23 de febrero de 2022
- [SPARK-37577][SQL] Corrección de ClassCastException: ArrayType no se puede convertir en StructType para generar la eliminación
- 8 de febrero de 2022
- [SPARK-27442][SQL] Retirada del nombre del campo de comprobación al leer o escribir datos en Parquet
- Actualizaciones de seguridad del sistema operativo
- 1 de febrero de 2022
- Actualizaciones de seguridad del sistema operativo
- 26 de enero de 2022
- Se ha corregido un error por el que las transacciones simultáneas en tablas Delta podían confirmarse en un orden no serializable bajo determinadas condiciones poco frecuentes.
- Se ha corregido un error por el que el comando OPTIMIZE podía producir un error si el dialecto ANSI SQL estaba habilitado.
- 19 de enero de 2022
- Se ha introducido compatibilidad con la inserción de credenciales temporales en COPY INTO para cargar los datos de origen sin permisos SQL ANY_FILE.
- Correcciones de errores y mejoras de seguridad
- 20 de diciembre de 2021
- Se ha corregido un error poco frecuente con el filtrado basado en índices de columnas de Parquet.
Databricks Runtime 10.1 (EoS)
Consulte Databricks Runtime 10.1 (EoS).
- 15 de junio de 2022
- [SPARK-39283][CORE] Se ha corregido el interbloqueo entre TaskMemoryManager y UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark no debe comprobar los nombres de campo al leer archivos
- [SPARK-34096][SQL] Mejorar el rendimiento de nth_value omite los valores NULL en la ventana de desplazamiento
- 2 de junio de 2022
- Actualizaciones de seguridad del sistema operativo
- 18 de mayo de 2022
- Corrige una posible pérdida de memoria nativa en el cargador automático.
- [SPARK-39084][PYSPARK] Corregir df.rdd.isEmpty() mediante TaskContext para detener el iterador en la finalización de la tarea
- [SPARK-38889][SQL] Compile filtros de columna booleanos para usar el tipo de bits para el origen de datos MSSQL
- Actualizaciones de seguridad del sistema operativo
- 19 de abril de 2022
- [SPARK-37270] [SQL] Corrección de la inserción plegable en ramas CaseWhen si elseValue está vacío
- Actualizaciones de seguridad del sistema operativo
- 6 de abril de 2022
- [SPARK-38631][CORE] Usa la implementación basada en Java para anular el tarring en Utils.unpack
- Actualizaciones de seguridad del sistema operativo
- 22 de marzo de 2022
- [SPARK-38437][SQL] Serialización Lenient de datetime desde el origen de datos
- [SPARK-38180][SQL] Permitir expresiones seguras de conversión vertical en predicados de igualdad correlacionados
- [SPARK-38155][SQL] No permitir agregados distintos en subconsultas laterales con predicados no admitidos
- [SPARK-38325][SQL] modo ANSI: evite el posible error en tiempo de ejecución en HashJoin.extractKeyExprAt()
- 14 de marzo de 2022
- Se ha mejorado la detección de conflictos de transacciones para transacciones vacías en Delta Lake.
- [SPARK-38185][SQL] Corrección de los datos incorrectos si la función de agregado está vacía
- [SPARK-38318][SQL] Regresión al reemplazar una vista de conjunto de datos
- [SPARK-38236][SQL] Rutas de acceso de archivo absolutas especificadas en la tabla create/alter tratadas como relativas
- [SPARK-35937][SQL] La extracción del campo de fecha de la marca de tiempo debería funcionar en modo ANSI
- [SPARK-34069][SQL] Las tareas de eliminación de barreras deben respetar
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Permiso de asignación de almacenes entre TimestampNTZ y Date/Timestamp
- 23 de febrero de 2022
- [SPARK-37577][SQL] Corrección de ClassCastException: ArrayType no se puede convertir en StructType para generar la eliminación
- 8 de febrero de 2022
- [SPARK-27442][SQL] Retirada del nombre del campo de comprobación al leer o escribir datos en Parquet
- Actualizaciones de seguridad del sistema operativo
- 1 de febrero de 2022
- Actualizaciones de seguridad del sistema operativo
- 26 de enero de 2022
- Se ha corregido un error por el que las transacciones simultáneas en tablas Delta podían confirmarse en un orden no serializable bajo determinadas condiciones poco frecuentes.
- Se ha corregido un error por el que el comando OPTIMIZE podía producir un error si el dialecto ANSI SQL estaba habilitado.
- 19 de enero de 2022
- Se ha introducido compatibilidad con la inserción de credenciales temporales en COPY INTO para cargar los datos de origen sin permisos SQL ANY_FILE.
- Se ha corregido un problema de falta de memoria con el almacenamiento en caché de resultados de consulta bajo determinadas condiciones.
- Se ha corregido un problema con
USE DATABASE
producido cuando un usuario cambiaba el catálogo actual a un catálogo no predeterminado. - Correcciones de errores y mejoras de seguridad
- Actualizaciones de seguridad del sistema operativo
- 20 de diciembre de 2021
- Se ha corregido un error poco frecuente con el filtrado basado en índices de columnas de Parquet.
Databricks Runtime 10.0 (EoS)
Consulte Databricks Runtime 10.0 (EoS).
- 19 de abril de 2022
- [SPARK-37270] [SQL] Corrección de la inserción plegable en ramas CaseWhen si elseValue está vacío
- Actualizaciones de seguridad del sistema operativo
- 6 de abril de 2022
- [SPARK-38631][CORE] Usa la implementación basada en Java para anular el tarring en Utils.unpack
- Actualizaciones de seguridad del sistema operativo
- 22 de marzo de 2022
- [SPARK-38437][SQL] Serialización Lenient de datetime desde el origen de datos
- [SPARK-38180][SQL] Permitir expresiones seguras de conversión vertical en predicados de igualdad correlacionados
- [SPARK-38155][SQL] No permitir agregados distintos en subconsultas laterales con predicados no admitidos
- [SPARK-38325][SQL] modo ANSI: evite el posible error en tiempo de ejecución en HashJoin.extractKeyExprAt()
- 14 de marzo de 2022
- Se ha mejorado la detección de conflictos de transacciones para transacciones vacías en Delta Lake.
- [SPARK-38185][SQL] Corrección de los datos incorrectos si la función de agregado está vacía
- [SPARK-38318][SQL] Regresión al reemplazar una vista de conjunto de datos
- [SPARK-38236][SQL] Rutas de acceso de archivo absolutas especificadas en la tabla create/alter tratadas como relativas
- [SPARK-35937][SQL] La extracción del campo de fecha de la marca de tiempo debería funcionar en modo ANSI
- [SPARK-34069][SQL] Las tareas de eliminación de barreras deben respetar
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Permiso de asignación de almacenes entre TimestampNTZ y Date/Timestamp
- 23 de febrero de 2022
- [SPARK-37577][SQL] Corrección de ClassCastException: ArrayType no se puede convertir en StructType para generar la eliminación
- 8 de febrero de 2022
- [SPARK-27442][SQL] Retirada del nombre del campo de comprobación al leer o escribir datos en Parquet
- [SPARK-36905][SQL] Corrección de la lectura de vistas de subárbol sin nombres de columna explícitos
- [SPARK-37859][SQL] Corrección de un problema por el que las tablas SQL creadas con JDBC con Spark 3.1 no eran legibles en la versión 3.2
- Actualizaciones de seguridad del sistema operativo
- 1 de febrero de 2022
- Actualizaciones de seguridad del sistema operativo
- 26 de enero de 2022
- Se ha corregido un error por el que las transacciones simultáneas en tablas Delta podían confirmarse en un orden no serializable bajo determinadas condiciones poco frecuentes.
- Se ha corregido un error por el que el comando OPTIMIZE podía producir un error si el dialecto ANSI SQL estaba habilitado.
- 19 de enero de 2022
- Correcciones de errores y mejoras de seguridad
- Actualizaciones de seguridad del sistema operativo
- 20 de diciembre de 2021
- Se ha corregido un error poco frecuente con el filtrado basado en índices de columnas de Parquet.
- 9 de noviembre de 2021
- Se han agregado marcas de configuración adicionales para tener un control más preciso de los comportamientos ANSI.
- 4 de noviembre de 2021
- Se ha corregido un error que podía provocar un error en los flujos de Structured Streaming con una excepción ArrayIndexOutOfBoundsException.
- Se ha corregido una condición de carrera que podía provocar un error de consulta con una excepción IOException como
java.io.IOException: No FileSystem for scheme
o que las modificaciones asparkContext.hadoopConfiguration
no se aplicaran a las consultas. - El conector de Apache Spark para uso compartido de Delta se ha actualizado a la versión 0.2.0.
- 30 de noviembre de 2021
- Se ha corregido un problema con el análisis de marca de tiempo por el que una cadena de zona horaria sin dos puntos se consideraba no válida.
- Se ha corregido un problema de falta de memoria con el almacenamiento en caché de resultados de consulta bajo determinadas condiciones.
- Se ha corregido un problema con
USE DATABASE
producido cuando un usuario cambiaba el catálogo actual a un catálogo no predeterminado.
Databricks Runtime 9.0 (EoS)
Consulte Databricks Runtime 9.0 (EoS).
- 8 de febrero de 2022
- Actualizaciones de seguridad del sistema operativo
- 1 de febrero de 2022
- Actualizaciones de seguridad del sistema operativo
- 26 de enero de 2022
- Se ha corregido un error por el que el comando OPTIMIZE podía producir un error si el dialecto ANSI SQL estaba habilitado.
- 19 de enero de 2022
- Correcciones de errores y mejoras de seguridad
- Actualizaciones de seguridad del sistema operativo
- 4 de noviembre de 2021
- Se ha corregido un error que podía provocar un error en los flujos de Structured Streaming con una excepción ArrayIndexOutOfBoundsException.
- Se ha corregido una condición de carrera que podía provocar un error de consulta con una excepción IOException como
java.io.IOException: No FileSystem for scheme
o que las modificaciones asparkContext.hadoopConfiguration
no se aplicaran a las consultas. - El conector de Apache Spark para uso compartido de Delta se ha actualizado a la versión 0.2.0.
- 22 de septiembre de 2021
- Se ha corregido un error en la conversión de la matriz de Spark con valor NULL en cadena.
- 15 de septiembre de 2021
- Se ha corregido una condición de carrera que podría provocar un error de consulta con una excepción IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Se ha corregido una condición de carrera que podría provocar un error de consulta con una excepción IOException como
- 8 de septiembre de 2021
- Se ha agregado compatibilidad con el nombre de esquema (formato
databaseName.schemaName.tableName
) como nombre de tabla de destino para el conector de Azure Synapse. - Se ha agregado compatibilidad con los tipos de geometría y geografía de JDBC para Spark SQL.
- [SPARK-33527][SQL] Ampliación de la función de descodificación para que sea coherente con las bases de datos estándares
- [SPARK-36532][CORE][3.1] Corrección del interbloqueo en
CoarseGrainedExecutorBackend.onDisconnected
para evitarexecutorsconnected
e impedir que el ejecutor se bloquee durante el apagado.
- Se ha agregado compatibilidad con el nombre de esquema (formato
- 25 de agosto de 2021
- La biblioteca de controladores de SQL Server se ha actualizado a la versión 9.2.1.jre8.
- El conector de Snowflake se actualizó a la versión 2.9.0.
- Se ha corregido el vínculo roto al mejor cuaderno de prueba en la página de experimentos de AutoML.
Databricks Runtime 8.4 (EoS)
Consulte Databricks Runtime 8.4 (EoS).
- 19 de enero de 2022
- Actualizaciones de seguridad del sistema operativo
- 4 de noviembre de 2021
- Se ha corregido un error que podía provocar un error en los flujos de Structured Streaming con una excepción ArrayIndexOutOfBoundsException.
- Se ha corregido una condición de carrera que podía provocar un error de consulta con una excepción IOException como
java.io.IOException: No FileSystem for scheme
o que las modificaciones asparkContext.hadoopConfiguration
no se aplicaran a las consultas. - El conector de Apache Spark para uso compartido de Delta se ha actualizado a la versión 0.2.0.
- 22 de septiembre de 2021
- El controlador de JDBC de Spark se ha actualizado a la versión 2.6.19.1030.
- [SPARK-36734][SQL] Actualización de ORC a la versión 1.5.1
- 15 de septiembre de 2021
- Se ha corregido una condición de carrera que podría provocar un error de consulta con una excepción IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
. - Actualizaciones de seguridad del sistema operativo
- Se ha corregido una condición de carrera que podría provocar un error de consulta con una excepción IOException como
- 8 de septiembre de 2021
- [SPARK-36532][CORE][3.1] Corrección del interbloqueo en
CoarseGrainedExecutorBackend.onDisconnected
para evitarexecutorsconnected
e impedir que el ejecutor se bloquee durante el apagado.
- [SPARK-36532][CORE][3.1] Corrección del interbloqueo en
- 25 de agosto de 2021
- La biblioteca de controladores de SQL Server se ha actualizado a la versión 9.2.1.jre8.
- El conector de Snowflake se actualizó a la versión 2.9.0.
- Se corrige un error en el acceso directo a credenciales causado por la nueva optimización de captura previa de Parquet, donde era posible que no se encontrara la credencial de acceso directo del usuario durante el acceso a archivos.
- 11 de agosto de 2021
- Se corrige un problema de incompatibilidad de RocksDB por el que se impide usar la versión antigua Databricks Runtime 8.4. Esto permite corregir la compatibilidad con versiones futuras de Auto Loader,
COPY INTO
y las aplicaciones de streaming con estado. - Se corrige un error al usar Auto Loader para leer archivos CSV con archivos de encabezado no coincidentes. Si los nombres de columna no coincidían, la columna se rellenaba con valores NULL. Ahora, si se proporciona un esquema, se asume que el esquema es el mismo y solo se guardarán las discrepancias de columna si las columnas de datos rescatadas están habilitadas.
- Se agrega una nueva opción llamada
externalDataSource
al conector de Azure Synapse para quitar el requisito de permisoCONTROL
en la base de datos para la lectura de PolyBase.
- Se corrige un problema de incompatibilidad de RocksDB por el que se impide usar la versión antigua Databricks Runtime 8.4. Esto permite corregir la compatibilidad con versiones futuras de Auto Loader,
- 29 de julio de 2021
- [SPARK-36034][BUILD] Fusión mediante cambio de base en filtros aplicados en Parquet
- [SPARK-36163][BUILD] Propagación de las propiedades de JDBC correctas en el proveedor de conectores de JDBC y adición de la opción
connectionProvider
Databricks Runtime 8.3 (EoS)
Consulte Databricks Runtime 8.3 (EoS).
- 19 de enero de 2022
- Actualizaciones de seguridad del sistema operativo
- 4 de noviembre de 2021
- Se ha corregido un error que podía provocar un error en los flujos de Structured Streaming con una excepción ArrayIndexOutOfBoundsException.
- Se ha corregido una condición de carrera que podía provocar un error de consulta con una excepción IOException como
java.io.IOException: No FileSystem for scheme
o que las modificaciones asparkContext.hadoopConfiguration
no se aplicaran a las consultas.
- 22 de septiembre de 2021
- El controlador de JDBC de Spark se ha actualizado a la versión 2.6.19.1030.
- 15 de septiembre de 2021
- Se ha corregido una condición de carrera que podría provocar un error de consulta con una excepción IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
. - Actualizaciones de seguridad del sistema operativo
- Se ha corregido una condición de carrera que podría provocar un error de consulta con una excepción IOException como
- 8 de septiembre de 2021
- [SPARK-35700][SQL][WARMFIX] Lectura de la tabla orc char/varchar cuando se crea y escribe en sistemas externos
- [SPARK-36532][CORE][3.1] Corrección del interbloqueo en
CoarseGrainedExecutorBackend.onDisconnected
para evitarexecutorsconnected
e impedir que el ejecutor se bloquee durante el apagado.
- 25 de agosto de 2021
- La biblioteca de controladores de SQL Server se ha actualizado a la versión 9.2.1.jre8.
- El conector de Snowflake se actualizó a la versión 2.9.0.
- Se corrige un error en el acceso directo a credenciales causado por la nueva optimización de captura previa de Parquet, donde era posible que no se encontrara la credencial de acceso directo del usuario durante el acceso a archivos.
- 11 de agosto de 2021
- Se corrige un error al usar Auto Loader para leer archivos CSV con archivos de encabezado no coincidentes. Si los nombres de columna no coincidían, la columna se rellenaba con valores NULL. Ahora, si se proporciona un esquema, se asume que el esquema es el mismo y solo se guardarán las discrepancias de columna si las columnas de datos rescatadas están habilitadas.
- 29 de julio de 2021
- Actualización del conector de Databricks Snowflake Spark a la versión 2.9.0-spark-3.1
- [SPARK-36034][BUILD] Fusión mediante cambio de base en filtros aplicados en Parquet
- [SPARK-36163][BUILD] Propagación de las propiedades de JDBC correctas en el proveedor de conectores de JDBC y adición de la opción
connectionProvider
- 14 de julio de 2021
- Se ha corregido un problema al usar nombres de columna con puntos en el conector de Azure Synapse.
- Se ha agregado el formato
database.schema.table
para el conector de Synapse. - Se ha agregado compatibilidad para proporcionar el formato
databaseName.schemaName.tableName
como tabla de destino en lugar de soloschemaName.tableName
otableName
.
- 15 de junio de 2021
- Se ha corregido un error de
NoSuchElementException
en las escrituras optimizadas de Delta Lake que podía producirse al escribir grandes cantidades de datos y encontrar pérdidas del ejecutor. - Se agregan los comandos SQL
CREATE GROUP
,DROP GROUP
,ALTER GROUP
,SHOW GROUPS
ySHOW USERS
Para más información, consulte Instrucciones de seguridad e Instrucciones de mostrar.
- Se ha corregido un error de
Databricks Runtime 8.2 (EoS)
Consulte Databricks Runtime 8.2 (EoS).
22 de septiembre de 2021
- Actualizaciones de seguridad del sistema operativo
15 de septiembre de 2021
- Se ha corregido una condición de carrera que podría provocar un error de consulta con una excepción IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Se ha corregido una condición de carrera que podría provocar un error de consulta con una excepción IOException como
8 de septiembre de 2021
- [SPARK-35700][SQL][WARMFIX] Lectura de la tabla orc char/varchar cuando se crea y escribe en sistemas externos
- [SPARK-36532][CORE][3.1] Corrección del interbloqueo en
CoarseGrainedExecutorBackend.onDisconnected
para evitarexecutorsconnected
e impedir que el ejecutor se bloquee durante el apagado.
25 de agosto de 2021
- Se ha actualizado el conector de Snowflake a la versión 2.9.0.
11 de agosto de 2021
- [SPARK-36034][SQL] Fusión mediante cambio de base en filtros aplicados en Parquet
29 de julio de 2021
- Actualización del conector de Databricks Snowflake Spark a la versión 2.9.0-spark-3.1
- [SPARK-36163][BUILD] Propagación de las propiedades de JDBC correctas en el proveedor de conectores de JDBC y adición de la opción
connectionProvider
14 de julio de 2021
- Se ha corregido un problema al usar nombres de columna con puntos en el conector de Azure Synapse.
- Se ha agregado el formato
database.schema.table
para el conector de Synapse. - Se ha agregado compatibilidad para proporcionar el formato
databaseName.schemaName.tableName
como tabla de destino en lugar de soloschemaName.tableName
otableName
. - Se ha corregido un error que impedía a los usuarios viajar en el tiempo hasta versiones anteriores disponibles con tablas Delta.
15 de junio de 2021
- Se corrige un error de
NoSuchElementException
en las escrituras optimizadas de Delta Lake que podía producirse al escribir grandes cantidades de datos y encontrar pérdidas del ejecutor.
- Se corrige un error de
26 de mayo de 2021
- Se ha actualizado Python con un parche de seguridad para corregir la vulnerabilidad de seguridad de Python (CVE-2021-3177).
30 de abril de 2021
- Actualizaciones de seguridad del sistema operativo
- [SPARK-35227][BUILD] Actualización de la resolución para spark-packages en SparkSubmit
- [SPARK-34245][CORE] Comprobación de que Master eliminar los ejecutores que no han podido enviar el estado de finalización
- Se ha corregido un problema de OOM cuando Auto Loader cargaba las métricas de progreso de Structured Streaming.
Databricks Runtime 8.1 (EoS)
Consulte Databricks Runtime 8.1 (EoS).
22 de septiembre de 2021
- Actualizaciones de seguridad del sistema operativo
15 de septiembre de 2021
- Se ha corregido una condición de carrera que podría provocar un error de consulta con una excepción IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Se ha corregido una condición de carrera que podría provocar un error de consulta con una excepción IOException como
8 de septiembre de 2021
- [SPARK-35700][SQL][WARMFIX] Lectura de la tabla orc char/varchar cuando se crea y escribe en sistemas externos
- [SPARK-36532][CORE][3.1] Corrección del interbloqueo en
CoarseGrainedExecutorBackend.onDisconnected
para evitarexecutorsconnected
e impedir que el ejecutor se bloquee durante el apagado.
25 de agosto de 2021
- Se ha actualizado el conector de Snowflake a la versión 2.9.0.
11 de agosto de 2021
- [SPARK-36034][SQL] Fusión mediante cambio de base en filtros aplicados en Parquet
29 de julio de 2021
- Actualización del conector de Databricks Snowflake Spark a la versión 2.9.0-spark-3.1
- [SPARK-36163][BUILD] Propagación de las propiedades de JDBC correctas en el proveedor de conectores de JDBC y adición de la opción
connectionProvider
14 de julio de 2021
- Se ha corregido un problema al usar nombres de columna con puntos en el conector de Azure Synapse.
- Se ha corregido un error que impedía a los usuarios viajar en el tiempo hasta versiones anteriores disponibles con tablas Delta.
15 de junio de 2021
- Se corrige un error de
NoSuchElementException
en las escrituras optimizadas de Delta Lake que podía producirse al escribir grandes cantidades de datos y encontrar pérdidas del ejecutor.
- Se corrige un error de
26 de mayo de 2021
- Se ha actualizado Python con un parche de seguridad para corregir la vulnerabilidad de seguridad de Python (CVE-2021-3177).
30 de abril de 2021
- Actualizaciones de seguridad del sistema operativo
- [SPARK-35227][BUILD] Actualización de la resolución para spark-packages en SparkSubmit
- Se ha corregido un problema de OOM cuando Auto Loader cargaba las métricas de progreso de Structured Streaming.
27 de abril de 2021
- [SPARK-34245][CORE] Comprobación de que Master eliminar los ejecutores que no han podido enviar el estado de finalización
- [SPARK-34856][SQL] Modo ANSI: permiso de conversión de tipos complejos como tipo de cadena.
- [SPARK-35014] Corrección del patrón PhysicalAggregation para no reescribir expresiones que se pueden plegar.
- [SPARK-34769][SQL] AnsiTypeCoercion: devolución del tipo convertible más estrecho entre TypeCollection
- [SPARK-34614][SQL] Modo ANSI: la conversión de cadena a booleana generará una excepción al producirse un error de análisis
- [SPARK-33794][SQL] Modo ANSI: corrección de la expresión NextDay para iniciar una excepción IllegalArgumentException del runtime al recibir una entrada no válida en
Databricks Runtime 8.0 (EoS)
Consulte Databricks Runtime 8.0 (EoS).
15 de septiembre de 2021
- Se ha corregido una condición de carrera que podría provocar un error de consulta con una excepción IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Se ha corregido una condición de carrera que podría provocar un error de consulta con una excepción IOException como
25 de agosto de 2021
- Se ha actualizado el conector de Snowflake a la versión 2.9.0.
11 de agosto de 2021
- [SPARK-36034][SQL] Fusión mediante cambio de base en filtros aplicados en Parquet
29 de julio de 2021
- [SPARK-36163][BUILD] Propagación de las propiedades de JDBC correctas en el proveedor de conectores de JDBC y adición de la opción
connectionProvider
- [SPARK-36163][BUILD] Propagación de las propiedades de JDBC correctas en el proveedor de conectores de JDBC y adición de la opción
14 de julio de 2021
- Se ha corregido un problema al usar nombres de columna con puntos en el conector de Azure Synapse.
- Se ha corregido un error que impedía a los usuarios viajar en el tiempo hasta versiones anteriores disponibles con tablas Delta.
26 de mayo de 2021
- Se ha actualizado Python con un parche de seguridad para corregir la vulnerabilidad de seguridad de Python (CVE-2021-3177).
30 de abril de 2021
- Actualizaciones de seguridad del sistema operativo
- [SPARK-35227][BUILD] Actualización de la resolución para spark-packages en SparkSubmit
- [SPARK-34245][CORE] Comprobación de que Master eliminar los ejecutores que no han podido enviar el estado de finalización
24 de marzo de 2021
- [SPARK-34681][SQL] Corrección del error de combinación hash aleatoria externa completa al compilar el lado izquierdo con una condición no igual
- [SPARK-34534] Corrección del orden de blockIds al usar FetchShuffleBlocks para capturar bloques
- [SPARK-34613][SQL] La vista de corrección no captura la configuración para deshabilitar sugerencias
9 de marzo de 2021
- [SPARK-34543][SQL] Cumplimiento de la configuración
spark.sql.caseSensitive
al resolver la especificación de partición en la versión 1 deSET LOCATION
- [SPARK-34392][SQL] Compatibilidad con ZoneOffset +h:mm en DateTimeUtils getZoneId
- [UI] Corrección del vínculo href de visualización de DAG de Spark
- [SPARK-34436][SQL] Compatibilidad de DPP con la expresión LIKE ANY/ALL
- [SPARK-34543][SQL] Cumplimiento de la configuración
Databricks Runtime 7.6 (EoS)
Consulte Databricks Runtime 7.6 (EoS).
- 11 de agosto de 2021
- [SPARK-36034][SQL] Fusión mediante cambio de base en filtros aplicados en Parquet
- 29 de julio de 2021
- [SPARK-32998][BUILD] Adición de la capacidad para reemplazar repositorios remotos predeterminados solo por repositorios internos
- 14 de julio de 2021
- Se ha corregido un error que impedía a los usuarios viajar en el tiempo hasta versiones anteriores disponibles con tablas Delta.
- 26 de mayo de 2021
- Se ha actualizado Python con un parche de seguridad para corregir la vulnerabilidad de seguridad de Python (CVE-2021-3177).
- 30 de abril de 2021
- Actualizaciones de seguridad del sistema operativo
- [SPARK-35227][BUILD] Actualización de la resolución para spark-packages en SparkSubmit
- [SPARK-34245][CORE] Comprobación de que Master eliminar los ejecutores que no han podido enviar el estado de finalización
- 24 de marzo de 2021
- [SPARK-34768][SQL] No alteración del tamaño de búfer de entrada predeterminado en Univocity
- [SPARK-34534] Corrección del orden de blockIds al usar FetchShuffleBlocks para capturar bloques
- 9 de marzo de 2021
- (Solo para Azure) Se ha corregido un error de Auto Loader que podía provocar la excepción NullPointerException al usar Databricks Runtime 7.6 para ejecutar un flujo antiguo de Auto Loader creado en Databricks Runtime 7.2.
- [UI] Corrección del vínculo href de visualización de DAG de Spark
- SparkPlan de nodo hoja desconocido sin control correcto en SizeInBytesOnlyStatsSparkPlanVisitor
- Restauración del esquema de salida de
SHOW DATABASES
- [Delta] [8.0, 7.6] Se ha corregido un error de cálculo en la lógica de ajuste automático de tamaño de archivo.
- Deshabilitación de la comprobación de estancamiento de los archivos de tablas Delta en la caché de disco
- [SQL] Uso de la clave de compilación de eliminación dinámica correcta cuando la sugerencia de combinación de intervalo está presente
- Deshabilitación de la compatibilidad con tipos char en la ruta de acceso al código que no es SQL
- Prevención de NPE en DataFrameReader.schema
- Corrección de NPE cuando la respuesta de EventGridClient no tiene ninguna entidad
- Corrección de un error de flujo cerrado de lectura en Azure Auto Loader
- [SQL] No generación de consejos de número de particiones aleatorio cuando AOS está habilitado
- 24 de febrero de 2021
- Se ha actualizado el conector de Spark de BigQuery a la versión 0.18, que presenta varias correcciones de errores y compatibilidad con iteradores de Arrow y Avro.
- Se ha corregido un problema de corrección que provocaba que Spark devolviera resultados incorrectos cuando la precisión decimal y la escala del archivo Parquet eran diferentes del esquema de Spark.
- Se ha corregido un problema de lectura en tablas de Microsoft SQL Server que contienen tipos de datos espaciales; para ello, se ha agregado compatibilidad con tipos de geometría y geografía de JDBC para Spark SQL.
- Se ha introducido una nueva configuración (
spark.databricks.hive.metastore.init.reloadFunctions.enabled
). Esta configuración permite controlar la inicialización integrada de Hive. Cuando se establece en true, Azure Databricks vuelve a cargar todas las funciones de todas las bases de datos que los usuarios tienen enFunctionRegistry
. Este es el comportamiento predeterminado en el metastore de Hive. Cuando se establece en false, Azure Databricks deshabilita este proceso con fines de optimización. - [SPARK-34212] Corrección de problemas relacionados con la lectura de datos decimales de archivos Parquet
- [SPARK-34260][SQL] Corrección de UnresolvedException al crear la vista temporal dos veces
Databricks Runtime 7.5 (EoS)
Consulte Databricks Runtime 7.5 (EoS).
- 26 de mayo de 2021
- Se ha actualizado Python con un parche de seguridad para corregir la vulnerabilidad de seguridad de Python (CVE-2021-3177).
- 30 de abril de 2021
- Actualizaciones de seguridad del sistema operativo
- [SPARK-35227][BUILD] Actualización de la resolución para spark-packages en SparkSubmit
- [SPARK-34245][CORE] Comprobación de que Master eliminar los ejecutores que no han podido enviar el estado de finalización
- 24 de marzo de 2021
- [SPARK-34768][SQL] No alteración del tamaño de búfer de entrada predeterminado en Univocity
- [SPARK-34534] Corrección del orden de blockIds al usar FetchShuffleBlocks para capturar bloques
- 9 de marzo de 2021
- (Solo para Azure) Se ha corregido un error de Auto Loader que podía provocar la excepción NullPointerException al usar Databricks Runtime 7.5 para ejecutar un flujo antiguo de Auto Loader creado en Databricks Runtime 7.2.
- [UI] Corrección del vínculo href de visualización de DAG de Spark
- SparkPlan de nodo hoja desconocido sin control correcto en SizeInBytesOnlyStatsSparkPlanVisitor
- Restauración del esquema de salida de
SHOW DATABASES
- Deshabilitación de la comprobación de estancamiento de los archivos de tablas Delta en la caché de disco
- [SQL] Uso de la clave de compilación de eliminación dinámica correcta cuando la sugerencia de combinación de intervalo está presente
- Deshabilitación de la compatibilidad con tipos char en la ruta de acceso al código que no es SQL
- Prevención de NPE en DataFrameReader.schema
- Corrección de NPE cuando la respuesta de EventGridClient no tiene ninguna entidad
- Corrección de un error de flujo cerrado de lectura en Azure Auto Loader
- 24 de febrero de 2021
- Se ha actualizado el conector de Spark de BigQuery a la versión 0.18, que presenta varias correcciones de errores y compatibilidad con iteradores de Arrow y Avro.
- Se ha corregido un problema de corrección que provocaba que Spark devolviera resultados incorrectos cuando la precisión decimal y la escala del archivo Parquet eran diferentes del esquema de Spark.
- Se ha corregido un problema de lectura en tablas de Microsoft SQL Server que contienen tipos de datos espaciales; para ello, se ha agregado compatibilidad con tipos de geometría y geografía de JDBC para Spark SQL.
- Se ha introducido una nueva configuración (
spark.databricks.hive.metastore.init.reloadFunctions.enabled
). Esta configuración permite controlar la inicialización integrada de Hive. Cuando se establece en true, Azure Databricks vuelve a cargar todas las funciones de todas las bases de datos que los usuarios tienen enFunctionRegistry
. Este es el comportamiento predeterminado en el metastore de Hive. Cuando se establece en false, Azure Databricks deshabilita este proceso con fines de optimización. - [SPARK-34212] Corrección de problemas relacionados con la lectura de datos decimales de archivos Parquet
- [SPARK-34260][SQL] Corrección de UnresolvedException al crear la vista temporal dos veces
- 4 de febrero de 2021
- Se ha corregido una regresión que impedía la ejecución incremental de una consulta que establece un límite global como
SELECT * FROM table LIMIT nrows
. Los usuarios que ejecutaban consultas mediante ODBC o JDBC con la serialización de Arrow habilitada experimentaron esta regresión. - Se han incorporado comprobaciones de tiempo de escritura en el cliente de Hive para evitar daños en los metadatos del metastore de Hive para tablas Delta.
- Se ha corregido una regresión que provocaba que DBFS FUSE no se iniciara cuando las configuraciones de variables de entorno de clúster contenían sintaxis de Bash no válida.
- Se ha corregido una regresión que impedía la ejecución incremental de una consulta que establece un límite global como
- 20 de enero de 2021
- Se ha corregido una regresión en la versión de mantenimiento del 12 de enero de 2021 que podía provocar una excepción AnalysisException incorrecta e indicar que la columna era ambigua en una autocombinación. Esta regresión se producía cuando un usuario combinaba un dataframe con su dataframe derivado (conocida como autocombinación) con las condiciones siguientes:
- Estos dos dataframes tienen columnas comunes, pero la salida de la autocombinación no tiene columnas comunes. Por ejemplo:
df.join(df.select($"col" as "new_col"), cond)
- El dataframe derivado excluye algunas columnas a través de select, groupBy o window.
- La condición de combinación o la transformación siguiente después del dataframe combinado hace referencia a las columnas no comunes. Por ejemplo:
df.join(df.drop("a"), df("a") === 1)
- Estos dos dataframes tienen columnas comunes, pero la salida de la autocombinación no tiene columnas comunes. Por ejemplo:
- Se ha corregido una regresión en la versión de mantenimiento del 12 de enero de 2021 que podía provocar una excepción AnalysisException incorrecta e indicar que la columna era ambigua en una autocombinación. Esta regresión se producía cuando un usuario combinaba un dataframe con su dataframe derivado (conocida como autocombinación) con las condiciones siguientes:
- 12 de enero de 2021
- Actualice el SDK de Azure Storage de la versión 2.3.8 a la 2.3.9.
- [SPARK-33593][SQL] El lector de vectores obtuvo datos incorrectos con el valor de partición binaria
- [SPARK-33480][SQL] Actualización del mensaje de error de comprobación de longitud de inserción de tablas char/varchar
Databricks Runtime 7.3 LTS (EoS)
Consulte Databricks Runtime 7.3 LTS (EoS).
10 de septiembre de 2023
- Correcciones de errores varios.
30 de agosto de 2023
- Actualizaciones de seguridad del sistema operativo
15 de agosto de 2023
- Actualizaciones de seguridad del sistema operativo
23 de junio de 2023
- La biblioteca Snowflake-jdbc se actualiza a la versión 3.13.29 para solucionar un problema de seguridad.
- Actualizaciones de seguridad del sistema operativo
15 de junio de 2023
- [SPARK-43413][SQL] Se ha corregido la nulabilidad
ListQuery
de la subconsultaIN
. - Actualizaciones de seguridad del sistema operativo
- [SPARK-43413][SQL] Se ha corregido la nulabilidad
2 de junio de 2023
- Se solucionó un problema en Auto Loader donde los diferentes formatos de archivos de origen eran inconsistentes cuando el esquema proporcionado no incluía particiones inferidas. Este problema podría provocar errores inesperados al leer archivos con columnas que faltan en el esquema de partición inferido.
17 de mayo de 2023
- Actualizaciones de seguridad del sistema operativo
25 de abril de 2023
- Actualizaciones de seguridad del sistema operativo
11 de abril de 2023
- [SPARK-42967][CORE] Corregir SparkListenerTaskStart.stageAttemptId cuando se inicia una tarea después de cancelar la fase.
- Correcciones de errores varios.
29 de marzo de 2023
- Actualizaciones de seguridad del sistema operativo
14 de marzo de 2023
- Correcciones de errores varios.
28 de febrero de 2023
- Actualizaciones de seguridad del sistema operativo
16 de febrero de 2023
- Actualizaciones de seguridad del sistema operativo
31 de enero de 2023
- Los tipos de tabla de las tablas JDBC ahora son EXTERNAL de manera predeterminada.
18 de enero de 2023
- Actualizaciones de seguridad del sistema operativo
29 de noviembre de 2022
- Correcciones de errores varios.
15 de noviembre de 2022
- Se ha actualizado Apache commons-text a 1.10.0.
- Actualizaciones de seguridad del sistema operativo
- Correcciones de errores varios.
1 de noviembre de 2022
- [SPARK-38542][SQL] UnsafeHashedRelation debe serializar numKeys
18 de octubre de 2022
- Actualizaciones de seguridad del sistema operativo
5 de octubre de 2022
- Correcciones de errores varios.
- Actualizaciones de seguridad del sistema operativo
22 de septiembre de 2022
- [SPARK-40089][SQL] Corrección de la ordenación para algunos tipos decimales
6 de septiembre de 2022
- [SPARK-35542] [CORE][ML] Corrección: Bucketizer creado para varias columnas con parámetros splitsArray, inputCols y outputCols no se puede cargar después de guardarlo
- [SPARK-40079] [CORE] Adición de la validación inputCols de Imputer para el caso de entrada vacío
24 de agosto de 2022
- [SPARK-39962][PYTHON][SQL] Se aplica proyección cuando los atributos de grupo están vacíos
- Actualizaciones de seguridad del sistema operativo
9 de agosto de 2022
- Actualizaciones de seguridad del sistema operativo
27 de julio de 2022
- Hacer que la operación Merge de Delta sea coherente cuando el origen no es determinista.
- Actualizaciones de seguridad del sistema operativo
- Correcciones de errores varios.
13 de julio de 2022
- [SPARK-32680][SQL] No se debe procesar previamente la versión V2 de CTAS con una consulta sin resolver.
- Se ha deshabilitado el uso de las API nativas en la nube por parte del cargador automático para la lista de directorios en Azure.
- Actualizaciones de seguridad del sistema operativo
5 de julio de 2022
- Actualizaciones de seguridad del sistema operativo
- Correcciones de errores varios.
2 de junio de 2022
- [SPARK-38918][SQL] La eliminación de columnas anidadas debe filtrar los atributos que no pertenecen a la relación actual
- Actualizaciones de seguridad del sistema operativo
18 de mayo de 2022
- Actualice la versión del SDK de AWS de la versión 1.11.655 a la 1.11.678.
- Actualizaciones de seguridad del sistema operativo
- Correcciones de errores varios.
19 de abril de 2022
- Actualizaciones de seguridad del sistema operativo
- Correcciones de errores varios.
6 de abril de 2022
- Actualizaciones de seguridad del sistema operativo
- Correcciones de errores varios.
14 de marzo de 2022
- Eliminación de clases vulnerables del archivo JAR log4j 1.2.17
- Correcciones de errores varios.
23 de febrero de 2022
- [SPARK-37859][SQL] Sin búsqueda de metadatos durante la comparación de esquemas
8 de febrero de 2022
- Actualice el JDK de Ubuntu a la versión 1.8.0.312.
- Actualizaciones de seguridad del sistema operativo
1 de febrero de 2022
- Actualizaciones de seguridad del sistema operativo
26 de enero de 2022
- Se ha corregido un error por el que el comando OPTIMIZE podía producir un error si el dialecto ANSI SQL estaba habilitado.
19 de enero de 2022
- Retirada del canal de valores predeterminados de Conda de la versión 7.3 ML LTS
- Actualizaciones de seguridad del sistema operativo
7 de diciembre de 2021
- Actualizaciones de seguridad del sistema operativo
4 de noviembre de 2021
- Se ha corregido un error que podía provocar un error en los flujos de Structured Streaming con una excepción ArrayIndexOutOfBoundsException.
- Se ha corregido una condición de carrera que podía provocar un error de consulta con una excepción IOException como
java.io.IOException: No FileSystem for scheme
o que las modificaciones asparkContext.hadoopConfiguration
no se aplicaran a las consultas.
15 de septiembre de 2021
- Se ha corregido una condición de carrera que podría provocar un error de consulta con una excepción IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
. - Actualizaciones de seguridad del sistema operativo
- Se ha corregido una condición de carrera que podría provocar un error de consulta con una excepción IOException como
8 de septiembre de 2021
- [SPARK-35700][SQL][WARMFIX] Lectura de la tabla orc char/varchar cuando se crea y escribe en sistemas externos
- [SPARK-36532][CORE][3.1] Corrección del interbloqueo en
CoarseGrainedExecutorBackend.onDisconnected
para evitarexecutorsconnected
e impedir que el ejecutor se bloquee durante el apagado.
25 de agosto de 2021
- Se ha actualizado el conector de Snowflake a la versión 2.9.0.
29 de julio de 2021
- [SPARK-36034][BUILD] Fusión mediante cambio de base en filtros aplicados en Parquet
- [SPARK-34508][BUILD] Omisión de
HiveExternalCatalogVersionsSuite
si la red está fuera de servicio
14 de julio de 2021
- Se ha agregado el formato
database.schema.table
para el conector de Azure Synapse. - Se ha agregado compatibilidad para proporcionar el formato
databaseName.schemaName.tableName
como tabla de destino en lugar de soloschemaName.tableName
otableName
. - Se ha corregido un error que impedía a los usuarios viajar en el tiempo hasta versiones anteriores disponibles con tablas Delta.
- Se ha agregado el formato
15 de junio de 2021
- Se corrige un error de
NoSuchElementException
en las escrituras optimizadas de Delta Lake que podía producirse al escribir grandes cantidades de datos y encontrar pérdidas del ejecutor. - Se ha actualizado Python con un parche de seguridad para corregir la vulnerabilidad de seguridad de Python (CVE-2021-3177).
- Se corrige un error de
30 de abril de 2021
- Actualizaciones de seguridad del sistema operativo
- [SPARK-35227][BUILD] Actualización de la resolución para spark-packages en SparkSubmit
- [SPARK-34245][CORE] Comprobación de que Master eliminar los ejecutores que no han podido enviar el estado de finalización
- [SPARK-35045][SQL] Adición de una opción interna para controlar el búfer de entrada en Univocity
24 de marzo de 2021
- [SPARK-34768][SQL] No alteración del tamaño de búfer de entrada predeterminado en Univocity
- [SPARK-34534] Corrección del orden de blockIds al usar FetchShuffleBlocks para capturar bloques
- [SPARK-33118][SQL] Error de CREATE TEMPORARY TABLE con la ubicación
9 de marzo de 2021
- El controlador de Azure Blob File System actualizado para Azure Data Lake Storage Gen2 ahora está habilitado de forma predeterminada. Ofrece varias mejoras de estabilidad.
- Corrección del separador de ruta de acceso en Windows para
databricks-connect get-jar-dir
- [UI] Corrección del vínculo href de visualización de DAG de Spark
- [DBCONNECT] Compatibilidad con FlatMapCoGroupsInPandas agregada en Databricks Connect 7.3
- Restauración del esquema de salida de
SHOW DATABASES
- [SQL] Uso de la clave de compilación de eliminación dinámica correcta cuando la sugerencia de combinación de intervalo está presente
- Deshabilitación de la comprobación de estancamiento de los archivos de tablas Delta en la caché de disco
- [SQL] No generación de consejos de número de particiones aleatorio cuando AOS está habilitado
24 de febrero de 2021
- Se ha actualizado el conector de Spark de BigQuery a la versión 0.18, que presenta varias correcciones de errores y compatibilidad con iteradores de Arrow y Avro.
- Se ha corregido un problema de corrección que provocaba que Spark devolviera resultados incorrectos cuando la precisión decimal y la escala del archivo Parquet eran diferentes del esquema de Spark.
- Se ha corregido un problema de lectura en tablas de Microsoft SQL Server que contienen tipos de datos espaciales; para ello, se ha agregado compatibilidad con tipos de geometría y geografía de JDBC para Spark SQL.
- Se ha introducido una nueva configuración (
spark.databricks.hive.metastore.init.reloadFunctions.enabled
). Esta configuración permite controlar la inicialización integrada de Hive. Cuando se establece en true, Azure Databricks vuelve a cargar todas las funciones de todas las bases de datos que los usuarios tienen enFunctionRegistry
. Este es el comportamiento predeterminado en el metastore de Hive. Cuando se establece en false, Azure Databricks deshabilita este proceso con fines de optimización. - [SPARK-34212] Corrección de problemas relacionados con la lectura de datos decimales de archivos Parquet
- [SPARK-33579][UI] Corrección de la página en blanco del ejecutor situada detrás del proxy
- [SPARK-20044][UI] Compatibilidad con la interfaz de usuario de Spark situada detrás del proxy inverso de front-end mediante un prefijo de ruta de acceso
- [SPARK-33277][PYSPARK][SQL] Uso de ContextAwareIterator para interrumpir el consumo una vez que finalice la tarea
4 de febrero de 2021
- Se ha corregido una regresión que impedía la ejecución incremental de una consulta que establece un límite global como
SELECT * FROM table LIMIT nrows
. Los usuarios que ejecutaban consultas mediante ODBC o JDBC con la serialización de Arrow habilitada experimentaron esta regresión. - Se ha corregido una regresión que provocaba que DBFS FUSE no se iniciara cuando las configuraciones de variables de entorno de clúster contenían sintaxis de Bash no válida.
- Se ha corregido una regresión que impedía la ejecución incremental de una consulta que establece un límite global como
20 de enero de 2021
- Se ha corregido una regresión en la versión de mantenimiento del 12 de enero de 2021 que podía provocar una excepción AnalysisException incorrecta e indicar que la columna era ambigua en una autocombinación. Esta regresión se producía cuando un usuario combinaba un dataframe con su dataframe derivado (conocida como autocombinación) con las condiciones siguientes:
- Estos dos dataframes tienen columnas comunes, pero la salida de la autocombinación no tiene columnas comunes. Por ejemplo:
df.join(df.select($"col" as "new_col"), cond)
- El dataframe derivado excluye algunas columnas a través de select, groupBy o window.
- La condición de combinación o la transformación siguiente después del dataframe combinado hace referencia a las columnas no comunes. Por ejemplo:
df.join(df.drop("a"), df("a") === 1)
- Estos dos dataframes tienen columnas comunes, pero la salida de la autocombinación no tiene columnas comunes. Por ejemplo:
- Se ha corregido una regresión en la versión de mantenimiento del 12 de enero de 2021 que podía provocar una excepción AnalysisException incorrecta e indicar que la columna era ambigua en una autocombinación. Esta regresión se producía cuando un usuario combinaba un dataframe con su dataframe derivado (conocida como autocombinación) con las condiciones siguientes:
12 de enero de 2021
- Actualizaciones de seguridad del sistema operativo
- [SPARK-33593][SQL] El lector de vectores obtuvo datos incorrectos con el valor de partición binaria
- [SPARK-33677][SQL] Omisión de la regla LikeSimplification si el patrón contiene cualquier valor escapeChar
- [SPARK-33592][ML][PYTHON] Posibilidad de que los parámetros del validador de Pyspark ML en estimatorParamMaps se pierdan tras el guardado y la recarga
- [SPARK-33071][SPARK-33536][SQL] No modificación de dataset_id de LogicalPlan en join() para no interrumpir DetectAmbiguousSelfJoin
8 de diciembre de 2020
- [SPARK-33587][CORE] Terminación del ejecutor en errores irrecuperables anidados
- [SPARK-27421][SQL] Corrección del filtro para la columna int y la clase de valor java.lang.String al eliminar la columna de partición
- [SPARK-33316][SQL] El usuario de soporte ha proporcionado un esquema de Avro que acepta valores NULL para el esquema de Catalyst que no acepta valores NULL en la escritura de Avro
- Los trabajos de Spark iniciados con Databricks Connect pueden quedar bloqueados indefinidamente con
Executor$TaskRunner.$anonfun$copySessionState
en el seguimiento de la pila del ejecutor. - Actualizaciones de seguridad del sistema operativo
1 de diciembre de 2020
- [SPARK-33404][SQL][3.0] Corrección de resultados incorrectos en la expresión
date_trunc
- [SPARK-33339][PYTHON] Bloqueo de la aplicación Pyspark debido a un error que no es de excepción
- [SPARK-33183][SQL][HOTFIX] Corrección de la regla del optimizador EliminateSorts y adición de una regla física para quitar las ordenaciones redundantes
- [SPARK-33371][PYTHON][3.0] Actualización de setup.py y pruebas para Python 3.9
- [SPARK-33391][SQL] Incumplimiento de un índice basado por parte de element_at con CreateArray
- [SPARK-33306][SQL] Zona horaria necesaria al convertir fecha en cadena
- [SPARK-33260][SQL] Corrección de resultados incorrectos de SortExec cuando sortOrder es Stream
- [SPARK-33404][SQL][3.0] Corrección de resultados incorrectos en la expresión
5 de noviembre de 2020
- Se ha corregido el bloqueo de ABFS y WASB con respecto a
UserGroupInformation.getCurrentUser()
. - Se ha corregido un error de bucle infinito cuando el lector de Avro leía los bytes magic.
- Se ha agregado compatibilidad con el privilegio USAGE.
- Mejoras de rendimiento para la comprobación de privilegios en el control de acceso a tablas.
- Se ha corregido el bloqueo de ABFS y WASB con respecto a
13 de octubre de 2020
- Actualizaciones de seguridad del sistema operativo
- Puede leer y escribir desde DBFS mediante el montaje FUSE en /dbfs/ cuando se encuentra en un clúster habilitado para el acceso directo a credenciales de alta simultaneidad. Se admiten montajes normales, pero todavía no se admiten montajes que necesiten credenciales de acceso directo.
- [SPARK-32999][SQL] Uso de Utils.getSimpleName para evitar alcanzar el nombre de clase con formato incorrecto en TreeNode
- [SPARK-32585][SQL] Compatibilidad con enumeración de Scala en ScalaReflection
- Corrección de la enumeración de directorios en el montaje de FUSE que contiene nombres de archivo con caracteres XML no válidos
- El montaje de FUSE ya no usa ListMultipartUploads
29 de septiembre de 2020
- [SPARK-32718][SQL] Eliminación de palabras clave innecesarias para las unidades de intervalo
- [SPARK-32635][SQL] Corrección de la propagación plegable
- Agregue un nuevo
spark.shuffle.io.decoder.consolidateThreshold
de configuración. Establezca el valor de configuración enLong.MAX_VALUE
para omitir la consolidación de FrameBuffers de Netty, lo que evitajava.lang.IndexOutOfBoundsException
en casos especiales.
25 de abril de 2023
- Actualizaciones de seguridad del sistema operativo
11 de abril de 2023
- Correcciones de errores varios.
29 de marzo de 2023
- Correcciones de errores varios.
14 de marzo de 2023
- Actualizaciones de seguridad del sistema operativo
28 de febrero de 2023
- Actualizaciones de seguridad del sistema operativo
16 de febrero de 2023
- Actualizaciones de seguridad del sistema operativo
31 de enero de 2023
- Correcciones de errores varios.
18 de enero de 2023
- Actualizaciones de seguridad del sistema operativo
29 de noviembre de 2022
- Actualizaciones de seguridad del sistema operativo
15 de noviembre de 2022
- Actualizaciones de seguridad del sistema operativo
- Correcciones de errores varios.
1 de noviembre de 2022
- Actualizaciones de seguridad del sistema operativo
18 de octubre de 2022
- Actualizaciones de seguridad del sistema operativo
- 5 de octubre de 2022
- Actualizaciones de seguridad del sistema operativo
- 24 de agosto de 2022
- Actualizaciones de seguridad del sistema operativo
- 9 de agosto de 2022
- Actualizaciones de seguridad del sistema operativo
- 27 de julio de 2022
- Actualizaciones de seguridad del sistema operativo
- 5 de julio de 2022
- Actualizaciones de seguridad del sistema operativo
- 2 de junio de 2022
- Actualizaciones de seguridad del sistema operativo
- 18 de mayo de 2022
- Actualizaciones de seguridad del sistema operativo
- 19 de abril de 2022
- Actualizaciones de seguridad del sistema operativo
- Correcciones de errores varios.
- 6 de abril de 2022
- Actualizaciones de seguridad del sistema operativo
- Correcciones de errores varios.
- 14 de marzo de 2022
- Correcciones de errores varios.
- 23 de febrero de 2022
- Correcciones de errores varios.
- 8 de febrero de 2022
- Actualice el JDK de Ubuntu a la versión 1.8.0.312.
- Actualizaciones de seguridad del sistema operativo
- 1 de febrero de 2022
- Actualizaciones de seguridad del sistema operativo
- 19 de enero de 2022
- Actualizaciones de seguridad del sistema operativo
- 22 de septiembre de 2021
- Actualizaciones de seguridad del sistema operativo
- 30 de abril de 2021
- Actualizaciones de seguridad del sistema operativo
- [SPARK-35227][BUILD] Actualización de la resolución para spark-packages en SparkSubmit
- 12 de enero de 2021
- Actualizaciones de seguridad del sistema operativo
- 8 de diciembre de 2020
- [SPARK-27421][SQL] Corrección del filtro para la columna int y la clase de valor java.lang.String al eliminar la columna de partición
- Actualizaciones de seguridad del sistema operativo
- 1 de diciembre de 2020
- [SPARK-33260][SQL] Corrección de resultados incorrectos de SortExec cuando sortOrder es Stream
- 3 de noviembre de 2020
- Se ha actualizado la versión de Java de 1.8.0_252 a 1.8.0_265.
- Corrección del bloqueo de ABFS y WASB con respecto a UserGroupInformation.getCurrentUser()
- 13 de octubre de 2020
- Actualizaciones de seguridad del sistema operativo
Soporte extendido para Databricks Runtime 6.4 (EoS)
Consulte Databricks Runtime 6.4 (EoS) y Soporte extendido para Databricks Runtime 6.4 (EoS).
5 de julio de 2022
- Actualizaciones de seguridad del sistema operativo
- Correcciones de errores varios.
2 de junio de 2022
- Actualizaciones de seguridad del sistema operativo
18 de mayo de 2022
- Actualizaciones de seguridad del sistema operativo
19 de abril de 2022
- Actualizaciones de seguridad del sistema operativo
- Correcciones de errores varios.
6 de abril de 2022
- Actualizaciones de seguridad del sistema operativo
- Correcciones de errores varios.
14 de marzo de 2022
- Eliminación de clases vulnerables del archivo JAR log4j 1.2.17
- Correcciones de errores varios.
23 de febrero de 2022
- Correcciones de errores varios.
8 de febrero de 2022
- Actualice el JDK de Ubuntu a la versión 1.8.0.312.
- Actualizaciones de seguridad del sistema operativo
1 de febrero de 2022
- Actualizaciones de seguridad del sistema operativo
26 de enero de 2022
- Se ha corregido un error por el que el comando OPTIMIZE podía producir un error si el dialecto ANSI SQL estaba habilitado.
19 de enero de 2022
- Actualizaciones de seguridad del sistema operativo
8 de diciembre de 2021
- Actualizaciones de seguridad del sistema operativo
22 de septiembre de 2021
- Actualizaciones de seguridad del sistema operativo
15 de junio de 2021
- [SPARK-35576][SQL] Eliminación de la información confidencial en el resultado del comando Set
7 de junio de 2021
- Agregue una nueva configuración denominada
spark.sql.maven.additionalRemoteRepositories
, una configuración de cadena delimitada por comas del reflejo de Maven remoto adicional y opcional. El valor predeterminado eshttps://maven-central.storage-download.googleapis.com/maven2/
.
- Agregue una nueva configuración denominada
30 de abril de 2021
- Actualizaciones de seguridad del sistema operativo
- [SPARK-35227][BUILD] Actualización de la resolución para spark-packages en SparkSubmit
9 de marzo de 2021
- Porte HADOOP-17215 al controlador de Azure Blob File System (compatibilidad con la sobrescritura condicional).
- Corrección del separador de ruta de acceso en Windows para
databricks-connect get-jar-dir
- Se ha agregado compatibilidad con las versiones 2.3.5, 2.3.6 y 2.3.7 del metastore de Hive.
- “totalResultsCollected” de Arrow no notificado correctamente tras el volcado
24 de febrero de 2021
- Se ha introducido una nueva configuración (
spark.databricks.hive.metastore.init.reloadFunctions.enabled
). Esta configuración permite controlar la inicialización integrada de Hive. Cuando se establece en true, Azure Databricks vuelve a cargar todas las funciones de todas las bases de datos que los usuarios tienen enFunctionRegistry
. Este es el comportamiento predeterminado en el metastore de Hive. Cuando se establece en false, Azure Databricks deshabilita este proceso con fines de optimización.
- Se ha introducido una nueva configuración (
4 de febrero de 2021
- Se ha corregido una regresión que impedía la ejecución incremental de una consulta que establece un límite global como
SELECT * FROM table LIMIT nrows
. Los usuarios que ejecutaban consultas mediante ODBC o JDBC con la serialización de Arrow habilitada experimentaron esta regresión. - Se ha corregido una regresión que provocaba que DBFS FUSE no se iniciara cuando las configuraciones de variables de entorno de clúster contenían sintaxis de Bash no válida.
- Se ha corregido una regresión que impedía la ejecución incremental de una consulta que establece un límite global como
12 de enero de 2021
- Actualizaciones de seguridad del sistema operativo
8 de diciembre de 2020
- [SPARK-27421][SQL] Corrección del filtro para la columna int y la clase de valor java.lang.String al eliminar la columna de partición
- [SPARK-33183][SQL] Corrección de la regla del optimizador EliminateSorts y adición de una regla física para quitar las ordenaciones redundantes
- [Runtime 6.4 ML GPU] Anteriormente, se instaló una versión incorrecta (2.7.8-1+cuda11.1) de NCCL. Esta versión lo corrige a 2.4.8-1+cuda10.0, que es compatible con CUDA 10.0.
- Actualizaciones de seguridad del sistema operativo
1 de diciembre de 2020
- [SPARK-33260][SQL] Corrección de resultados incorrectos de SortExec cuando sortOrder es Stream
- [SPARK-32635][SQL] Corrección de la propagación plegable
3 de noviembre de 2020
- Se ha actualizado la versión de Java de 1.8.0_252 a 1.8.0_265.
- Corrección del bloqueo de ABFS y WASB con respecto a UserGroupInformation.getCurrentUser()
- Se ha corregido un error de bucle infinito del lector de Avro al leer los bytes magic.
13 de octubre de 2020
- Actualizaciones de seguridad del sistema operativo
- [SPARK-32999][SQL][2.4] Uso de Utils.getSimpleName para evitar alcanzar el nombre de clase con formato incorrecto en TreeNode
- Corrección de la enumeración de directorios en el montaje de FUSE que contiene nombres de archivo con caracteres XML no válidos
- El montaje de FUSE ya no usa ListMultipartUploads
24 de septiembre de 2020
- Se ha corregido una limitación anterior por la que el acceso directo en el clúster estándar restringía igualmente la implementación del sistema de archivos empleada por el usuario. Ahora, los usuarios podrán acceder a los sistemas de archivos locales sin restricciones.
- Actualizaciones de seguridad del sistema operativo
8 de septiembre de 2020
- Se ha creado un nuevo parámetro para Azure Synapse Analytics,
maxbinlength
. Este parámetro se usa para controlar la longitud de columna de las columnas BinaryType y se traduce comoVARBINARY(maxbinlength)
. Se puede establecer mediante.option("maxbinlength", n)
, donde 0 < n < = 8000. - Actualice el SDK de Azure Storage a la versión 8.6.4 y habilite la función para mantener la conexión de TCP en las conexiones hechas por el controlador WASB.
- Se ha creado un nuevo parámetro para Azure Synapse Analytics,
25 de agosto de 2020
- Corrección de la resolución ambigua de atributos en la autocombinación
18 de agosto de 2020
- [SPARK-32431][SQL] Comprobación de columnas anidadas duplicadas en lectura desde orígenes de datos integrados
- Se ha corregido una condición de carrera en el conector de AQS al usar Trigger.Once.
11 de agosto de 2020
- [SPARK-28676][CORE] Prevención del registro excesivo de ContextCleaner
3 de agosto de 2020
- Ahora puede usar la función de transformación LDA en un clúster habilitado para acceso directo.
- Actualizaciones de seguridad del sistema operativo
7 de julio de 2020
- Se ha actualizado la versión de Java de la versión 1.8.0_232 a la 1.8.0_252.
21 de abril de 2020
- [SPARK-31312][SQL] Instancia de clase de caché para la instancia de UDF en HiveFunctionWrapper
7 de abril de 2020
- A fin de resolver un problema con pandas de UDF que no funciona con PyArrow 0.15.0 y versiones posteriores, hemos agregado una variable de entorno (
ARROW_PRE_0_15_IPC_FORMAT=1
) para habilitar la compatibilidad con las versiones de PyArrow mencionadas. Consulte las instrucciones de [SPARK-29367].
- A fin de resolver un problema con pandas de UDF que no funciona con PyArrow 0.15.0 y versiones posteriores, hemos agregado una variable de entorno (
10 de marzo de 2020
- El escalado automático optimizado ahora se usa de forma predeterminada en clústeres interactivos en el plan de seguridad.
- El conector de Snowflake (
spark-snowflake_2.11
) incluido en Databricks Runtime se actualiza a la versión 2.5.9.snowflake-jdbc
se actualiza a la versión 3.12.0.
Databricks Runtime 5.5 LTS (EoS)
Consulte Databricks Runtime 5.5 LTS (EoS) y Soporte extendido para Databricks Runtime 5.5 (EoS).
8 de diciembre de 2021
- Actualizaciones de seguridad del sistema operativo
22 de septiembre de 2021
- Actualizaciones de seguridad del sistema operativo
25 de agosto de 2021
- Algunos paquetes de Python actualizados anteriormente en la versión 5.5 ML de soporte extendido se han cambiado a una versión anterior para mantener una mejor paridad con 5.5 ML LTS (ahora en desuso). Consulte [_]/release-notes/runtime/5.5xml.md) para conocer las diferencias actualizadas entre las dos versiones.
15 de junio de 2021
- [SPARK-35576][SQL] Eliminación de la información confidencial en el resultado del comando Set
7 de junio de 2021
- Agregue una nueva configuración denominada
spark.sql.maven.additionalRemoteRepositories
, una configuración de cadena delimitada por comas del reflejo de Maven remoto adicional y opcional. El valor predeterminado eshttps://maven-central.storage-download.googleapis.com/maven2/
.
- Agregue una nueva configuración denominada
30 de abril de 2021
- Actualizaciones de seguridad del sistema operativo
- [SPARK-35227][BUILD] Actualización de la resolución para spark-packages en SparkSubmit
9 de marzo de 2021
- Porte HADOOP-17215 al controlador de Azure Blob File System (compatibilidad con la sobrescritura condicional).
24 de febrero de 2021
- Se ha introducido una nueva configuración (
spark.databricks.hive.metastore.init.reloadFunctions.enabled
). Esta configuración permite controlar la inicialización integrada de Hive. Cuando se establece en true, Azure Databricks vuelve a cargar todas las funciones de todas las bases de datos que los usuarios tienen enFunctionRegistry
. Este es el comportamiento predeterminado en el metastore de Hive. Cuando se establece en false, Azure Databricks deshabilita este proceso con fines de optimización.
- Se ha introducido una nueva configuración (
12 de enero de 2021
- Actualizaciones de seguridad del sistema operativo
- Corrección para [HADOOP-17130].
8 de diciembre de 2020
- [SPARK-27421][SQL] Corrección del filtro para la columna int y la clase de valor java.lang.String al eliminar la columna de partición
- Actualizaciones de seguridad del sistema operativo
1 de diciembre de 2020
- [SPARK-33260][SQL] Corrección de resultados incorrectos de SortExec cuando sortOrder es Stream
- [SPARK-32635][SQL] Corrección de la propagación plegable
29 de octubre de 2020
- Se ha actualizado la versión de Java de 1.8.0_252 a 1.8.0_265.
- Corrección del bloqueo de ABFS y WASB con respecto a UserGroupInformation.getCurrentUser()
- Se ha corregido un error de bucle infinito del lector de Avro al leer los bytes magic.
13 de octubre de 2020
- Actualizaciones de seguridad del sistema operativo
- [SPARK-32999][SQL][2.4] Uso de Utils.getSimpleName para evitar alcanzar el nombre de clase con formato incorrecto en TreeNode
24 de septiembre de 2020
- Actualizaciones de seguridad del sistema operativo
8 de septiembre de 2020
- Se ha creado un nuevo parámetro para Azure Synapse Analytics,
maxbinlength
. Este parámetro se usa para controlar la longitud de columna de las columnas BinaryType y se traduce comoVARBINARY(maxbinlength)
. Se puede establecer mediante.option("maxbinlength", n)
, donde 0 < n < = 8000.
- Se ha creado un nuevo parámetro para Azure Synapse Analytics,
18 de agosto de 2020
- [SPARK-32431][SQL] Comprobación de columnas anidadas duplicadas en lectura desde orígenes de datos integrados
- Se ha corregido una condición de carrera en el conector de AQS al usar Trigger.Once.
11 de agosto de 2020
- [SPARK-28676][CORE] Prevención del registro excesivo de ContextCleaner
3 de agosto de 2020
- Actualizaciones de seguridad del sistema operativo
7 de julio de 2020
- Se ha actualizado la versión de Java de la versión 1.8.0_232 a la 1.8.0_252.
21 de abril de 2020
- [SPARK-31312][SQL] Instancia de clase de caché para la instancia de UDF en HiveFunctionWrapper
7 de abril de 2020
- A fin de resolver un problema con pandas de UDF que no funciona con PyArrow 0.15.0 y versiones posteriores, hemos agregado una variable de entorno (
ARROW_PRE_0_15_IPC_FORMAT=1
) para habilitar la compatibilidad con las versiones de PyArrow mencionadas. Consulte las instrucciones de [SPARK-29367].
- A fin de resolver un problema con pandas de UDF que no funciona con PyArrow 0.15.0 y versiones posteriores, hemos agregado una variable de entorno (
25 de marzo de 2020
- El conector de Snowflake (
spark-snowflake_2.11
) incluido en Databricks Runtime se actualiza a la versión 2.5.9.snowflake-jdbc
se actualiza a la versión 3.12.0.
- El conector de Snowflake (
10 de marzo de 2020
- La salida de trabajos, como la salida del registro que se emite a stdout, está sujeta a un límite de tamaño de 20 MB. Si la salida total tiene un tamaño mayor, la ejecución se cancelará y se marcará como con errores. Para evitar alcanzar este límite, puede impedir que stdout se devuelva desde el controlador estableciendo la configuración para Spark de
spark.databricks.driver.disableScalaOutput
entrue
. De forma predeterminada, el valor de marca esfalse
. La marca permite controlar la salida de celda para los trabajos JAR y los cuadernos de Scala. Si la marca está habilitada, Spark no devuelve los resultados de la ejecución del trabajo al cliente. La marca no afecta a los datos escritos en los archivos de registro del clúster. Solo se recomienda establecer esta marca en clústeres automatizados para trabajos JAR, ya que deshabilitará los resultados del cuaderno.
- La salida de trabajos, como la salida del registro que se emite a stdout, está sujeta a un límite de tamaño de 20 MB. Si la salida total tiene un tamaño mayor, la ejecución se cancelará y se marcará como con errores. Para evitar alcanzar este límite, puede impedir que stdout se devuelva desde el controlador estableciendo la configuración para Spark de
18 de febrero de 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 debería producir una excepción
- El acceso directo a credenciales con ADLS Gen2 presenta una degradación del rendimiento debido a un control local incorrecto de subprocesos cuando está habilitada la captura previa del cliente de ADLS. En esta versión se deshabilita la captura previa de ADLS Gen2 cuando se habilita el acceso directo a credenciales hasta que se disponga de una corrección adecuada.
28 de enero de 2020
- [SPARK-30447][SQL] Problema de nulabilidad en la propagación de constantes
14 de enero de 2020
- Se ha actualizado la versión de Java de la versión 1.8.0_222 a la 1.8.0_232.
19 de noviembre de 2019
- [SPARK-29743][SQL] La muestra debe establecer needCopyResult en true si el valor needCopyResult de su elemento secundario es true
- La versión de R se ha actualizado de forma no intencionada a la versión 3.6.1 desde la 3.6.0. Se ha cambiado a la versión 3.6.0.
5 de noviembre de 2019
- Se ha actualizado la versión de Java de la versión 1.8.0_212 a la 1.8.0_222.
23 de octubre de 2019
- [SPARK-29244][CORE] Prevención de que la página liberada en BytesToBytesMap se libere otra vez
8 de octubre de 2019
- Cambios en el lado servidor para permitir que el controlador ODBC de Simba Apache Spark se vuelva a conectar y continúe después de un error de conexión durante la captura de resultados (requiere el controlador de Simba Apache Spark ODBC en la versión 2.6.10).
- Se ha corregido un problema que afectaba al uso del comando
Optimize
con clústeres habilitados para ACL de tabla. - Se ha corregido un problema que causaba un error en las bibliotecas
pyspark.ml
debido a un error prohibido de la UDF de Scala en los clústeres habilitados para ACL de tabla y el acceso directo a credenciales. - Métodos SerDe y SerDeUtil permitidos para el acceso directo a credenciales
- Se ha corregido NullPointerException al comprobar el código de error en el cliente de WASB.
24 de septiembre de 2019
- Estabilidad mejorada del escritor de Parquet.
- Se ha corregido el problema por el que la consulta de Thrift cancelada antes de empezar a ejecutarse podía quedar atrapada en el estado STARTED.
10 de septiembre de 2019
- Adición de un iterador seguro para subprocesos a BytesToBytesMap
- [SPARK-27992][SPARK-28881] Permiso para que Python se una al subproceso de conexión para propagar errores
- Se ha corregido un error que afectaba a determinadas consultas de agregación globales.
- Se ha mejorado la eliminación de credenciales.
- [SPARK-27330][SS] Anulación de tarea de soporte en el escritor foreach
- [SPARK-28642]Ocultación de credenciales en SHOW CREATE TABLE
- [SPARK-28699][SQL] Deshabilitación del uso de la ordenación radix para ShuffleExchangeExec en el caso de repartición
27 de agosto de 2019
- [SPARK-20906][SQL] Permiso para el esquema especificado por el usuario en la API to_avro con registro de esquema
- [SPARK-27838][SQL] El usuario de soporte ha proporcionado un esquema de Avro que no acepta valores NULL para el esquema de Catalyst que admite valores NULL sin ningún registro NULL
- Mejora en el viaje en el tiempo de Delta Lake
- Se ha corregido un problema que afectaba a determinadas expresiones
transform
. - Se admiten variables de difusión cuando el aislamiento de procesos está habilitado.
13 de agosto de 2019
- El origen de streaming de Delta debe comprobar el protocolo más reciente de una tabla
- [SPARK-28260] Adición del estado CLOSED a ExecutionState
- [SPARK-28489][SS] Se ha corregido un error por el que KafkaOffsetRangeCalculator.getRanges podía quitar desplazamientos.
30 de julio de 2019
- [SPARK-28015][SQL] Check stringToDate() consume la entrada completa para los formatos yyyy y yyyy-[m]m
- [SPARK-28308][CORE] Se debe agregar la parte del subsegundo CalendarInterval antes del análisis
- [SPARK-27485] EnsureRequirements.reorder debería controlar correctamente las expresiones duplicadas
- [SPARK-28355][CORE][PYTHON] Uso del conf de Spark para establecer el umbral en el que las UDF se comprimen por transmisión
Soporte extendido de Databricks Light 2.4
Consulte Databricks Light 2.4 (EoS) y Soporte extendido para Databricks Light 2.4 (EoS).
Databricks Runtime 7.4 (EoS)
Consulte Databricks Runtime 7.4 (EoS).
30 de abril de 2021
- Actualizaciones de seguridad del sistema operativo
- [SPARK-35227][BUILD] Actualización de la resolución para spark-packages en SparkSubmit
- [SPARK-34245][CORE] Comprobación de que Master eliminar los ejecutores que no han podido enviar el estado de finalización
- [SPARK-35045][SQL] Adición de una opción interna para controlar el búfer de entrada en Univocity y una configuración para el tamaño del búfer de entrada de CSV.
24 de marzo de 2021
- [SPARK-34768][SQL] No alteración del tamaño de búfer de entrada predeterminado en Univocity
- [SPARK-34534] Corrección del orden de blockIds al usar FetchShuffleBlocks para capturar bloques
9 de marzo de 2021
- El controlador de Azure Blob File System actualizado para Azure Data Lake Storage Gen2 ahora está habilitado de forma predeterminada. Ofrece varias mejoras de estabilidad.
- [ES-67926][UI] Corrección del vínculo href de visualización de DAG de Spark
- [ES-65064] Restauración del esquema de salida de
SHOW DATABASES
- [SC-70522][SQL] Uso de la clave de compilación de eliminación dinámica correcta cuando la sugerencia de combinación de intervalo está presente
- [SC-35081] Deshabilitación de la comprobación de estancamiento de los archivos de tablas Delta en la caché de disco
- [SC-70640] Corrección de NPE cuando la respuesta de EventGridClient no tiene ninguna entidad
- [SC-70220][SQL] No generación de consejos de número de particiones aleatorio cuando AOS está habilitado
24 de febrero de 2021
- Se ha actualizado el conector de Spark de BigQuery a la versión 0.18, que presenta varias correcciones de errores y compatibilidad con iteradores de Arrow y Avro.
- Se ha corregido un problema de corrección que provocaba que Spark devolviera resultados incorrectos cuando la precisión decimal y la escala del archivo Parquet eran diferentes del esquema de Spark.
- Se ha corregido un problema de lectura en tablas de Microsoft SQL Server que contienen tipos de datos espaciales; para ello, se ha agregado compatibilidad con tipos de geometría y geografía de JDBC para Spark SQL.
- Se ha introducido una nueva configuración (
spark.databricks.hive.metastore.init.reloadFunctions.enabled
). Esta configuración permite controlar la inicialización integrada de Hive. Cuando se establece en true, Azure Databricks vuelve a cargar todas las funciones de todas las bases de datos que los usuarios tienen enFunctionRegistry
. Este es el comportamiento predeterminado en el metastore de Hive. Cuando se establece en false, Azure Databricks deshabilita este proceso con fines de optimización. - [SPARK-34212] Corrección de problemas relacionados con la lectura de datos decimales de archivos Parquet
- [SPARK-33579][UI] Corrección de la página en blanco del ejecutor situada detrás del proxy
- [SPARK-20044][UI] Compatibilidad con la interfaz de usuario de Spark situada detrás del proxy inverso de front-end mediante un prefijo de ruta de acceso
- [SPARK-33277][PYSPARK][SQL] Uso de ContextAwareIterator para interrumpir el consumo una vez que finalice la tarea
4 de febrero de 2021
- Se ha corregido una regresión que impedía la ejecución incremental de una consulta que establece un límite global como
SELECT * FROM table LIMIT nrows
. Los usuarios que ejecutaban consultas mediante ODBC o JDBC con la serialización de Arrow habilitada experimentaron esta regresión. - Se ha corregido una regresión que provocaba que DBFS FUSE no se iniciara cuando las configuraciones de variables de entorno de clúster contenían sintaxis de Bash no válida.
- Se ha corregido una regresión que impedía la ejecución incremental de una consulta que establece un límite global como
20 de enero de 2021
- Se ha corregido una regresión en la versión de mantenimiento del 12 de enero de 2021 que podía provocar una excepción AnalysisException incorrecta e indicar que la columna era ambigua en una autocombinación. Esta regresión se producía cuando un usuario combinaba un dataframe con su dataframe derivado (conocida como autocombinación) con las condiciones siguientes:
- Estos dos dataframes tienen columnas comunes, pero la salida de la autocombinación no tiene columnas comunes. Por ejemplo:
df.join(df.select($"col" as "new_col"), cond)
- El dataframe derivado excluye algunas columnas a través de select, groupBy o window.
- La condición de combinación o la transformación siguiente después del dataframe combinado hace referencia a las columnas no comunes. Por ejemplo:
df.join(df.drop("a"), df("a") === 1)
- Estos dos dataframes tienen columnas comunes, pero la salida de la autocombinación no tiene columnas comunes. Por ejemplo:
- Se ha corregido una regresión en la versión de mantenimiento del 12 de enero de 2021 que podía provocar una excepción AnalysisException incorrecta e indicar que la columna era ambigua en una autocombinación. Esta regresión se producía cuando un usuario combinaba un dataframe con su dataframe derivado (conocida como autocombinación) con las condiciones siguientes:
12 de enero de 2021
- Actualizaciones de seguridad del sistema operativo
- [SPARK-33593][SQL] El lector de vectores obtuvo datos incorrectos con el valor de partición binaria
- [SPARK-33677][SQL] Omisión de la regla LikeSimplification si el patrón contiene cualquier valor escapeChar
- [SPARK-33071][SPARK-33536][SQL] No modificación de dataset_id de LogicalPlan en join() para no interrumpir DetectAmbiguousSelfJoin
8 de diciembre de 2020
- [SPARK-33587][CORE] Terminación del ejecutor en errores irrecuperables anidados
- [SPARK-27421][SQL] Corrección del filtro para la columna int y la clase de valor java.lang.String al eliminar la columna de partición
- [SPARK-33316][SQL] El usuario de soporte ha proporcionado un esquema de Avro que acepta valores NULL para el esquema de Catalyst que no acepta valores NULL en la escritura de Avro
- Actualizaciones de seguridad del sistema operativo
1 de diciembre de 2020
- [SPARK-33404][SQL][3.0] Corrección de resultados incorrectos en la expresión
date_trunc
- [SPARK-33339][PYTHON] Bloqueo de la aplicación Pyspark debido a un error que no es de excepción
- [SPARK-33183][SQL][HOTFIX] Corrección de la regla del optimizador EliminateSorts y adición de una regla física para quitar las ordenaciones redundantes
- [SPARK-33371][PYTHON][3.0] Actualización de setup.py y pruebas para Python 3.9
- [SPARK-33391][SQL] Incumplimiento de un índice basado por parte de element_at con CreateArray
- [SPARK-33306][SQL] Zona horaria necesaria al convertir fecha en cadena
- [SPARK-33260][SQL] Corrección de resultados incorrectos de SortExec cuando sortOrder es Stream
- [SPARK-33272][SQL] Eliminación de la asignación de atributos en QueryPlan.transformUpWithNewOutput
- [SPARK-33404][SQL][3.0] Corrección de resultados incorrectos en la expresión
Databricks Runtime 7.2 (EoS)
Consulte Databricks Runtime 7.2 (EoS).
4 de febrero de 2021
- Se ha corregido una regresión que impedía la ejecución incremental de una consulta que establece un límite global como
SELECT * FROM table LIMIT nrows
. Los usuarios que ejecutaban consultas mediante ODBC o JDBC con la serialización de Arrow habilitada experimentaron esta regresión. - Se ha corregido una regresión que provocaba que DBFS FUSE no se iniciara cuando las configuraciones de variables de entorno de clúster contenían sintaxis de Bash no válida.
- Se ha corregido una regresión que impedía la ejecución incremental de una consulta que establece un límite global como
20 de enero de 2021
- Se ha corregido una regresión en la versión de mantenimiento del 12 de enero de 2021 que podía provocar una excepción AnalysisException incorrecta e indicar que la columna era ambigua en una autocombinación. Esta regresión se producía cuando un usuario combinaba un dataframe con su dataframe derivado (conocida como autocombinación) con las condiciones siguientes:
- Estos dos dataframes tienen columnas comunes, pero la salida de la autocombinación no tiene columnas comunes. Por ejemplo:
df.join(df.select($"col" as "new_col"), cond)
- El dataframe derivado excluye algunas columnas a través de select, groupBy o window.
- La condición de combinación o la transformación siguiente después del dataframe combinado hace referencia a las columnas no comunes. Por ejemplo:
df.join(df.drop("a"), df("a") === 1)
- Estos dos dataframes tienen columnas comunes, pero la salida de la autocombinación no tiene columnas comunes. Por ejemplo:
- Se ha corregido una regresión en la versión de mantenimiento del 12 de enero de 2021 que podía provocar una excepción AnalysisException incorrecta e indicar que la columna era ambigua en una autocombinación. Esta regresión se producía cuando un usuario combinaba un dataframe con su dataframe derivado (conocida como autocombinación) con las condiciones siguientes:
12 de enero de 2021
- Actualizaciones de seguridad del sistema operativo
- [SPARK-33593][SQL] El lector de vectores obtuvo datos incorrectos con el valor de partición binaria
- [SPARK-33677][SQL] Omisión de la regla LikeSimplification si el patrón contiene cualquier valor escapeChar
- [SPARK-33071][SPARK-33536][SQL] No modificación de dataset_id de LogicalPlan en join() para no interrumpir DetectAmbiguousSelfJoin
8 de diciembre de 2020
- [SPARK-27421][SQL] Corrección del filtro para la columna int y la clase de valor java.lang.String al eliminar la columna de partición
- [SPARK-33404][SQL] Corrección de resultados incorrectos en la expresión
date_trunc
- [SPARK-33339][PYTHON] Bloqueo de la aplicación Pyspark debido a un error que no es de excepción
- [SPARK-33183][SQL] Corrección de la regla del optimizador EliminateSorts y adición de una regla física para quitar las ordenaciones redundantes
- [SPARK-33391][SQL] Incumplimiento de un índice basado por parte de element_at con CreateArray
- Actualizaciones de seguridad del sistema operativo
1 de diciembre de 2020
- [SPARK-33306][SQL] Zona horaria necesaria al convertir fecha en cadena
- [SPARK-33260][SQL] Corrección de resultados incorrectos de SortExec cuando sortOrder es Stream
3 de noviembre de 2020
- Se ha actualizado la versión de Java de 1.8.0_252 a 1.8.0_265.
- Corrección del bloqueo de ABFS y WASB con respecto a UserGroupInformation.getCurrentUser()
- Se ha corregido un error de bucle infinito del lector de Avro al leer los bytes magic.
13 de octubre de 2020
- Actualizaciones de seguridad del sistema operativo
- [SPARK-32999][SQL] Uso de Utils.getSimpleName para evitar alcanzar el nombre de clase con formato incorrecto en TreeNode
- Corrección de la enumeración de directorios en el montaje de FUSE que contiene nombres de archivo con caracteres XML no válidos
- El montaje de FUSE ya no usa ListMultipartUploads
29 de septiembre de 2020
- [SPARK-28863][SQL][WARMFIX] Adición de AlreadyOptimized para evitar el reanálisis de V1FallbackWriters
- [SPARK-32635][SQL] Corrección de la propagación plegable
- Agregue un nuevo
spark.shuffle.io.decoder.consolidateThreshold
de configuración. Establezca el valor de configuración enLong.MAX_VALUE
para omitir la consolidación de FrameBuffers de Netty, lo que evitajava.lang.IndexOutOfBoundsException
en casos especiales.
24 de septiembre de 2020
- [SPARK-32764] [SQL] -0.0 debe ser igual a 0.0
- [SPARK-32753][SQL] Copia solo de etiquetas en el nodo sin etiquetas al transformar planes
- [SPARK-32659][SQL] Corrección del problema de datos de la eliminación de particiones dinámicas insertada en un tipo no atómico
- Actualizaciones de seguridad del sistema operativo
8 de septiembre de 2020
- Se ha creado un nuevo parámetro para Azure Synapse Analytics,
maxbinlength
. Este parámetro se usa para controlar la longitud de columna de las columnas BinaryType y se traduce comoVARBINARY(maxbinlength)
. Se puede establecer mediante.option("maxbinlength", n)
, donde 0 < n < = 8000.
- Se ha creado un nuevo parámetro para Azure Synapse Analytics,
Databricks Runtime 7.1 (EoS)
Consulte Databricks Runtime 7.1 (EoS).
4 de febrero de 2021
- Se ha corregido una regresión que provocaba que DBFS FUSE no se iniciara cuando las configuraciones de variables de entorno de clúster contenían sintaxis de Bash no válida.
20 de enero de 2021
- Se ha corregido una regresión en la versión de mantenimiento del 12 de enero de 2021 que podía provocar una excepción AnalysisException incorrecta e indicar que la columna era ambigua en una autocombinación. Esta regresión se producía cuando un usuario combinaba un dataframe con su dataframe derivado (conocida como autocombinación) con las condiciones siguientes:
- Estos dos dataframes tienen columnas comunes, pero la salida de la autocombinación no tiene columnas comunes. Por ejemplo:
df.join(df.select($"col" as "new_col"), cond)
- El dataframe derivado excluye algunas columnas a través de select, groupBy o window.
- La condición de combinación o la transformación siguiente después del dataframe combinado hace referencia a las columnas no comunes. Por ejemplo:
df.join(df.drop("a"), df("a") === 1)
- Estos dos dataframes tienen columnas comunes, pero la salida de la autocombinación no tiene columnas comunes. Por ejemplo:
- Se ha corregido una regresión en la versión de mantenimiento del 12 de enero de 2021 que podía provocar una excepción AnalysisException incorrecta e indicar que la columna era ambigua en una autocombinación. Esta regresión se producía cuando un usuario combinaba un dataframe con su dataframe derivado (conocida como autocombinación) con las condiciones siguientes:
12 de enero de 2021
- Actualizaciones de seguridad del sistema operativo
- [SPARK-33593][SQL] El lector de vectores obtuvo datos incorrectos con el valor de partición binaria
- [SPARK-33677][SQL] Omisión de la regla LikeSimplification si el patrón contiene cualquier valor escapeChar
- [SPARK-33071][SPARK-33536][SQL] No modificación de dataset_id de LogicalPlan en join() para no interrumpir DetectAmbiguousSelfJoin
8 de diciembre de 2020
- [SPARK-27421][SQL] Corrección del filtro para la columna int y la clase de valor java.lang.String al eliminar la columna de partición
- Los trabajos de Spark iniciados con Databricks Connect pueden quedar bloqueados indefinidamente con
Executor$TaskRunner.$anonfun$copySessionState
en el seguimiento de la pila del ejecutor. - Actualizaciones de seguridad del sistema operativo
1 de diciembre de 2020
- [SPARK-33404][SQL][3.0] Corrección de resultados incorrectos en la expresión
date_trunc
- [SPARK-33339][PYTHON] Bloqueo de la aplicación Pyspark debido a un error que no es de excepción
- [SPARK-33183][SQL][HOTFIX] Corrección de la regla del optimizador EliminateSorts y adición de una regla física para quitar las ordenaciones redundantes
- [SPARK-33371][PYTHON][3.0] Actualización de setup.py y pruebas para Python 3.9
- [SPARK-33391][SQL] Incumplimiento de un índice basado por parte de element_at con CreateArray
- [SPARK-33306][SQL] Zona horaria necesaria al convertir fecha en cadena
- [SPARK-33404][SQL][3.0] Corrección de resultados incorrectos en la expresión
3 de noviembre de 2020
- Se ha actualizado la versión de Java de 1.8.0_252 a 1.8.0_265.
- Corrección del bloqueo de ABFS y WASB con respecto a UserGroupInformation.getCurrentUser()
- Se ha corregido un error de bucle infinito del lector de Avro al leer los bytes magic.
13 de octubre de 2020
- Actualizaciones de seguridad del sistema operativo
- [SPARK-32999][SQL] Uso de Utils.getSimpleName para evitar alcanzar el nombre de clase con formato incorrecto en TreeNode
- Corrección de la enumeración de directorios en el montaje de FUSE que contiene nombres de archivo con caracteres XML no válidos
- El montaje de FUSE ya no usa ListMultipartUploads
29 de septiembre de 2020
- [SPARK-28863][SQL][WARMFIX] Adición de AlreadyOptimized para evitar el reanálisis de V1FallbackWriters
- [SPARK-32635][SQL] Corrección de la propagación plegable
- Agregue un nuevo
spark.shuffle.io.decoder.consolidateThreshold
de configuración. Establezca el valor de configuración enLong.MAX_VALUE
para omitir la consolidación de FrameBuffers de Netty, lo que evitajava.lang.IndexOutOfBoundsException
en casos especiales.
24 de septiembre de 2020
- [SPARK-32764] [SQL] -0.0 debe ser igual a 0.0
- [SPARK-32753][SQL] Copia solo de etiquetas en el nodo sin etiquetas al transformar planes
- [SPARK-32659][SQL] Corrección del problema de datos de la eliminación de particiones dinámicas insertada en un tipo no atómico
- Actualizaciones de seguridad del sistema operativo
8 de septiembre de 2020
- Se ha creado un nuevo parámetro para Azure Synapse Analytics,
maxbinlength
. Este parámetro se usa para controlar la longitud de columna de las columnas BinaryType y se traduce comoVARBINARY(maxbinlength)
. Se puede establecer mediante.option("maxbinlength", n)
, donde 0 < n < = 8000.
- Se ha creado un nuevo parámetro para Azure Synapse Analytics,
25 de agosto de 2020
- [SPARK-32159][SQL] Corrección de la integración entre
Aggregator[Array[_], _, _]
yUnresolvedMapObjects
- [SPARK-32559][SQL] Corrección de la lógica de recorte en
UTF8String.toInt/toLong
, que no controló correctamente los caracteres no ASCII - [SPARK-32543][R] Eliminación del uso de
arrow::as_tibble
en SparkR - [SPARK-32091][CORE] Omisión del error de tiempo de espera al quitar bloques en el ejecutor perdido
- Se ha corregido un problema que afectaba al conector de Azure Synapse con credenciales MSI
- Corrección de la resolución ambigua de atributos en la autocombinación
- [SPARK-32159][SQL] Corrección de la integración entre
18 de agosto de 2020
- [SPARK-32594][SQL] Corrección de la serialización de fechas insertadas en tablas de Hive
- [SPARK-32237][SQL] Resolución de una sugerencia en CTE
- [SPARK-32431][SQL] Comprobación de columnas anidadas duplicadas en lectura desde orígenes de datos integrados
- [SPARK-32467][UI] No codificación de la dirección URL dos veces en el redireccionamiento https
- Se ha corregido una condición de carrera en el conector de AQS al usar Trigger.Once.
11 de agosto de 2020
- [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight solo debería volver a escribir atributos para los nodos antecesores del plan de conflictos
- [SPARK-32234][SQL] Los comandos SQL Spark producen errores al seleccionar las tablas ORC
3 de agosto de 2020
- Ahora puede usar la función de transformación LDA en un clúster habilitado para acceso directo.
Databricks Runtime 7.0 (EoS)
Consulte Databricks Runtime 7.0 (EoS).
4 de febrero de 2021
- Se ha corregido una regresión que provocaba que DBFS FUSE no se iniciara cuando las configuraciones de variables de entorno de clúster contenían sintaxis de Bash no válida.
20 de enero de 2021
- Se ha corregido una regresión en la versión de mantenimiento del 12 de enero de 2021 que podía provocar una excepción AnalysisException incorrecta e indicar que la columna era ambigua en una autocombinación. Esta regresión se producía cuando un usuario combinaba un dataframe con su dataframe derivado (conocida como autocombinación) con las condiciones siguientes:
- Estos dos dataframes tienen columnas comunes, pero la salida de la autocombinación no tiene columnas comunes. Por ejemplo:
df.join(df.select($"col" as "new_col"), cond)
- El dataframe derivado excluye algunas columnas a través de select, groupBy o window.
- La condición de combinación o la transformación siguiente después del dataframe combinado hace referencia a las columnas no comunes. Por ejemplo:
df.join(df.drop("a"), df("a") === 1)
- Estos dos dataframes tienen columnas comunes, pero la salida de la autocombinación no tiene columnas comunes. Por ejemplo:
- Se ha corregido una regresión en la versión de mantenimiento del 12 de enero de 2021 que podía provocar una excepción AnalysisException incorrecta e indicar que la columna era ambigua en una autocombinación. Esta regresión se producía cuando un usuario combinaba un dataframe con su dataframe derivado (conocida como autocombinación) con las condiciones siguientes:
12 de enero de 2021
- Actualizaciones de seguridad del sistema operativo
- [SPARK-33593][SQL] El lector de vectores obtuvo datos incorrectos con el valor de partición binaria
- [SPARK-33677][SQL] Omisión de la regla LikeSimplification si el patrón contiene cualquier valor escapeChar
- [SPARK-33071][SPARK-33536][SQL] No modificación de dataset_id de LogicalPlan en join() para no interrumpir DetectAmbiguousSelfJoin
8 de diciembre de 2020
- [SPARK-27421][SQL] Corrección del filtro para la columna int y la clase de valor java.lang.String al eliminar la columna de partición
- [SPARK-33404][SQL] Corrección de resultados incorrectos en la expresión
date_trunc
- [SPARK-33339][PYTHON] Bloqueo de la aplicación Pyspark debido a un error que no es de excepción
- [SPARK-33183][SQL] Corrección de la regla del optimizador EliminateSorts y adición de una regla física para quitar las ordenaciones redundantes
- [SPARK-33391][SQL] Incumplimiento de un índice basado por parte de element_at con CreateArray
- Actualizaciones de seguridad del sistema operativo
1 de diciembre de 2020
- [SPARK-33306][SQL] Zona horaria necesaria al convertir fecha en cadena
3 de noviembre de 2020
- Se ha actualizado la versión de Java de 1.8.0_252 a 1.8.0_265.
- Corrección del bloqueo de ABFS y WASB con respecto a UserGroupInformation.getCurrentUser()
- Se ha corregido un error de bucle infinito del lector de Avro al leer los bytes magic.
13 de octubre de 2020
- Actualizaciones de seguridad del sistema operativo
- [SPARK-32999][SQL] Uso de Utils.getSimpleName para evitar alcanzar el nombre de clase con formato incorrecto en TreeNode
- Corrección de la enumeración de directorios en el montaje de FUSE que contiene nombres de archivo con caracteres XML no válidos
- El montaje de FUSE ya no usa ListMultipartUploads
29 de septiembre de 2020
- [SPARK-28863][SQL][WARMFIX] Adición de AlreadyOptimized para evitar el reanálisis de V1FallbackWriters
- [SPARK-32635][SQL] Corrección de la propagación plegable
- Agregue un nuevo
spark.shuffle.io.decoder.consolidateThreshold
de configuración. Establezca el valor de configuración enLong.MAX_VALUE
para omitir la consolidación de FrameBuffers de Netty, lo que evitajava.lang.IndexOutOfBoundsException
en casos especiales.
24 de septiembre de 2020
- [SPARK-32764] [SQL] -0.0 debe ser igual a 0.0
- [SPARK-32753][SQL] Copia solo de etiquetas en el nodo sin etiquetas al transformar planes
- [SPARK-32659][SQL] Corrección del problema de datos de la eliminación de particiones dinámicas insertada en un tipo no atómico
- Actualizaciones de seguridad del sistema operativo
8 de septiembre de 2020
- Se ha creado un nuevo parámetro para Azure Synapse Analytics,
maxbinlength
. Este parámetro se usa para controlar la longitud de columna de las columnas BinaryType y se traduce comoVARBINARY(maxbinlength)
. Se puede establecer mediante.option("maxbinlength", n)
, donde 0 < n < = 8000.
- Se ha creado un nuevo parámetro para Azure Synapse Analytics,
25 de agosto de 2020
- [SPARK-32159][SQL] Corrección de la integración entre
Aggregator[Array[_], _, _]
yUnresolvedMapObjects
- [SPARK-32559][SQL] Corrección de la lógica de recorte en
UTF8String.toInt/toLong
, que no controló correctamente los caracteres no ASCII - [SPARK-32543][R] Eliminación del uso de
arrow::as_tibble
en SparkR - [SPARK-32091][CORE] Omisión del error de tiempo de espera al quitar bloques en el ejecutor perdido
- Se ha corregido un problema que afectaba al conector de Azure Synapse con credenciales MSI
- Corrección de la resolución ambigua de atributos en la autocombinación
- [SPARK-32159][SQL] Corrección de la integración entre
18 de agosto de 2020
- [SPARK-32594][SQL] Corrección de la serialización de fechas insertadas en tablas de Hive
- [SPARK-32237][SQL] Resolución de una sugerencia en CTE
- [SPARK-32431][SQL] Comprobación de columnas anidadas duplicadas en lectura desde orígenes de datos integrados
- [SPARK-32467][UI] No codificación de la dirección URL dos veces en el redireccionamiento https
- Se ha corregido una condición de carrera en el conector de AQS al usar Trigger.Once.
11 de agosto de 2020
- [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight solo debería volver a escribir atributos para los nodos antecesores del plan de conflictos
- [SPARK-32234][SQL] Los comandos SQL Spark producen errores al seleccionar las tablas ORC
- Ahora puede usar la función de transformación LDA en un clúster habilitado para acceso directo.
Databricks Runtime 6.6 (EoS)
Consulte Databricks Runtime 6.6 (EoS).
1 de diciembre de 2020
- [SPARK-33260][SQL] Corrección de resultados incorrectos de SortExec cuando sortOrder es Stream
- [SPARK-32635][SQL] Corrección de la propagación plegable
3 de noviembre de 2020
- Se ha actualizado la versión de Java de 1.8.0_252 a 1.8.0_265.
- Corrección del bloqueo de ABFS y WASB con respecto a UserGroupInformation.getCurrentUser()
- Se ha corregido un error de bucle infinito del lector de Avro al leer los bytes magic.
13 de octubre de 2020
- Actualizaciones de seguridad del sistema operativo
- [SPARK-32999][SQL][2.4] Uso de Utils.getSimpleName para evitar alcanzar el nombre de clase con formato incorrecto en TreeNode
- Corrección de la enumeración de directorios en el montaje de FUSE que contiene nombres de archivo con caracteres XML no válidos
- El montaje de FUSE ya no usa ListMultipartUploads
24 de septiembre de 2020
- Actualizaciones de seguridad del sistema operativo
8 de septiembre de 2020
- Se ha creado un nuevo parámetro para Azure Synapse Analytics,
maxbinlength
. Este parámetro se usa para controlar la longitud de columna de las columnas BinaryType y se traduce comoVARBINARY(maxbinlength)
. Se puede establecer mediante.option("maxbinlength", n)
, donde 0 < n < = 8000. - Actualice el SDK de Azure Storage a la versión 8.6.4 y habilite la función para mantener la conexión de TCP en las conexiones hechas por el controlador WASB.
- Se ha creado un nuevo parámetro para Azure Synapse Analytics,
25 de agosto de 2020
- Corrección de la resolución ambigua de atributos en la autocombinación
18 de agosto de 2020
- [SPARK-32431][SQL] Comprobación de columnas anidadas duplicadas en lectura desde orígenes de datos integrados
- Se ha corregido una condición de carrera en el conector de AQS al usar Trigger.Once.
11 de agosto de 2020
- [SPARK-28676][CORE] Prevención del registro excesivo de ContextCleaner
- [SPARK-31967][UI] Degradación a vis.js 4.21.0 para corregir la regresión del tiempo de carga de la interfaz de usuario de trabajos
3 de agosto de 2020
- Ahora puede usar la función de transformación LDA en un clúster habilitado para acceso directo.
- Actualizaciones de seguridad del sistema operativo
Databricks Runtime 6.5 (EoS)
Consulte Databricks Runtime 6.5 (EoS).
- 24 de septiembre de 2020
- Se ha corregido una limitación anterior por la que el acceso directo en el clúster estándar restringía igualmente la implementación del sistema de archivos empleada por el usuario. Ahora, los usuarios podrán acceder a los sistemas de archivos locales sin restricciones.
- Actualizaciones de seguridad del sistema operativo
- 8 de septiembre de 2020
- Se ha creado un nuevo parámetro para Azure Synapse Analytics,
maxbinlength
. Este parámetro se usa para controlar la longitud de columna de las columnas BinaryType y se traduce comoVARBINARY(maxbinlength)
. Se puede establecer mediante.option("maxbinlength", n)
, donde 0 < n < = 8000. - Actualice el SDK de Azure Storage a la versión 8.6.4 y habilite la función para mantener la conexión de TCP en las conexiones hechas por el controlador WASB.
- Se ha creado un nuevo parámetro para Azure Synapse Analytics,
- 25 de agosto de 2020
- Corrección de la resolución ambigua de atributos en la autocombinación
- 18 de agosto de 2020
- [SPARK-32431][SQL] Comprobación de columnas anidadas duplicadas en lectura desde orígenes de datos integrados
- Se ha corregido una condición de carrera en el conector de AQS al usar Trigger.Once.
- 11 de agosto de 2020
- [SPARK-28676][CORE] Prevención del registro excesivo de ContextCleaner
- 3 de agosto de 2020
- Ahora puede usar la función de transformación LDA en un clúster habilitado para acceso directo.
- Actualizaciones de seguridad del sistema operativo
- 7 de julio de 2020
- Se ha actualizado la versión de Java de la versión 1.8.0_242 a la 1.8.0_252.
- 21 de abril de 2020
- [SPARK-31312][SQL] Instancia de clase de caché para la instancia de UDF en HiveFunctionWrapper
Databricks Runtime 6.3 (EoS)
Consulte Databricks Runtime 6.3 (EoS).
- 7 de julio de 2020
- Se ha actualizado la versión de Java de la versión 1.8.0_232 a la 1.8.0_252.
- 21 de abril de 2020
- [SPARK-31312][SQL] Instancia de clase de caché para la instancia de UDF en HiveFunctionWrapper
- 7 de abril de 2020
- A fin de resolver un problema con pandas de UDF que no funciona con PyArrow 0.15.0 y versiones posteriores, hemos agregado una variable de entorno (
ARROW_PRE_0_15_IPC_FORMAT=1
) para habilitar la compatibilidad con las versiones de PyArrow mencionadas. Consulte las instrucciones de [SPARK-29367].
- A fin de resolver un problema con pandas de UDF que no funciona con PyArrow 0.15.0 y versiones posteriores, hemos agregado una variable de entorno (
- 10 de marzo de 2020
- El conector de Snowflake (
spark-snowflake_2.11
) incluido en Databricks Runtime se actualiza a la versión 2.5.9.snowflake-jdbc
se actualiza a la versión 3.12.0.
- El conector de Snowflake (
- 18 de febrero de 2020
- El acceso directo a credenciales con ADLS Gen2 presenta una degradación del rendimiento debido a un control local incorrecto de subprocesos cuando está habilitada la captura previa del cliente de ADLS. En esta versión se deshabilita la captura previa de ADLS Gen2 cuando se habilita el acceso directo a credenciales hasta que se disponga de una corrección adecuada.
- 11 de febrero de 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 debería producir una excepción
- [SPARK-30447][SQL] Problema de nulabilidad en la propagación de constantes
- [SPARK-28152][SQL] Adición de un conf heredado para la asignación numérica antigua de MsSqlServerDialect
- Se ha permitido la función de sobrescritura para que MLModels amplíe MLWriter y pueda llamar a la función.
Databricks Runtime 6.2 (EoS)
Consulte Databricks Runtime 6.2 (EoS).
- 21 de abril de 2020
- [SPARK-31312][SQL] Instancia de clase de caché para la instancia de UDF en HiveFunctionWrapper
- 7 de abril de 2020
- A fin de resolver un problema con pandas de UDF que no funciona con PyArrow 0.15.0 y versiones posteriores, hemos agregado una variable de entorno (
ARROW_PRE_0_15_IPC_FORMAT=1
) para habilitar la compatibilidad con las versiones de PyArrow mencionadas. Consulte las instrucciones de [SPARK-29367].
- A fin de resolver un problema con pandas de UDF que no funciona con PyArrow 0.15.0 y versiones posteriores, hemos agregado una variable de entorno (
- 25 de marzo de 2020
- La salida de trabajos, como la salida del registro que se emite a stdout, está sujeta a un límite de tamaño de 20 MB. Si la salida total tiene un tamaño mayor, la ejecución se cancelará y se marcará como con errores. Para evitar alcanzar este límite, puede impedir que stdout se devuelva desde el controlador estableciendo la configuración para Spark de
spark.databricks.driver.disableScalaOutput
entrue
. De forma predeterminada, el valor de marca esfalse
. La marca permite controlar la salida de celda para los trabajos JAR y los cuadernos de Scala. Si la marca está habilitada, Spark no devuelve los resultados de la ejecución del trabajo al cliente. La marca no afecta a los datos escritos en los archivos de registro del clúster. Solo se recomienda establecer esta marca en clústeres automatizados para trabajos JAR, ya que deshabilitará los resultados del cuaderno.
- La salida de trabajos, como la salida del registro que se emite a stdout, está sujeta a un límite de tamaño de 20 MB. Si la salida total tiene un tamaño mayor, la ejecución se cancelará y se marcará como con errores. Para evitar alcanzar este límite, puede impedir que stdout se devuelva desde el controlador estableciendo la configuración para Spark de
- 10 de marzo de 2020
- El conector de Snowflake (
spark-snowflake_2.11
) incluido en Databricks Runtime se actualiza a la versión 2.5.9.snowflake-jdbc
se actualiza a la versión 3.12.0.
- El conector de Snowflake (
- 18 de febrero de 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 debería producir una excepción
- El acceso directo a credenciales con ADLS Gen2 presenta una degradación del rendimiento debido a un control local incorrecto de subprocesos cuando está habilitada la captura previa del cliente de ADLS. En esta versión se deshabilita la captura previa de ADLS Gen2 cuando se habilita el acceso directo a credenciales hasta que se disponga de una corrección adecuada.
- 28 de enero de 2020
- Se ha permitido la función de sobrescritura de los escritores del modelo de ML para los clústeres habilitados para el acceso directo a credenciales, de modo que el modelo guardado pueda usar el modo de sobrescritura en clústeres con acceso directo a credenciales.
- [SPARK-30447][SQL] Problema de nulabilidad en la propagación de constantes
- [SPARK-28152][SQL] Adición de un conf heredado para la asignación numérica antigua de MsSqlServerDialect
- 14 de enero de 2020
- Se ha actualizado la versión de Java de la versión 1.8.0_222 a la 1.8.0_232.
- 10 de diciembre de 2019
- [SPARK-29904][SQL] Análisis de marcas de tiempo con un precisión de microsegundos por origen de datos JSON/CSV
Databricks Runtime 6.1 (EoS)
Consulte Databricks Runtime 6.1 (EoS).
- 7 de abril de 2020
- A fin de resolver un problema con pandas de UDF que no funciona con PyArrow 0.15.0 y versiones posteriores, hemos agregado una variable de entorno (
ARROW_PRE_0_15_IPC_FORMAT=1
) para habilitar la compatibilidad con las versiones de PyArrow mencionadas. Consulte las instrucciones de [SPARK-29367].
- A fin de resolver un problema con pandas de UDF que no funciona con PyArrow 0.15.0 y versiones posteriores, hemos agregado una variable de entorno (
- 25 de marzo de 2020
- La salida de trabajos, como la salida del registro que se emite a stdout, está sujeta a un límite de tamaño de 20 MB. Si la salida total tiene un tamaño mayor, la ejecución se cancelará y se marcará como con errores. Para evitar alcanzar este límite, puede impedir que stdout se devuelva desde el controlador estableciendo la configuración para Spark de
spark.databricks.driver.disableScalaOutput
entrue
. De forma predeterminada, el valor de marca esfalse
. La marca permite controlar la salida de celda para los trabajos JAR y los cuadernos de Scala. Si la marca está habilitada, Spark no devuelve los resultados de la ejecución del trabajo al cliente. La marca no afecta a los datos escritos en los archivos de registro del clúster. Solo se recomienda establecer esta marca en clústeres automatizados para trabajos JAR, ya que deshabilitará los resultados del cuaderno.
- La salida de trabajos, como la salida del registro que se emite a stdout, está sujeta a un límite de tamaño de 20 MB. Si la salida total tiene un tamaño mayor, la ejecución se cancelará y se marcará como con errores. Para evitar alcanzar este límite, puede impedir que stdout se devuelva desde el controlador estableciendo la configuración para Spark de
- 10 de marzo de 2020
- El conector de Snowflake (
spark-snowflake_2.11
) incluido en Databricks Runtime se actualiza a la versión 2.5.9.snowflake-jdbc
se actualiza a la versión 3.12.0.
- El conector de Snowflake (
- 18 de febrero de 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 debería producir una excepción
- El acceso directo a credenciales con ADLS Gen2 presenta una degradación del rendimiento debido a un control local incorrecto de subprocesos cuando está habilitada la captura previa del cliente de ADLS. En esta versión se deshabilita la captura previa de ADLS Gen2 cuando se habilita el acceso directo a credenciales hasta que se disponga de una corrección adecuada.
- 28 de enero de 2020
- [SPARK-30447][SQL] Problema de nulabilidad en la propagación de constantes
- [SPARK-28152][SQL] Adición de un conf heredado para la asignación numérica antigua de MsSqlServerDialect
- 14 de enero de 2020
- Se ha actualizado la versión de Java de la versión 1.8.0_222 a la 1.8.0_232.
- 7 de noviembre de 2019
- [SPARK-29743][SQL] La muestra debe establecer needCopyResult en true si el valor needCopyResult de su elemento secundario es true
- Secretos a los que hacen referencia las propiedades de configuración y las variables de entorno de Spark en la versión preliminar pública. Consulte Usar un secreto en una variable de entorno y propiedad de configuración de Spark.
- 5 de noviembre de 2019
- Se ha corregido un error en DBFS FUSE para controlar los puntos de montaje que tienen
//
en su ruta de acceso. - [SPARK-29081] Reemplazo de las llamadas a SerializationUtils.clone en propiedades con una implementación más rápida
- [SPARK-29244][CORE] Prevención de que la página liberada en BytesToBytesMap se libere otra vez
- (6.1 ML) Instalación no intencionada de la biblioteca mkl 2019.4 Se ha degradado a mkl 2019.3 para que coincida con Anaconda Distribution 2019.03.
- Se ha corregido un error en DBFS FUSE para controlar los puntos de montaje que tienen
Databricks Runtime 6.0 (EoS)
Consulte Databricks Runtime 6.0 (EoS).
- 25 de marzo de 2020
- La salida de trabajos, como la salida del registro que se emite a stdout, está sujeta a un límite de tamaño de 20 MB. Si la salida total tiene un tamaño mayor, la ejecución se cancelará y se marcará como con errores. Para evitar alcanzar este límite, puede impedir que stdout se devuelva desde el controlador estableciendo la configuración para Spark de
spark.databricks.driver.disableScalaOutput
entrue
. De forma predeterminada, el valor de marca esfalse
. La marca permite controlar la salida de celda para los trabajos JAR y los cuadernos de Scala. Si la marca está habilitada, Spark no devuelve los resultados de la ejecución del trabajo al cliente. La marca no afecta a los datos escritos en los archivos de registro del clúster. Solo se recomienda establecer esta marca en clústeres automatizados para trabajos JAR, ya que deshabilitará los resultados del cuaderno.
- La salida de trabajos, como la salida del registro que se emite a stdout, está sujeta a un límite de tamaño de 20 MB. Si la salida total tiene un tamaño mayor, la ejecución se cancelará y se marcará como con errores. Para evitar alcanzar este límite, puede impedir que stdout se devuelva desde el controlador estableciendo la configuración para Spark de
- 18 de febrero de 2020
- El acceso directo a credenciales con ADLS Gen2 presenta una degradación del rendimiento debido a un control local incorrecto de subprocesos cuando está habilitada la captura previa del cliente de ADLS. En esta versión se deshabilita la captura previa de ADLS Gen2 cuando se habilita el acceso directo a credenciales hasta que se disponga de una corrección adecuada.
- 11 de febrero de 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 debería producir una excepción
- 28 de enero de 2020
- [SPARK-30447][SQL] Problema de nulabilidad en la propagación de constantes
- [SPARK-28152][SQL] Adición de un conf heredado para la asignación numérica antigua de MsSqlServerDialect
- 14 de enero de 2020
- Se ha actualizado la versión de Java de la versión 1.8.0_222 a la 1.8.0_232.
- 19 de noviembre de 2019
- [SPARK-29743][SQL] La muestra debe establecer needCopyResult en true si el valor needCopyResult de su elemento secundario es true
- 5 de noviembre de 2019
dbutils.tensorboard.start()
ahora admite TensorBoard 2.0 (si se instala manualmente).- Se ha corregido un error en DBFS FUSE para controlar los puntos de montaje que tienen
//
en su ruta de acceso. - [SPARK-29081] Reemplazo de las llamadas a SerializationUtils.clone en propiedades con una implementación más rápida
- 23 de octubre de 2019
- [SPARK-29244][CORE] Prevención de que la página liberada en BytesToBytesMap se libere otra vez
- 8 de octubre de 2019
- Cambios en el lado servidor para permitir que el controlador ODBC de Simba Apache Spark se vuelva a conectar y continúe después de un error de conexión durante la captura de resultados (requiere el controlador de Simba Apache Spark ODBC en la versión 2.6.10).
- Se ha corregido un problema que afectaba al uso del comando
Optimize
con clústeres habilitados para ACL de tabla. - Se ha corregido un problema que causaba un error en las bibliotecas
pyspark.ml
debido a un error prohibido de la UDF de Scala en los clústeres habilitados para ACL de tabla y el acceso directo a credenciales. - Métodos SerDe y SerDeUtil permitidos para el acceso directo a credenciales
- Se ha corregido NullPointerException al comprobar el código de error en el cliente de WASB.
- Se ha corregido el problema por el que las credenciales de usuario no se reenviaban a los trabajos creados por
dbutils.notebook.run()
.
Databricks Runtime 5.4 ML (EoS)
Consulte Databricks Runtime 5.4 para ML (EoS).
- 18 de junio de 2019
- Control mejorado de las ejecuciones activas de MLflow en la integración de Hyperopt
- Mensajes mejorados en Hyperopt
- Paquete
Marchkdown
actualizado de la versión 3.1 a la 3.1.1
Databricks Runtime 5.4 (EoS)
Consulte Databricks Runtime 5.4 (EoS).
- 19 de noviembre de 2019
- [SPARK-29743][SQL] La muestra debe establecer needCopyResult en true si el valor needCopyResult de su elemento secundario es true
- 8 de octubre de 2019
- Cambios en el lado servidor para permitir que el controlador ODBC de Simba Apache Spark se vuelva a conectar y continúe después de un error de conexión durante la captura de resultados (requiere la actualización del controlador de Simba Apache Spark ODBC a la versión 2.6.10).
- Se ha corregido NullPointerException al comprobar el código de error en el cliente de WASB.
- 10 de septiembre de 2019
- Adición de un iterador seguro para subprocesos a BytesToBytesMap
- Se ha corregido un error que afectaba a determinadas consultas de agregación globales.
- [SPARK-27330][SS] Anulación de tarea de soporte en el escritor foreach
- [SPARK-28642]Ocultación de credenciales en SHOW CREATE TABLE
- [SPARK-28699][SQL] Deshabilitación del uso de la ordenación radix para ShuffleExchangeExec en el caso de repartición
- [SPARK-28699][CORE] Corrección de un caso especial para anular una fase indeterminada.
- 27 de agosto de 2019
- Se ha corregido un problema que afectaba a determinadas expresiones
transform
.
- Se ha corregido un problema que afectaba a determinadas expresiones
- 13 de agosto de 2019
- El origen de streaming de Delta debe comprobar el protocolo más reciente de una tabla
- [SPARK-28489][SS] Se ha corregido un error por el que KafkaOffsetRangeCalculator.getRanges podía quitar desplazamientos.
- 30 de julio de 2019
- [SPARK-28015][SQL] Check stringToDate() consume la entrada completa para los formatos yyyy y yyyy-[m]m
- [SPARK-28308][CORE] Se debe agregar la parte del subsegundo CalendarInterval antes del análisis
- [SPARK-27485] EnsureRequirements.reorder debería controlar correctamente las expresiones duplicadas
- 2 de julio de 2019
- Se ha actualizado snappy-java de la versión 1.1.7.1 a la 1.1.7.3.
- 18 de junio de 2019
- Control mejorado de las ejecuciones activas de MLflow en la integración de MLlib
- Se ha mejorado el mensaje de Databricks Advisor relacionado con el uso de la caché de disco
- Se ha corregido un error que afectaba al uso de funciones de orden superior.
- Se ha corregido un error que afectaba a las consultas de metadatos Delta.
Databricks Runtime 5.3 (EoS)
Consulte Databricks Runtime 5.3 (EoS).
- 7 de noviembre de 2019
- [SPARK-29743][SQL] La muestra debe establecer needCopyResult en true si el valor needCopyResult de su elemento secundario es true
- 8 de octubre de 2019
- Cambios en el lado servidor para permitir que el controlador ODBC de Simba Apache Spark se vuelva a conectar y continúe después de un error de conexión durante la captura de resultados (requiere la actualización del controlador de Simba Apache Spark ODBC a la versión 2.6.10).
- Se ha corregido NullPointerException al comprobar el código de error en el cliente de WASB.
- 10 de septiembre de 2019
- Adición de un iterador seguro para subprocesos a BytesToBytesMap
- Se ha corregido un error que afectaba a determinadas consultas de agregación globales.
- [SPARK-27330][SS] Anulación de tarea de soporte en el escritor foreach
- [SPARK-28642]Ocultación de credenciales en SHOW CREATE TABLE
- [SPARK-28699][SQL] Deshabilitación del uso de la ordenación radix para ShuffleExchangeExec en el caso de repartición
- [SPARK-28699][CORE] Corrección de un caso especial para anular una fase indeterminada.
- 27 de agosto de 2019
- Se ha corregido un problema que afectaba a determinadas expresiones
transform
.
- Se ha corregido un problema que afectaba a determinadas expresiones
- 13 de agosto de 2019
- El origen de streaming de Delta debe comprobar el protocolo más reciente de una tabla
- [SPARK-28489][SS] Se ha corregido un error por el que KafkaOffsetRangeCalculator.getRanges podía quitar desplazamientos.
- 30 de julio de 2019
- [SPARK-28015][SQL] Check stringToDate() consume la entrada completa para los formatos yyyy y yyyy-[m]m
- [SPARK-28308][CORE] Se debe agregar la parte del subsegundo CalendarInterval antes del análisis
- [SPARK-27485] EnsureRequirements.reorder debería controlar correctamente las expresiones duplicadas
- 18 de junio de 2019
- Se ha mejorado el mensaje de Databricks Advisor relacionado con el uso de la caché de disco
- Se ha corregido un error que afectaba al uso de funciones de orden superior.
- Se ha corregido un error que afectaba a las consultas de metadatos Delta.
- 28 de mayo de 2019
- Mejora de la estabilidad de Delta
- Tolerancia de IOExceptions al leer el archivo LAST_CHECKPOINT de Delta
- Se ha agregado la recuperación a la instalación de la biblioteca con errores.
- 7 de mayo de 2019
- Puerto HADOOP-15778 (ABFS: corrección de la limitación del lado cliente para lectura) al conector de Azure Data Lake Storage Gen2
- Puerto HADOOP-16040 (ABFS: corrección de errores para la configuración de tolerateOobAppends) a Azure Data Lake Storage Gen2
- Se ha corregido un error que afectaba a las ACL de tabla.
- Se ha corregido una condición de carrera al cargar un archivo de suma de comprobación de registro Delta.
- Se ha corregido la lógica de detección de conflictos de Delta para que no se identifique "insertar + sobrescribir" como operación de "anexar" pura.
- Comprobación de que la caché de disco no esté deshabilitada cuando las ACL de tabla estén habilitadas
- [SPARK-27494][SS] Los valores o claves NULL no funcionan en el origen de Kafka 2
- [SPARK-27446][R] Uso del conf de Spark actual si está disponible
- [SPARK-27454][SPARK-27454] [ML][SQL] Error en el origen de datos de imagen de Spark al encontrar algunas imágenes no válidas
- [SPARK-27160][SQL] Corrección de DecimalType al compilar filtros orc
- [SPARK-27338][CORE] Corrección del interbloqueo entre UnsafeExternalSorter y TaskMemoryManager
Databricks Runtime 5.2 (EoS)
Consulte Databricks Runtime 5.2 (EoS).
- 10 de septiembre de 2019
- Adición de un iterador seguro para subprocesos a BytesToBytesMap
- Se ha corregido un error que afectaba a determinadas consultas de agregación globales.
- [SPARK-27330][SS] Anulación de tarea de soporte en el escritor foreach
- [SPARK-28642]Ocultación de credenciales en SHOW CREATE TABLE
- [SPARK-28699][SQL] Deshabilitación del uso de la ordenación radix para ShuffleExchangeExec en el caso de repartición
- [SPARK-28699][CORE] Corrección de un caso especial para anular una fase indeterminada.
- 27 de agosto de 2019
- Se ha corregido un problema que afectaba a determinadas expresiones
transform
.
- Se ha corregido un problema que afectaba a determinadas expresiones
- 13 de agosto de 2019
- El origen de streaming de Delta debe comprobar el protocolo más reciente de una tabla
- [SPARK-28489][SS] Se ha corregido un error por el que KafkaOffsetRangeCalculator.getRanges podía quitar desplazamientos.
- 30 de julio de 2019
- [SPARK-28015][SQL] Check stringToDate() consume la entrada completa para los formatos yyyy y yyyy-[m]m
- [SPARK-28308][CORE] Se debe agregar la parte del subsegundo CalendarInterval antes del análisis
- [SPARK-27485] EnsureRequirements.reorder debería controlar correctamente las expresiones duplicadas
- 2 de julio de 2019
- Tolerancia de IOExceptions al leer el archivo LAST_CHECKPOINT de Delta
- 18 de junio de 2019
- Se ha mejorado el mensaje de Databricks Advisor relacionado con el uso de la caché de disco
- Se ha corregido un error que afectaba al uso de funciones de orden superior.
- Se ha corregido un error que afectaba a las consultas de metadatos Delta.
- 28 de mayo de 2019
- Se ha agregado la recuperación a la instalación de la biblioteca con errores.
- 7 de mayo de 2019
- Puerto HADOOP-15778 (ABFS: corrección de la limitación del lado cliente para lectura) al conector de Azure Data Lake Storage Gen2
- Puerto HADOOP-16040 (ABFS: corrección de errores para la configuración de tolerateOobAppends) a Azure Data Lake Storage Gen2
- Se ha corregido una condición de carrera al cargar un archivo de suma de comprobación de registro Delta.
- Se ha corregido la lógica de detección de conflictos de Delta para que no se identifique "insertar + sobrescribir" como operación de "anexar" pura.
- Comprobación de que la caché de disco no esté deshabilitada cuando las ACL de tabla estén habilitadas
- [SPARK-27494][SS] Los valores o claves NULL no funcionan en el origen de Kafka 2
- [SPARK-27454][SPARK-27454] [ML][SQL] Error en el origen de datos de imagen de Spark al encontrar algunas imágenes no válidas
- [SPARK-27160][SQL] Corrección de DecimalType al compilar filtros orc
- [SPARK-27338][CORE] Corrección del interbloqueo entre UnsafeExternalSorter y TaskMemoryManager
- 26 de marzo de 2019
- Evite insertar desplazamientos dependientes de la plataforma literalmente en el código generado en toda la fase.
- [SPARK-26665][CORE] Se ha corregido un error que podía hacer que BlockTransferService.fetchBlockSync se bloqueara indefinidamente.
- [SPARK-27134][SQL] La función array_distinct no funciona correctamente con columnas que contienen la matriz de matriz
- [SPARK-24669][SQL] Invalidación de tablas en caso de DROP DATABASE CASCADE
- [SPARK-26572][SQL] Corrección de la evaluación de resultados de codegen agregados
- Se ha corregido un error que afectaba a determinadas UDF Python.
- 26 de febrero de 2019
- [SPARK-26864][SQL] La consulta puede devolver un resultado incorrecto cuando se usa una UDF Python como condición de combinación parcial a la izquierda.
- [SPARK-26887][PYTHON] Creación de datetime.date directamente en lugar de usar datetime64 como datos intermedios
- Se ha corregido un error que afectaba al servidor JDBC u ODBC.
- Se ha corregido un error que afectaba a PySpark.
- Excluya los archivos ocultos al compilar HadoopRDD.
- Se ha corregido un error en Delta que provocaba problemas de serialización.
- 12 de febrero de 2019
- Se ha corregido un problema que afectaba al uso de Delta con los puntos de montaje de Azure ADLS Gen2.
- Se ha corregido un problema que provocaba que el protocolo de red de bajo nivel de Spark se rompiera al enviar mensajes de error de RPC de gran tamaño con cifrado habilitado (cuando
spark.network.crypto.enabled
se establecía en true).
- 30 de enero de 2019
- Se ha corregido el error StackOverflowError al colocar la sugerencia de combinación de sesgo en la relación almacenada en caché.
- Se ha corregido la incoherencia entre el RDD almacenado en caché de la caché de SQL y su plan físico, que provocaba un resultado incorrecto.
- [SPARK-26706][SQL] Corrección de
illegalNumericPrecedence
para ByteType. - [SPARK-26709][SQL] Falta de control correcto de los registros vacíos por parte de OptimizeMetadataOnlyQuery
- Los orígenes de datos CSV/JSON deben evitar las rutas comodín g al inferir el esquema.
- Se ha corregido la inferencia de restricciones en el operador Window.
- Se ha corregido un problema que afectaba a la instalación de bibliotecas egg con clústeres que tienen habilitadas las ACL de tabla.
Databricks Runtime 5.1 (EoS)
Consulte Databricks Runtime 5.1 (EoS).
- 13 de agosto de 2019
- El origen de streaming de Delta debe comprobar el protocolo más reciente de una tabla
- [SPARK-28489][SS] Se ha corregido un error por el que KafkaOffsetRangeCalculator.getRanges podía quitar desplazamientos.
- 30 de julio de 2019
- [SPARK-28015][SQL] Check stringToDate() consume la entrada completa para los formatos yyyy y yyyy-[m]m
- [SPARK-28308][CORE] Se debe agregar la parte del subsegundo CalendarInterval antes del análisis
- [SPARK-27485] EnsureRequirements.reorder debería controlar correctamente las expresiones duplicadas
- 2 de julio de 2019
- Tolerancia de IOExceptions al leer el archivo LAST_CHECKPOINT de Delta
- 18 de junio de 2019
- Se ha corregido un error que afectaba al uso de funciones de orden superior.
- Se ha corregido un error que afectaba a las consultas de metadatos Delta.
- 28 de mayo de 2019
- Se ha agregado la recuperación a la instalación de la biblioteca con errores.
- 7 de mayo de 2019
- Puerto HADOOP-15778 (ABFS: corrección de la limitación del lado cliente para lectura) al conector de Azure Data Lake Storage Gen2
- Puerto HADOOP-16040 (ABFS: corrección de errores para la configuración de tolerateOobAppends) a Azure Data Lake Storage Gen2
- Se ha corregido una condición de carrera al cargar un archivo de suma de comprobación de registro Delta.
- Se ha corregido la lógica de detección de conflictos de Delta para que no se identifique "insertar + sobrescribir" como operación de "anexar" pura.
- [SPARK-27494][SS] Los valores o claves NULL no funcionan en el origen de Kafka 2
- [SPARK-27454][SPARK-27454] [ML][SQL] Error en el origen de datos de imagen de Spark al encontrar algunas imágenes no válidas
- [SPARK-27160][SQL] Corrección de DecimalType al compilar filtros orc
- [SPARK-27338][CORE] Corrección del interbloqueo entre UnsafeExternalSorter y TaskMemoryManager
- 26 de marzo de 2019
- Evite insertar desplazamientos dependientes de la plataforma literalmente en el código generado en toda la fase.
- Se ha corregido un error que afectaba a determinadas UDF Python.
- 26 de febrero de 2019
- [SPARK-26864][SQL] La consulta puede devolver un resultado incorrecto cuando se usa una UDF Python como condición de combinación parcial a la izquierda.
- Se ha corregido un error que afectaba al servidor JDBC u ODBC.
- Excluya los archivos ocultos al compilar HadoopRDD.
- 12 de febrero de 2019
- Se ha corregido un problema que afectaba a la instalación de bibliotecas egg con clústeres que tienen habilitadas las ACL de tabla.
- Se ha corregido la incoherencia entre el RDD almacenado en caché de la caché de SQL y su plan físico, que provocaba un resultado incorrecto.
- [SPARK-26706][SQL] Corrección de
illegalNumericPrecedence
para ByteType. - [SPARK-26709][SQL] Falta de control correcto de los registros vacíos por parte de OptimizeMetadataOnlyQuery
- Se ha corregido la inferencia de restricciones en el operador Window.
- Se ha corregido un problema que provocaba que el protocolo de red de bajo nivel de Spark se rompiera al enviar mensajes de error de RPC de gran tamaño con cifrado habilitado (cuando
spark.network.crypto.enabled
se establecía en true).
- 30 de enero de 2019
- Se ha corregido un problema que podía hacer que
df.rdd.count()
con UDT devolviera una respuesta incorrecta en determinados casos. - Se ha corregido un problema que afectaba a la instalación de elementos wheelhouse.
- [SPARK-26267] Reintento al detectar desplazamientos incorrectos de Kafka
- Se ha corregido un error que afectaba a varios orígenes de flujo de archivos en una consulta de streaming.
- Se ha corregido el error StackOverflowError al colocar la sugerencia de combinación de sesgo en la relación almacenada en caché.
- Se ha corregido la incoherencia entre el RDD almacenado en caché de la caché de SQL y su plan físico, que provocaba un resultado incorrecto.
- Se ha corregido un problema que podía hacer que
- 8 de enero de 2019
- Se ha corregido un problema que provocaba el error
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - [SPARK-26352] La reordenación de combinación no debería cambiar el orden de los atributos de salida
- [SPARK-26366] ReplaceExceptWithFilter deberá considerar NULL como False.
- Mejora de la estabilidad de Delta Lake
- Delta Lake está habilitado.
- Se ha corregido el problema que no permitía acceder a Azure Data Lake Storage Gen2 cuando estaba habilitado el acceso directo a credenciales de Microsoft Entra ID en Azure Data Lake Storage Gen1.
- La caché de E/S de Databricks ahora está habilitada para los tipos de instancia de trabajo de la serie Ls para todos los planes de tarifa.
- Se ha corregido un problema que provocaba el error
Databricks Runtime 5.0 (EoS)
Consulte Databricks Runtime 5.0 (EoS).
- 18 de junio de 2019
- Se ha corregido un error que afectaba al uso de funciones de orden superior.
- 7 de mayo de 2019
- Se ha corregido una condición de carrera al cargar un archivo de suma de comprobación de registro Delta.
- Se ha corregido la lógica de detección de conflictos de Delta para que no se identifique "insertar + sobrescribir" como operación de "anexar" pura.
- [SPARK-27494][SS] Los valores o claves NULL no funcionan en el origen de Kafka 2
- [SPARK-27454][SPARK-27454] [ML][SQL] Error en el origen de datos de imagen de Spark al encontrar algunas imágenes no válidas
- [SPARK-27160][SQL] Corrección de DecimalType al compilar filtros orc
- [SPARK-27338][CORE] Corrección del interbloqueo entre UnsafeExternalSorter y TaskMemoryManager
- 26 de marzo de 2019
- Evite insertar desplazamientos dependientes de la plataforma literalmente en el código generado en toda la fase.
- Se ha corregido un error que afectaba a determinadas UDF Python.
- 12 de marzo de 2019
- [SPARK-26864][SQL] La consulta puede devolver un resultado incorrecto cuando se usa una UDF Python como condición de combinación parcial a la izquierda.
- 26 de febrero de 2019
- Se ha corregido un error que afectaba al servidor JDBC u ODBC.
- Excluya los archivos ocultos al compilar HadoopRDD.
- 12 de febrero de 2019
- Se ha corregido la incoherencia entre el RDD almacenado en caché de la caché de SQL y su plan físico, que provocaba un resultado incorrecto.
- [SPARK-26706][SQL] Corrección de
illegalNumericPrecedence
para ByteType. - [SPARK-26709][SQL] Falta de control correcto de los registros vacíos por parte de OptimizeMetadataOnlyQuery
- Se ha corregido la inferencia de restricciones en el operador Window.
- Se ha corregido un problema que provocaba que el protocolo de red de bajo nivel de Spark se rompiera al enviar mensajes de error de RPC de gran tamaño con cifrado habilitado (cuando
spark.network.crypto.enabled
se establecía en true).
- 30 de enero de 2019
- Se ha corregido un problema que podía hacer que
df.rdd.count()
con UDT devolviera una respuesta incorrecta en determinados casos. - [SPARK-26267] Reintento al detectar desplazamientos incorrectos de Kafka
- Se ha corregido un error que afectaba a varios orígenes de flujo de archivos en una consulta de streaming.
- Se ha corregido el error StackOverflowError al colocar la sugerencia de combinación de sesgo en la relación almacenada en caché.
- Se ha corregido la incoherencia entre el RDD almacenado en caché de la caché de SQL y su plan físico, que provocaba un resultado incorrecto.
- Se ha corregido un problema que podía hacer que
- 8 de enero de 2019
- Se ha corregido un problema que provocaba el error
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - [SPARK-26352] La reordenación de combinación no debería cambiar el orden de los atributos de salida
- [SPARK-26366] ReplaceExceptWithFilter deberá considerar NULL como False.
- Mejora de la estabilidad de Delta Lake
- Delta Lake está habilitado.
- La caché de E/S de Databricks ahora está habilitada para los tipos de instancia de trabajo de la serie Ls para todos los planes de tarifa.
- Se ha corregido un problema que provocaba el error
- 18 de diciembre de 2018
- [SPARK-26293] Excepción de conversión al tener UDF de Python en la subconsulta
- Se ha corregido un problema que afectaba a determinadas consultas mediante Join y Limit.
- Credenciales eliminadas de nombres RDD en la interfaz de usuario de Spark
- 6 de diciembre de 2018
- Se ha corregido un problema que provocaba un resultado de consulta incorrecto al usar orderBy seguido inmediatamente de groupBy con la clave group-by como parte inicial de la clave sort-by.
- Actualización del conector de Snowflake para Spark de la versión 2.4.9.2-spark_2.4_pre_release a la 2.4.10
- Omita solo los archivos dañados después de uno o varios reintentos cuando la marca
spark.sql.files.ignoreCorruptFiles
ospark.sql.files.ignoreMissingFiles
esté habilitada. - Se ha corregido un problema que afectaba a determinadas consultas de autocombinación.
- Se ha corregido un error con el servidor Thrift por el que las sesiones a veces se perdían cuando se cancelaban.
- [SPARK-26307] Corrección de CTAS al insertar una tabla con particiones mediante SerDe de Hive.
- [SPARK-26147] Error de las UDF de Python en condición de combinación incluso al usar columnas desde solo un lado de combinación
- [SPARK-26211] Corrección de InSet para valores binarios, structs y matrices con NULL
- [SPARK-26181] Método
hasMinMaxStats
deColumnStatsMap
no correcto - Se ha corregido un problema que afectaba a la instalación de Python Wheels en entornos sin acceso a Internet.
- 20 de noviembre de 2018
- Se ha corregido un problema que provocaba que un cuaderno no se pudiera utilizar después de cancelar una consulta de streaming.
- Se ha corregido un problema que afectaba a determinadas consultas que usan funciones de ventana.
- Se ha corregido un problema que afectaba a un flujo de Delta con varios cambios de esquema.
- Se ha corregido un problema que afectaba a determinadas consultas de agregación con combinaciones parciales o anticombinaciones a la izquierda.
Databricks Runtime 4.3 (EoS)
Consulte Databricks Runtime 4.3 (EoS).
9 de abril de 2019
- [SPARK-26665][CORE] Se ha corregido un error que podía hacer que BlockTransferService.fetchBlockSync se bloqueara indefinidamente.
- [SPARK-24669][SQL] Invalidación de tablas en caso de DROP DATABASE CASCADE
12 de marzo de 2019
- Se ha corregido un error que afectaba a la generación de código.
- Se ha corregido un error que afectaba a Delta.
26 de febrero de 2019
- Se ha corregido un error que afectaba al servidor JDBC u ODBC.
12 de febrero de 2019
- [SPARK-26709][SQL] Falta de control correcto de los registros vacíos por parte de OptimizeMetadataOnlyQuery
- Exclusión de los archivos ocultos al compilar HadoopRDD
- Se ha corregido la conversión de filtros de Parquet para el predicado IN cuando su valor está vacío.
- Se ha corregido un problema que provocaba que el protocolo de red de bajo nivel de Spark se rompiera al enviar mensajes de error de RPC de gran tamaño con cifrado habilitado (cuando
spark.network.crypto.enabled
se establecía en true).
30 de enero de 2019
- Se ha corregido un problema que podía hacer que
df.rdd.count()
con UDT devolviera una respuesta incorrecta en determinados casos. - Se ha corregido la incoherencia entre el RDD almacenado en caché de la caché de SQL y su plan físico, que provocaba un resultado incorrecto.
- Se ha corregido un problema que podía hacer que
8 de enero de 2019
- Se ha corregido el problema que provocaba el error
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - Credenciales eliminadas de nombres RDD en la interfaz de usuario de Spark
- [SPARK-26352] La reordenación de combinación no debería cambiar el orden de los atributos de salida
- [SPARK-26366] ReplaceExceptWithFilter deberá considerar NULL como False.
- Delta Lake está habilitado.
- La caché de E/S de Databricks ahora está habilitada para los tipos de instancia de trabajo de la serie Ls para todos los planes de tarifa.
- Se ha corregido el problema que provocaba el error
18 de diciembre de 2018
- [SPARK-25002] Avro: revisión del espacio de nombres del registro de salida
- Se ha corregido un problema que afectaba a determinadas consultas mediante Join y Limit.
- [SPARK-26307] Corrección de CTAS al insertar una tabla con particiones mediante SerDe de Hive.
- Omita solo los archivos dañados después de uno o varios reintentos cuando la marca
spark.sql.files.ignoreCorruptFiles
ospark.sql.files.ignoreMissingFiles
esté habilitada. - [SPARK-26181] Método
hasMinMaxStats
deColumnStatsMap
no correcto - Se ha corregido un problema que afectaba a la instalación de Python Wheels en entornos sin acceso a Internet.
- Se ha corregido un problema de rendimiento en el analizador de consultas.
- Se ha corregido un problema en PySpark que provocaba que se produjese un error de "conexión rechazada" en las acciones de dataframe.
- Se ha corregido un problema que afectaba a determinadas consultas de autocombinación.
20 de noviembre de 2018
- [SPARK-17916][SPARK-25241] Corrección de la cadena vacía que se analizaba como NULL cuando se establecía nullValue
- [SPARK-25387] Corrección para NPE causada por una mala entrada CSV.
- Se ha corregido un problema que afectaba a determinadas consultas de agregación con combinaciones parciales o anticombinaciones a la izquierda.
6 de noviembre de 2018
- [SPARK-25741] Las direcciones URL largas no se representan correctamente en la interfaz de usuario web
- [SPARK-25714] Corrección del control de valores NULL en la regla BooleanSimplification del optimizador
- Se ha corregido un problema que afectaba a la limpieza de objetos temporales en el conector de Synapse Analytics.
- [SPARK-25816] Corrección de la resolución de atributos en extractores anidados.
16 de octubre de 2018
- Se ha corregido un error que afectaba a la salida de la ejecución de
SHOW CREATE TABLE
en tablas Delta. - Se ha corregido un error que afectaba a la operación
Union
.
- Se ha corregido un error que afectaba a la salida de la ejecución de
25 de septiembre de 2018
- [SPARK-25368][SQL] Inferencia de restricción incorrecta devuelve un resultado incorrecto
- [SPARK-25402][SQL] Control de valores NULL en BooleanSimplification
- Se ha corregido
NotSerializableException
en el origen de datos de Avro.
11 de septiembre de 2018
- [SPARK-25214][SS] Corrección de un problema por el que el origen de Kafka 2 podía devolver registros duplicados cuando
failOnDataLoss=false
- [SPARK-24987][SS] Corrección de la fuga de consumidor de Kafka cuando no hay desplazamientos nuevos para articlePartition
- La reducción del filtro debería controlar correctamente el valor NULL.
- Estabilidad mejorada del motor de ejecución
- [SPARK-25214][SS] Corrección de un problema por el que el origen de Kafka 2 podía devolver registros duplicados cuando
28 de agosto de 2018
- Se ha corregido un error en el comando Delete de Delta Lake por el que se eliminaban incorrectamente las filas en las que la condición se evaluaba como nula.
- [SPARK-25142] Adición de mensajes de error cuando el trabajo de Python no puede abrir el socket en
_load_from_socket
23 de agosto de 2018
- [SPARK-23935]mapEntry genera
org.codehaus.commons.compiler.CompileException
. - Se ha corregido un problema de asignación que admite valores NULL en el lector de Parquet.
- [SPARK-25051][SQL] FixNullability no debería detenerse en AnalysisBarrier
- [SPARK-25081] Corrección de un error por el que ShuffleExternalSorter podía acceder a una página de memoria liberada cuando el desbordamiento no podía asignar memoria
- Se ha corregido una interacción entre Databricks Delta y Pyspark que podía provocar errores de lectura transitorios.
- [SPARK-25084]"distribute by" en varias columnas (entre corchetes) puede provocar un problema de codegen
- [SPARK-25096] Relajación de la nulabilidad si la conversión admite valores NULL por la fuerza
- Se ha reducido el número predeterminado de subprocesos usados por el comando Optimize de Delta Lake, lo que permite reducir la sobrecarga de memoria y confirma los datos con mayor rapidez.
- [SPARK-25114] Corrección de RecordBinaryComparator cuando la resta entre dos palabras es divisible por Integer.MAX_VALUE
- Se ha corregido la eliminación del administrador de secretos cuando el comando es correcto parcialmente.
- [SPARK-23935]mapEntry genera
Databricks Runtime 4.2 (EoS)
Consulte Databricks Runtime 4.2 (EoS).
26 de febrero de 2019
- Se ha corregido un error que afectaba al servidor JDBC u ODBC.
12 de febrero de 2019
- [SPARK-26709][SQL] Falta de control correcto de los registros vacíos por parte de OptimizeMetadataOnlyQuery
- Exclusión de los archivos ocultos al compilar HadoopRDD
- Se ha corregido la conversión de filtros de Parquet para el predicado IN cuando su valor está vacío.
- Se ha corregido un problema que provocaba que el protocolo de red de bajo nivel de Spark se rompiera al enviar mensajes de error de RPC de gran tamaño con cifrado habilitado (cuando
spark.network.crypto.enabled
se establecía en true).
30 de enero de 2019
- Se ha corregido un problema que podía hacer que
df.rdd.count()
con UDT devolviera una respuesta incorrecta en determinados casos.
- Se ha corregido un problema que podía hacer que
8 de enero de 2019
- Se ha corregido un problema que provocaba el error
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - Credenciales eliminadas de nombres RDD en la interfaz de usuario de Spark
- [SPARK-26352] La reordenación de combinación no debería cambiar el orden de los atributos de salida
- [SPARK-26366] ReplaceExceptWithFilter deberá considerar NULL como False.
- Delta Lake está habilitado.
- La caché de E/S de Databricks ahora está habilitada para los tipos de instancia de trabajo de la serie Ls para todos los planes de tarifa.
- Se ha corregido un problema que provocaba el error
18 de diciembre de 2018
- [SPARK-25002] Avro: revisión del espacio de nombres del registro de salida
- Se ha corregido un problema que afectaba a determinadas consultas mediante Join y Limit.
- [SPARK-26307] Corrección de CTAS al insertar una tabla con particiones mediante SerDe de Hive.
- Omita solo los archivos dañados después de uno o varios reintentos cuando la marca
spark.sql.files.ignoreCorruptFiles
ospark.sql.files.ignoreMissingFiles
esté habilitada. - [SPARK-26181] Método
hasMinMaxStats
deColumnStatsMap
no correcto - Se ha corregido un problema que afectaba a la instalación de Python Wheels en entornos sin acceso a Internet.
- Se ha corregido un problema de rendimiento en el analizador de consultas.
- Se ha corregido un problema en PySpark que provocaba que se produjese un error de "conexión rechazada" en las acciones de dataframe.
- Se ha corregido un problema que afectaba a determinadas consultas de autocombinación.
20 de noviembre de 2018
- [SPARK-17916][SPARK-25241] Corrección de la cadena vacía que se analizaba como NULL cuando se establecía nullValue
- Se ha corregido un problema que afectaba a determinadas consultas de agregación con combinaciones parciales o anticombinaciones a la izquierda.
6 de noviembre de 2018
- [SPARK-25741] Las direcciones URL largas no se representan correctamente en la interfaz de usuario web
- [SPARK-25714] Corrección del control de valores NULL en la regla BooleanSimplification del optimizador
16 de octubre de 2018
- Se ha corregido un error que afectaba a la salida de la ejecución de
SHOW CREATE TABLE
en tablas Delta. - Se ha corregido un error que afectaba a la operación
Union
.
- Se ha corregido un error que afectaba a la salida de la ejecución de
25 de septiembre de 2018
- [SPARK-25368][SQL] Inferencia de restricción incorrecta devuelve un resultado incorrecto
- [SPARK-25402][SQL] Control de valores NULL en BooleanSimplification
- Se ha corregido
NotSerializableException
en el origen de datos de Avro.
11 de septiembre de 2018
- [SPARK-25214][SS] Corrección de un problema por el que el origen de Kafka 2 podía devolver registros duplicados cuando
failOnDataLoss=false
- [SPARK-24987][SS] Corrección de la fuga de consumidor de Kafka cuando no hay desplazamientos nuevos para articlePartition
- La reducción del filtro debería controlar correctamente el valor NULL.
- [SPARK-25214][SS] Corrección de un problema por el que el origen de Kafka 2 podía devolver registros duplicados cuando
28 de agosto de 2018
- Se ha corregido un error en el comando Delete de Delta Lake por el que se eliminaban incorrectamente las filas en las que la condición se evaluaba como nula.
23 de agosto de 2018
- Corrección de NoClassDefError para la instantánea de Delta
- [SPARK-23935]mapEntry genera
org.codehaus.commons.compiler.CompileException
. - [SPARK-24957][SQL] El promedio con decimales seguido de una agregación devuelve un resultado incorrecto Es posible que se devuelvan resultados incorrectos de AVERAGE. La instrucción CAST agregada en el operador Average se omitirá si el resultado de dividir es del mismo tipo al que se convierte.
- [SPARK-25081] Corrección de un error por el que ShuffleExternalSorter podía acceder a una página de memoria liberada cuando el desbordamiento no podía asignar memoria
- Se ha corregido una interacción entre Databricks Delta y Pyspark que podía provocar errores de lectura transitorios.
- [SPARK-25114] Corrección de RecordBinaryComparator cuando la resta entre dos palabras es divisible por Integer.MAX_VALUE
- [SPARK-25084]"distribute by" en varias columnas (entre corchetes) puede provocar un problema de codegen
- [SPARK-24934][SQL] Permiso explícito de los tipos admitidos en límites superiores o inferiores para la eliminación de particiones en memoria Cuando se usan tipos de datos complejos en filtros de consulta con datos almacenados en caché, Spark siempre devuelve un conjunto de resultados vacío. La eliminación basada en estadísticas en memoria genera resultados incorrectos, ya que, para los límites superior e inferior de los tipos complejos, se establece NULL. La solución es no usar la eliminación basada en estadísticas en memoria para los tipos complejos.
- Se ha corregido la eliminación del administrador de secretos cuando el comando es correcto parcialmente.
- Se ha corregido un problema de asignación que admite valores NULL en el lector de Parquet.
2 de agosto de 2018
- Adición de la API writeStream.table en Python
- Se ha corregido un problema que afectaba a los puntos de comprobación de Delta.
- [SPARK-24867][SQL] Adición de AnalysisBarrier a DataFrameWriter La caché de SQL no se usa cuando se emplea DataFrameWriter para escribir un dataframe con UDF. Se trata de una regresión causada por los cambios hechos en AnalysisBarrier, ya que no todas las reglas del analizador son idempotentes.
- Se ha corregido un problema que podía hacer que el comando
mergeInto
generase resultados incorrectos. - Estabilidad mejorada en el acceso a Azure Data Lake Storage Gen1
- [SPARK-24809] La serialización de LongHashedRelation en el ejecutor puede producir un error de datos
- [SPARK-24878][SQL] Corrección de la función inversa para el tipo de matriz del tipo primitivo que contiene valores NULL
11 de julio de 2018
- Se ha corregido un error en la ejecución de consultas que provocaba que las agregaciones en columnas decimales con diferentes precisiones devolviera resultados incorrectos en algunos casos.
- Se ha corregido un error
NullPointerException
que se producía durante las operaciones de agregación avanzadas, como los conjuntos de agrupación.
Databricks Runtime 4.1 ML (EoS)
Consulte Databricks Runtime 4.1 ML (EoS).
- 31 de julio de 2018
- Adición de Azure Synapse Analytics a ML Runtime 4.1
- Se ha corregido un error que podía provocar resultados de consulta incorrectos cuando el nombre de una columna de partición usada en un predicado difería del caso de esa columna en el esquema de la tabla.
- Se ha corregido un error que afectaba al motor de ejecución de Spark SQL.
- Se ha corregido un error que afectaba a la generación de código.
- Se ha corregido un error (
java.lang.NoClassDefFoundError
) que afectaba a Delta Lake. - Se ha mejorado el control de errores en Delta Lake.
- Se ha corregido un error que provocaba que se recopilaran estadísticas de omisión de datos incorrectas para columnas de cadena de 32 o más caracteres.
Databricks Runtime 4.1 (EoS)
Consulte Databricks Runtime 4.1 (EoS).
8 de enero de 2019
- [SPARK-26366] ReplaceExceptWithFilter deberá considerar NULL como False.
- Delta Lake está habilitado.
18 de diciembre de 2018
- [SPARK-25002] Avro: revisión del espacio de nombres del registro de salida
- Se ha corregido un problema que afectaba a determinadas consultas mediante Join y Limit.
- [SPARK-26307] Corrección de CTAS al insertar una tabla con particiones mediante SerDe de Hive.
- Omita solo los archivos dañados después de uno o varios reintentos cuando la marca
spark.sql.files.ignoreCorruptFiles
ospark.sql.files.ignoreMissingFiles
esté habilitada. - Se ha corregido un problema que afectaba a la instalación de Python Wheels en entornos sin acceso a Internet.
- Se ha corregido un problema en PySpark que provocaba que se produjese un error de "conexión rechazada" en las acciones de dataframe.
- Se ha corregido un problema que afectaba a determinadas consultas de autocombinación.
20 de noviembre de 2018
- [SPARK-17916][SPARK-25241] Corrección de la cadena vacía que se analizaba como NULL cuando se establecía nullValue
- Se ha corregido un problema que afectaba a determinadas consultas de agregación con combinaciones parciales o anticombinaciones a la izquierda.
6 de noviembre de 2018
- [SPARK-25741] Las direcciones URL largas no se representan correctamente en la interfaz de usuario web
- [SPARK-25714] Corrección del control de valores NULL en la regla BooleanSimplification del optimizador
16 de octubre de 2018
- Se ha corregido un error que afectaba a la salida de la ejecución de
SHOW CREATE TABLE
en tablas Delta. - Se ha corregido un error que afectaba a la operación
Union
.
- Se ha corregido un error que afectaba a la salida de la ejecución de
25 de septiembre de 2018
- [SPARK-25368][SQL] Inferencia de restricción incorrecta devuelve un resultado incorrecto
- [SPARK-25402][SQL] Control de valores NULL en BooleanSimplification
- Se ha corregido
NotSerializableException
en el origen de datos de Avro.
11 de septiembre de 2018
- [SPARK-25214][SS] Corrección de un problema por el que el origen de Kafka 2 podía devolver registros duplicados cuando
failOnDataLoss=false
- [SPARK-24987][SS] Corrección de la fuga de consumidor de Kafka cuando no hay desplazamientos nuevos para articlePartition
- La reducción del filtro debería controlar correctamente el valor NULL.
- [SPARK-25214][SS] Corrección de un problema por el que el origen de Kafka 2 podía devolver registros duplicados cuando
28 de agosto de 2018
- Se ha corregido un error en el comando Delete de Delta Lake por el que se eliminaban incorrectamente las filas en las que la condición se evaluaba como nula.
- [SPARK-25084]"distribute by" en varias columnas (entre corchetes) puede provocar un problema de codegen
- [SPARK-25114] Corrección de RecordBinaryComparator cuando la resta entre dos palabras es divisible por Integer.MAX_VALUE
23 de agosto de 2018
- Corrección de NoClassDefError para la instantánea de Delta
- [SPARK-24957][SQL] El promedio con decimales seguido de una agregación devuelve un resultado incorrecto Es posible que se devuelvan resultados incorrectos de AVERAGE. La instrucción CAST agregada en el operador Average se omitirá si el resultado de dividir es del mismo tipo al que se convierte.
- Se ha corregido un problema de asignación que admite valores NULL en el lector de Parquet.
- [SPARK-24934][SQL] Permiso explícito de los tipos admitidos en límites superiores o inferiores para la eliminación de particiones en memoria Cuando se usan tipos de datos complejos en filtros de consulta con datos almacenados en caché, Spark siempre devuelve un conjunto de resultados vacío. La eliminación basada en estadísticas en memoria genera resultados incorrectos, ya que, para los límites superior e inferior de los tipos complejos, se establece NULL. La solución es no usar la eliminación basada en estadísticas en memoria para los tipos complejos.
- [SPARK-25081] Corrección de un error por el que ShuffleExternalSorter podía acceder a una página de memoria liberada cuando el desbordamiento no podía asignar memoria
- Se ha corregido una interacción entre Databricks Delta y Pyspark que podía provocar errores de lectura transitorios.
- Se ha corregido la eliminación del administrador de secretos cuando el comando es correcto parcialmente.
2 de agosto de 2018
- [SPARK-24613][SQL] Imposibilidad de que la caché con UDF coincida con las cachés dependientes posteriores Se encapsula el plan lógico con un elemento AnalysisBarrier para la compilación del plan de ejecución en CacheManager; el objetivo es evitar que el plan se vuelva a analizar. También es una regresión de Spark 2.3.
- Se ha corregido un problema del conector de Synapse Analytics que afectaba a la conversión de zona horaria para escribir datos DateType.
- Se ha corregido un problema que afectaba a los puntos de comprobación de Delta.
- Se ha corregido un problema que podía hacer que el comando
mergeInto
generase resultados incorrectos. - [SPARK-24867][SQL] Adición de AnalysisBarrier a DataFrameWriter La caché de SQL no se usa cuando se emplea DataFrameWriter para escribir un dataframe con UDF. Se trata de una regresión causada por los cambios hechos en AnalysisBarrier, ya que no todas las reglas del analizador son idempotentes.
- [SPARK-24809] La serialización de LongHashedRelation en el ejecutor puede producir un error de datos
11 de julio de 2018
- Se ha corregido un error en la ejecución de consultas que provocaba que las agregaciones en columnas decimales con diferentes precisiones devolviera resultados incorrectos en algunos casos.
- Se ha corregido un error
NullPointerException
que se producía durante las operaciones de agregación avanzadas, como los conjuntos de agrupación.
28 de junio de 2018
- Se ha corregido un error que podía provocar resultados de consulta incorrectos cuando el nombre de una columna de partición usada en un predicado difería del caso de esa columna en el esquema de la tabla.
7 de junio de 2018
- Se ha corregido un error que afectaba al motor de ejecución de Spark SQL.
- Se ha corregido un error que afectaba a la generación de código.
- Se ha corregido un error (
java.lang.NoClassDefFoundError
) que afectaba a Delta Lake. - Se ha mejorado el control de errores en Delta Lake.
17 de mayo de 2018
- Se ha corregido un error que provocaba que se recopilaran estadísticas de omisión de datos incorrectas para columnas de cadena de 32 o más caracteres.
Databricks Runtime 4.0 (EoS)
Consulte Databricks Runtime 4.0 (EoS).
6 de noviembre de 2018
- [SPARK-25714] Corrección del control de valores NULL en la regla BooleanSimplification del optimizador
16 de octubre de 2018
- Se ha corregido un error que afectaba a la operación
Union
.
- Se ha corregido un error que afectaba a la operación
25 de septiembre de 2018
- [SPARK-25368][SQL] Inferencia de restricción incorrecta devuelve un resultado incorrecto
- [SPARK-25402][SQL] Control de valores NULL en BooleanSimplification
- Se ha corregido
NotSerializableException
en el origen de datos de Avro.
11 de septiembre de 2018
- La reducción del filtro debería controlar correctamente el valor NULL.
28 de agosto de 2018
- Se ha corregido un error en el comando Delete de Delta Lake por el que se eliminaban incorrectamente las filas en las que la condición se evaluaba como nula.
23 de agosto de 2018
- Se ha corregido un problema de asignación que admite valores NULL en el lector de Parquet.
- Se ha corregido la eliminación del administrador de secretos cuando el comando es correcto parcialmente.
- Se ha corregido una interacción entre Databricks Delta y Pyspark que podía provocar errores de lectura transitorios.
- [SPARK-25081] Corrección de un error por el que ShuffleExternalSorter podía acceder a una página de memoria liberada cuando el desbordamiento no podía asignar memoria
- [SPARK-25114] Corrección de RecordBinaryComparator cuando la resta entre dos palabras es divisible por Integer.MAX_VALUE
2 de agosto de 2018
- [SPARK-24452] Protección frente a un posible desbordamiento en int add o multiple
- [SPARK-24588] La combinación de streaming debe exigir HashClusteredPartitioning a los elementos secundarios
- Se ha corregido un problema que podía hacer que el comando
mergeInto
generase resultados incorrectos. - [SPARK-24867][SQL] Adición de AnalysisBarrier a DataFrameWriter La caché de SQL no se usa cuando se emplea DataFrameWriter para escribir un dataframe con UDF. Se trata de una regresión causada por los cambios hechos en AnalysisBarrier, ya que no todas las reglas del analizador son idempotentes.
- [SPARK-24809] La serialización de LongHashedRelation en el ejecutor puede producir un error de datos
28 de junio de 2018
- Se ha corregido un error que podía provocar resultados de consulta incorrectos cuando el nombre de una columna de partición usada en un predicado difería del caso de esa columna en el esquema de la tabla.
7 de junio de 2018
- Se ha corregido un error que afectaba al motor de ejecución de Spark SQL.
- Se ha mejorado el control de errores en Delta Lake.
17 de mayo de 2018
- Correcciones de errores para la administración de secretos de Databricks
- Estabilidad mejorada en la lectura de datos almacenados en Azure Data Lake Store
- Se ha corregido un error que afectaba al almacenamiento en caché de RDD.
- Se ha corregido un error que afectaba a Equal con protección frente a valores NULL en Spark SQL.
24 de abril de 2018
- Se ha actualizado el SDK de Azure Data Lake Store de la versión 2.0.11 a la 2.2.8 para mejorar la estabilidad del acceso a Azure Data Lake Store.
- Se ha corregido un error que afectaba a la inserción de sobrescrituras en tablas de Hive con particiones cuando
spark.databricks.io.hive.fastwriter.enabled
erafalse
. - Se ha corregido un problema que impedía la serialización de tareas.
- Mejora de la estabilidad de Delta Lake
14 de marzo de 2018
- Prevención ante actualizaciones de metadatos innecesarias al escribir en Delta Lake
- Se ha corregido un problema causado por una condición de carrera que, en raras circunstancias, podía provocar la pérdida de algunos archivos de salida.
Databricks Runtime 3.5 LTS (EoS)
Consulte Databricks Runtime 3.5 LTS (EoS).
7 de noviembre de 2019
- [SPARK-29743][SQL] La muestra debe establecer needCopyResult en true si el valor needCopyResult de su elemento secundario es true
8 de octubre de 2019
- Cambios en el lado servidor para permitir que el controlador ODBC de Simba Apache Spark se vuelva a conectar y continúe después de un error de conexión durante la captura de resultados (requiere la actualización del controlador de Simba Apache Spark ODBC a la versión 2.6.10).
10 de septiembre de 2019
- [SPARK-28699][SQL] Deshabilitación del uso de la ordenación radix para ShuffleExchangeExec en el caso de repartición
9 de abril de 2019
- [SPARK-26665][CORE] Se ha corregido un error que podía hacer que BlockTransferService.fetchBlockSync se bloqueara indefinidamente.
12 de febrero de 2019
- Se ha corregido un problema que provocaba que el protocolo de red de bajo nivel de Spark se rompiera al enviar mensajes de error de RPC de gran tamaño con cifrado habilitado (cuando
spark.network.crypto.enabled
se establecía en true).
- Se ha corregido un problema que provocaba que el protocolo de red de bajo nivel de Spark se rompiera al enviar mensajes de error de RPC de gran tamaño con cifrado habilitado (cuando
30 de enero de 2019
- Se ha corregido un problema que podía hacer que
df.rdd.count()
con UDT devolviera una respuesta incorrecta en determinados casos.
- Se ha corregido un problema que podía hacer que
18 de diciembre de 2018
- Omita solo los archivos dañados después de uno o varios reintentos cuando la marca
spark.sql.files.ignoreCorruptFiles
ospark.sql.files.ignoreMissingFiles
esté habilitada. - Se ha corregido un problema que afectaba a determinadas consultas de autocombinación.
- Omita solo los archivos dañados después de uno o varios reintentos cuando la marca
20 de noviembre de 2018
- [SPARK-25816] Corrección de la resolución de atributos en extractores anidados
6 de noviembre de 2018
- [SPARK-25714] Corrección del control de valores NULL en la regla BooleanSimplification del optimizador
16 de octubre de 2018
- Se ha corregido un error que afectaba a la operación
Union
.
- Se ha corregido un error que afectaba a la operación
25 de septiembre de 2018
- [SPARK-25402][SQL] Control de valores NULL en BooleanSimplification
- Se ha corregido
NotSerializableException
en el origen de datos de Avro.
11 de septiembre de 2018
- La reducción del filtro debería controlar correctamente el valor NULL.
28 de agosto de 2018
- Se ha corregido un error en el comando Delete de Delta Lake por el que se eliminaban incorrectamente las filas en las que la condición se evaluaba como nula.
- [SPARK-25114] Corrección de RecordBinaryComparator cuando la resta entre dos palabras es divisible por Integer.MAX_VALUE
23 de agosto de 2018
- [SPARK-24809] La serialización de LongHashedRelation en el ejecutor puede producir un error de datos
- Se ha corregido un problema de asignación que admite valores NULL en el lector de Parquet.
- [SPARK-25081] Corrección de un error por el que ShuffleExternalSorter podía acceder a una página de memoria liberada cuando el desbordamiento no podía asignar memoria
- Se ha corregido una interacción entre Databricks Delta y Pyspark que podía provocar errores de lectura transitorios.
28 de junio de 2018
- Se ha corregido un error que podía provocar resultados de consulta incorrectos cuando el nombre de una columna de partición usada en un predicado difería del caso de esa columna en el esquema de la tabla.
28 de junio de 2018
- Se ha corregido un error que podía provocar resultados de consulta incorrectos cuando el nombre de una columna de partición usada en un predicado difería del caso de esa columna en el esquema de la tabla.
7 de junio de 2018
- Se ha corregido un error que afectaba al motor de ejecución de Spark SQL.
- Se ha mejorado el control de errores en Delta Lake.
17 de mayo de 2018
- Estabilidad mejorada en la lectura de datos almacenados en Azure Data Lake Store
- Se ha corregido un error que afectaba al almacenamiento en caché de RDD.
- Se ha corregido un error que afectaba a Equal con protección frente a valores NULL en Spark SQL.
- Se ha corregido un error que afectaba a determinadas agregaciones en las consultas de streaming.
24 de abril de 2018
- Se ha actualizado el SDK de Azure Data Lake Store de la versión 2.0.11 a la 2.2.8 para mejorar la estabilidad del acceso a Azure Data Lake Store.
- Se ha corregido un error que afectaba a la inserción de sobrescrituras en tablas de Hive con particiones cuando
spark.databricks.io.hive.fastwriter.enabled
erafalse
. - Se ha corregido un problema que impedía la serialización de tareas.
9 de marzo de 2018
- Se ha corregido un problema causado por una condición de carrera que, en raras circunstancias, podía provocar la pérdida de algunos archivos de salida.
1 de marzo de 2018
- Se ha mejorado la eficacia del control de flujos que pueden tardar mucho tiempo en detenerse.
- Se ha corregido un problema que afectaba a la función de autocompletar de Python.
- Aplicación de parches de seguridad de Ubuntu
- Se ha corregido un problema que afectaba a determinadas consultas que usan UDF de Python y funciones de ventana.
- Se ha corregido un problema que afectaba al uso de UDF en un clúster con control de acceso a tablas habilitado.
29 de enero de 2018
- Se ha corregido un problema que afectaba a la manipulación de tablas almacenadas en Azure Blob Storage.
- Se ha corregido la agregación después de dropDuplicates en dataframes vacíos.
Databricks Runtime 3.4 (EoS)
Consulte Databricks Runtime 3.4 (EoS).
7 de junio de 2018
- Se ha corregido un error que afectaba al motor de ejecución de Spark SQL.
- Se ha mejorado el control de errores en Delta Lake.
17 de mayo de 2018
- Estabilidad mejorada en la lectura de datos almacenados en Azure Data Lake Store
- Se ha corregido un error que afectaba al almacenamiento en caché de RDD.
- Se ha corregido un error que afectaba a Equal con protección frente a valores NULL en Spark SQL.
24 de abril de 2018
- Se ha corregido un error que afectaba a la inserción de sobrescrituras en tablas de Hive con particiones cuando
spark.databricks.io.hive.fastwriter.enabled
erafalse
.
- Se ha corregido un error que afectaba a la inserción de sobrescrituras en tablas de Hive con particiones cuando
9 de marzo de 2018
- Se ha corregido un problema causado por una condición de carrera que, en raras circunstancias, podía provocar la pérdida de algunos archivos de salida.
13 de diciembre de 2017
- Se ha corregido un problema que afectaba a las UDF en Scala.
- Se ha corregido un problema que afectaba al uso del índice de omisión de datos en tablas de origen de datos almacenadas en rutas de acceso que no son DBFS.
7 de diciembre de 2017
- Mejora de la estabilidad aleatoria
Versiones de Databricks Runtime no admitidas
Para obtener las notas de la versión originales, siga el vínculo que hay debajo del subencabezado.