Actualizaciones de mantenimiento de Databricks Runtime
En este artículo se enumeran las actualizaciones de mantenimiento de las versiones de Databricks Runtime admitidas. Para agregar una actualización de mantenimiento a un clúster existente, debe reiniciarlo. Para conocer las actualizaciones de mantenimiento de las versiones no admitidas de Databricks Runtime, vea Actualizaciones de mantenimiento de Databricks Runtime (archivado).
Nota:
Las versiones se publican por fases. Es posible que su cuenta de Azure Databricks no se actualice durante unos días después de la fecha de lanzamiento inicial.
Versiones de Databricks Runtime
Actualizaciones de mantenimiento por versión:
- Databricks Runtime 15.4
- Databricks Runtime 15.3
- Databricks Runtime 15.2
- Databricks Runtime 14.3
- Databricks Runtime 14.2
- Databricks Runtime 14.1
- Databricks Runtime 13.3 LTS
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS
- Databricks Runtime 9.1 LTS
Databricks Runtime 15.4
Consulte Databricks Runtime 15.4 LTS.
- 22 de octubre de 2024
- [SPARK-49782][SQL] La regla ResolveDataFrameDropColumns resuelve UnresolvedAttribute con salida secundaria
- [SPARK-49867][SQL] Mejora del mensaje de error cuando el índice está fuera de límites al llamar a GetColumnByOrdinal
- [SPARK-49863][SQL] Corrección de NormalizeFloatingNumbers para conservar la nulabilidad de las estructuras anidadas
- [SPARK-49829] Revise la optimización para agregar la entrada al almacén de estado en la combinación de flujo-secuencia (corrección de corrección)
- [SPARK-49905] Use ShuffleOrigin dedicado para el operador con estado para evitar que se modifique el orden aleatorio de AQE.
- [SPARK-46632][SQL] Corrección de la eliminación de subexpresión cuando las expresiones ternarias equivalentes tienen distintos elementos secundarios
- [SPARK-49443][SQL][PYTHON] Implemente to_variant_object expresión y haga que las expresiones de schema_of_variant impriman OBJECT para variant Objects
- [SPARK-49615] Corrección de errores: haga que la validación del esquema de columna de ML se ajuste a la configuración
spark.sql.caseSensitive
de Spark.
- 10 de octubre de 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr no debe cambiar los campos de esquema al eliminar GetArrayStructFields
- [SPARK-49688][CONNECT] Corrección de una carrera de datos entre interrupción y ejecución del plan
- [BACKPORT][[SPARK-49474]]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Clasificación de la clase error de la función de usuario FlatMapGroupsWithState
- [SPARK-49460][SQL] Seguimiento: corrección del riesgo potencial de NPE
- 25 de septiembre de 2024
- [SPARK-49628][SQL] ConstantFolding debe copiar una expresión con estado antes de evaluar
- [SPARK-49000][SQL] Se ha corregido "select count(distinct 1) from t" donde t está vacía mediante la expansión de RewriteDistinctAggregates
- [SPARK-49492][CONNECT] Reintentar intentó activar ExecutionHolder inactivo
- [SPARK-49458][CONNECT][PYTHON] Proporcionar el identificador de sesión del lado servidor a través de ReattachExecute
- [SPARK-49017][SQL] Se produce un error en la instrucción Insert cuando se usan varios parámetros
- [SPARK-49451] Permitir claves duplicadas en parse_json.
- Correcciones de errores varios.
- 17 de septiembre de 2024
- [SPARK-48463][ML] Make Binarizer, Bucketizer, Vector Assembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor que admite columnas de entrada anidadas
- [SPARK-49409][CONNECT] Ajuste el valor predeterminado de CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-49526][CONNECT][HOTFIX-15.4.2] Compatibilidad con rutas de acceso de estilo Windows en ArtifactManager
- Revertir "[SPARK-48482][PYTHON] dropDuplicates y dropDuplicatesWIthinWatermark deben aceptar argumentos de longitud variable"
- [SPARK-43242][CORE] Se ha corregido el error "Tipo inesperado de BlockId" en diagnóstico de daños aleatorios.
- [SPARK-49366][CONNECT] Tratar el nodo Union como hoja en la resolución de columnas de trama de datos
- [SPARK-49018][SQL] Corrección approx_count_distinct no funciona correctamente con la intercalación
- [SPARK-49460][SQL] Quitar
cleanupResource()
de EmptyRelationExec - [SPARK-49056][SQL] ErrorClassesJsonReader no puede controlar null correctamente
- [SPARK-49336][CONNECT] Limitar el nivel de anidamiento al truncar un mensaje protobuf
- 29 de agosto de 2024
- La salida de una instrucción
SHOW CREATE TABLE
ahora incluye todos los filtros de fila o máscaras de columna definidos en una vista materializada o una tabla de streaming. Consulte SHOW CREATE TABLE. Para obtener más información sobre cómo usar filtros de fila y máscaras de columna, vea Filtrar datos confidenciales de la tabla mediante filtros de fila y máscaras de columna. - En el proceso configurado con el modo de acceso compartido, las lecturas y escrituras por lotes de Kafka ahora tienen las mismas limitaciones que las documentadas para los flujos estructurados. Consulte Limitaciones y requisitos de streaming para el modo de acceso compartido a Unity Catalog.
- [SPARK-48941][SPARK-48970] Correcciones de lector y escritor de ML de portabilidad con versiones anteriores
- [SPARK-49074][SQL] Corrección de variantes con
df.cache()
- [SPARK-49263][CONNECT] Cliente python de Spark Connect: control constante de las opciones del lector de tramas de datos booleanas
- [SPARK-48955][SQL] Incluir cambios de ArrayCompact en la versión 15.4
- [SPARK-48937][SQL] Adición de compatibilidad de intercalación para expresiones de cadena StringToMap
- [SPARK-48929] Corrección del error interno de visualización y limpieza del contexto de excepción del analizador
- [SPARK-49125][SQL] Permitir nombres de columna duplicados en escritura CSV
- [SPARK-48934][SS] Tipos datetime de Python convertidos incorrectamente para establecer el tiempo de espera en applyInPandasWithState
- [SPARK-48843] Evitar bucle infinito con BindParameters
- [SPARK-48981] Corrección del método simpleString de StringType en pyspark para intercalaciones
- [SPARK-49065][SQL] La fusión mediante cambio de base en formateadores o analizadores heredados debe admitir zonas horarias predeterminadas que no son JVM.
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correcciones del sistema de escritura de Spark ML de portabilidad con versiones anteriores
- [SPARK-48725][SQL] Integrar CollationAwareUTF8String.lowerCaseCodePoints en expresiones de cadena
- [SPARK-48978][SQL] Implementación de la ruta de acceso rápida ASCII en compatibilidad con la intercalación para UTF8_LCASE
- [SPARK-49047][PYTHON] [CONNECT] Truncar el mensaje para el registro
- [SPARK-49146][SS] Mover errores de aserción relacionados con la marca de agua que falta en las consultas de streaming en modo anexado al marco de errores
- [SPARK-48977][SQL] Optimización de la búsqueda de cadenas en UTF8_LCASE intercalación
- [SPARK-48889][SS] testStream para descargar almacenes de estado antes de finalizar
- [SPARK-48463] Hacer que StringIndexer admita columnas de entrada anidadas
- [SPARK-48954] try_mod() reemplaza try_remainder()
- Actualizaciones de seguridad del sistema operativo
- La salida de una instrucción
Databricks Runtime 15.3
Consulte Databricks Runtime 15.3.
- 22 de octubre de 2024
- [SPARK-49905] Use ShuffleOrigin dedicado para el operador con estado para evitar que se modifique el orden aleatorio de AQE.
- [SPARK-49867][SQL] Mejora del mensaje de error cuando el índice está fuera de límites al llamar a GetColumnByOrdinal
- [SPARK-48843][15.3,15.2] Evitar bucle infinito con BindParameters
- [SPARK-49829] Revise la optimización para agregar la entrada al almacén de estado en la combinación de flujo-secuencia (corrección de corrección)
- [SPARK-49863][SQL] Corrección de NormalizeFloatingNumbers para conservar la nulabilidad de las estructuras anidadas
- [SPARK-49782][SQL] La regla ResolveDataFrameDropColumns resuelve UnresolvedAttribute con salida secundaria
- [SPARK-46632][SQL] Corrección de la eliminación de subexpresión cuando las expresiones ternarias equivalentes tienen distintos elementos secundarios
- Actualizaciones de seguridad del sistema operativo
- 10 de octubre de 2024
- [SPARK-49688][CONNECT] Corrección de una carrera de datos entre interrupción y ejecución del plan
- [SPARK-49743][SQL] OptimizeCsvJsonExpr no debe cambiar los campos de esquema al eliminar GetArrayStructFields
- [BACKPORT][[SPARK-49474]]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Clasificación de la clase error de la función de usuario FlatMapGroupsWithState
- Actualizaciones de seguridad del sistema operativo
- 25 de septiembre de 2024
- [SPARK-49492][CONNECT] Reintentar intentó activar ExecutionHolder inactivo
- [SPARK-49628][SQL] ConstantFolding debe copiar una expresión con estado antes de evaluar
- [SPARK-49000][SQL] Se ha corregido "select count(distinct 1) from t" donde t está vacía mediante la expansión de RewriteDistinctAggregates
- [SPARK-49458][CONNECT][PYTHON] Proporcionar el identificador de sesión del lado servidor a través de ReattachExecute
- [SPARK-48719][SQL] Corregir el error de cálculo de
RegrSlope
yRegrIntercept
cuando el primer parámetro es null - Actualizaciones de seguridad del sistema operativo
- 17 de septiembre de 2024
- [SPARK-49336][CONNECT] Limitar el nivel de anidamiento al truncar un mensaje protobuf
- [SPARK-49526][CONNECT][15.3.5] Compatibilidad con rutas de acceso de estilo Windows en ArtifactManager
- [SPARK-49366][CONNECT] Tratar el nodo Union como hoja en la resolución de columnas de trama de datos
- [SPARK-43242][CORE] Se ha corregido el error "Tipo inesperado de BlockId" en diagnóstico de daños aleatorios.
- [SPARK-49409][CONNECT] Ajuste el valor predeterminado de CONNECT_SESSION_PLAN_CACHE_SIZE
- Actualizaciones de seguridad del sistema operativo
- 29 de agosto de 2024
- [SPARK-49263][CONNECT] Cliente python de Spark Connect: control constante de las opciones del lector de tramas de datos booleanas
- [SPARK-49056][SQL] ErrorClassesJsonReader no puede controlar null correctamente
- [SPARK-48862][PYTHON][CONNECT] Se evita llamar a
_proto_to_string
cuando el nivel INFO no está habilitado - [SPARK-49146][SS] Mover errores de aserción relacionados con la marca de agua que falta en las consultas de streaming en modo anexado al marco de errores
- 14 de agosto de 2024
- [SPARK-48941][SPARK-48970] Correcciones de lector y escritor de ML de portabilidad con versiones anteriores
- [SPARK-48706][PYTHON] El UDF de Python en funciones de orden superior no debe producir un error interno
- [SPARK-48954] try_mod() reemplaza try_remainder()
- [SPARK-48597][SQL] Introducir un marcador para la propiedad isStreaming en la representación de texto del plan lógico
- [SPARK-49065][SQL] La fusión mediante cambio de base en formateadores o analizadores heredados debe admitir zonas horarias predeterminadas que no son JVM.
- [SPARK-49047][PYTHON] [CONNECT] Truncar el mensaje para el registro
- [SPARK-48740][SQL] Captura del error de especificación de ventana que falta antes
- 1 de agosto de 2024
- [Cambio importante] En Databricks Runtime 15.3 y versiones posteriores, llamar a cualquier función definida por el usuario (UDF) de Python, función de agregado definida por el usuario (UDAF) o función de tabla definida por el usuario (UDTF) que usa un tipo
VARIANT
como argumento o valor devuelto produce una excepción. Este cambio se realiza para evitar problemas que pueden producirse debido a un valor no válido devuelto por una de estas funciones. Para obtener más información sobre el tipoVARIANT
, consulte Uso de VARIANT para almacenar datos semiestructurados. - En el proceso sin servidor para cuadernos y trabajos, el modo SQL ANSI está habilitado de forma predeterminada. Consulte Parámetros de configuración de Spark admitidos.
- En el proceso configurado con el modo de acceso compartido, las lecturas y escrituras por lotes de Kafka ahora tienen las mismas limitaciones que las documentadas para los flujos estructurados. Consulte Limitaciones y requisitos de streaming para el modo de acceso compartido a Unity Catalog.
- La salida de una instrucción
SHOW CREATE TABLE
ahora incluye todos los filtros de fila o máscaras de columna definidos en una vista materializada o una tabla de streaming. Consulte SHOW CREATE TABLE. Para obtener más información sobre cómo usar filtros de fila y máscaras de columna, vea Filtrar datos confidenciales de la tabla mediante filtros de fila y máscaras de columna. - [SPARK-46957][CORE] Los archivos aleatorios migrados retirados deben poder limpiarse del ejecutor
- [SPARK-48648][PYTHON][CONNECT] Hacer que SparkConnectClient.tags sea correctamente subprocesocal
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correcciones del sistema de escritura de Spark ML de portabilidad con versiones anteriores
- [SPARK-48713][SQL] Agregar comprobación de intervalo de índice para UnsafeRow.pointTo cuando baseObject es una matriz de bytes
- [SPARK-48834][SQL] Deshabilitación de la entrada y salida en las escalares de Python UDF, UDTF, UDAF durante la compilación de consultas
- [SPARK-48934][SS] Tipos datetime de Python convertidos incorrectamente para establecer el tiempo de espera en applyInPandasWithState
- [SPARK-48705][PYTHON] Use explícitamente worker_main cuando empiece por pyspark
- [SPARK-48544][SQL] Reducción de la presión de memoria de conjuntos de sets TreeNode
- [SPARK-48889][SS] testStream para descargar almacenes de estado antes de finalizar
- [SPARK-49054][SQL] El valor predeterminado de columna debe admitir funciones current_*
- [SPARK-48653][PYTHON] Corrección de referencias de clase de error de origen de datos de Python no válidas
- [SPARK-48463] Hacer que StringIndexer admita columnas de entrada anidadas
- [SPARK-48810][CONNECT] API Session stop () debe ser idempotent y no producir un error si el servidor ya ha cerrado la sesión
- [SPARK-48873][SQL] Uso de UnsafeRow en el analizador JSON.
- Actualizaciones de seguridad del sistema operativo
- [Cambio importante] En Databricks Runtime 15.3 y versiones posteriores, llamar a cualquier función definida por el usuario (UDF) de Python, función de agregado definida por el usuario (UDAF) o función de tabla definida por el usuario (UDTF) que usa un tipo
- 11 de julio de 2024
- (Cambio de comportamiento) Los DataFrames almacenados en caché en los orígenes de tabla Delta ahora se invalidan si se sobrescribe la tabla de origen. Este cambio significa que todos los cambios de estado en las tablas Delta ahora invalidan los resultados almacenados en caché. Se usa
.checkpoint()
para conservar un estado de tabla durante toda la vigencia de un dataframe. - Snowflake JDBC Driver se actualiza a la versión 3.16.1.
- Esta versión incluye una corrección de un problema que impedía que la pestaña Entorno de la interfaz de usuario de Spark se mostrara correctamente al ejecutarse en Databricks Container Services.
- Para omitir particiones no válidas al leer datos, orígenes de datos basados en archivos, como Parquet, ORC, CSV o JSON, puede establecer la opción ignoreInvalidPartitionPaths del origen de datos en true. Por ejemplo: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...) `. También puede usar la configuración de SQL spark.sql.files.ignoreInvalidPartitionPaths. Sin embargo, la opción del origen de datos tiene prioridad sobre la configuración de SQL. Esta configuración es false de forma predeterminada.
- [SPARK-48100][SQL] Corregir problemas al omitir campos de estructura anidados no seleccionados en el esquema
- [SPARK-47463][SQL] Use V2Predicate para encapsular la expresión con el tipo de valor devuelto booleano
- [SPARK-48292][CORE] Revertir [SPARK-39195][SQL] Spark OutputCommitCoordinator debe anular la fase cuando el archivo confirmado no sea coherente con el estado de la tarea
- [SPARK-48475][PYTHON] Optimizar _get_jvm_function en PySpark.
- [SPARK-48286] Corregir el análisis de columna con existe una expresión predeterminada: se ha agregado un error orientado al usuario
- [SPARK-48481][SQL][SS] No aplicar OptimizeOneRowPlan en el conjunto de datos de streaming
- Revertir “[SPARK-47406][SQL] Controlar TIMESTAMP y DATETIME en MYSQLDialect”
- [SPARK-48383][SS] Se produce un error mejor para las particiones no coincidentes en la opción startOffset en Kafka
- [SPARK-48503][14.3-15.3][SQL] Corregir subconsultas escalares no válidas con agrupación por columnas o columnas no equivalentes permitidas incorrectamente
- [SPARK-48445][SQL] No inserte UDF insertadas con elementos secundarios costosos
- [SPARK-48252][SQL] Actualizar CommonExpressionRef cuando sea necesario
- [SPARK-48273][master][SQL] Corregir la reescritura tardía de PlanWithUnresolvedIdentifier
- [SPARK-48566][PYTHON] Se ha corregido un error por el que los índices de partición eran incorrectos cuando UDTF analizar() utilizaba tanto select como partitionColumns.
- [SPARK-48556][SQL] Corregir un mensaje de error incorrecto que apunta a UNSUPPORTED_GROUPING_EXPRESSION
- Actualizaciones de seguridad del sistema operativo
- (Cambio de comportamiento) Los DataFrames almacenados en caché en los orígenes de tabla Delta ahora se invalidan si se sobrescribe la tabla de origen. Este cambio significa que todos los cambios de estado en las tablas Delta ahora invalidan los resultados almacenados en caché. Se usa
Databricks Runtime 15.2
Consulte Databricks Runtime 15.2.
- 22 de octubre de 2024
- [SPARK-49905] Use ShuffleOrigin dedicado para el operador con estado para evitar que se modifique el orden aleatorio de AQE.
- [SPARK-48843][15.3,15.2] Evitar bucle infinito con BindParameters
- [SPARK-49829] Revise la optimización para agregar la entrada al almacén de estado en la combinación de flujo-secuencia (corrección de corrección)
- [SPARK-49863][SQL] Corrección de NormalizeFloatingNumbers para conservar la nulabilidad de las estructuras anidadas
- [SPARK-49782][SQL] La regla ResolveDataFrameDropColumns resuelve UnresolvedAttribute con salida secundaria
- [SPARK-46632][SQL] Corrección de la eliminación de subexpresión cuando las expresiones ternarias equivalentes tienen distintos elementos secundarios
- Actualizaciones de seguridad del sistema operativo
- 10 de octubre de 2024
- [BACKPORT][[SPARK-49474]]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Clasificación de la clase error de la función de usuario FlatMapGroupsWithState
- [SPARK-49743][SQL] OptimizeCsvJsonExpr no debe cambiar los campos de esquema al eliminar GetArrayStructFields
- [SPARK-49688][CONNECT] Corrección de una carrera de datos entre interrupción y ejecución del plan
- Actualizaciones de seguridad del sistema operativo
- 25 de septiembre de 2024
- [SPARK-49000][SQL] Se ha corregido "select count(distinct 1) from t" donde t está vacía mediante la expansión de RewriteDistinctAggregates
- [SPARK-48719][SQL] Corrección del error de cálculo de RegrSlope & RegrIntercept cuando el primer parámetro es NULL
- [SPARK-49458][CONNECT][PYTHON] Proporcionar el identificador de sesión del lado servidor a través de ReattachExecute
- [SPARK-49628][SQL] ConstantFolding debe copiar una expresión con estado antes de evaluar
- [SPARK-49492][CONNECT] Reintentar intentó activar ExecutionHolder inactivo
- Actualizaciones de seguridad del sistema operativo
- 17 de septiembre de 2024
- [SPARK-49336][CONNECT] Limitar el nivel de anidamiento al truncar un mensaje protobuf
- [SPARK-49526][CONNECT] Compatibilidad con rutas de acceso de estilo Windows en ArtifactManager
- [SPARK-49366][CONNECT] Tratar el nodo Union como hoja en la resolución de columnas de trama de datos
- [SPARK-43242][CORE] Se ha corregido el error "Tipo inesperado de BlockId" en diagnóstico de daños aleatorios.
- [SPARK-49409][CONNECT] Ajuste el valor predeterminado de CONNECT_SESSION_PLAN_CACHE_SIZE
- Actualizaciones de seguridad del sistema operativo
- 29 de agosto de 2024
- [SPARK-49056][SQL] ErrorClassesJsonReader no puede controlar null correctamente
- [SPARK-48597][SQL] Introducir un marcador para la propiedad isStreaming en la representación de texto del plan lógico
- [SPARK-48862][PYTHON][CONNECT] Se evita llamar a
_proto_to_string
cuando el nivel INFO no está habilitado - [SPARK-49263][CONNECT] Cliente python de Spark Connect: control constante de las opciones del lector de tramas de datos booleanas
- [SPARK-49146][SS] Mover errores de aserción relacionados con la marca de agua que falta en las consultas de streaming en modo anexado al marco de errores
- 14 de agosto de 2024
- [SPARK-48941][SPARK-48970] Correcciones de lector y escritor de ML de portabilidad con versiones anteriores
- [SPARK-48050][SS] Registro del plan lógico al inicio de la consulta
- [SPARK-48706][PYTHON] El UDF de Python en funciones de orden superior no debe producir un error interno
- [SPARK-48740][SQL] Captura del error de especificación de ventana que falta antes
- [SPARK-49065][SQL] La fusión mediante cambio de base en formateadores o analizadores heredados debe admitir zonas horarias predeterminadas que no son JVM.
- [SPARK-49047][PYTHON] [CONNECT] Truncar el mensaje para el registro
- 1 de agosto de 2024
- En el proceso sin servidor para cuadernos y trabajos, el modo SQL ANSI está habilitado de forma predeterminada. Consulte Parámetros de configuración de Spark admitidos.
- En el proceso configurado con el modo de acceso compartido, las lecturas y escrituras por lotes de Kafka ahora tienen las mismas limitaciones que las documentadas para los flujos estructurados. Consulte Limitaciones y requisitos de streaming para el modo de acceso compartido a Unity Catalog.
- La salida de una instrucción
SHOW CREATE TABLE
ahora incluye todos los filtros de fila o máscaras de columna definidos en una vista materializada o una tabla de streaming. Consulte SHOW CREATE TABLE. Para obtener más información sobre cómo usar filtros de fila y máscaras de columna, vea Filtrar datos confidenciales de la tabla mediante filtros de fila y máscaras de columna. - [SPARK-48705][PYTHON] Use explícitamente worker_main cuando empiece por pyspark
- [SPARK-48047][SQL] Reducción de la presión de memoria de etiquetas TreeNode vacías
- [SPARK-48810][CONNECT] API Session stop () debe ser idempotent y no producir un error si el servidor ya ha cerrado la sesión
- [SPARK-48873][SQL] Uso de UnsafeRow en el analizador JSON.
- [SPARK-46957][CORE] Los archivos aleatorios migrados retirados deben poder limpiarse del ejecutor
- [SPARK-48889][SS] testStream para descargar almacenes de estado antes de finalizar
- [SPARK-48713][SQL] Agregar comprobación de intervalo de índice para UnsafeRow.pointTo cuando baseObject es una matriz de bytes
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correcciones del sistema de escritura de Spark ML de portabilidad con versiones anteriores
- [SPARK-48544][SQL] Reducción de la presión de memoria de conjuntos de sets TreeNode
- [SPARK-48934][SS] Tipos datetime de Python convertidos incorrectamente para establecer el tiempo de espera en applyInPandasWithState
- [SPARK-48463] Hacer que StringIndexer admita columnas de entrada anidadas
- Actualizaciones de seguridad del sistema operativo
- 11 de julio de 2024
- (Cambio de comportamiento) Los DataFrames almacenados en caché en los orígenes de tabla Delta ahora se invalidan si se sobrescribe la tabla de origen. Este cambio significa que todos los cambios de estado en las tablas Delta ahora invalidan los resultados almacenados en caché. Se usa
.checkpoint()
para conservar un estado de tabla durante toda la vigencia de un dataframe. - Snowflake JDBC Driver se actualiza a la versión 3.16.1.
- Esta versión incluye una corrección de un problema que impedía que la pestaña Entorno de la interfaz de usuario de Spark se mostrara correctamente al ejecutarse en Databricks Container Services.
- En los cuadernos y trabajos sin servidor, el modo SQL ANSI se habilitará de forma predeterminada y admitirá nombres cortos
- Para omitir particiones no válidas al leer datos, orígenes de datos basados en archivos, como Parquet, ORC, CSV o JSON, puede establecer la opción ignoreInvalidPartitionPaths del origen de datos en true. Por ejemplo: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...) `. También puede usar la configuración de SQL spark.sql.files.ignoreInvalidPartitionPaths. Sin embargo, la opción del origen de datos tiene prioridad sobre la configuración de SQL. Esta configuración es false de forma predeterminada.
- [SPARK-48273][SQL] Corregir la reescritura tardía de PlanWithUnresolvedIdentifier
- [SPARK-48292][CORE] Revertir [SPARK-39195][SQL] Spark OutputCommitCoordinator debe anular la fase cuando el archivo confirmado no sea coherente con el estado de la tarea
- [SPARK-48100][SQL] Corregir problemas al omitir campos de estructura anidados no seleccionados en el esquema
- [SPARK-48286] Corregir el análisis de columna con existe una expresión predeterminada: se ha agregado un error orientado al usuario
- [SPARK-48294][SQL] Controlar minúsculas en nestedTypeMissingElementTypeError
- [SPARK-48556][SQL] Corregir un mensaje de error incorrecto que apunta a UNSUPPORTED_GROUPING_EXPRESSION
- [SPARK-48648][PYTHON][CONNECT] Hacer que SparkConnectClient.tags sea correctamente subprocesocal
- [SPARK-48503][SQL] Corregir subconsultas escalares no válidas con agrupación por en columnas no equivalentes permitidas incorrectamente
- [SPARK-48252][SQL] Actualizar CommonExpressionRef cuando sea necesario
- [SPARK-48475][PYTHON] Optimizar _get_jvm_function en PySpark.
- [SPARK-48566][PYTHON] Se ha corregido un error por el que los índices de partición eran incorrectos cuando UDTF analizar() utilizaba tanto select como partitionColumns.
- [SPARK-48481][SQL][SS] No aplicar OptimizeOneRowPlan en el conjunto de datos de streaming
- [SPARK-47463][SQL] Use V2Predicate para encapsular la expresión con el tipo de valor devuelto booleano
- [SPARK-48383][SS] Se produce un error mejor para las particiones no coincidentes en la opción startOffset en Kafka
- [SPARK-48445][SQL] No inserte UDF insertadas con elementos secundarios costosos
- Actualizaciones de seguridad del sistema operativo
- (Cambio de comportamiento) Los DataFrames almacenados en caché en los orígenes de tabla Delta ahora se invalidan si se sobrescribe la tabla de origen. Este cambio significa que todos los cambios de estado en las tablas Delta ahora invalidan los resultados almacenados en caché. Se usa
- 17 de junio de 2024
applyInPandasWithState()
está disponible en clústeres compartidos.- Corrige un error en el que la optimización de la ventana de clasificación mediante Photon TopK controla incorrectamente las particiones con estructuras.
- Se ha corregido un error en la función try_divide() en la que las entradas que contienen decimales producían excepciones inesperadas.
- [SPARK-48197][SQL] Evitar el error de aserción para una función lambda no válida
- [SPARK-48276][PYTHON][CONNECT] Agregue el método de
__repr__
que falta paraSQLExpression
- [SPARK-48014][SQL] Cambie el error makeFromJava en EvaluatePython a un error orientado al usuario
- [SPARK-48016][SQL] Corrección de un error en try_divide función cuando con decimales
- [SPARK-47986][CONNECT][PYTHON] No se puede crear una nueva sesión cuando el servidor cierra la sesión predeterminada
- [SPARK-48173][SQL] CheckAnalysis debería ver todo el plan de consulta
- [SPARK-48056][CONNECT][PYTHON] Volver a ejecutar el plan si se produce un error de SESSION_NOT_FOUND y no se ha recibido ninguna respuesta parcial
- [SPARK-48172][SQL] Corrección de problemas de escape en JDBCDialects backport a 15.2
- [SPARK-48105][SS] Corregir la condición de carrera entre la descarga del almacén de estado y la creación de instantáneas
- [SPARK-48288] Agregar tipo de datos de origen para la expresión de conversión de conector
- [SPARK-48310][PYTHON][CONNECT] Las propiedades almacenadas en caché deben devolver copias
- [SPARK-48277] Mensaje de error Mejorar para ErrorClassesJsonReader.getErrorMessage
- [SPARK-47986][CONNECT][PYTHON] No se puede crear una nueva sesión cuando el servidor cierra la sesión predeterminada
- Revertir “[SPARK-47406][SQL] Controlar TIMESTAMP y DATETIME en MYSQLDialect”
- [SPARK-47994][SQL] Se ha corregido el error con la inserción de filtros de columna CASE WHEN en SQLServer
- [SPARK-47764][CORE][SQL] Limpieza de dependencias aleatorias basadas en ShuffleCleanupMode
- [SPARK-47921][CONNECT] Corregir la creación de ExecuteJobTag en ExecuteHolder
- [SPARK-48010][SQL] Evitar llamadas repetidas a conf.resolver en resolveExpression
- [SPARK-48146][SQL] Corregir la función de agregado en Con aserción secundaria de expresión
- [SPARK-48180][SQL] Mejorar el error cuando la llamada UDTF con table arg olvida paréntesis alrededor de varios archivos PARTITION/ORDER BY exprs
- Actualizaciones de seguridad del sistema operativo
Databricks Runtime 14.3
Consulte Databricks Runtime 14.3 LTS.
- 22 de octubre de 2024
- [SPARK-48843] Evitar bucle infinito con BindParameters
- [SPARK-49863][SQL] Corrección de NormalizeFloatingNumbers para conservar la nulabilidad de las estructuras anidadas
- [SPARK-49905] Use ShuffleOrigin dedicado para el operador con estado para evitar que se modifique el orden aleatorio de AQE.
- [SPARK-46632][SQL] Corrección de la eliminación de subexpresión cuando las expresiones ternarias equivalentes tienen distintos elementos secundarios
- [SPARK-49782][SQL] La regla ResolveDataFrameDropColumns resuelve UnresolvedAttribute con salida secundaria
- [BACKPORT][[SPARK-49326]]]https://issues.apache.org/jira/browse/SPARK-49326[SS] Clasificación de la clase error para el error de función de usuario receptor foreach
- [SPARK-49829] Revise la optimización para agregar la entrada al almacén de estado en la combinación de flujo-secuencia (corrección de corrección)
- Actualizaciones de seguridad del sistema operativo
- 10 de octubre de 2024
- [BACKPORT][[SPARK-49474]]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Clasificación de la clase error de la función de usuario FlatMapGroupsWithState
- [SPARK-49743][SQL] OptimizeCsvJsonExpr no debe cambiar los campos de esquema al eliminar GetArrayStructFields
- [SPARK-49688][CONNECT] Corrección de una carrera de datos entre interrupción y ejecución del plan
- 25 de septiembre de 2024
- [SPARK-48810][CONNECT] API Session stop () debe ser idempotent y no producir un error si el servidor ya ha cerrado la sesión
- [SPARK-48719][SQL] Corrija el error de cálculo de "RegrS...
- [SPARK-49000][SQL] Se ha corregido "select count(distinct 1) from t" donde t está vacía mediante la expansión de RewriteDistinctAggregates
- [SPARK-49628][SQL] ConstantFolding debe copiar una expresión con estado antes de evaluar
- [SPARK-49492][CONNECT] Reintentar intentó activar ExecutionHolder inactivo
- Actualizaciones de seguridad del sistema operativo
- 17 de septiembre de 2024
- [SPARK-49336][CONNECT] Limitar el nivel de anidamiento al truncar un mensaje protobuf
- [SPARK-43242][CORE] Se ha corregido el error "Tipo inesperado de BlockId" en diagnóstico de daños aleatorios.
- [SPARK-48463][ML] Make Binarizer, Bucketizer, Vector Assembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor que admite columnas de entrada anidadas
- [SPARK-49526][CONNECT] Compatibilidad con rutas de acceso de estilo Windows en ArtifactManager
- [SPARK-49409][CONNECT] Ajuste el valor predeterminado de CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-49366][CONNECT] Tratar el nodo Union como hoja en la resolución de columnas de trama de datos
- 29 de agosto de 2024
- [SPARK-49146][SS] Mover errores de aserción relacionados con la marca de agua que falta en las consultas de streaming en modo anexado al marco de errores
- [SPARK-48862][PYTHON][CONNECT] Se evita llamar a
_proto_to_string
cuando el nivel INFO no está habilitado - [SPARK-49263][CONNECT] Cliente python de Spark Connect: control constante de las opciones del lector de tramas de datos booleanas
- 14 de agosto de 2024
- [SPARK-48941][SPARK-48970] Correcciones de lector y escritor de ML de portabilidad con versiones anteriores
- [SPARK-48706][PYTHON] El UDF de Python en funciones de orden superior no debe producir un error interno
- [SPARK-49056][SQL] ErrorClassesJsonReader no puede controlar null correctamente
- [SPARK-48597][SQL] Introducir un marcador para la propiedad isStreaming en la representación de texto del plan lógico
- [SPARK-49065][SQL] La fusión mediante cambio de base en formateadores o analizadores heredados debe admitir zonas horarias predeterminadas que no son JVM.
- [SPARK-48934][SS] Tipos datetime de Python convertidos incorrectamente para establecer el tiempo de espera en applyInPandasWithState
- 1 de agosto de 2024
- Esta versión incluye una corrección de errores para las clases
ColumnVector
yColumnarArray
en la interfaz de Java de Spark. Antes de esta corrección,ArrayIndexOutOfBoundsException
se podrían producir o devolver datos incorrectos cuando una instancia de una de estas clases contenía valoresnull
. - En el proceso sin servidor para cuadernos y trabajos, el modo SQL ANSI está habilitado de forma predeterminada. Consulte Parámetros de configuración de Spark admitidos.
- En el proceso configurado con el modo de acceso compartido, las lecturas y escrituras por lotes de Kafka ahora tienen las mismas limitaciones que las documentadas para los flujos estructurados. Consulte Limitaciones y requisitos de streaming para el modo de acceso compartido a Unity Catalog.
- La salida de una instrucción
SHOW CREATE TABLE
ahora incluye todos los filtros de fila o máscaras de columna definidos en una vista materializada o una tabla de streaming. Consulte SHOW CREATE TABLE. Para obtener más información sobre cómo usar filtros de fila y máscaras de columna, vea Filtrar datos confidenciales de la tabla mediante filtros de fila y máscaras de columna. - [SPARK-48896] [SPARK-48909] [SPARK-48883] Correcciones del sistema de escritura de Spark ML de portabilidad con versiones anteriores
- [SPARK-48889][SS] testStream para descargar almacenes de estado antes de finalizar
- [SPARK-48705][PYTHON] Use explícitamente worker_main cuando empiece por pyspark
- [SPARK-48047][SQL] Reducción de la presión de memoria de etiquetas TreeNode vacías
- [SPARK-48544][SQL] Reducción de la presión de memoria de conjuntos de sets TreeNode
- [SPARK-46957][CORE] Los archivos aleatorios migrados retirados deben poder limpiarse del ejecutor
- [SPARK-48463] Hacer que StringIndexer admita columnas de entrada anidadas
- [SPARK-47202][PYTHON] Corrección de datetimes de interrupción de error tipográfico con tzinfo
- [SPARK-47713][SQL][CONNECT] Corregir un error de autocombinación
- Actualizaciones de seguridad del sistema operativo
- Esta versión incluye una corrección de errores para las clases
- 11 de julio de 2024
- (Cambio de comportamiento) Los DataFrames almacenados en caché en los orígenes de tabla Delta ahora se invalidan si se sobrescribe la tabla de origen. Este cambio significa que todos los cambios de estado en las tablas Delta ahora invalidan los resultados almacenados en caché. Se usa
.checkpoint()
para conservar un estado de tabla durante toda la vigencia de un dataframe. - Snowflake JDBC Driver se actualiza a la versión 3.16.1.
- Esta versión incluye una corrección de un problema que impedía que la pestaña Entorno de la interfaz de usuario de Spark se mostrara correctamente al ejecutarse en Databricks Container Services.
- En el proceso sin servidor para cuadernos y trabajos, el modo SQL ANSI está habilitado de forma predeterminada. Consulte Parámetros de configuración de Spark admitidos.
- Para omitir particiones no válidas al leer datos, orígenes de datos basados en archivos, como Parquet, ORC, CSV o JSON, puede establecer la opción ignoreInvalidPartitionPaths del origen de datos en true. Por ejemplo: spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…). También puede usar la configuración de SQL spark.sql.files.ignoreInvalidPartitionPaths. Sin embargo, la opción del origen de datos tiene prioridad sobre la configuración de SQL. Esta configuración es false de forma predeterminada.
- [SPARK-48648][PYTHON][CONNECT] Hacer que SparkConnectClient.tags sea correctamente subprocesocal
- [SPARK-48445][SQL] No inserte UDF insertadas con elementos secundarios costosos
- [SPARK-48481][SQL][SS] No aplicar OptimizeOneRowPlan en el conjunto de datos de streaming
- [SPARK-48383][SS] Se produce un error mejor para las particiones no coincidentes en la opción startOffset en Kafka
- [SPARK-48503][SQL] Corregir subconsultas escalares no válidas con agrupación por en columnas no equivalentes permitidas incorrectamente
- [SPARK-48100][SQL] Corregir problemas al omitir campos de estructura anidados no seleccionados en el esquema
- [SPARK-48273][SQL] Corregir la reescritura tardía de PlanWithUnresolvedIdentifier
- [SPARK-48252][SQL] Actualizar CommonExpressionRef cuando sea necesario
- [SPARK-48475][PYTHON] Optimizar _get_jvm_function en PySpark.
- [SPARK-48292][CORE] Revertir [SPARK-39195][SQL] Spark OutputCommitCoordinator debe anular la fase cuando el archivo confirmado no sea coherente con el estado de la tarea
- Actualizaciones de seguridad del sistema operativo
- (Cambio de comportamiento) Los DataFrames almacenados en caché en los orígenes de tabla Delta ahora se invalidan si se sobrescribe la tabla de origen. Este cambio significa que todos los cambios de estado en las tablas Delta ahora invalidan los resultados almacenados en caché. Se usa
- 17 de junio de 2024
applyInPandasWithState()
está disponible en clústeres compartidos.- Corrige un error en el que la optimización de la ventana de clasificación mediante Photon TopK controla incorrectamente las particiones con estructuras.
- [SPARK-48310][PYTHON][CONNECT] Las propiedades almacenadas en caché deben devolver copias
- [SPARK-48276][PYTHON][CONNECT] Agregue el método de
__repr__
que falta paraSQLExpression
- [SPARK-48294][SQL] Controlar minúsculas en nestedTypeMissingElementTypeError
- Actualizaciones de seguridad del sistema operativo
- 21 de mayo de 2024
- (Cambio de comportamiento)
dbutils.widgets.getAll()
ahora se admite para obtener todos los valores de widget en un cuaderno. - Se ha corregido un error en la función try_divide() en la que las entradas que contienen decimales producían excepciones inesperadas.
- [SPARK-48056][CONNECT][PYTHON] Volver a ejecutar el plan si se produce un error de SESSION_NOT_FOUND y no se ha recibido ninguna respuesta parcial
- [SPARK-48146][SQL] Corregir la función de agregado en Con aserción secundaria de expresión
- [SPARK-47986][CONNECT][PYTHON] No se puede crear una nueva sesión cuando el servidor cierra la sesión predeterminada
- [SPARK-48180][SQL] Mejorar el error cuando la llamada UDTF con TABLE arg olvida paréntesis alrededor de varios archivos PARTITION/ORDER BY exprs
- [SPARK-48016][SQL] Corrección de un error en try_divide función cuando con decimales
- [SPARK-48197][SQL] Evitar el error de aserción para una función lambda no válida
- [SPARK-47994][SQL] Se ha corregido el error con la inserción de filtros de columna CASE WHEN en SQLServer
- [SPARK-48173][SQL] CheckAnalysis debería ver todo el plan de consulta
- [SPARK-48105][SS] Corregir la condición de carrera entre la descarga del almacén de estado y la creación de instantáneas
- Actualizaciones de seguridad del sistema operativo
- (Cambio de comportamiento)
- 9 de mayo de 2024
- (Cambio de comportamiento) Los tipos
applyInPandas
ymapInPandas
de UDF ahora se admiten en el modo de acceso compartido que ejecuta Databricks Runtime 14.3 y versiones posteriores. - [SPARK-47739][SQL] Registrar el tipo de avro lógico
- [SPARK-47941] [SS] [Connect] Propagación de errores de inicialización de trabajo de ForeachBatch a los usuarios para PySpark
- [SPARK-48010][SQL] Evitar llamadas repetidas a conf.resolver en resolveExpression
- [SPARK-48044][PYTHON][CONNECT]
DataFrame.isStreaming
de caché - [SPARK-47956][SQL] Comprobación de integridad de la referencia de LCA sin resolver
- [SPARK-47543][CONNECT][PYTHON] Inferir dict como Mapype desde Dataframe de Pandas para permitir la creación de DataFrame
- [SPARK-47819][CONNECT][Cherry-pick-14.3] Usar la devolución de llamada asincrónica para la limpieza de la ejecución
- [SPARK-47764][CORE][SQL] Limpieza de dependencias aleatorias basadas en ShuffleCleanupMode
- [SPARK-48018][SS] Corrección de groupId null que provoca un error de param que falta al iniciar KafkaException.couldNotReadOffsetRange
- [SPARK-47839][SQL] Corrección del error agregado en RewriteWithExpression
- [SPARK-47371] [SQL] XML: ignorar etiquetas de fila encontradas en CDATA
- [SPARK-47895]grupo [SQL] por todos deben ser idempotentes
- [SPARK-47973]sitio de llamada de registro [CORE] en SparkContext.stop() y versiones posteriores en SparkContext.assertNotStopped()
- Actualizaciones de seguridad del sistema operativo
- (Cambio de comportamiento) Los tipos
- 25 de abril de 2024
- [SPARK-47543][CONNECT][PYTHON] Inferir
dict
comoMapType
de DataFrame de Pandas para permitir la creación de DataFrame - [SPARK-47694][CONNECT] Hacer que el tamaño máximo del mensaje sea configurable en el lado cliente
- [SPARK-47664][PYTHON][CONNECT][Cherry-pick-14.3] Validar el nombre de columna con el esquema almacenado en caché
- [SPARK-47862][PYTHON][CONNECT] Corregir la generación de archivos proto
- Revertir “[SPARK-47543][CONNECT][PYTHON] Inferir
dict
comoMapType
de DataFrame de Pandas para permitir la creación de DataFrame” - [SPARK-47704][SQL] El análisis de JSON produce un error “java.lang.ClassCastException” cuando spark.sql.json.enablePartialResults está habilitado
- [SPARK-47812][CONNECT] Admitir la serialización de SparkSession para el trabajo ForEachBatch
- [SPARK-47818][CONNECT][Cherry-pick-14.3] Introducir la caché del plan en SparkConnectPlanner para mejorar el rendimiento de las solicitudes de análisis
- [SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
produce un error con un plan no válido - Actualizaciones de seguridad del sistema operativo
- [SPARK-47543][CONNECT][PYTHON] Inferir
- 11 de abril de 2024
- (Cambio de comportamiento) Para garantizar un comportamiento coherente entre los tipos de proceso, las UDF de PySpark en clústeres compartidos ahora coinciden con el comportamiento de las UDF en clústeres sin aislamiento y clústeres asignados. Esta actualización incluye los siguientes cambios que podrían interrumpir el código existente:
- Las UDF con un tipo de valor devuelto de
string
ya no convierten implícitamente valores nostring
en valoresstring
. Anteriormente, las UDF con un tipo de valor devuelto destr
encapsularían el valor devuelto con una funciónstr()
independientemente del tipo de datos real del valor devuelto. - Las UDF con
timestamp
tipos devueltos ya no aplican implícitamente una conversión atimestamp
contimezone
. - Las configuraciones del clúster de Spark
spark.databricks.sql.externalUDF.*
ya no se aplican a las UDF de PySpark en clústeres compartidos. - La configuración del clúster de Spark
spark.databricks.safespark.externalUDF.plan.limit
ya no afecta a las UDF de PySpark, lo que elimina la limitación de la versión preliminar pública de 5 UDF por consulta para UDF de PySpark. - La configuración del clúster de Spark
spark.databricks.safespark.sandbox.size.default.mib
ya no se aplica a las UDF de PySpark en clústeres compartidos. En su lugar, se usa la memoria disponible en el sistema. Para limitar la memoria de las UDF de PySpark, usespark.databricks.pyspark.udf.isolation.memoryLimit
con un valor mínimo de100m
.
- Las UDF con un tipo de valor devuelto de
- El
TimestampNTZ
tipo de datos ahora se admite como una columna de agrupación en clústeres con clústeres líquidos. Consulte Uso de clústeres líquidos para tablas Delta. - [SPARK-47511][SQL] Canonicalizar expresiones con reasignación de identificadores
- [SPARK-47509][SQL] Bloquear expresiones de subconsulta en funciones lambda y de orden superior
- [SPARK-46990][SQL] Corrección de la carga de archivos Avro vacíos emitidos por evento-central
- [SPARK-47638][PS] [CONNECT] Omitir la validación de nombres de columna en PS
- Actualizaciones de seguridad del sistema operativo
- (Cambio de comportamiento) Para garantizar un comportamiento coherente entre los tipos de proceso, las UDF de PySpark en clústeres compartidos ahora coinciden con el comportamiento de las UDF en clústeres sin aislamiento y clústeres asignados. Esta actualización incluye los siguientes cambios que podrían interrumpir el código existente:
- 14 de marzo de 2024
- [SPARK-47135][SS] Implementación de clases de error para excepciones de pérdida de datos de Kafka
- [SPARK-47176][SQL] Tener una función auxiliar ResolveAllExpressionsUpWithPruning
- [SPARK-47145][SQL] Pasar el identificador de tabla al examen del origen de datos de fila exec para la estrategia V2.
- [SPARK-47044][SQL] Agregar una consulta ejecutada para orígenes de datos externos JDBC para explicar la salida
- [SPARK-47167][SQL] Agregar clase concreta para la relación anónima de JDBC
- [SPARK-47070] Corregir la agregación no válida después de la reescritura de subconsulta
- [SPARK-47121][CORE] Evitar RejectedExecutionExceptions durante el apagado standaloneSchedulerBackend
- Revertir “[SPARK-46861][CORE] Evitar interbloqueo en DAGScheduler”
- [SPARK-47125][SQL] Devuelve null si Univocity nunca desencadena el análisis
- [SPARK-46999][SQL] ExpressionWithUnresolvedIdentifier debe incluir otras expresiones en el árbol de expresiones
- [SPARK-47129][CONNECT][SQL] Hacer que
ResolveRelations
plan de conexión de caché sea correcto - [SPARK-47241][SQL] Corrección de problemas de orden de reglas para ExtractGenerator
- [SPARK-47035][SS][CONNECT] Protocol for Client-Side Listener
- Actualizaciones de seguridad del sistema operativo
- 29 de febrero de 2024
- Se ha corregido un problema por el que el uso de una colección local como origen en un comando MERGE podía dar lugar a que la métrica de operación numSourceRows notificara el doble del número correcto de filas.
- La creación de un esquema con una ubicación definida ahora requiere que el usuario tenga privilegios SELECT y MODIFY en ANY FILE.
- [SPARK-47071][SQL] Insertado con expresión si contiene una expresión especial
- [SPARK-47059][SQL] Asociar contexto de error para el comando ALTER COLUMN v1
- [SPARK-46993][SQL] Corrección del plegado constante para las variables de sesión
- Actualizaciones de seguridad del sistema operativo
- 3 de enero de 2024
- [SPARK-46933] Agregar métrica de tiempo de ejecución de consultas a conectores que usan JDBCRDD.
- [SPARK-46763] corregir el error de aserción en ReplaceDeduplicateWithAggregate para los atributos duplicados.
- [SPARK-46954] XML: Encapsula InputStreamReader con BufferedReader.
- [SPARK-46655] Omitir captura de contexto de consulta en métodos de
DataFrame
. - [SPARK-44815] Cache df.schema para evitar RPC adicional.
- [SPARK-46952] XML: limitar el tamaño del registro dañado.
- [SPARK-46794] Quitar subconsultas de restricciones LogicalRDD.
- [SPARK-46736] conservar el campo de mensaje vacío en el conector protobuf.
- [SPARK-45182] Omitir la finalización de tareas de la fase anterior después de volver a intentar la fase primaria indeterminada según lo determinado por la suma de comprobación.
- [SPARK-46414] Usar prependBaseUri para representar importaciones de Javascript.
- [SPARK-46383] Reducir el uso del montón de controladores al reducir la duración de
TaskInfo.accumulables()
. - [SPARK-46861] Evitar interbloqueo en DAGScheduler.
- [SPARK-46954] XML: optimizar la búsqueda de índices de esquema.
- [SPARK-46676] dropDuplicatesWithinWatermark no debe producir un error en la canonización del plan.
- [SPARK-46644] Agregar y combinar en SQLMetric para usar isZero.
- [SPARK-46731] Administrar la instancia del proveedor del almacén de estado por origen de datos de estado: lector.
- [SPARK-46677] Corrección
dataframe["*"]
resolución. - [SPARK-46610] Crear tabla debe producir una excepción cuando no hay ningún valor para una clave en las opciones.
- [SPARK-46941] No se puede insertar el nodo de límite de grupo de ventanas para el cálculo superior k si contiene SizeBasedWindowFunction.
- [SPARK-45433] Corrección de la inferencia de esquema CSV/JSON cuando las marcas de tiempo no coinciden con el valor timestampFormat especificado.
- [SPARK-46930] Agregar soporte para un prefijo personalizado para los campos de tipo Union en Avro.
- [SPARK-46227] Backport a 14.3.
- [SPARK-46822] Respeta spark.sql.legacy.charVarcharAsString al convertir el tipo jdbc en el tipo de catalizador en jdbc.
- Actualizaciones de seguridad del sistema operativo
Databricks Runtime 14.2
Consulte Databricks Runtime 14.2.
- 22 de octubre de 2024
- [SPARK-49782][SQL] La regla ResolveDataFrameDropColumns resuelve UnresolvedAttribute con salida secundaria
- [SPARK-49905] Use ShuffleOrigin dedicado para el operador con estado para evitar que se modifique el orden aleatorio de AQE.
- Actualizaciones de seguridad del sistema operativo
- 10 de octubre de 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr no debe cambiar los campos de esquema al eliminar GetArrayStructFields
- [BACKPORT][[SPARK-49474]]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Clasificación de la clase error de la función de usuario FlatMapGroupsWithState
- 25 de septiembre de 2024
- [SPARK-48719][SQL] Corrija el error de cálculo de "RegrS...
- [SPARK-49628][SQL] ConstantFolding debe copiar una expresión con estado antes de evaluar
- [SPARK-49000][SQL] Se ha corregido "select count(distinct 1) from t" donde t está vacía mediante la expansión de RewriteDistinctAggregates
- [SPARK-43242][CORE] Se ha corregido el error "Tipo inesperado de BlockId" en diagnóstico de daños aleatorios.
- [SPARK-46601] [CORE] Corrección del error de registro en handleStatusMessage
- Actualizaciones de seguridad del sistema operativo
- 17 de septiembre de 2024
- [SPARK-49526][CONNECT] Compatibilidad con rutas de acceso de estilo Windows en ArtifactManager
- 29 de agosto de 2024
- [SPARK-49263][CONNECT] Cliente python de Spark Connect: control constante de las opciones del lector de tramas de datos booleanas
- [SPARK-49146][SS] Mover errores de aserción relacionados con la marca de agua que falta en las consultas de streaming en modo anexado al marco de errores
- [SPARK-49056][SQL] ErrorClassesJsonReader no puede controlar null correctamente
- 14 de agosto de 2024
- [SPARK-48050][SS] Registro del plan lógico al inicio de la consulta
- [SPARK-48597][SQL] Introducir un marcador para la propiedad isStreaming en la representación de texto del plan lógico
- [SPARK-49065][SQL] La fusión mediante cambio de base en formateadores o analizadores heredados debe admitir zonas horarias predeterminadas que no son JVM.
- [SPARK-48706][PYTHON] El UDF de Python en funciones de orden superior no debe producir un error interno
- 1 de agosto de 2024
- Esta versión incluye una corrección de errores para las clases
ColumnVector
yColumnarArray
en la interfaz de Java de Spark. Antes de esta corrección,ArrayIndexOutOfBoundsException
se podrían producir o devolver datos incorrectos cuando una instancia de una de estas clases contenía valoresnull
. - La salida de una instrucción
SHOW CREATE TABLE
ahora incluye todos los filtros de fila o máscaras de columna definidos en una vista materializada o una tabla de streaming. Consulte SHOW CREATE TABLE. Para obtener más información sobre cómo usar filtros de fila y máscaras de columna, vea Filtrar datos confidenciales de la tabla mediante filtros de fila y máscaras de columna. - [SPARK-47202][PYTHON] Corrección de datetimes de interrupción de error tipográfico con tzinfo
- [SPARK-48705][PYTHON] Use explícitamente worker_main cuando empiece por pyspark
- Actualizaciones de seguridad del sistema operativo
- Esta versión incluye una corrección de errores para las clases
- 11 de julio de 2024
- (Cambio de comportamiento) Los DataFrames almacenados en caché en los orígenes de tabla Delta ahora se invalidan si se sobrescribe la tabla de origen. Este cambio significa que todos los cambios de estado en las tablas Delta ahora invalidan los resultados almacenados en caché. Se usa
.checkpoint()
para conservar un estado de tabla durante toda la vigencia de un dataframe. - El controlador JDBC de Snowflake se actualiza a la versión 3.16.1
- Esta versión incluye una corrección de un problema que impedía que la pestaña Entorno de la interfaz de usuario de Spark se mostrara correctamente al ejecutarse en Databricks Container Services.
- [SPARK-48292][CORE] Revertir [SPARK-39195][SQL] Spark OutputCommitCoordinator debe anular la fase cuando el archivo confirmado no sea coherente con el estado de la tarea
- [SPARK-48273][SQL] Corregir la reescritura tardía de PlanWithUnresolvedIdentifier
- [SPARK-48503][SQL] Corregir subconsultas escalares no válidas con agrupación por en columnas no equivalentes permitidas incorrectamente
- [SPARK-48481][SQL][SS] No aplicar OptimizeOneRowPlan en el conjunto de datos de streaming
- [SPARK-48475][PYTHON] Optimizar _get_jvm_function en PySpark.
- [SPARK-48100][SQL] Corregir problemas al omitir campos de estructura anidados no seleccionados en el esquema
- [SPARK-48445][SQL] No inserte UDF insertadas con elementos secundarios costosos
- [SPARK-48383][SS] Se produce un error mejor para las particiones no coincidentes en la opción startOffset en Kafka
- Actualizaciones de seguridad del sistema operativo
- (Cambio de comportamiento) Los DataFrames almacenados en caché en los orígenes de tabla Delta ahora se invalidan si se sobrescribe la tabla de origen. Este cambio significa que todos los cambios de estado en las tablas Delta ahora invalidan los resultados almacenados en caché. Se usa
- 17 de junio de 2024
- Corrige un error en el que la optimización de la ventana de clasificación mediante Photon TopK controla incorrectamente las particiones con estructuras.
- [SPARK-48276][PYTHON][CONNECT] Agregue el método de
__repr__
que falta paraSQLExpression
- [SPARK-48277] Mensaje de error Mejorar para ErrorClassesJsonReader.getErrorMessage
- Actualizaciones de seguridad del sistema operativo
- 21 de mayo de 2024
- (Cambio de comportamiento)
dbutils.widgets.getAll()
ahora se admite para obtener todos los valores de widget en un cuaderno. - [SPARK-48173][SQL] CheckAnalysis debería ver todo el plan de consulta
- [SPARK-48197][SQL] Evitar el error de aserción para una función lambda no válida
- [SPARK-47994][SQL] Se ha corregido el error con la inserción de filtros de columna CASE WHEN en SQLServer
- [SPARK-48105][SS] Corregir la condición de carrera entre la descarga del almacén de estado y la creación de instantáneas
- Actualizaciones de seguridad del sistema operativo
- (Cambio de comportamiento)
- 9 de mayo de 2024
- [SPARK-48044][PYTHON][CONNECT]
DataFrame.isStreaming
de caché - [SPARK-47956][SQL] Comprobación de integridad de la referencia de LCA sin resolver
- [SPARK-47371] [SQL] XML: ignorar etiquetas de fila encontradas en CDATA
- [SPARK-47812][CONNECT] Admitir la serialización de SparkSession para el trabajo ForEachBatch
- [SPARK-47895]grupo [SQL] por todos deben ser idempotentes
- [SPARK-47973]sitio de llamada de registro [CORE] en SparkContext.stop() y versiones posteriores en SparkContext.assertNotStopped()
- Actualizaciones de seguridad del sistema operativo
- [SPARK-48044][PYTHON][CONNECT]
- 25 de abril de 2024
- [SPARK-47704][SQL] El análisis de JSON produce un error “java.lang.ClassCastException” cuando spark.sql.json.enablePartialResults está habilitado
- [SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
produce un error con un plan no válido - Actualizaciones de seguridad del sistema operativo
- 11 de abril de 2024
- [SPARK-47309][SQL][XML] Agregar pruebas unitarias de inferencia de esquema
- [SPARK-46990][SQL] Corrección de la carga de archivos Avro vacíos emitidos por evento-central
- [SPARK-47638][PS] [CONNECT] Omitir la validación de nombres de columna en PS
- [SPARK-47509][SQL] Bloquear expresiones de subconsulta en funciones lambda y de orden superior
- [SPARK-38708][SQL] Actualizar el cliente de Metastore de Hive a la versión 3.1.3 para Hive 3.1
- Actualizaciones de seguridad del sistema operativo
- 1 de abril de 2024
- [SPARK-47322][PYTHON][CONNECT] Hacer que la duplicación de nombres de columna de
withColumnsRenamed
control sea coherente conwithColumnRenamed
- [SPARK-47385] Corrija los codificadores de tupla con entradas de opción.
- [SPARK-47070] Corregir la agregación no válida después de la reescritura de subconsulta
- [SPARK-47218] [SQL] XML: Se ha cambiado SchemaOfXml para que se produzca un error en el modo DROPMALFORMED
- [SPARK-47305][SQL] Corrija PruneFilters para etiquetar la marca isStreaming de LocalRelation correctamente cuando el plan tiene tanto procesamiento por lotes como streaming
- [SPARK-47218][SQL] XML: omitir etiquetas de fila comentadas en tokenizador XML
- Revertir “[SPARK-46861][CORE] Evitar interbloqueo en DAGScheduler”
- [SPARK-47300][SQL]
quoteIfNeeded
debe citar identificador comienza con dígitos - [SPARK-47368][SQL] Quitar de la comprobación de configuración inferTimestampNTZ en ParquetRowConverter
- Actualizaciones de seguridad del sistema operativo
- [SPARK-47322][PYTHON][CONNECT] Hacer que la duplicación de nombres de columna de
- 14 de marzo de 2024
- [SPARK-47035][SS][CONNECT] Protocol for Client-Side Listener
- [SPARK-47121][CORE] Evitar RejectedExecutionExceptions durante el apagado standaloneSchedulerBackend
- [SPARK-47145][SQL] Pasar el identificador de tabla al examen del origen de datos de fila exec para la estrategia V2.
- [SPARK-47176][SQL] Tener una función auxiliar ResolveAllExpressionsUpWithPruning
- [SPARK-47167][SQL] Agregar clase concreta para la relación anónima de JDBC
- [SPARK-47129][CONNECT][SQL] Hacer que
ResolveRelations
plan de conexión de caché sea correcto - [SPARK-47044][SQL] Agregar una consulta ejecutada para orígenes de datos externos JDBC para explicar la salida
- Actualizaciones de seguridad del sistema operativo
- 29 de febrero de 2024
- Se ha corregido un problema por el que el uso de una colección local como origen en un comando MERGE podía dar lugar a que la métrica de operación numSourceRows notificara el doble del número correcto de filas.
- La creación de un esquema con una ubicación definida ahora requiere que el usuario tenga privilegios SELECT y MODIFY en ANY FILE.
- Ahora puede ingerir archivos XML mediante autocargador, read_files, COPY INTO, DLT y DBSQL. El soporte con archivos XML puede deducir y evolucionar automáticamente el esquema, rescatar datos con errores de coincidencia de tipos, validar XML mediante XSD, admitir expresiones SQL como from_xml, schema_of_xml y to_xml. Consulte soporte con archivos XML para obtener más información. Si anteriormente había usado el paquete spark-xml externo, consulte aquí para obtener instrucciones de migración.
- [SPARK-46954][SQL] XML: Encapsular InputStreamReader con BufferedReader
- [SPARK-46630][SQL] XML: Validar el nombre del elemento XML en escritura
- [SPARK-46248][SQL] XML: soporte con las opciones ignoreCorruptFiles e ignoreMissingFiles
- [SPARK-46954][SQL] XML: Optimización de la búsqueda de índices de esquema
- [SPARK-47059][SQL] Asociar contexto de error para el comando ALTER COLUMN v1
- [SPARK-46993][SQL] Corrección del plegado constante para las variables de sesión
- 8 de febrero de 2024
- No se admiten las consultas de fuente de distribución de datos modificados (CDF) en vistas materializadas del catálogo de Unity, y al intentar ejecutar una consulta CDF con una vista materializada de Unity Catalog se devuelve un error. Las tablas de streaming de Catálogo de Unity admiten consultas CDF en tablas que no
APPLY CHANGES
son de Databricks Runtime 14.1 y versiones posteriores. Las consultas de CDF no se admiten con tablas de streaming de Catálogo de Unity en Databricks Runtime 14.0 y versiones anteriores. - [SPARK-46930] Agregar soporte para un prefijo personalizado para los campos de tipo Union en Avro.
- [SPARK-46822] Respeta spark.sql.legacy.charVarcharAsString al convertir el tipo jdbc en el tipo de catalizador en jdbc.
- [SPARK-46952] XML: limitar el tamaño del registro dañado.
- [SPARK-46644] Agregar y combinar en SQLMetric para usar isZero.
- [SPARK-46861] Evitar interbloqueo en DAGScheduler.
- [SPARK-46794] Quitar subconsultas de restricciones LogicalRDD.
- [SPARK-46941] No se puede insertar el nodo de límite de grupo de ventanas para el cálculo superior k si contiene SizeBasedWindowFunction.
- [SPARK-46933] Agregar métrica de tiempo de ejecución de consultas a conectores que usan JDBCRDD.
- Actualizaciones de seguridad del sistema operativo
- No se admiten las consultas de fuente de distribución de datos modificados (CDF) en vistas materializadas del catálogo de Unity, y al intentar ejecutar una consulta CDF con una vista materializada de Unity Catalog se devuelve un error. Las tablas de streaming de Catálogo de Unity admiten consultas CDF en tablas que no
- 31 de enero de 2024
- [SPARK-46382] XML: documento de actualización de
ignoreSurroundingSpaces
. - [SPARK-46382] XML: capturar los valores intercalados entre elementos.
- [SPARK-46763] corregir el error de aserción en ReplaceDeduplicateWithAggregate para los atributos duplicados.
- Revierta [SPARK-46769] Refinar la inferencia de esquema relacionada con la marca de tiempo.
- [SPARK-46677] Corrección
dataframe["*"]
resolución. - [SPARK-46382] XML: ignoreSurroundingSpaces predeterminado en true.
- [SPARK-46633] Corregir lector Avro para manipular bloques de longitud cero.
- [SPARK-45964] Quitar el descriptor de acceso sql privado en el paquete XML y JSON en el paquete catalyst.
- [SPARK-46581] Comentario de actualización en isZero en AcumuladorV2.
- [SPARK-45912] Mejora de la API XSDToSchema: cambio a la API de HDFS para la accesibilidad del almacenamiento en la nube.
- [SPARK-45182] Omitir la finalización de tareas de la fase anterior después de volver a intentar la fase primaria indeterminada según lo determinado por la suma de comprobación.
- [SPARK-46660] solicitudes ReattachExecute actualizan la vida de SessionHolder.
- [SPARK-46610] Crear tabla debe producir una excepción cuando no hay ningún valor para una clave en las opciones.
- [SPARK-46383] Reducir el uso del montón de controladores al reducir la duración de
TaskInfo.accumulables()
. - [SPARK-46769] Refinar la inferencia de esquema relacionada con la marca de tiempo.
- [SPARK-46684] Corregir CoGroup.applyInPandas/Arrow para pasar argumentos correctamente.
- [SPARK-46676] dropDuplicatesWithinWatermark no debe producir un error en la canonización del plan.
- [SPARK-45962] Quitar
treatEmptyValuesAsNulls
y usarnullValue
opción en su lugar en XML. - [SPARK-46541] Corregir la referencia de columna ambigua en la unión automática.
- [SPARK-46599] XML: use TypeCoercion.findTightestCommonType para comprobar la compatibilidad.
- Actualizaciones de seguridad del sistema operativo
- [SPARK-46382] XML: documento de actualización de
- 17 de enero de 2024
- El nodo
shuffle
del plan de explicación devuelto por una consulta de Photon se actualiza para agregar la marcacausedBroadcastJoinBuildOOM=true
cuando se produce un error de memoria insuficiente durante un orden aleatorio que forma parte de una combinación de difusión. - Para evitar una mayor latencia al comunicarse a través de TLSv1.3, esta versión de mantenimiento incluye una revisión a la instalación de JDK 8 para corregir el error de JDK (JDK-8293562).
- [SPARK-46261]
DataFrame.withColumnsRenamed
debe mantener el orden de los diccionarios/mapas. - [SPARK-46538] Corregir el problema de referencia de columna ambigua en
ALSModel.transform
. - [SPARK-46145] spark.catalog.listTables no produce una excepción cuando no se encuentra la tabla o vista.
- [SPARK-46484] Hacer que las funciones auxiliares
resolveOperators
conserven el identificador del plan. - [SPARK-46394] Corregir problemas de spark.catalog.listDatabases() en esquemas con caracteres especiales cuando
spark.sql.legacy.keepCommandOutputSchema
se establece en true. - [SPARK-46609] Evitar la explosión exponencial en PartitioningPreservingUnaryExecNode.
- [SPARK-46446] Deshabilitar las subconsultas con OFFSET correlacionado para corregir el error de corrección.
- [SPARK-46152] XML: se ha agregado compatibilidad con DecimalType en la inferencia de esquemas XML.
- [SPARK-46602] Propagar
allowExisting
en la creación de la vista cuando la vista o tabla no exista. - [SPARK-45814] Hacer que la llamada ArrowConverters.createEmptyArrowBatch se cierre() para evitar la pérdida de memoria.
- [SPARK-46058] Agregar una marca independiente para privateKeyPassword.
- [SPARK-46132] Se admite la contraseña de clave para las claves JKS para RPC SSL.
- [SPARK-46600] Mover código compartido entre SqlConf y SqlApiConf a SqlApiConfHelper.
- [SPARK-46478] Revertir SPARK-43049 para usar oracle varchar(255) para la cadena.
- [SPARK-46417] No se produce un error al llamar a hive.getTable y throwException es false.
- [SPARK-46153] XML: se ha agregado compatibilidad con TimestampNTZType.
- [SPARK-46056][BACKPORT] Se ha corregido el NPE de lectura vectorial de Parquet con el valor predeterminado byteArrayDecimalType.
- [SPARK-46466] El lector de parquet vectorizado nunca debe fusionarse mediante cambio de base para la marca de tiempo ntz.
- [SPARK-46260]
DataFrame.withColumnsRenamed
debe respetar el orden de los diccionarios. - [SPARK-46036] Quitar la clase de error de la función raise_error.
- [SPARK-46294] Limpiar la semántica de init frente al valor cero.
- [SPARK-46173] Omitir la llamada a trimAll durante el análisis de fechas.
- [SPARK-46250] Análisis pormenorizado de test_parity_listener.
- [SPARK-46587] XML: se ha corregido la conversión de enteros grandes XSD.
- [SPARK-46396] La inferencia de marca de tiempo no debe producir una excepción.
- [SPARK-46241] Corregir la rutina de control de errores para que no se convierta en recursividad infinita.
- [SPARK-46355] XML: cerrar InputStreamReader al finalizar la lectura.
- [SPARK-46370] Se ha corregido el error al consultar desde la tabla después de cambiar los valores predeterminados de columna.
- [SPARK-46265] Las aserciones de AddArtifact RPC hacen que el cliente de conexión sea incompatible con clústeres anteriores.
- [SPARK-46308] Prohibir el control de errores recursivos.
- [SPARK-46337] Hacer que
CTESubstitution
conservePLAN_ID_TAG
.
- El nodo
- 14 de diciembre de 2023
- [SPARK-46141] Cambiar el valor predeterminado de spark.sql.legacy.ctePrecedencePolicy a CORRECTED.
- [SPARK-45730] Hacer que ReloadingX509TrustManagerSuite sea más fiable.
- [SPARK-45852] Tratar correctamente el error de recursividad durante el registro.
- [SPARK-45808] Mejor control de errores para excepciones de SQL.
- [SPARK-45920] Agrupar por ordinal debe ser idempotente.
- Revertir "[SPARK-45649] Unificar el marco de preparación para
OffsetWindowFunctionFrame
". - [SPARK-45733] Admitir varias directivas de reintento.
- [SPARK-45509] Corregir el comportamiento de referencia de columnas df para Spark Connect.
- [SPARK-45655] Permitir expresiones no deterministas dentro de AggregateFunctions en CollectMetrics.
- [SPARK-45905] El tipo menos común entre los tipos decimales debe conservar primero los dígitos integrales.
- [SPARK-45136] Mejorar la compatibilidad con ClosureCleaner con Ammonite.
- [SPARK-46255] Compatibilidad con tipo complejo:> conversión de cadenas.
- [SPARK-45859] Hacer que los objetos UDF en ml.functions sean diferidos.
- [SPARK-46028] Hacer que
Column.__getitem__
acepte la columna de entrada. - [SPARK-45798] Declare el identificador de sesión del lado servidor.
- [SPARK-45892] Validación del plan del optimizador de refactorización para desacoplar
validateSchemaOutput
yvalidateExprIdUniqueness
. - [SPARK-45844] Implemente la no distinción entre mayúsculas y minúsculas para XML.
- [SPARK-45770] Presentar plan
DataFrameDropColumns
paraDataframe.drop
. - [SPARK-44790] XML: implementación to_xml y enlaces para Python, Connect y SQL.
- [SPARK-45851] Admitir varias directivas en el cliente de Scala.
- Actualizaciones de seguridad del sistema operativo
- 29 de noviembre de 2023
- Se ha instalado un nuevo paquete,
pyarrow-hotfix
, para corregir una vulnerabilidad de RCE de PyArrow. - Se ha corregido un problema que provocaba que los caracteres de subrayado con escape en operaciones
getColumns
procedentes de clientes JDBC o ODBC se interpretaran erróneamente como caracteres comodín. - [SPARK-45730] Restricciones de tiempo mejoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-45852] El cliente de Python para Spark Connect detecta ahora errores de recursividad durante la conversión de texto.
- [SPARK-45808] Control de errores mejorado para las excepciones de SQL.
- [SPARK-45920] El ordinal
GROUP BY
no sustituye al ordinal. - Revierta [SPARK-45649].
- [SPARK-45733] Se ha agregado compatibilidad con varias directivas de reintento.
- [SPARK-45509] Se ha corregido el comportamiento de referencia de columnas
df
para Spark Connect. - [SPARK-45655] Permita expresiones no deterministas dentro de
AggregateFunctions
enCollectMetrics
. - [SPARK-45905] El tipo menos común entre los tipos decimales ahora conserva primero los dígitos integrales.
- [SPARK-45136] Mejore
ClosureCleaner
con compatibilidad con Ammonite. - [SPARK-45859] Objetos UDF creados en
ml.functions
diferido. - [SPARK-46028]
Column.__getitem__
acepta columnas de entrada. - [SPARK-45798] Declare el identificador de sesión del lado servidor.
- [SPARK-45892] Validación del plan del optimizador de refactorización para desacoplar
validateSchemaOutput
yvalidateExprIdUniqueness
. - [SPARK-45844] Implemente la no distinción entre mayúsculas y minúsculas para XML.
- [SPARK-45770] Se ha corregido la resolución de columna con
DataFrameDropColumns
paraDataframe.drop
. - [SPARK-44790] Se ha agregado la implementación
to_xml
y los enlaces para Python, Spark Connect y SQL. - [SPARK-45851] Se ha agregado compatibilidad con varias directivas en el cliente de Scala.
- Actualizaciones de seguridad del sistema operativo
- Se ha instalado un nuevo paquete,
Databricks Runtime 14.1
Consulte Databricks Runtime 14.1.
- 22 de octubre de 2024
- [SPARK-49782][SQL] La regla ResolveDataFrameDropColumns resuelve UnresolvedAttribute con salida secundaria
- [SPARK-49905] Use ShuffleOrigin dedicado para el operador con estado para evitar que se modifique el orden aleatorio de AQE.
- 10 de octubre de 2024
- [BACKPORT][[SPARK-49474]]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Clasificación de la clase error de la función de usuario FlatMapGroupsWithState
- [SPARK-49743][SQL] OptimizeCsvJsonExpr no debe cambiar los campos de esquema al eliminar GetArrayStructFields
- Actualizaciones de seguridad del sistema operativo
- 25 de septiembre de 2024
- [SPARK-49628][SQL] ConstantFolding debe copiar una expresión con estado antes de evaluar
- [SPARK-43242][CORE] Se ha corregido el error "Tipo inesperado de BlockId" en diagnóstico de daños aleatorios.
- [SPARK-48719][SQL] Corrija el error de cálculo de "RegrS...
- [SPARK-49000][SQL] Se ha corregido "select count(distinct 1) from t" donde t está vacía mediante la expansión de RewriteDistinctAggregates
- [SPARK-46601] [CORE] Corrección del error de registro en handleStatusMessage
- Actualizaciones de seguridad del sistema operativo
- 17 de septiembre de 2024
- [SPARK-49526][CONNECT] Compatibilidad con rutas de acceso de estilo Windows en ArtifactManager
- Actualizaciones de seguridad del sistema operativo
- 29 de agosto de 2024
- [SPARK-49263][CONNECT] Cliente python de Spark Connect: control constante de las opciones del lector de tramas de datos booleanas
- [SPARK-49056][SQL] ErrorClassesJsonReader no puede controlar null correctamente
- 14 de agosto de 2024
- [SPARK-48706][PYTHON] El UDF de Python en funciones de orden superior no debe producir un error interno
- [SPARK-48597][SQL] Introducir un marcador para la propiedad isStreaming en la representación de texto del plan lógico
- [SPARK-49065][SQL] La fusión mediante cambio de base en formateadores o analizadores heredados debe admitir zonas horarias predeterminadas que no son JVM.
- [SPARK-48050][SS] Registro del plan lógico al inicio de la consulta
- 1 de agosto de 2024
- Esta versión incluye una corrección de errores para las clases
ColumnVector
yColumnarArray
en la interfaz de Java de Spark. Antes de esta corrección,ArrayIndexOutOfBoundsException
se podrían producir o devolver datos incorrectos cuando una instancia de una de estas clases contenía valoresnull
. - La salida de una instrucción
SHOW CREATE TABLE
ahora incluye todos los filtros de fila o máscaras de columna definidos en una vista materializada o una tabla de streaming. Consulte SHOW CREATE TABLE. Para obtener más información sobre cómo usar filtros de fila y máscaras de columna, vea Filtrar datos confidenciales de la tabla mediante filtros de fila y máscaras de columna. - [SPARK-48705][PYTHON] Use explícitamente worker_main cuando empiece por pyspark
- [SPARK-47202][PYTHON] Corrección de datetimes de interrupción de error tipográfico con tzinfo
- Actualizaciones de seguridad del sistema operativo
- Esta versión incluye una corrección de errores para las clases
- 11 de julio de 2024
- (Cambio de comportamiento) Los DataFrames almacenados en caché en los orígenes de tabla Delta ahora se invalidan si se sobrescribe la tabla de origen. Este cambio significa que todos los cambios de estado en las tablas Delta ahora invalidan los resultados almacenados en caché. Se usa
.checkpoint()
para conservar un estado de tabla durante toda la vigencia de un dataframe. - Esta versión incluye una corrección de un problema que impedía que la pestaña Entorno de la interfaz de usuario de Spark se mostrara correctamente al ejecutarse en Databricks Container Services.
- [SPARK-48475][PYTHON] Optimizar _get_jvm_function en PySpark.
- [SPARK-48445][SQL] No inserte UDF insertadas con elementos secundarios costosos
- [SPARK-48481][SQL][SS] No aplicar OptimizeOneRowPlan en el conjunto de datos de streaming
- [SPARK-48292][CORE] Revertir [SPARK-39195][SQL] Spark OutputCommitCoordinator debe anular la fase cuando el archivo confirmado no sea coherente con el estado de la tarea
- [SPARK-48503][SQL] Corregir subconsultas escalares no válidas con agrupación por en columnas no equivalentes permitidas incorrectamente
- [SPARK-48273][SQL] Corregir la reescritura tardía de PlanWithUnresolvedIdentifier
- [SPARK-48100][SQL] Corregir problemas al omitir campos de estructura anidados no seleccionados en el esquema
- [SPARK-48383][SS] Se produce un error mejor para las particiones no coincidentes en la opción startOffset en Kafka
- Actualizaciones de seguridad del sistema operativo
- (Cambio de comportamiento) Los DataFrames almacenados en caché en los orígenes de tabla Delta ahora se invalidan si se sobrescribe la tabla de origen. Este cambio significa que todos los cambios de estado en las tablas Delta ahora invalidan los resultados almacenados en caché. Se usa
- 17 de junio de 2024
- Corrige un error en el que la optimización de la ventana de clasificación mediante Photon TopK controla incorrectamente las particiones con estructuras.
- [SPARK-48276][PYTHON][CONNECT] Agregue el método de
__repr__
que falta paraSQLExpression
- [SPARK-48277] Mensaje de error Mejorar para ErrorClassesJsonReader.getErrorMessage
- Actualizaciones de seguridad del sistema operativo
- 21 de mayo de 2024
- (Cambio de comportamiento)
dbutils.widgets.getAll()
ahora se admite para obtener todos los valores de widget en un cuaderno. - [SPARK-47994][SQL] Se ha corregido el error con la inserción de filtros de columna CASE WHEN en SQLServer
- [SPARK-48105][SS] Corregir la condición de carrera entre la descarga del almacén de estado y la creación de instantáneas
- [SPARK-48173][SQL] CheckAnalysis debería ver todo el plan de consulta
- Actualizaciones de seguridad del sistema operativo
- (Cambio de comportamiento)
- 9 de mayo de 2024
- [SPARK-47371] [SQL] XML: ignorar etiquetas de fila encontradas en CDATA
- [SPARK-47895]grupo [SQL] por todos deben ser idempotentes
- [SPARK-47956][SQL] Comprobación de integridad de la referencia de LCA sin resolver
- [SPARK-48044][PYTHON][CONNECT]
DataFrame.isStreaming
de caché - [SPARK-47973]sitio de llamada de registro [CORE] en SparkContext.stop() y versiones posteriores en SparkContext.assertNotStopped()
- Actualizaciones de seguridad del sistema operativo
- 25 de abril de 2024
- [SPARK-47704][SQL] El análisis de JSON produce un error “java.lang.ClassCastException” cuando spark.sql.json.enablePartialResults está habilitado
- [SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
produce un error con un plan no válido - Actualizaciones de seguridad del sistema operativo
- 11 de abril de 2024
- [SPARK-47638][PS] [CONNECT] Omitir la validación de nombres de columna en PS
- [SPARK-38708][SQL] Actualizar el cliente de Metastore de Hive a la versión 3.1.3 para Hive 3.1
- [SPARK-47309][SQL][XML] Agregar pruebas unitarias de inferencia de esquema
- [SPARK-47509][SQL] Bloquear expresiones de subconsulta en funciones lambda y de orden superior
- [SPARK-46990][SQL] Corrección de la carga de archivos Avro vacíos emitidos por evento-central
- Actualizaciones de seguridad del sistema operativo
- 1 de abril de 2024
- [SPARK-47305][SQL] Corrija PruneFilters para etiquetar la marca isStreaming de LocalRelation correctamente cuando el plan tiene tanto procesamiento por lotes como streaming
- [SPARK-47218][SQL] XML: omitir etiquetas de fila comentadas en tokenizador XML
- [SPARK-47300][SQL]
quoteIfNeeded
debe citar identificador comienza con dígitos - [SPARK-47368][SQL] Quitar de la comprobación de configuración inferTimestampNTZ en ParquetRowConverter
- [SPARK-47070] Corregir la agregación no válida después de la reescritura de subconsulta
- [SPARK-47322][PYTHON][CONNECT] Hacer que la duplicación de nombres de columna de
withColumnsRenamed
control sea coherente conwithColumnRenamed
- [SPARK-47300] Corrección para DecomposerSuite
- [SPARK-47218] [SQL] XML: Se ha cambiado SchemaOfXml para que se produzca un error en el modo DROPMALFORMED
- [SPARK-47385] Corrija los codificadores de tupla con entradas de opción.
- Actualizaciones de seguridad del sistema operativo
- 14 de marzo de 2024
- [SPARK-47176][SQL] Tener una función auxiliar ResolveAllExpressionsUpWithPruning
- [SPARK-47145][SQL] Pasar el identificador de tabla al examen del origen de datos de fila exec para la estrategia V2.
- [SPARK-47167][SQL] Agregar clase concreta para la relación anónima de JDBC
- [SPARK-47129][CONNECT][SQL] Hacer que
ResolveRelations
plan de conexión de caché sea correcto - Revertir “[SPARK-46861][CORE] Evitar interbloqueo en DAGScheduler”
- [SPARK-47044][SQL] Agregar una consulta ejecutada para orígenes de datos externos JDBC para explicar la salida
- Actualizaciones de seguridad del sistema operativo
- 29 de febrero de 2024
- Se ha corregido un problema por el que el uso de una colección local como origen en un comando MERGE podía dar lugar a que la métrica de operación numSourceRows notificara el doble del número correcto de filas.
- La creación de un esquema con una ubicación definida ahora requiere que el usuario tenga privilegios SELECT y MODIFY en ANY FILE.
- Ahora puede ingerir archivos XML mediante autocargador, read_files, COPY INTO, DLT y DBSQL. El soporte con archivos XML puede deducir y evolucionar automáticamente el esquema, rescatar datos con errores de coincidencia de tipos, validar XML mediante XSD, admitir expresiones SQL como from_xml, schema_of_xml y to_xml. Consulte soporte con archivos XML para obtener más información. Si anteriormente había usado el paquete spark-xml externo, consulte aquí para obtener instrucciones de migración.
- [SPARK-46248][SQL] XML: soporte con las opciones ignoreCorruptFiles e ignoreMissingFiles
- [SPARK-47059][SQL] Asociar contexto de error para el comando ALTER COLUMN v1
- [SPARK-46954][SQL] XML: Encapsular InputStreamReader con BufferedReader
- [SPARK-46954][SQL] XML: Optimización de la búsqueda de índices de esquema
- [SPARK-46630][SQL] XML: Validar el nombre del elemento XML en escritura
- Actualizaciones de seguridad del sistema operativo
- 8 de febrero de 2024
- No se admiten las consultas de fuente de distribución de datos modificados (CDF) en vistas materializadas del catálogo de Unity, y al intentar ejecutar una consulta CDF con una vista materializada de Unity Catalog se devuelve un error. Las tablas de streaming de Catálogo de Unity admiten consultas CDF en tablas que no
APPLY CHANGES
son de Databricks Runtime 14.1 y versiones posteriores. Las consultas de CDF no se admiten con tablas de streaming de Catálogo de Unity en Databricks Runtime 14.0 y versiones anteriores. - [SPARK-46952] XML: limitar el tamaño del registro dañado.
- [SPARK-45182] Omitir la finalización de tareas de la fase anterior después de volver a intentar la fase primaria indeterminada según lo determinado por la suma de comprobación.
- [SPARK-46794] Quitar subconsultas de restricciones LogicalRDD.
- [SPARK-46933] Agregar métrica de tiempo de ejecución de consultas a conectores que usan JDBCRDD.
- [SPARK-46861] Evitar interbloqueo en DAGScheduler.
- [SPARK-45582] Asegúrese de que la instancia de almacén no se usa después de llamar a la confirmación en la agregación de streaming del modo de salida.
- [SPARK-46930] Agregar soporte para un prefijo personalizado para los campos de tipo Union en Avro.
- [SPARK-46941] No se puede insertar el nodo de límite de grupo de ventanas para el cálculo superior k si contiene SizeBasedWindowFunction.
- [SPARK-46396] La inferencia de marca de tiempo no debe producir una excepción.
- [SPARK-46822] Respeta spark.sql.legacy.charVarcharAsString al convertir el tipo jdbc en el tipo de catalizador en jdbc.
- [SPARK-45957] Evitar generar el plan de ejecución para comandos que no son ejecutables.
- Actualizaciones de seguridad del sistema operativo
- No se admiten las consultas de fuente de distribución de datos modificados (CDF) en vistas materializadas del catálogo de Unity, y al intentar ejecutar una consulta CDF con una vista materializada de Unity Catalog se devuelve un error. Las tablas de streaming de Catálogo de Unity admiten consultas CDF en tablas que no
- 31 de enero de 2024
- [SPARK-46684] Corregir CoGroup.applyInPandas/Arrow para pasar argumentos correctamente.
- [SPARK-46763] corregir el error de aserción en ReplaceDeduplicateWithAggregate para los atributos duplicados.
- [SPARK-45498] Seguimiento: omitir la finalización de tareas de los intentos de fase antiguos.
- [SPARK-46382] XML: documento de actualización de
ignoreSurroundingSpaces
. - [SPARK-46383] Reducir el uso del montón de controladores al reducir la duración de
TaskInfo.accumulables()
. - [SPARK-46382] XML: ignoreSurroundingSpaces predeterminado en true.
- [SPARK-46677] Corrección
dataframe["*"]
resolución. - [SPARK-46676] dropDuplicatesWithinWatermark no debe producir un error en la canonización del plan.
- [SPARK-46633] Corregir lector Avro para manipular bloques de longitud cero.
- [SPARK-45912] Mejora de la API XSDToSchema: cambio a la API de HDFS para la accesibilidad del almacenamiento en la nube.
- [SPARK-46599] XML: Usar TypeCoercion.findTightestCommonType para la comprobación de compatibilidad.
- [SPARK-46382] XML: capturar los valores intercalados entre elementos.
- [SPARK-46769] Refinar la inferencia de esquema relacionada con la marca de tiempo.
- [SPARK-46610] Crear tabla debe producir una excepción cuando no hay ningún valor para una clave en las opciones.
- [SPARK-45964] Quitar el descriptor de acceso sql privado en el paquete XML y JSON en el paquete catalyst.
- Revierta [SPARK-46769] Refinar la inferencia de esquema relacionada con la marca de tiempo.
- [SPARK-45962] Quitar
treatEmptyValuesAsNulls
y usarnullValue
opción en su lugar en XML. - [SPARK-46541] Corregir la referencia de columna ambigua en la unión automática.
- Actualizaciones de seguridad del sistema operativo
- 17 de enero de 2024
- El nodo
shuffle
del plan de explicación devuelto por una consulta de Photon se actualiza para agregar la marcacausedBroadcastJoinBuildOOM=true
cuando se produce un error de memoria insuficiente durante un orden aleatorio que forma parte de una combinación de difusión. - Para evitar una mayor latencia al comunicarse a través de TLSv1.3, esta versión de mantenimiento incluye una revisión a la instalación de JDK 8 para corregir el error de JDK (JDK-8293562).
- [SPARK-46538] Corregir el problema de referencia de columna ambigua en
ALSModel.transform
. - [SPARK-46417] No se produce un error al llamar a hive.getTable y throwException es false.
- [SPARK-46484] Hacer que las funciones auxiliares
resolveOperators
conserven el identificador del plan. - [SPARK-46153] XML: se ha agregado compatibilidad con TimestampNTZType.
- [SPARK-46152] XML: se ha agregado compatibilidad con DecimalType en la inferencia de esquemas XML.
- [SPARK-46145] spark.catalog.listTables no produce una excepción cuando no se encuentra la tabla o vista.
- [SPARK-46478] Revertir SPARK-43049 para usar oracle varchar(255) para la cadena.
- [SPARK-46394] Corregir problemas de spark.catalog.listDatabases() en esquemas con caracteres especiales cuando
spark.sql.legacy.keepCommandOutputSchema
se establece en true. - [SPARK-46337] Hacer que
CTESubstitution
conservePLAN_ID_TAG
. - [SPARK-46466] El lector de parquet vectorizado nunca debe fusionarse mediante cambio de base para la marca de tiempo ntz.
- [SPARK-46587] XML: se ha corregido la conversión de enteros grandes XSD.
- [SPARK-45814] Hacer que la llamada ArrowConverters.createEmptyArrowBatch se cierre() para evitar la pérdida de memoria.
- [SPARK-46132] Se admite la contraseña de clave para las claves JKS para RPC SSL.
- [SPARK-46602] Propagar
allowExisting
en la creación de la vista cuando la vista o tabla no exista. - [SPARK-46173] Omitir la llamada a trimAll durante el análisis de fechas.
- [SPARK-46355] XML: cerrar InputStreamReader al finalizar la lectura.
- [SPARK-46600] Mover código compartido entre SqlConf y SqlApiConf a SqlApiConfHelper.
- [SPARK-46261]
DataFrame.withColumnsRenamed
debe mantener el orden de los diccionarios/mapas. - [SPARK-46056] Corregir NPE de lectura vectorizada de Parquet con el valor predeterminado byteArrayDecimalType.
- [SPARK-46260]
DataFrame.withColumnsRenamed
debe respetar el orden de los diccionarios. - [SPARK-46250] Análisis pormenorizado de test_parity_listener.
- [SPARK-46370] Se ha corregido el error al consultar desde la tabla después de cambiar los valores predeterminados de columna.
- [SPARK-46609] Evitar la explosión exponencial en PartitioningPreservingUnaryExecNode.
- [SPARK-46058] Agregar una marca independiente para privateKeyPassword.
- El nodo
- 14 de diciembre de 2023
- Se ha corregido un problema que provocaba que los caracteres de subrayado con escape en operaciones getColumns procedentes de clientes JDBC o ODBC se administraban incorrectamente y se interpretaban erróneamente como caracteres comodín.
- [SPARK-45509] Corregir el comportamiento de referencia de columnas df para Spark Connect.
- [SPARK-45844] Implemente la no distinción entre mayúsculas y minúsculas para XML.
- [SPARK-46141] Cambiar el valor predeterminado de spark.sql.legacy.ctePrecedencePolicy a CORRECTED.
- [SPARK-46028] Hacer que
Column.__getitem__
acepte la columna de entrada. - [SPARK-46255] Compatibilidad con tipo complejo:> conversión de cadenas.
- [SPARK-45655] Permitir expresiones no deterministas dentro de AggregateFunctions en CollectMetrics.
- [SPARK-45433] Corrección de la inferencia de esquema CSV/JSON cuando las marcas de tiempo no coinciden con el valor timestampFormat especificado.
- [SPARK-45316] Agregue nuevos parámetros
ignoreCorruptFiles
/ignoreMissingFiles
aHadoopRDD
yNewHadoopRDD
. - [SPARK-45852] Tratar correctamente el error de recursividad durante el registro.
- [SPARK-45920] Agrupar por ordinal debe ser idempotente.
- Actualizaciones de seguridad del sistema operativo
- 29 de noviembre de 2023
- Se ha instalado un nuevo paquete,
pyarrow-hotfix
, para corregir una vulnerabilidad de RCE de PyArrow. - Se ha corregido un problema que provocaba que los caracteres de subrayado con escape en operaciones
getColumns
procedentes de clientes JDBC o ODBC se interpretaran erróneamente como caracteres comodín. - Al ingerir datos CSV mediante Auto Loader o Streaming Tables, los archivos CSV de gran tamaño ahora se pueden dividir y se pueden procesar en paralelo durante la inferencia de esquemas y el procesamiento de datos.
- [SPARK-45892] Validación del plan del optimizador de refactorización para desacoplar
validateSchemaOutput
yvalidateExprIdUniqueness
. - [SPARK-45620] Las API relacionadas con UDF de Python ahora usan camelCase.
- [SPARK-44790] Se ha agregado la implementación
to_xml
y los enlaces para Python, Spark Connect y SQL. - [SPARK-45770] Se ha corregido la resolución de columna con
DataFrameDropColumns
paraDataframe.drop
. - [SPARK-45859] Objetos UDF creados en
ml.functions
diferido. - [SPARK-45730] Restricciones de tiempo mejoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-44784] Se han hecho herméticas las pruebas SBT.
- Actualizaciones de seguridad del sistema operativo
- Se ha instalado un nuevo paquete,
- 10 de noviembre de 2023
- [SPARK-45545]
SparkTransportConf
heredaSSLOptions
tras la creación. - [SPARK-45250] Se ha agregado compatibilidad con el perfil de recursos de tarea en el nivel de fase para clústeres YARN cuando la asignación dinámica está deshabilitada.
- [SPARK-44753] Se han agregado el lector y el escritor de DataFrame XML para PySpark SQL.
- [SPARK-45396] Se ha agregado una entrada de documento para el módulo
PySpark.ml.connect
. - [SPARK-45584] Se ha corregido un error de ejecución de subconsulta con
TakeOrderedAndProjectExec
. - [SPARK-45541] Se ha agregado SSLFactory.
- [SPARK-45577] Se ha corregido
UserDefinedPythonTableFunctionAnalyzeRunner
para pasar valores plegados de argumentos con nombre. - [SPARK-45562] Se ha hecho que "rowTag" sea una opción obligatoria.
- [SPARK-45427] Se ha agregado la configuración SSL de RPC a
SSLOptions
ySparkTransportConf
. - [SPARK-43380] Se ha corregido la ralentización en la lectura de Avro.
- [SPARK-45430]
FramelessOffsetWindowFunction
ya no genera un error cuandoIGNORE NULLS
yoffset > rowCount
. - [SPARK-45429] Se han agregado clases auxiliares para la comunicación RPC de SSL.
- [SPARK-45386] Se ha corregido un problema que provocaba que
StorageLevel.NONE
devolviera 0 de forma incorrecta. - [SPARK-44219] Se han agregado comprobaciones de validación por regla para reescrituras de optimización.
- [SPARK-45543] Se ha corregido un problema en el que
InferWindowGroupLimit
provocaba un error si las otras funciones de ventana no tenían el mismo marco de ventana que las funciones de clasificación. - Actualizaciones de seguridad del sistema operativo
- [SPARK-45545]
- 27 de septiembre de 2023
- [SPARK-44823] Se ha actualizado
black
a 23.9.1 y se ha corregido una comprobación errónea. - [SPARK-45339] PySpark ahora registra los errores que reintenta.
- Se ha revertido [SPARK-42946]. Se han eliminado los datos confidenciales que estaban anidados en la sustitución de variables.
- [SPARK-44551]: se han editado los comentarios para sincronizarlos con OSS.
- [SPARK-45360] El generador de sesiones de Spark admite la inicialización desde
SPARK_REMOTE
. - [SPARK-45279] Se ha adjuntado
plan_id
a todos los planes lógicos. - [SPARK-45425] Se ha asignado
TINYINT
aShortType
paraMsSqlServerDialect
. - [SPARK-45419] Se ha quitado la entrada de asignación de versión de archivo de las versiones más grandes para evitar reutilizar los identificadores de archivo sst
rocksdb
. - [SPARK-45488] Se ha agregado compatibilidad con el valor del elemento
rowTag
. - [SPARK-42205] Se ha eliminado el registro de
Accumulables
en los eventos de inicio deTask/Stage
en los registros de eventos deJsonProtocol
. - [SPARK-45426] Se ha agregado compatibilidad con
ReloadingX509TrustManager
. - [SPARK-45256] Se produce un error en
DurationWriter
al escribir más valores de los estipulados en la capacidad inicial. - [SPARK-43380] Se han corregido problemas de conversión de tipos de datos de
Avro
sin causar una regresión del rendimiento. - [SPARK-45182] Se ha agregado compatibilidad para revertir la fase de asignación aleatoria, por lo que todas las tareas de fase se pueden reintentar cuando la salida de la fase sea indeterminada.
- [SPARK-45399] Se han agregado opciones XML mediante
newOption
. - Actualizaciones de seguridad del sistema operativo
- [SPARK-44823] Se ha actualizado
Databricks Runtime 13.3 LTS
Consulte Databricks Runtime 13.3 LTS.
- 22 de octubre de 2024
- [SPARK-48843] Evitar bucle infinito con BindParameters
- [BACKPORT][[SPARK-49326]]]https://issues.apache.org/jira/browse/SPARK-49326[SS] Clasificación de la clase error para el error de función de usuario receptor foreach
- [SPARK-49905] Use ShuffleOrigin dedicado para el operador con estado para evitar que se modifique el orden aleatorio de AQE.
- Actualizaciones de seguridad del sistema operativo
- 10 de octubre de 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr no debe cambiar los campos de esquema al eliminar GetArrayStructFields
- 25 de septiembre de 2024
- [SPARK-46601] [CORE] Corrección del error de registro en handleStatusMessage
- [SPARK-48719][SQL] Corrección del error de cálculo de RegrSlope & RegrIntercept cuando el primer parámetro es NULL
- [SPARK-43242][CORE] Se ha corregido el error "Tipo inesperado de BlockId" en diagnóstico de daños aleatorios.
- [SPARK-49000][SQL] Se ha corregido "select count(distinct 1) from t" donde t está vacía mediante la expansión de RewriteDistinctAggregates
- Actualizaciones de seguridad del sistema operativo
- 17 de septiembre de 2024
- [SPARK-49526][CONNECT] Compatibilidad con rutas de acceso de estilo Windows en ArtifactManager
- [SPARK-48463][ML] Make Binarizer, Bucketizer, Vector Assembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor que admite columnas de entrada anidadas
- Actualizaciones de seguridad del sistema operativo
- 29 de agosto de 2024
- 14 de agosto de 2024
- [SPARK-49056][SQL] ErrorClassesJsonReader no puede controlar null correctamente
- [SPARK-49065][SQL] La fusión mediante cambio de base en formateadores o analizadores heredados debe admitir zonas horarias predeterminadas que no son JVM.
- [SPARK-48597][SQL] Introducir un marcador para la propiedad isStreaming en la representación de texto del plan lógico
- 1 de agosto de 2024
- Esta versión incluye una corrección de errores para las clases
ColumnVector
yColumnarArray
en la interfaz de Java de Spark. Antes de esta corrección,ArrayIndexOutOfBoundsException
se podrían producir o devolver datos incorrectos cuando una instancia de una de estas clases contenía valoresnull
. - [SPARK-47202][PYTHON] Corrección de datetimes de interrupción de error tipográfico con tzinfo
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correcciones del sistema de escritura de Spark ML de portabilidad con versiones anteriores
- [SPARK-48463] Hacer que StringIndexer admita columnas de entrada anidadas
- Actualizaciones de seguridad del sistema operativo
- Esta versión incluye una corrección de errores para las clases
- 11 de julio de 2024
- (Cambio de comportamiento) Los DataFrames almacenados en caché en los orígenes de tabla Delta ahora se invalidan si se sobrescribe la tabla de origen. Este cambio significa que todos los cambios de estado en las tablas Delta ahora invalidan los resultados almacenados en caché. Se usa
.checkpoint()
para conservar un estado de tabla durante toda la vigencia de un dataframe. - Esta versión incluye una corrección de un problema que impedía que la pestaña Entorno de la interfaz de usuario de Spark se mostrara correctamente al ejecutarse en Databricks Container Services.
- [SPARK-48383][SS] Se produce un error mejor para las particiones no coincidentes en la opción startOffset en Kafka
- [SPARK-48292][CORE] Revertir [SPARK-39195][SQL] Spark OutputCommitCoordinator debe anular la fase cuando el archivo confirmado no sea coherente con el estado de la tarea
- [SPARK-48503][SQL] Corregir subconsultas escalares no válidas con agrupación por en columnas no equivalentes permitidas incorrectamente
- [SPARK-48481][SQL][SS] No aplicar OptimizeOneRowPlan en el conjunto de datos de streaming
- [SPARK-48475][PYTHON] Optimizar _get_jvm_function en PySpark.
- [SPARK-48273][SQL] Corregir la reescritura tardía de PlanWithUnresolvedIdentifier
- [SPARK-48445][SQL] No inserte UDF insertadas con elementos secundarios costosos
- Actualizaciones de seguridad del sistema operativo
- (Cambio de comportamiento) Los DataFrames almacenados en caché en los orígenes de tabla Delta ahora se invalidan si se sobrescribe la tabla de origen. Este cambio significa que todos los cambios de estado en las tablas Delta ahora invalidan los resultados almacenados en caché. Se usa
- 17 de junio de 2024
- [SPARK-48277] Mensaje de error Mejorar para ErrorClassesJsonReader.getErrorMessage
- Actualizaciones de seguridad del sistema operativo
- 21 de mayo de 2024
- (Cambio de comportamiento)
dbutils.widgets.getAll()
ahora se admite para obtener todos los valores de widget en un cuaderno. - [SPARK-48105][SS] Corregir la condición de carrera entre la descarga del almacén de estado y la creación de instantáneas
- [SPARK-47994][SQL] Se ha corregido el error con la inserción de filtros de columna CASE WHEN en SQLServer
- Actualizaciones de seguridad del sistema operativo
- (Cambio de comportamiento)
- 9 de mayo de 2024
- [SPARK-47956][SQL] Comprobación de integridad de la referencia de LCA sin resolver
- [SPARK-46822][SQL] Respetar spark.sql.legacy.charVarcharAsString al convertir el tipo jdbc en el tipo de catalizador en jdbc
- [SPARK-47895]grupo [SQL] por todos deben ser idempotentes
- [SPARK-48018][SS] Corrección de groupId null que provoca un error de param que falta al iniciar KafkaException.couldNotReadOffsetRange
- [SPARK-47973]sitio de llamada de registro [CORE] en SparkContext.stop() y versiones posteriores en SparkContext.assertNotStopped()
- Actualizaciones de seguridad del sistema operativo
- 25 de abril de 2024
- [SPARK-44653][SQL] Las uniones DataFrame no triviales no deben interrumpir el almacenamiento en caché
- Correcciones de errores varios.
- 11 de abril de 2024
- [SPARK-47509][SQL] Bloquear expresiones de subconsulta en funciones lambda y de orden superior
- Actualizaciones de seguridad del sistema operativo
- 1 de abril de 2024
- [SPARK-47385] Corrija los codificadores de tupla con entradas de opción.
- [SPARK-38708][SQL] Actualizar el cliente de Metastore de Hive a la versión 3.1.3 para Hive 3.1
- [SPARK-47200][SS] Clase de error de la función de usuario receptor de lotes Foreach
- [SPARK-47368][SQL] Quitar de la comprobación de configuración inferTimestampNTZ en ParquetRowConverter
- [SPARK-44252][SS] Definir una nueva clase de error y aplicar para el caso en el que se produce un error en el estado de carga desde DFS
- [SPARK-47135][SS] Implementación de clases de error para excepciones de pérdida de datos de Kafka
- [SPARK-47300][SQL]
quoteIfNeeded
debe citar identificador comienza con dígitos - [SPARK-47305][SQL] Corrija PruneFilters para etiquetar la marca isStreaming de LocalRelation correctamente cuando el plan tiene tanto procesamiento por lotes como streaming
- [SPARK-47070] Corregir la agregación no válida después de la reescritura de subconsulta
- Actualizaciones de seguridad del sistema operativo
- 14 de marzo de 2024
- [SPARK-47145][SQL] Pasar el identificador de tabla al examen del origen de datos de fila exec para la estrategia V2.
- [SPARK-47167][SQL] Agregar clase concreta para la relación anónima de JDBC
- [SPARK-47176][SQL] Tener una función auxiliar ResolveAllExpressionsUpWithPruning
- [SPARK-47044][SQL] Agregar una consulta ejecutada para orígenes de datos externos JDBC para explicar la salida
- [SPARK-47125][SQL] Devuelve null si Univocity nunca desencadena el análisis
- Actualizaciones de seguridad del sistema operativo
- 29 de febrero de 2024
- Se ha corregido un problema por el que el uso de una colección local como origen en un comando MERGE podía dar lugar a que la métrica de operación numSourceRows notificara el doble del número correcto de filas.
- La creación de un esquema con una ubicación definida ahora requiere que el usuario tenga privilegios SELECT y MODIFY en ANY FILE.
- Actualizaciones de seguridad del sistema operativo
- 8 de febrero de 2024
- No se admiten las consultas de fuente de distribución de datos modificados (CDF) en vistas materializadas del catálogo de Unity, y al intentar ejecutar una consulta CDF con una vista materializada de Unity Catalog se devuelve un error. Las tablas de streaming de Catálogo de Unity admiten consultas CDF en tablas que no
APPLY CHANGES
son de Databricks Runtime 14.1 y versiones posteriores. Las consultas de CDF no se admiten con tablas de streaming de Catálogo de Unity en Databricks Runtime 14.0 y versiones anteriores. - [SPARK-46794] Quitar subconsultas de restricciones LogicalRDD.
- [SPARK-46933] Agregar métrica de tiempo de ejecución de consultas a conectores que usan JDBCRDD.
- [SPARK-45582] Asegúrese de que la instancia de almacén no se usa después de llamar a la confirmación en la agregación de streaming del modo de salida.
- [SPARK-46396] La inferencia de marca de tiempo no debe producir una excepción.
- [SPARK-46861] Evitar interbloqueo en DAGScheduler.
- [SPARK-46941] No se puede insertar el nodo de límite de grupo de ventanas para el cálculo superior k si contiene SizeBasedWindowFunction.
- Actualizaciones de seguridad del sistema operativo
- No se admiten las consultas de fuente de distribución de datos modificados (CDF) en vistas materializadas del catálogo de Unity, y al intentar ejecutar una consulta CDF con una vista materializada de Unity Catalog se devuelve un error. Las tablas de streaming de Catálogo de Unity admiten consultas CDF en tablas que no
- 31 de enero de 2024
- [SPARK-46610] Crear tabla debe producir una excepción cuando no hay ningún valor para una clave en las opciones.
- [SPARK-46383] reducir el uso del montón de controladores al reducir la duración de TaskInfo.accumulables().
- [SPARK-46600] Mover código compartido entre SqlConf y SqlApiConf a SqlApiConfHelper.
- [SPARK-46676] dropDuplicatesWithinWatermark no debe producir un error en la canonización del plan.
- [SPARK-46763] corregir el error de aserción en ReplaceDeduplicateWithAggregate para los atributos duplicados.
- Actualizaciones de seguridad del sistema operativo
- 17 de enero de 2024
- El nodo
shuffle
del plan de explicación devuelto por una consulta de Photon se actualiza para agregar la marcacausedBroadcastJoinBuildOOM=true
cuando se produce un error de memoria insuficiente durante un orden aleatorio que forma parte de una combinación de difusión. - Para evitar una mayor latencia al comunicarse a través de TLSv1.3, esta versión de mantenimiento incluye una revisión a la instalación de JDK 8 para corregir el error de JDK (JDK-8293562).
- [SPARK-46058] Agregar una marca independiente para privateKeyPassword.
- [SPARK-46173] Omitir la llamada a trimAll durante el análisis de fechas.
- [SPARK-46370] Se ha corregido el error al consultar desde la tabla después de cambiar los valores predeterminados de columna.
- [SPARK-46370] Se ha corregido el error al consultar desde la tabla después de cambiar los valores predeterminados de columna.
- [SPARK-46370] Se ha corregido el error al consultar desde la tabla después de cambiar los valores predeterminados de columna.
- [SPARK-46609] Evitar la explosión exponencial en PartitioningPreservingUnaryExecNode.
- [SPARK-46132] Se admite la contraseña de clave para las claves JKS para RPC SSL.
- [SPARK-46602] Propagar
allowExisting
en la creación de la vista cuando la vista o tabla no exista. - [SPARK-46249] Requerir bloqueo de instancia para adquirir métricas de RocksDB para evitar la carrera con operaciones en segundo plano.
- [SPARK-46417] No se produce un error al llamar a hive.getTable y throwException es false.
- [SPARK-46538] Corregir el problema de referencia de columna ambigua en
ALSModel.transform
. - [SPARK-46478] Revertir SPARK-43049 para usar oracle varchar(255) para la cadena.
- [SPARK-46250] Análisis pormenorizado de test_parity_listener.
- [SPARK-46394] Corregir problemas de spark.catalog.listDatabases() en esquemas con caracteres especiales cuando
spark.sql.legacy.keepCommandOutputSchema
se establece en true. - [SPARK-46056] Corregir NPE de lectura vectorizada de Parquet con el valor predeterminado byteArrayDecimalType.
- [SPARK-46145] spark.catalog.listTables no produce una excepción cuando no se encuentra la tabla o vista.
- [SPARK-46466] El lector de parquet vectorizado nunca debe fusionarse mediante cambio de base para la marca de tiempo ntz.
- El nodo
- 14 de diciembre de 2023
- Se ha corregido un problema que provocaba que los caracteres de subrayado con escape en operaciones getColumns procedentes de clientes JDBC o ODBC se administraban incorrectamente y se interpretaban erróneamente como caracteres comodín.
- [SPARK-45920] Agrupar por ordinal debe ser idempotente.
- [SPARK-44582] Omisión del iterador en SMJ si se ha limpiado.
- [SPARK-45433] Corrección de la inferencia de esquema CSV/JSON cuando las marcas de tiempo no coinciden con el valor timestampFormat especificado.
- [SPARK-45655] Permitir expresiones no deterministas dentro de AggregateFunctions en CollectMetrics.
- Actualizaciones de seguridad del sistema operativo
- 29 de noviembre de 2023
- Se ha instalado un nuevo paquete,
pyarrow-hotfix
, para corregir una vulnerabilidad de RCE de PyArrow. - Se ha actualizado el conector de Spark-snowflake a la versión 2.12.0.
- [SPARK-44846] Se han quitado expresiones de agrupación complejas después de
RemoveRedundantAggregates
. - [SPARK-45544] compatibilidad integrada con SSL en
TransportContext
. - [SPARK-45892] Validación del plan del optimizador de refactorización para desacoplar
validateSchemaOutput
yvalidateExprIdUniqueness
. - [SPARK-45730] Restricciones de tiempo mejoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-45859] Objetos UDF creados en
ml.functions
diferido. - Actualizaciones de seguridad del sistema operativo
- Se ha instalado un nuevo paquete,
- 10 de noviembre de 2023
- Los filtros de partición en las consultas de streaming de Delta Lake se insertan antes de la limitación de frecuencia para lograr un mejor uso.
- Se han cambiado las consultas de fuente de distribución de datos en las vistas materializadas y las tablas de streaming de Unity Catalog para mostrar mensajes de error.
- [SPARK-45545]
SparkTransportConf
heredaSSLOptions
tras la creación. - [SPARK-45584] Se ha corregido un error de ejecución de subconsulta con
TakeOrderedAndProjectExec
. - [SPARK-45427] Se ha agregado la configuración SSL de RPC a
SSLOptions
ySparkTransportConf
. - [SPARK-45541] Se ha agregado
SSLFactory
. - [SPARK-45430]
FramelessOffsetWindowFunction
ya no genera un error cuandoIGNORE NULLS
yoffset > rowCount
. - [SPARK-45429] Se han agregado clases auxiliares para la comunicación RPC de SSL.
- [SPARK-44219][SQL] Se han agregado validaciones adicionales por regla para las reescrituras de optimización.
- [SPARK-45543] Se ha corregido un problema en el que
InferWindowGroupLimit
provocaba un error si las otras funciones de ventana no tenían el mismo marco de ventana que las funciones de clasificación. - Actualizaciones de seguridad del sistema operativo
- 23 de octubre de 2023
- [SPARK-45256] Se ha corregido un problema que provocaba que
DurationWriter
generara un error al escribir más valores de los estipulados en la capacidad inicial. - [SPARK-45419][SS] Evite reutilizar archivos
rocksdb sst
en una instancia derocksdb
diferente quitando la entrada del mapa de versiones de archivo de las versiones más grandes. - [SPARK-45426] Se ha agregado compatibilidad con
ReloadingX509TrustManager
. - Correcciones varias.
- [SPARK-45256] Se ha corregido un problema que provocaba que
- 13 de octubre de 2023
- Dependencia de Snowflake-jdbc actualizada de la versión 3.13.29 a 3.13.33.
- La función
array_insert
se basa en 1 para los índices positivos y negativos, mientras que antes se basaba en 0 para los índices negativos. Ahora inserta un nuevo elemento al final de las matrices de entrada para el índice -1. Para restaurar el comportamiento anterior, establezcaspark.sql.legacy.negativeIndexInArrayInsert
entrue
. - Se ha corregido un error en torno a la no omisión de archivos dañados cuando
ignoreCorruptFiles
está habilitado durante la inferencia de esquemas CSV con Auto Loader. - Revierta [SPARK-42946].
- [SPARK-42205] Se ha actualizado el protocolo JSON para quitar el registro de Accumulables en una tarea o en eventos de inicio de fase.
- [SPARK-45178] Reserva para ejecutar un único lote para
Trigger.AvailableNow
con orígenes no admitidos en lugar de usar el contenedor. - [SPARK-45316] Agregue nuevos parámetros
ignoreCorruptFiles
yignoreMissingFiles
aHadoopRDD
yNewHadoopRDD
. - [SPARK-44740] Se han corregido los valores de metadatos para Artifacts.
- [SPARK-45360] Se ha inicializado la configuración de compilación de sesiones de Spark desde
SPARK_REMOTE
. - [SPARK-44551]: se han editado los comentarios para sincronizarlos con OSS.
- [SPARK-45346][SQL] Ahora, la inferencia de esquema Parquet respeta las marcas que distinguen mayúsculas de minúsculas al combinar el esquema.
- [SPARK-44658]
ShuffleStatus.getMapStatus
ahora devuelveNone
en lugar deSome(null)
. - [SPARK-44840] Se ha hecho que
array_insert()
se base en 1 para índices negativos.
- 14 de septiembre de 2023
- [SPARK-44873] Se ha agregado compatibilidad para
alter view
con columnas anidadas en el cliente de Hive. - [SPARK-44878] Se ha desactivado el límite estricto para el administrador de escritura de
RocksDB
para evitar la excepción de inserción en la memoria caché llena.
- [SPARK-44873] Se ha agregado compatibilidad para
- 30 de agosto de 2023
- El comando dbutils
cp
(dbutils.fs.cp
) se ha optimizado para una copia más rápida. Con esta mejora, las operaciones de copia pueden ser hasta 100 veces más rápidas, en función del tamaño del archivo. La característica está disponible en todas las nubes y sistemas de archivos accesibles en Databricks, incluidos los volúmenes de Unity Catalog y los montajes de DBFS. - [SPARK-44455] Cite identificadores con acentos graves en el resultado de
SHOW CREATE TABLE
. - [SPARK-44763] Se ha corregido un error que mostraba una cadena como un doble en la aritmética binaria con intervalo.
- [SPARK-44871] Se ha corregido el comportamiento de
percentile_disc
. - [SPARK-44714] Facilitar la restricción de la resolución LCA con respecto a las consultas.
- [SPARK-44818] Se ha corregido la carrera para la interrupción de tareas pendiente emitida antes de inicializarse
taskThread
. - [SPARK-44505] Se ha agregado invalidación para la compatibilidad con columnas en el examen de DSv2.
- [SPARK-44479] Se ha corregido la conversión protobuf a partir de un tipo de estructura vacío.
- [SPARK-44718] Haga coincidir la configuración predeterminada del modo memoria
ColumnVector
con el valor de configuraciónOffHeapMemoryMode
. - [SPARK-42941] Se ha agregado compatibilidad con
StreamingQueryListener
en Python. - [SPARK-44558] Exporte el nivel de registro de Spark Connect de PySpark.
- [SPARK-44464] Se ha corregido
applyInPandasWithStatePythonRunner
de las filas de salida que tienen Null como primer valor de columna. - [SPARK-44643] Se ha corregido
Row.__repr__
cuando el campo es una fila vacía. - Actualizaciones de seguridad del sistema operativo
- El comando dbutils
Databricks Runtime 12.2 LTS
Consulte Databricks Runtime 12.2 LTS.
- 10 de octubre de 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr no debe cambiar los campos de esquema al eliminar GetArrayStructFields
- 25 de septiembre de 2024
- [SPARK-49000][SQL] Se ha corregido "select count(distinct 1) from t" donde t está vacía mediante la expansión de RewriteDistinctAggregates
- [SPARK-46601] [CORE] Corrección del error de registro en handleStatusMessage
- Correcciones de errores varios.
- 17 de septiembre de 2024
- Actualizaciones de seguridad del sistema operativo
- 29 de agosto de 2024
- Correcciones de errores varios.
- 14 de agosto de 2024
- [SPARK-48941][SPARK-48970] Correcciones de lector y escritor de ML de portabilidad con versiones anteriores
- [SPARK-49065][SQL] La fusión mediante cambio de base en formateadores o analizadores heredados debe admitir zonas horarias predeterminadas que no son JVM.
- [SPARK-49056][SQL] ErrorClassesJsonReader no puede controlar null correctamente
- [SPARK-48597][SQL] Introducir un marcador para la propiedad isStreaming en la representación de texto del plan lógico
- [SPARK-48463][ML] Hacer que StringIndexer admita columnas de entrada anidadas
- Actualizaciones de seguridad del sistema operativo
- 1 de agosto de 2024
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correcciones del sistema de escritura de Spark ML de portabilidad con versiones anteriores
- 1 de agosto de 2024
- Para aplicar los parches de seguridad necesarios, la versión de Python de Databricks Runtime 12.2 LTS se actualiza de 3.9.5 a 3.9.19.
- 11 de julio de 2024
- (Cambio de comportamiento) Los DataFrames almacenados en caché en los orígenes de tabla Delta ahora se invalidan si se sobrescribe la tabla de origen. Este cambio significa que todos los cambios de estado en las tablas Delta ahora invalidan los resultados almacenados en caché. Se usa
.checkpoint()
para conservar un estado de tabla durante toda la vigencia de un dataframe. - [SPARK-48481][SQL][SS] No aplicar OptimizeOneRowPlan en el conjunto de datos de streaming
- [SPARK-47070] Corregir la agregación no válida después de la reescritura de subconsulta
- [SPARK-42741][SQL] No desencapsular conversiones en comparación binaria cuando literal es null
- [SPARK-48445][SQL] No inserte UDF insertadas con elementos secundarios costosos
- [SPARK-48503][SQL] Corregir subconsultas escalares no válidas con agrupación por en columnas no equivalentes permitidas incorrectamente
- [SPARK-48383][SS] Se produce un error mejor para las particiones no coincidentes en la opción startOffset en Kafka
- Actualizaciones de seguridad del sistema operativo
- (Cambio de comportamiento) Los DataFrames almacenados en caché en los orígenes de tabla Delta ahora se invalidan si se sobrescribe la tabla de origen. Este cambio significa que todos los cambios de estado en las tablas Delta ahora invalidan los resultados almacenados en caché. Se usa
- 17 de junio de 2024
- [SPARK-48277] Mensaje de error Mejorar para ErrorClassesJsonReader.getErrorMessage
- Correcciones de errores varios.
- 21 de mayo de 2024
- [SPARK-48105][SS] Corregir la condición de carrera entre la descarga del almacén de estado y la creación de instantáneas
- Actualizaciones de seguridad del sistema operativo
- 9 de mayo de 2024
- [SPARK-44251][SQL] Establece que admite un valor NULL correctamente en la clave de combinación combinado en combinación externa completa USING
- [SPARK-47973]sitio de llamada de registro [CORE] en SparkContext.stop() y versiones posteriores en SparkContext.assertNotStopped()
- [SPARK-47956][SQL] Comprobación de integridad de la referencia de LCA sin resolver
- [SPARK-48018][SS] Corrección de groupId null que provoca un error de param que falta al iniciar KafkaException.couldNotReadOffsetRange
- Actualizaciones de seguridad del sistema operativo
- 25 de abril de 2024
- Actualizaciones de seguridad del sistema operativo
- 11 de abril de 2024
- Actualizaciones de seguridad del sistema operativo
- 1 de abril de 2024
- [SPARK-47305][SQL] Corrija PruneFilters para etiquetar la marca isStreaming de LocalRelation correctamente cuando el plan tiene tanto procesamiento por lotes como streaming
- [SPARK-44252][SS] Definir una nueva clase de error y aplicar para el caso en el que se produce un error en el estado de carga desde DFS
- [SPARK-47135][SS] Implementación de clases de error para excepciones de pérdida de datos de Kafka
- [SPARK-47200][SS] Clase de error de la función de usuario receptor de lotes Foreach
- Actualizaciones de seguridad del sistema operativo
- 14 de marzo de 2024
- [SPARK-47176][SQL] Tener una función auxiliar ResolveAllExpressionsUpWithPruning
- Revertir “[SPARK-46861][CORE] Evitar interbloqueo en DAGScheduler”
- [SPARK-47125][SQL] Devuelve null si Univocity nunca desencadena el análisis
- [SPARK-47167][SQL] Agregar clase concreta para la relación anónima de JDBC
- Actualizaciones de seguridad del sistema operativo
- 29 de febrero de 2024
- Se ha corregido un problema por el que el uso de una colección local como origen en un comando MERGE podía dar lugar a que la métrica de operación numSourceRows notificara el doble del número correcto de filas.
- La creación de un esquema con una ubicación definida ahora requiere que el usuario tenga privilegios SELECT y MODIFY en ANY FILE.
- [SPARK-45582][SS] Asegúrese de que la instancia de almacén no se usa después de llamar a la confirmación en la agregación de streaming en modo de salida.
- Actualizaciones de seguridad del sistema operativo
- 13 de febrero de 2024
- [SPARK-46861] Evitar interbloqueo en DAGScheduler.
- [SPARK-46794] Quitar subconsultas de restricciones LogicalRDD.
- Actualizaciones de seguridad del sistema operativo
- 31 de enero de 2024
- [SPARK-46763] Corregir el error de aserción en ReplaceDeduplicateWithAggregate para los atributos duplicados.
- Actualizaciones de seguridad del sistema operativo
- 25 de diciembre de 2023
- Para evitar una mayor latencia al comunicarse a través de TLSv1.3, esta versión de mantenimiento incluye una revisión a la instalación de JDK 8 para corregir el error de JDK (JDK-8293562).
- [SPARK-39440] Agregar una configuración para deshabilitar la escala de tiempo de eventos.
- [SPARK-46132] Se admite la contraseña de clave para las claves JKS para RPC SSL.
- [SPARK-46394] Corregir problemas de spark.catalog.listDatabases() en esquemas con caracteres especiales cuando
spark.sql.legacy.keepCommandOutputSchema
se establece en true. - [SPARK-46417] No se produce un error al llamar a hive.getTable y throwException es false.
- [SPARK-43067] Corregir la ubicación del archivo de recursos de clase de error en el conector de Kafka.
- [SPARK-46249] Requerir bloqueo de instancia para adquirir métricas de RocksDB para evitar la carrera con operaciones en segundo plano.
- [SPARK-46602] Propagar
allowExisting
en la creación de la vista cuando la vista o tabla no exista. - [SPARK-46058] Agregar una marca independiente para privateKeyPassword.
- [SPARK-46145] spark.catalog.listTables no produce una excepción cuando no se encuentra la tabla o vista.
- [SPARK-46538] Corregir el problema de referencia de columna ambigua en
ALSModel.transform
. - [SPARK-42852] Revertir los cambios relacionados con NamedLambdaVariable de EquivalentExpressions.
- 14 de diciembre de 2023
- Se ha corregido un problema que provocaba que los caracteres de subrayado con escape en operaciones getColumns procedentes de clientes JDBC o ODBC se administraban incorrectamente y se interpretaban erróneamente como caracteres comodín.
- [SPARK-44582] Omisión del iterador en SMJ si se ha limpiado.
- [SPARK-45920] Agrupar por ordinal debe ser idempotente.
- [SPARK-45655] Permitir expresiones no deterministas dentro de AggregateFunctions en CollectMetrics.
- Actualizaciones de seguridad del sistema operativo
- 29 de noviembre de 2023
- Se ha instalado un nuevo paquete,
pyarrow-hotfix
, para corregir una vulnerabilidad de RCE de PyArrow. - Se ha corregido un problema que provocaba que los caracteres de subrayado con escape en operaciones
getColumns
procedentes de clientes JDBC o ODBC se interpretaran erróneamente como caracteres comodín. - [SPARK-42205] Se han quitado los registros acumulables de los eventos de inicio de
Stage
yTask
. - [SPARK-44846] Se han quitado expresiones de agrupación complejas después de
RemoveRedundantAggregates
. - [SPARK-43718] Se ha corregido la nulabilidad para las claves en combinaciones
USING
. - [SPARK-45544] compatibilidad integrada con SSL en
TransportContext
. - [SPARK-43973] La interfaz de usuario de flujo estructurado ahora muestra correctamente las consultas con errores.
- [SPARK-45730] Restricciones de tiempo mejoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-45859] Objetos UDF creados en
ml.functions
diferido. - Actualizaciones de seguridad del sistema operativo
- Se ha instalado un nuevo paquete,
- 14 de noviembre de 2023
- Los filtros de partición en las consultas de streaming de Delta Lake se insertan antes de la limitación de frecuencia para lograr un mejor uso.
- [SPARK-45545]
SparkTransportConf
heredaSSLOptions
tras la creación. - [SPARK-45427] Se ha agregado la configuración SSL de RPC a
SSLOptions
ySparkTransportConf
. - [SPARK-45584] Se ha corregido un error de ejecución de subconsulta con
TakeOrderedAndProjectExec
. - [SPARK-45541] Se ha agregado
SSLFactory
. - [SPARK-45430]
FramelessOffsetWindowFunction
ya no genera un error cuandoIGNORE NULLS
yoffset > rowCount
. - [SPARK-45429] Se han agregado clases auxiliares para la comunicación RPC de SSL.
- Actualizaciones de seguridad del sistema operativo
- 24 de octubre de 2023
- [SPARK-45426] Se ha agregado compatibilidad con
ReloadingX509TrustManager
. - Correcciones varias.
- [SPARK-45426] Se ha agregado compatibilidad con
- 13 de octubre de 2023
- Dependencia de Snowflake-jdbc actualizada de la versión 3.13.29 a 3.13.33.
- [SPARK-42553] Asegure al menos una unidad de tiempo después del intervalo.
- [SPARK-45346] La inferencia de esquema Parquet respeta las marcas que distinguen mayúsculas de minúsculas al combinar el esquema.
- [SPARK-45178] Reserva para ejecutar un único lote para
Trigger.AvailableNow
con orígenes no admitidos en lugar de usar el contenedor. - [SPARK-45084]
StateOperatorProgress
para utilizar un número de partición aleatorio efectivo y preciso.
- 12 de septiembre de 2023
- [SPARK-44873] Se ha agregado soporte para
alter view
con columnas anidadas en el cliente de Hive. - [SPARK-44718] Haga coincidir la configuración predeterminada del modo memoria
ColumnVector
con el valor de configuraciónOffHeapMemoryMode
. - [SPARK-43799] Se ha agregado la opción binaria de descriptor a la API
Protobuf
de PySpark. - Correcciones varias.
- [SPARK-44873] Se ha agregado soporte para
- 30 de agosto de 2023
- [SPARK-44485] Se ha optimizado
TreeNode.generateTreeString
. - [SPARK-44818] Se ha corregido la carrera para la interrupción de tareas pendiente emitida antes de inicializarse
taskThread
. - [SPARK-44871][11.3-13.0] Se ha corregido el comportamiento de
percentile_disc
. - [SPARK-44714] Restricción sencilla de la resolución de LCA con respecto a las consultas.
- Actualizaciones de seguridad del sistema operativo
- [SPARK-44485] Se ha optimizado
- 15 de agosto de 2023
- [SPARK-44504] La tarea de mantenimiento limpia los proveedores cargados en caso de error de detención.
- [SPARK-44464] Se ha corregido
applyInPandasWithStatePythonRunner
de las filas de salida que tienenNull
como primer valor de columna. - Actualizaciones de seguridad del sistema operativo
- 29 de julio de 2023
- Se ha corregido un error en el que
dbutils.fs.ls()
devolvíaINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
cuando se le llamaba para una ruta de acceso de ubicación de almacenamiento que entraba en conflicto con otra ubicación de almacenamiento externa o administrada. - [SPARK-44199]
CacheManager
ya no actualizafileIndex
innecesariamente. - Actualizaciones de seguridad del sistema operativo
- Se ha corregido un error en el que
- 24 de julio de 2023
- [SPARK-44337] Se ha corregido un problema que provocaba que cualquier campo establecido en
Any.getDefaultInstance
generara errores de análisis. - [SPARK-44136] [SS] Se ha corregido un problema que provocaba que
StateManager
se materializara en un ejecutor en lugar del controlador enFlatMapGroupsWithStateExec
. - Actualizaciones de seguridad del sistema operativo
- [SPARK-44337] Se ha corregido un problema que provocaba que cualquier campo establecido en
- 23 de junio de 2023
- Actualizaciones de seguridad del sistema operativo
- 15 de junio de 2023
approx_count_distinct
fotonizado.- La biblioteca Snowflake-jdbc se actualiza a la versión 3.13.29 para solucionar un problema de seguridad.
- [SPARK-43779]
ParseToDate
ahora cargaEvalMode
en el subproceso principal. - [SPARK-43156][SPARK-43098] prueba de error de recuento de subconsulta escalar extendida con
decorrelateInnerQuery
desactivado. - Actualizaciones de seguridad del sistema operativo
- 2 de junio de 2023
- El analizador JSON en el modo
failOnUnknownFields
quita un registro en modoDROPMALFORMED
y produce un error directamente en el modoFAILFAST
. - Mejora el rendimiento de las actualizaciones incrementales con
SHALLOW CLONE
Iceberg y Parquet. - Se solucionó un problema en Auto Loader donde los diferentes formatos de archivos de origen eran inconsistentes cuando el esquema proporcionado no incluía particiones inferidas. Este problema podría provocar errores inesperados al leer archivos con columnas que faltan en el esquema de partición inferido.
- [SPARK-43404] Omita la reutilización del archivo sst para la misma versión del almacén de estado de RocksDB a fin de evitar errores de coincidencia de id.
- [SPARK-43413][11.3-13.0] Se ha corregido la nulabilidad de
IN
de la subconsultaListQuery
. - [SPARK-43522] Se ha corregido la creación de un nombre de columna de estructura con el índice de matriz.
- [SPARK-43541][SQL] Propague todas las etiquetas
Project
en la resolución de expresiones y columnas que faltan. - [SPARK-43527] Se ha corregido
catalog.listCatalogs
en PySpark. - [SPARK-43123] Los metadatos de campo internos ya no se filtran a los catálogos.
- [SPARK-43340] Se ha corregido el campo de seguimiento de pila que faltaba en los registros de eventos.
- [SPARK-42444]
DataFrame.drop
ahora controla las columnas duplicadas correctamente. - [SPARK-42937]
PlanSubqueries
ahora estableceInSubqueryExec#shouldBroadcast
en true. - [SPARK-43286] Se ha actualizado el modo CBC de
aes_encrypt
para generar IV aleatorios. - [SPARK-43378] Cierre correctamente los objetos de secuencia en
deserializeFromChunkedBuffer
.
- El analizador JSON en el modo
- 17 de mayo de 2023
- Los exámenes de Parquet ahora son sólidos con respecto a los OEM al examinar archivos excepcionalmente estructurados ajustando dinámicamente el tamaño del lote. Los metadatos de archivo se analizan para reducir de forma preventiva el tamaño del lote y se reducen de nuevo en los reintentos de tareas como una red de seguridad final.
- Si se leyó un archivo Avro con solo la opción
failOnUnknownFields
o con autocargador en el modo de evolución del esquemafailOnNewColumns
, las columnas que tienen tipos de datos diferentes se leerían comonull
en lugar de producir un error que indica que el archivo no se puede leer. Estas lecturas ahora producen un error y recomiendan a los usuarios que usen la opciónrescuedDataColumn
. - El cargador automático ahora hace lo siguiente.
-
- Lee y ya no recupera los tipos
Integer
,Short
,Byte
si se proporciona uno de estos tipos de datos, pero el archivo Avro sugiere uno de los otros dos tipos.
- Lee y ya no recupera los tipos
-
- Impide que los tipos de intervalo de lectura sean tipos de fecha o marca de tiempo para evitar obtener fechas dañadas.
-
- Evita la lectura de los tipos
Decimal
con menor precisión.
- Evita la lectura de los tipos
- [SPARK-43172] Expone el host y el token del cliente de conexión de Spark.
- [SPARK-43293]
__qualified_access_only
se omite en columnas normales. - [SPARK-43098] Se ha corregido un error de corrección
COUNT
cuando la subconsulta escalar se agrupa por cláusula. - [SPARK-43085] Compatibilidad con la asignación de columnas
DEFAULT
para nombres de tabla de varias partes. - [SPARK-43190]
ListQuery.childOutput
ahora es coherente con la salida secundaria. - [SPARK-43192] Se ha quitado la validación del conjunto de caracteres del agente de usuario.
- Actualizaciones de seguridad del sistema operativo
- 25 de abril de 2023
- Si se leyó un archivo Parquet con solo la opción
failOnUnknownFields
o con autocargador en el modo de evolución del esquemafailOnNewColumns
, las columnas que tenían tipos de datos diferentes se leerían comonull
en lugar de producir un error que indica que el archivo no se puede leer. Estas lecturas ahora producen un error y recomiendan a los usuarios que usen la opciónrescuedDataColumn
. - Auto Loader ahora lee correctamente y ya no recupera los tipos
Integer
,Short
,Byte
si se proporciona uno de estos tipos de datos. El archivo Parquet sugiere uno de los otros dos tipos. Cuando la columna de datos rescatada estaba anteriormente, la falta de coincidencia del tipo de datos provocaba que las columnas se guardaran aunque fueran legibles. - [SPARK-43009] Se ha parametrizado
sql()
con constantes deAny
- [SPARK-42406] Finalice los campos recursivos de Protobuf quitando el campo
- [SPARK-43038] Compatibilidad con el modo CBC mediante
aes_encrypt()
/aes_decrypt()
- [SPARK-42971] Cambie para imprimir
workdir
siappDirs
es NULL cuando el trabajador gestione el eventoWorkDirCleanup
- [SPARK-43018] Corrección del error de comandos de INSERT con literales de marca de tiempo
- Actualizaciones de seguridad del sistema operativo
- Si se leyó un archivo Parquet con solo la opción
- 11 de abril de 2023
- Admite formatos de origen de datos heredados en el comando
SYNC
. - Corrige un error en el comportamiento %autoreload de los cuadernos que están fuera de un repositorio.
- Se ha corregido un error por el que la evolución del esquema del cargador automático puede entrar en un bucle de error infinito, cuando se detecta una nueva columna en el esquema de un objeto JSON anidado.
- [SPARK-42928] Hace que
resolvePersistentFunction
se sincronice. - [SPARK-42936] Corrige el error de LCA cuando su agregado secundario puede resolver directamente la cláusula.
- [SPARK-42967] Corrige
SparkListenerTaskStart.stageAttemptId
cuándo se inicia una tarea después de cancelar la fase. - Actualizaciones de seguridad del sistema operativo
- Admite formatos de origen de datos heredados en el comando
- 29 de marzo de 2023
Databricks SQL ahora admite la especificación de valores predeterminados para columnas de tablas de Delta Lake, ya sea en tiempo de creación de tablas o después. Los comandos
INSERT
,UPDATE
,DELETE
yMERGE
posteriores pueden hacer referencia al valor predeterminado de cualquier columna mediante la palabra claveDEFAULT
explícita. Además, si alguna asignaciónINSERT
contiene una lista explícita de menos columnas que la tabla de destino, los valores predeterminados de columna correspondientes se sustituyen por las columnas restantes (o NULL si no se especifica ningún valor predeterminado).Por ejemplo:
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; > 0, 2023-03-28 1, 2023-03-28z
Auto Loader ahora inicia al menos una limpieza sincrónica de registros de RocksDB para flujos
Trigger.AvailableNow
para asegurarse de que el punto de control se pueda limpiar periódicamente para flujos de cargador automático de ejecución rápida. Esto puede hacer que algunas secuencias tarden más tiempo antes de que se apaguen, pero le ahorrarán costos de almacenamiento y mejorará la experiencia del cargador automático en futuras ejecuciones.Ahora puede modificar una tabla Delta para agregar compatibilidad con las características de tabla mediante
DeltaTable.addFeatureSupport(feature_name)
.[SPARK-42794] Aumente lockAcquireTimeoutMs a 2 minutos para adquirir el almacén de estado de RocksDB en Structure Streaming
[SPARK-42521] Agregue NULL a cada INSERT con listas especificadas por el usuario de menos columnas que la tabla de destino
[SPARK-42702][SPARK-42623] Admita consultas con parámetros en subconsulta y CTE.
[SPARK-42668] Detectar excepciones al intentar cerrar la secuencia comprimida en la detención de HDFSStateStoreProvider
[SPARK-42403][CORE] JsonProtocol debe controlar cadenas JSON nulas
- 8 de marzo de 2023
- Se ha mejorado el mensaje de error "Error al inicializar la configuración" para proporcionar más contexto para el cliente.
- Hay un cambio terminológico para agregar características a una tabla Delta mediante la propiedad table. La sintaxis preferida ahora es
'delta.feature.featureName'='supported'
en lugar de'delta.feature.featureName'='enabled'
. Para la compatibilidad con versiones anteriores, usar'delta.feature.featureName'='enabled'
todavía funciona y seguirá funcionando. - A partir de esta versión, es posible crear o reemplazar una tabla por una propiedad de tabla
delta.ignoreProtocolDefaults
adicional para omitir las configuraciones de Spark relacionadas con el protocolo, que incluye versiones predeterminadas de lector y escritor, así como características de tabla compatibles de forma predeterminada. - [SPARK-42070] Cambiar el valor predeterminado del argumento de la función Mask de -1 a NULL
- [SPARK-41793] Resultado incorrecto para los marcos de ventana definidos por una cláusula de alcance en decimales significativos
- [SPARK-42484] Mejor mensaje de error de UnsafeRowUtils
- [SPARK-42516] Capturar siempre la configuración de zona horaria de sesión al crear vistas
- [SPARK-42635] Corrija la expresión TimestampAdd.
- [SPARK-42622] Se ha desactivado la sustitución en valores
- [SPARK-42534] Corrección de la cláusula de límite de DB2Dialect
- [SPARK-42121] Agregar funciones integradas con valores de tabla posexplode, posexplode_outer, json_tuple y pila
- [SPARK-42045] Modo SQL ANSI: Round/Bround debe devolver un error en desbordamiento de enteros pequeños o pequeños o significativos
- Actualizaciones de seguridad del sistema operativo
Databricks Runtime 11.3 LTS
Consulte Databricks Runtime 11.3 LTS.
- 10 de octubre de 2024
- Correcciones de errores varios.
- 25 de septiembre de 2024
- [SPARK-46601] [CORE] Corrección del error de registro en handleStatusMessage
- [SPARK-49000][SQL] Se ha corregido "select count(distinct 1) from t" donde t está vacía mediante la expansión de RewriteDistinctAggregates
- Correcciones de errores varios.
- 17 de septiembre de 2024
- Actualizaciones de seguridad del sistema operativo
- 29 de agosto de 2024
- 14 de agosto de 2024
- [SPARK-48941][SPARK-48970] Correcciones de lector y escritor de ML de portabilidad con versiones anteriores
- [SPARK-49065][SQL] La fusión mediante cambio de base en formateadores o analizadores heredados debe admitir zonas horarias predeterminadas que no son JVM.
- [SPARK-48597][SQL] Introducir un marcador para la propiedad isStreaming en la representación de texto del plan lógico
- [SPARK-48463][ML] Hacer que StringIndexer admita columnas de entrada anidadas
- Actualizaciones de seguridad del sistema operativo
- 1 de agosto de 2024
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correcciones del sistema de escritura de Spark ML de portabilidad con versiones anteriores
- 1 de agosto de 2024
- Para aplicar los parches de seguridad necesarios, la versión de Python de Databricks Runtime 11.3 LTS se actualiza de 3.9.5 a 3.9.19.
- 11 de julio de 2024
- [SPARK-48383][SS] Se produce un error mejor para las particiones no coincidentes en la opción startOffset en Kafka
- [SPARK-47070] Corregir la agregación no válida después de la reescritura de subconsulta
- Actualizaciones de seguridad del sistema operativo
- 17 de junio de 2024
- Actualizaciones de seguridad del sistema operativo
- 21 de mayo de 2024
- [SPARK-48105][SS] Corregir la condición de carrera entre la descarga del almacén de estado y la creación de instantáneas
- Actualizaciones de seguridad del sistema operativo
- 9 de mayo de 2024
- [SPARK-48018][SS] Corrección de groupId null que provoca un error de param que falta al iniciar KafkaException.couldNotReadOffsetRange
- [SPARK-47973]sitio de llamada de registro [CORE] en SparkContext.stop() y versiones posteriores en SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Establece que admite un valor NULL correctamente en la clave de combinación combinado en combinación externa completa USING
- Actualizaciones de seguridad del sistema operativo
- 25 de abril de 2024
- Actualizaciones de seguridad del sistema operativo
- 11 de abril de 2024
- Actualizaciones de seguridad del sistema operativo
- 1 de abril de 2024
- [SPARK-44252][SS] Definir una nueva clase de error y aplicar para el caso en el que se produce un error en el estado de carga desde DFS
- [SPARK-47135][SS] Implementación de clases de error para excepciones de pérdida de datos de Kafka
- Revertir “[SPARK-46861][CORE] Evitar interbloqueo en DAGScheduler”
- [SPARK-47200][SS] Clase de error de la función de usuario receptor de lotes Foreach
- Actualizaciones de seguridad del sistema operativo
- 14 de marzo de 2024
- [SPARK-47167][SQL] Agregar clase concreta para la relación anónima de JDBC
- [SPARK-47125][SQL] Devuelve null si Univocity nunca desencadena el análisis
- Actualizaciones de seguridad del sistema operativo
- 29 de febrero de 2024
- Se ha corregido un problema por el que el uso de una colección local como origen en un comando MERGE podía dar lugar a que la métrica de operación numSourceRows notificara el doble del número correcto de filas.
- [SPARK-45582][SS] Asegúrese de que la instancia de almacén no se usa después de llamar a la confirmación en la agregación de streaming en modo de salida.
- 13 de febrero de 2024
- [SPARK-46794] Quitar subconsultas de restricciones LogicalRDD.
- [SPARK-46861] Evitar interbloqueo en DAGScheduler.
- Actualizaciones de seguridad del sistema operativo
- 31 de enero de 2024
- Actualizaciones de seguridad del sistema operativo
- 25 de diciembre de 2023
- Para evitar una mayor latencia al comunicarse a través de TLSv1.3, esta versión de mantenimiento incluye una revisión a la instalación de JDK 8 para corregir el error de JDK (JDK-8293562).
- [SPARK-46058] Agregar una marca independiente para privateKeyPassword.
- [SPARK-46602] Propagar
allowExisting
en la creación de la vista cuando la vista o tabla no exista. - [SPARK-46394] Corregir problemas de spark.catalog.listDatabases() en esquemas con caracteres especiales cuando
spark.sql.legacy.keepCommandOutputSchema
se establece en true. - [SPARK-46538] Corregir el problema de referencia de columna ambigua en
ALSModel.transform
. - [SPARK-39440] Agregar una configuración para deshabilitar la escala de tiempo de eventos.
- [SPARK-46249] Requerir bloqueo de instancia para adquirir métricas de RocksDB para evitar la carrera con operaciones en segundo plano.
- [SPARK-46132] Se admite la contraseña de clave para las claves JKS para RPC SSL.
- 14 de diciembre de 2023
- Se ha corregido un problema que provocaba que los caracteres de subrayado con escape en operaciones getColumns procedentes de clientes JDBC o ODBC se administraban incorrectamente y se interpretaban erróneamente como caracteres comodín.
- Actualizaciones de seguridad del sistema operativo
- 29 de noviembre de 2023
- Se ha instalado un nuevo paquete,
pyarrow-hotfix
, para corregir una vulnerabilidad de RCE de PyArrow. - Se ha corregido un problema que provocaba que los caracteres de subrayado con escape en operaciones
getColumns
procedentes de clientes JDBC o ODBC se interpretaran erróneamente como caracteres comodín. - [SPARK-43973] La interfaz de usuario de flujo estructurado ahora muestra correctamente las consultas con errores.
- [SPARK-45730] Restricciones de tiempo mejoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-45544] compatibilidad integrada con SSL en
TransportContext
. - [SPARK-45859] Objetos UDF creados en
ml.functions
diferido. - [SPARK-43718] Se ha corregido la nulabilidad para las claves en combinaciones
USING
. - [SPARK-44846] Se han quitado expresiones de agrupación complejas después de
RemoveRedundantAggregates
. - Actualizaciones de seguridad del sistema operativo
- Se ha instalado un nuevo paquete,
- 14 de noviembre de 2023
- Los filtros de partición en las consultas de streaming de Delta Lake se insertan antes de la limitación de frecuencia para lograr un mejor uso.
- [SPARK-42205] Se han quitado los registros acumulables de los eventos de inicio de fase y tarea.
- [SPARK-45545]
SparkTransportConf
heredaSSLOptions
tras la creación. - Revierta [SPARK-33861].
- [SPARK-45541] Se ha agregado
SSLFactory
. - [SPARK-45429] Se han agregado clases auxiliares para la comunicación RPC de SSL.
- [SPARK-45584] Se ha corregido un error de ejecución de subconsulta con
TakeOrderedAndProjectExec
. - [SPARK-45430]
FramelessOffsetWindowFunction
ya no genera un error cuandoIGNORE NULLS
yoffset > rowCount
. - [SPARK-45427] Se ha agregado la configuración SSL de RPC a
SSLOptions
ySparkTransportConf
. - Actualizaciones de seguridad del sistema operativo
- 24 de octubre de 2023
- [SPARK-45426] Se ha agregado compatibilidad con
ReloadingX509TrustManager
. - Correcciones varias.
- [SPARK-45426] Se ha agregado compatibilidad con
- 13 de octubre de 2023
- Dependencia de Snowflake-jdbc actualizada de la versión 3.13.29 a 3.13.33.
- [SPARK-45178] Reserva para ejecutar un único lote para
Trigger.AvailableNow
con orígenes no admitidos en lugar de usar el contenedor. - [SPARK-45084]
StateOperatorProgress
para utilizar un número de partición aleatorio efectivo y preciso. - [SPARK-45346] La inferencia del esquema Parquet respeta ahora las marcas que distinguen mayúsculas de minúsculas al combinar el esquema.
- Actualizaciones de seguridad del sistema operativo
- 10 de septiembre de 2023
- Correcciones varias.
- 30 de agosto de 2023
- [SPARK-44818] Se ha corregido la carrera para la interrupción de tareas pendiente emitida antes de inicializarse
taskThread
. - [SPARK-44871][11.3-13.0] Se ha corregido el comportamiento de
percentile_disc
. - Actualizaciones de seguridad del sistema operativo
- [SPARK-44818] Se ha corregido la carrera para la interrupción de tareas pendiente emitida antes de inicializarse
- 15 de agosto de 2023
- [SPARK-44485] Se ha optimizado
TreeNode.generateTreeString
. - [SPARK-44504] La tarea de mantenimiento limpia los proveedores cargados en caso de error de detención.
- [SPARK-44464] Se ha corregido
applyInPandasWithStatePythonRunner
de las filas de salida que tienenNull
como primer valor de columna. - Actualizaciones de seguridad del sistema operativo
- [SPARK-44485] Se ha optimizado
- 27 de julio de 2023
- Se ha corregido un error en el que
dbutils.fs.ls()
devolvíaINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
cuando se le llamaba para una ruta de acceso de ubicación de almacenamiento que entraba en conflicto con otra ubicación de almacenamiento externa o administrada. - [SPARK-44199]
CacheManager
ya no actualizafileIndex
innecesariamente. - Actualizaciones de seguridad del sistema operativo
- Se ha corregido un error en el que
- 24 de julio de 2023
- [SPARK-44136] Se ha corregido un problema que provocaba que StateManager se materializara en el ejecutor en lugar del controlador en FlatMapGroupsWithStateExec.
- Actualizaciones de seguridad del sistema operativo
- 23 de junio de 2023
- Actualizaciones de seguridad del sistema operativo
- 15 de junio de 2023
approx_count_distinct
fotonizado.- La biblioteca Snowflake-jdbc se actualiza a la versión 3.13.29 para solucionar un problema de seguridad.
- [SPARK-43779]
ParseToDate
ahora cargaEvalMode
en el subproceso principal. - [SPARK-40862] Admite subconsultas no agregadas en RewriteCorrelatedScalarSubquery
- [SPARK-43156][SPARK-43098] Prueba de errores de recuento de subconsulta escalar extendida con
decorrelateInnerQuery
desactivado. - [SPARK-43098] Se ha corregido el error COUNT de corrección cuando la subconsulta escalar tiene un grupo por cláusula
- Actualizaciones de seguridad del sistema operativo
- 2 de junio de 2023
- El analizador JSON en el modo
failOnUnknownFields
quita un registro en modoDROPMALFORMED
y produce un error directamente en el modoFAILFAST
. - Mejora el rendimiento de las actualizaciones incrementales con
SHALLOW CLONE
Iceberg y Parquet. - Se solucionó un problema en Auto Loader donde los diferentes formatos de archivos de origen eran inconsistentes cuando el esquema proporcionado no incluía particiones inferidas. Este problema podría provocar errores inesperados al leer archivos con columnas que faltan en el esquema de partición inferido.
- [SPARK-43404] Omita la reutilización del archivo sst para la misma versión del almacén de estado de RocksDB a fin de evitar errores de coincidencia de id.
- [SPARK-43527] Se ha corregido
catalog.listCatalogs
en PySpark. - [SPARK-43413][11.3-13.0] Se ha corregido la nulabilidad de
IN
de la subconsultaListQuery
. - [SPARK-43340] Se ha corregido el campo de seguimiento de pila que faltaba en los registros de eventos.
- El analizador JSON en el modo
Databricks Runtime 10.4 LTS
Consulte Databricks Runtime 10.4 LTS.
- 22 de octubre de 2024
- Actualizaciones de seguridad del sistema operativo
- 10 de octubre de 2024
- Actualizaciones de seguridad del sistema operativo
- 25 de septiembre de 2024
- [SPARK-46601] [CORE] Corrección del error de registro en handleStatusMessage
- [SPARK-49000][SQL] Se ha corregido "select count(distinct 1) from t" donde t está vacía mediante la expansión de RewriteDistinctAggregates
- Actualizaciones de seguridad del sistema operativo
- 17 de septiembre de 2024
- Actualizaciones de seguridad del sistema operativo
- 29 de agosto de 2024
- [SPARK-49065][SQL] La fusión mediante cambio de base en formateadores o analizadores heredados debe admitir zonas horarias predeterminadas que no son JVM.
- 14 de agosto de 2024
- [SPARK-48597][SQL] Introducir un marcador para la propiedad isStreaming en la representación de texto del plan lógico
- [SPARK-48941][SPARK-48970] Correcciones de lector y escritor de ML de portabilidad con versiones anteriores
- [SPARK-48463][ML] Hacer que StringIndexer admita columnas de entrada anidadas
- 1 de agosto de 2024
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correcciones del sistema de escritura de Spark ML de portabilidad con versiones anteriores
- Actualizaciones de seguridad del sistema operativo
- 11 de julio de 2024
- [SPARK-48383][SS] Se produce un error mejor para las particiones no coincidentes en la opción startOffset en Kafka
- Actualizaciones de seguridad del sistema operativo
- 17 de junio de 2024
- Actualizaciones de seguridad del sistema operativo
- 21 de mayo de 2024
- [SPARK-48105][SS] Corregir la condición de carrera entre la descarga del almacén de estado y la creación de instantáneas
- Actualizaciones de seguridad del sistema operativo
- 9 de mayo de 2024
- [SPARK-48018][SS] Corrección de groupId null que provoca un error de param que falta al iniciar KafkaException.couldNotReadOffsetRange
- [SPARK-47973]sitio de llamada de registro [CORE] en SparkContext.stop() y versiones posteriores en SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Establece que admite un valor NULL correctamente en la clave de combinación combinado en combinación externa completa USING
- Actualizaciones de seguridad del sistema operativo
- 25 de abril de 2024
- Actualizaciones de seguridad del sistema operativo
- 11 de abril de 2024
- Actualizaciones de seguridad del sistema operativo
- 1 de abril de 2024
- [SPARK-47135][SS] Implementación de clases de error para excepciones de pérdida de datos de Kafka
- [SPARK-44252][SS] Definir una nueva clase de error y aplicar para el caso en el que se produce un error en el estado de carga desde DFS
- [SPARK-47200][SS] Clase de error de la función de usuario receptor de lotes Foreach
- Revertir “[SPARK-46861][CORE] Evitar interbloqueo en DAGScheduler”
- Actualizaciones de seguridad del sistema operativo
- 14 de marzo de 2024
- [SPARK-47125][SQL] Devuelve null si Univocity nunca desencadena el análisis
- Actualizaciones de seguridad del sistema operativo
- 29 de febrero de 2024
- Se ha corregido un problema por el que el uso de una colección local como origen en un comando MERGE podía dar lugar a que la métrica de operación numSourceRows notificara el doble del número correcto de filas.
- [SPARK-45582][SS] Asegúrese de que la instancia de almacén no se usa después de llamar a la confirmación en la agregación de streaming en modo de salida.
- Actualizaciones de seguridad del sistema operativo
- 13 de febrero de 2024
- [SPARK-46861] Evitar interbloqueo en DAGScheduler.
- Actualizaciones de seguridad del sistema operativo
- 31 de enero de 2024
- Actualizaciones de seguridad del sistema operativo
- 25 de diciembre de 2023
- Para evitar una mayor latencia al comunicarse a través de TLSv1.3, esta versión de mantenimiento incluye una revisión a la instalación de JDK 8 para corregir el error de JDK (JDK-8293562).
- [SPARK-46058] Agregar una marca independiente para privateKeyPassword.
- [SPARK-46538] Corregir el problema de referencia de columna ambigua en
ALSModel.transform
. - [SPARK-39440] Agregar una configuración para deshabilitar la escala de tiempo de eventos.
- [SPARK-46132] Se admite la contraseña de clave para las claves JKS para RPC SSL.
- 14 de diciembre de 2023
- Actualizaciones de seguridad del sistema operativo
- 29 de noviembre de 2023
- Se ha instalado un nuevo paquete,
pyarrow-hotfix
, para corregir una vulnerabilidad de RCE de PyArrow. - [SPARK-45544] compatibilidad integrada con SSL en
TransportContext
. - [SPARK-45859] Objetos UDF creados en
ml.functions
diferido. - [SPARK-43718] Se ha corregido la nulabilidad para las claves en combinaciones
USING
. - [SPARK-45730] Restricciones de tiempo mejoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-42205] Se han quitado los registros acumulables de los eventos de inicio de fase y tarea.
- [SPARK-44846] Se han quitado expresiones de agrupación complejas después de
RemoveRedundantAggregates
. - Actualizaciones de seguridad del sistema operativo
- Se ha instalado un nuevo paquete,
- 14 de noviembre de 2023
- [SPARK-45541] Se ha agregado
SSLFactory
. - [SPARK-45545]
SparkTransportConf
heredaSSLOptions
tras la creación. - [SPARK-45427] Se ha agregado la configuración SSL de RPC a
SSLOptions
ySparkTransportConf
. - [SPARK-45429] Se han agregado clases auxiliares para la comunicación RPC de SSL.
- [SPARK-45584] Se ha corregido un error de ejecución de subconsulta con
TakeOrderedAndProjectExec
. - Revierta [SPARK-33861].
- Actualizaciones de seguridad del sistema operativo
- [SPARK-45541] Se ha agregado
- 24 de octubre de 2023
- [SPARK-45426] Se ha agregado compatibilidad con
ReloadingX509TrustManager
. - Actualizaciones de seguridad del sistema operativo
- [SPARK-45426] Se ha agregado compatibilidad con
- 13 de octubre de 2023
- [SPARK-45084]
StateOperatorProgress
para utilizar un número de partición aleatorio efectivo y preciso. - [SPARK-45178] Reserva para ejecutar un único lote para
Trigger.AvailableNow
con orígenes no admitidos en lugar de usar el contenedor. - Actualizaciones de seguridad del sistema operativo
- [SPARK-45084]
- 10 de septiembre de 2023
- Correcciones varias.
- 30 de agosto de 2023
- [SPARK-44818] Se ha corregido la carrera para la interrupción de tareas pendiente emitida antes de inicializarse
taskThread
. - Actualizaciones de seguridad del sistema operativo
- [SPARK-44818] Se ha corregido la carrera para la interrupción de tareas pendiente emitida antes de inicializarse
- 15 de agosto de 2023
- [SPARK-44504] La tarea de mantenimiento limpia los proveedores cargados en caso de error de detención.
- [SPARK-43973] La interfaz de usuario de flujo estructurado ahora muestra correctamente las consultas con errores.
- Actualizaciones de seguridad del sistema operativo
- 23 de junio de 2023
- Actualizaciones de seguridad del sistema operativo
- 15 de junio de 2023
- La biblioteca Snowflake-jdbc se actualiza a la versión 3.13.29 para solucionar un problema de seguridad.
- [SPARK-43098] Se ha corregido el error COUNT de corrección cuando la subconsulta escalar tiene un grupo por cláusula
- [SPARK-40862] Admite subconsultas no agregadas en RewriteCorrelatedScalarSubquery
- [SPARK-43156][SPARK-43098] Prueba de recuento de subconsulta escalar extendida con
decorrelateInnerQuery
desactivado. - Actualizaciones de seguridad del sistema operativo
- 2 de junio de 2023
- El analizador JSON en el modo
failOnUnknownFields
quita un registro en modoDROPMALFORMED
y produce un error directamente en el modoFAILFAST
. - Se ha corregido un problema en el análisis de datos de rescate de JSON para evitar
UnknownFieldException
. - Se solucionó un problema en Auto Loader donde los diferentes formatos de archivos de origen eran inconsistentes cuando el esquema proporcionado no incluía particiones inferidas. Este problema podría provocar errores inesperados al leer archivos con columnas que faltan en el esquema de partición inferido.
- [SPARK-43404] Omita la reutilización del archivo sst para la misma versión del almacén de estado de RocksDB a fin de evitar errores de coincidencia de id.
- [SPARK-43413] Se ha corregido la nulabilidad de
IN
de la subconsultaListQuery
. - Actualizaciones de seguridad del sistema operativo
- El analizador JSON en el modo
- 17 de mayo de 2023
- Los exámenes de Parquet ahora son sólidos con respecto a los OEM al examinar archivos excepcionalmente estructurados ajustando dinámicamente el tamaño del lote. Los metadatos de archivo se analizan para reducir de forma preventiva el tamaño del lote y se reducen de nuevo en los reintentos de tareas como una red de seguridad final.
- [SPARK-41520] Patrón de árbol dividido
AND_OR
para separarAND
yOR
. - [SPARK-43190]
ListQuery.childOutput
ahora es coherente con la salida secundaria. - Actualizaciones de seguridad del sistema operativo
- 25 de abril de 2023
- [SPARK-42928] Haga que
resolvePersistentFunction
se sincronice. - Actualizaciones de seguridad del sistema operativo
- [SPARK-42928] Haga que
- 11 de abril de 2023
- Se ha corregido un error por el que la evolución del esquema del cargador automático puede entrar en un bucle de error infinito, cuando se detecta una nueva columna en el esquema de un objeto JSON anidado.
- [SPARK-42937]
PlanSubqueries
ahora estableceInSubqueryExec#shouldBroadcast
en true. - [SPARK-42967] Se ha corregido SparkListenerTaskStart.stageAttemptId cuando se inicia una tarea después de cancelar la fase.
- 29 de marzo de 2023
- [SPARK-42668] Detectar excepciones al intentar cerrar la secuencia comprimida en la detención de HDFSStateStoreProvider
- [SPARK-42635] Corrija…
- Actualizaciones de seguridad del sistema operativo
- 14 de marzo de 2023
- [SPARK-41162] Corrección de anti- y semicombinación para la unión automática con agregaciones
- [SPARK-33206] Corrección del cálculo de la ponderación de la memoria caché de índices aleatorios para archivos de índice pequeños
- [SPARK-42484] Se ha mejorado el mensaje de error
UnsafeRowUtils
- Correcciones varias.
- 28 de febrero de 2023
- Se ha agregado compatibilidad con la columna generada para date_format aaaa-MM-dd. Este cambio es compatible con la eliminación de particiones para aaaa-MM-dd como elemento date_format en columnas generadas.
- Los usuarios ahora pueden leer y escribir determinadas tablas Delta que requieren la versión 3 del lector y la versión 7 del escritor mediante Databricks Runtime 9.1 LTS o posterior. Para ello, las características de tabla enumeradas en el protocolo de las tablas deben ser compatibles con la versión actual de Databricks Runtime.
- Se ha agregado compatibilidad con la columna generada para date_format aaaa-MM-dd. Este cambio es compatible con la eliminación de particiones para aaaa-MM-dd como elemento date_format en columnas generadas.
- Actualizaciones de seguridad del sistema operativo
- 16 de febrero de 2023
- [SPARK-30220] Habilitación mediante subconsultas Exists/In fuera del nodo Filtro
- Actualizaciones de seguridad del sistema operativo
- 31 de enero de 2023
- Los tipos de tabla de las tablas JDBC ahora son EXTERNAL de manera predeterminada.
- 18 de enero de 2023
- El conector de Azure Synapse devuelve un mensaje de error más descriptivo cuando un nombre de columna contiene caracteres no válidos, como espacios en blanco o punto y coma. En tales casos, se devolverá el siguiente mensaje:
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
. - [SPARK-38277] Borrado del lote de escritura después de la confirmación del almacén de estado de RocksDB
- [SPARK-41199] Corrección del problema de métricas cuando el origen de streaming DSv1 y el origen de streaming DSv2 se usan conjuntamente
- [SPARK-41198] Corregir las métricas en la consulta de streaming con el origen de streaming CTE y DSv1.
- [SPARK-41339] Cerrar y volver a crear el lote de escritura de RocksDB en lugar de simplemente borrar.
- [SPARK-41732] Aplicar la eliminación basada en patrones de árbol para la regla SessionWindowing.
- Actualizaciones de seguridad del sistema operativo
- El conector de Azure Synapse devuelve un mensaje de error más descriptivo cuando un nombre de columna contiene caracteres no válidos, como espacios en blanco o punto y coma. En tales casos, se devolverá el siguiente mensaje:
- 29 de noviembre de 2022
- Los usuarios pueden configurar el comportamiento de los espacios en blanco iniciales y finales al escribir datos mediante el conector de Redshift. Se han agregado las siguientes opciones para controlar el control de espacios en blanco:
csvignoreleadingwhitespace
, cuando se establece entrue
, quita el espacio en blanco inicial de los valores durante las escrituras cuandotempformat
se establece enCSV
oCSV GZIP
. Los espacios en blanco se conservan cuando la configuración se establece enfalse
. De forma predeterminada, el valor estrue
.csvignoretrailingwhitespace
, cuando se establece entrue
, quita el espacio en blanco final de los valores durante las escrituras cuandotempformat
se establece enCSV
oCSV GZIP
. Los espacios en blanco se conservan cuando la configuración se establece enfalse
. De forma predeterminada, el valor estrue
.
- Se ha corregido un error con el análisis de JSON en el cargador automático cuando todas las columnas se dejaban como cadenas (
cloudFiles.inferColumnTypes
no se había establecido o se había establecido enfalse
) y el JSON contenía objetos anidados. - Actualizaciones de seguridad del sistema operativo
- Los usuarios pueden configurar el comportamiento de los espacios en blanco iniciales y finales al escribir datos mediante el conector de Redshift. Se han agregado las siguientes opciones para controlar el control de espacios en blanco:
- 15 de noviembre de 2022
- Se ha actualizado Apache commons-text a 1.10.0.
- [SPARK-40646] Se ha corregido el análisis de JSON para estructuras, mapas y matrices, por lo que cuando una parte de un registro no coincide con el esquema, el resto del registro todavía se puede analizar correctamente en lugar de devolver valores NULL. Para participar en el comportamiento mejorado, establezca
spark.sql.json.enablePartialResults
entrue
. La marca está deshabilitada de forma predeterminada para conservar el comportamiento original. - [SPARK-40292] Corrección de nombres de columna en la función
arrays_zip
cuando se hace referencia a matrices desde estructuras anidadas - Actualizaciones de seguridad del sistema operativo
- 1 de noviembre de 2022
- Se ha corregido un problema por el que si una tabla Delta tenía una columna definida por el usuario denominada
_change_type
, pero la opción Change data feed (Cambiar fuente de distribución de datos) estaba deshabilitada en esa tabla, los datos de esa columna se rellenaban incorrectamente con valores NULL al ejecutarMERGE
. - Se ha corregido un problema con el cargador automático en el que un archivo se puede duplicar en el mismo microproceso cuando
allowOverwrites
está habilitado. - [SPARK-40697] Agrega relleno de caracteres de lectura para cubrir archivos de datos externos
- [SPARK-40596] Rellenar ExecutorDecommission con mensajes en ExecutorDecommissionInfo
- Actualizaciones de seguridad del sistema operativo
- Se ha corregido un problema por el que si una tabla Delta tenía una columna definida por el usuario denominada
- 18 de octubre de 2022
- Actualizaciones de seguridad del sistema operativo
- 5 de octubre de 2022
- [SPARK-40468] Corrección de la eliminación de columnas en CSV cuando se selecciona
_corrupt_record
. - Actualizaciones de seguridad del sistema operativo
- [SPARK-40468] Corrección de la eliminación de columnas en CSV cuando se selecciona
- 22 de septiembre de 2022
- Los usuarios pueden establecer spark.conf.set (
spark.databricks.io.listKeysWithPrefix.azure.enabled
ytrue
) para volver a habilitar la lista integrada para Auto Loader en ADLS Gen2. La lista integrada se desactivó anteriormente debido a problemas de rendimiento, pero puede haber provocado un aumento en los costos de almacenamiento para los clientes. - [SPARK-40315] Adición de hashCode() para el literal de ArrayBasedMapData
- [SPARK-40213] Compatibilidad con la conversión de valores ASCII para caracteres Latino-1
- [SPARK-40380] Corrección del plegado constante de InvokeLike para evitar literales no serializables insertados en el plan
- [SPARK-38404] Mejora de la resolución de CTE cuando un CTE anidado hace referencia a un CTE externo
- [SPARK-40089] Corrección de la ordenación para algunos tipos decimales
- [SPARK-39887] RemoveRedundantAliases debe mantener alias que hacen que la salida de los nodos de proyección sea única
- Los usuarios pueden establecer spark.conf.set (
- 6 de septiembre de 2022
- [SPARK-40235] Uso del bloqueo interrumpible en lugar de sincronizado en Executor.updateDependencies().
- [SPARK-40218] GROUPING SETS debe conservar las columnas de agrupación.
- [SPARK-39976] ArrayIntersect debe controlar null en la primera expresión correctamente.
- [SPARK-40053] Adición de
assume
a casos de cancelación dinámica que requieren entorno de tiempo de ejecución de Python. - [SPARK-35542] Corrección: el creador de depósitos diseñado para varias columnas con parámetros splitsArray, inputCols y outputCols no se puede cargar después de guardarlo.
- [SPARK-40079] Adición de la validación inputCols de Imputer para el caso de entrada vacío.
- 24 de agosto de 2022
- [SPARK-39983] No almacenar en caché las relaciones de difusión no serializadas en el controlador.
- [SPARK-39775] Deshabilitación de la validación de valores predeterminados al analizar esquemas de Avro.
- [SPARK-39962] Aplicar proyección cuando los atributos de grupo están vacíos
- [SPARK-37643] Si charVarcharAsString es true, para la consulta de predicados del tipo de datos char debe omitir la regla rpadding.
- Actualizaciones de seguridad del sistema operativo
- 9 de agosto de 2022
- [SPARK-39847] Corrección de la condición de carrera en RocksDBLoader.loadLibrary() si se interrumpe el subproceso del autor de la llamada
- [SPARK-39731] Corrección del problema en los orígenes de datos CSV y JSON cuando se analicen fechas en formato "yyyyMMdd" con la directiva de analizador de hora CORREGIDA
- Actualizaciones de seguridad del sistema operativo
- 27 de julio de 2022
- [SPARK-39625][SQL] Agregar Dataset.as (StructType).
- [SPARK-39689] Compatibilidad con 2 caracteres
lineSep
en el origen de datos CSV. - [SPARK-39104] El elemento InMemoryRelation#isCachedColumnBuffersLoaded debe ser seguro para subprocesos.
- [SPARK-39570] Ahora, la tabla insertada permitirá el uso de expresiones con alias.
- [SPARK-39702] Reducción de la sobrecarga de memoria de TransportCipher$EncryptedMessage mediante un byteRawChannel compartido.
- [SPARK-39575] agregar ByteBuffer#rewind después de ByteBuffer#get en AvroDeserializer.
- [SPARK-39476] Deshabilitación de la optimización de conversión de desajustado al convertir de Long a Float/Double o de Integer a Float.
- [SPARK-38868] No propagar excepciones del predicado de filtro al optimizar las combinaciones externas.
- Actualizaciones de seguridad del sistema operativo
- 20 de julio de 2022
- Haga que la operación Merge Delta sea coherente cuando el origen no es determinista.
- [SPARK-39355] Una sola columna usa comillas para construir UnresolvedAttribute.
- [SPARK-39548] Comando CreateView con una consulta de cláusula de ventana da un problema de definición de ventana errónea no encontrada.
- [SPARK-39419] Se ha corregido el elemento ArraySort para que produzca una excepción si el comparador devuelve un valor nulo.
- Se ha deshabilitado el uso de las API integradas en la nube por parte del cargador automático para la lista de directorios en Azure.
- Actualizaciones de seguridad del sistema operativo
- 5 de julio de 2022
- [SPARK-39376] Se han ocultado las columnas duplicadas en la expansión de estrella del alias de subconsulta de NATURAL/USING JOIN.
- Actualizaciones de seguridad del sistema operativo
- 15 de junio de 2022
- [SPARK-39283] Se ha corregido el interbloqueo entre TaskMemoryManager y UnsafeExternalSorter.SpillableIterator.
- [SPARK-39285] Spark no debe comprobar los nombres de campo al leer archivos.
- [SPARK-34096] Mejorar el rendimiento de nth_value omite los valores NULL en la ventana de desplazamiento.
- [SPARK-36718] Se ha corregido la comprobación
isExtractOnly
en CollapseProject.
- 2 de junio de 2022
- [SPARK-39093] Se evita un error de compilación de codegen al dividir intervalos de año y mes o intervalos de día y hora por un entero.
- [SPARK-38990] Se evita la excepción NullPointerException al evaluar el formato de date_trunc y trunc como una referencia enlazada.
- Actualizaciones de seguridad del sistema operativo
- 18 de mayo de 2022
- Corrige una posible pérdida de memoria integrada en el cargador automático.
- [SPARK-38918] La eliminación de columnas anidadas debe filtrar los atributos que no pertenecen a la relación actual.
- [SPARK-37593] Reducción del tamaño de página predeterminado por LONG_ARRAY_OFFSET si se usan G1GC y ON_HEAP.
- [SPARK-39084] Corregir df.rdd.isEmpty() mediante TaskContext para detener el iterador en la finalización de la tarea.
- [SPARK-32268] Agregar columnPruning en injectBloomFilter.
- [SPARK-38974] Filtrar funciones registradas con un nombre de base de datos determinado en funciones de lista.
- [SPARK-38931] Crear directorio dfs raíz para RocksDBFileManager con un número desconocido de claves en el primer punto de control.
- Actualizaciones de seguridad del sistema operativo
- 19 de abril de 2022
- Se ha actualizado el SDK de AWS de Java de la versión 1.11.655 a la 1.12.1899.
- Se ha corregido un problema que provocaba que las bibliotecas con ámbito de cuaderno no funcionara en trabajos de streaming por lotes.
- [SPARK-38616] Se realiza un seguimiento del texto de la consulta SQL en el nodo de árbol de Catalyst
- Actualizaciones de seguridad del sistema operativo
- 6 de abril de 2022
- Las siguientes funciones Spark SQL pasan a estar disponibles en esta versión:
timestampadd()
ydateadd()
: agregue una duración de tiempo en una unidad especificada a una expresión de marca de tiempo.timestampdiff()
ydatediff()
: calcule la diferencia de tiempo entre dos expresiones de marca de tiempo en una unidad especificada.
- El Parquet-MR se ha actualizado a la versión 1.12.2
- Compatibilidad mejorada con esquemas completos en archivos parquet
- [SPARK-38631] Utiliza una implementación basada en Java para descomprimir en Utils.unpack.
- [SPARK-38509][SPARK-38481] Selección exclusiva de tres cambios de
timestmapadd/diff
. - [SPARK-38523] Corrección que hace referencia a la columna de registro dañada de CSV.
- [SPARK-38237] Permitir a
ClusteredDistribution
requerir claves de agrupación en clústeres completas. - [SPARK-38437][SQL] Serialización Lenient de datetime desde el origen de datos.
- [SPARK-38180] Permitir expresiones seguras de conversión vertical en predicados de igualdad correlacionados.
- [SPARK-38155] No permitir agregados distintos en subconsultas laterales con predicados no admitidos.
- Actualizaciones de seguridad del sistema operativo
- Las siguientes funciones Spark SQL pasan a estar disponibles en esta versión:
Databricks Runtime 9.1 LTS
Consulte Databricks Runtime 9.1 LTS.
- 22 de octubre de 2024
- Actualizaciones de seguridad del sistema operativo
- 10 de octubre de 2024
- Actualizaciones de seguridad del sistema operativo
- 25 de septiembre de 2024
- [SPARK-49000][SQL] Se ha corregido "select count(distinct 1) from t" donde t está vacía mediante la expansión de RewriteDistinctAggregates
- Actualizaciones de seguridad del sistema operativo
- 6 de septiembre de 2024
- Actualizaciones de seguridad del sistema operativo
- 29 de agosto de 2024
- [SPARK-49065][SQL] La fusión mediante cambio de base en formateadores o analizadores heredados debe admitir zonas horarias predeterminadas que no son JVM.
- 14 de agosto de 2024
- 1 de agosto de 2024
- Actualizaciones de seguridad del sistema operativo
- 11 de julio de 2024
- Actualizaciones de seguridad del sistema operativo
- 17 de junio de 2024
- Actualizaciones de seguridad del sistema operativo
- 21 de mayo de 2024
- [SPARK-48105][SS] Corregir la condición de carrera entre la descarga del almacén de estado y la creación de instantáneas
- Actualizaciones de seguridad del sistema operativo
- 9 de mayo de 2024
- [SPARK-47973]sitio de llamada de registro [CORE] en SparkContext.stop() y versiones posteriores en SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Establece que admite un valor NULL correctamente en la clave de combinación combinado en combinación externa completa USING
- Actualizaciones de seguridad del sistema operativo
- 25 de abril de 2024
- Correcciones de errores varios.
- 11 de abril de 2024
- Actualizaciones de seguridad del sistema operativo
- 1 de abril de 2024
- Revertir “[SPARK-46861][CORE] Evitar interbloqueo en DAGScheduler”
- Actualizaciones de seguridad del sistema operativo
- 14 de marzo de 2024
- Actualizaciones de seguridad del sistema operativo
- 29 de febrero de 2024
- Se ha corregido un problema por el que el uso de una colección local como origen en un comando MERGE podía dar lugar a que la métrica de operación numSourceRows notificara el doble del número correcto de filas.
- Actualizaciones de seguridad del sistema operativo
- 13 de febrero de 2024
- [SPARK-46861] Evitar interbloqueo en DAGScheduler.
- Actualizaciones de seguridad del sistema operativo
- 31 de enero de 2024
- Actualizaciones de seguridad del sistema operativo
- 25 de diciembre de 2023
- Para evitar una mayor latencia al comunicarse a través de TLSv1.3, esta versión de mantenimiento incluye una revisión a la instalación de JDK 8 para corregir el error de JDK (JDK-8293562).
- [SPARK-46058] Agregar una marca independiente para privateKeyPassword.
- [SPARK-39440] Agregar una configuración para deshabilitar la escala de tiempo de eventos.
- [SPARK-46132] Se admite la contraseña de clave para las claves JKS para RPC SSL.
- 14 de diciembre de 2023
- Actualizaciones de seguridad del sistema operativo
- 29 de noviembre de 2023
- Se ha instalado un nuevo paquete,
pyarrow-hotfix
, para corregir una vulnerabilidad de RCE de PyArrow. - [SPARK-45859] Objetos UDF creados en
ml.functions
diferido. - [SPARK-45544] compatibilidad integrada con SSL en
TransportContext
. - [SPARK-45730] Restricciones de tiempo mejoradas para
ReloadingX509TrustManagerSuite
. - Actualizaciones de seguridad del sistema operativo
- Se ha instalado un nuevo paquete,
- 14 de noviembre de 2023
- [SPARK-45545]
SparkTransportConf
heredaSSLOptions
tras la creación. - [SPARK-45429] Se han agregado clases auxiliares para la comunicación RPC de SSL.
- [SPARK-45427] Se ha agregado la configuración SSL de RPC a
SSLOptions
ySparkTransportConf
. - [SPARK-45584] Se ha corregido un error de ejecución de subconsulta con
TakeOrderedAndProjectExec
. - [SPARK-45541] Se ha agregado
SSLFactory
. - [SPARK-42205] Se han quitado los registros acumulables de los eventos de inicio de fase y tarea.
- Actualizaciones de seguridad del sistema operativo
- [SPARK-45545]
- 24 de octubre de 2023
- [SPARK-45426] Se ha agregado compatibilidad con
ReloadingX509TrustManager
. - Actualizaciones de seguridad del sistema operativo
- [SPARK-45426] Se ha agregado compatibilidad con
- 13 de octubre de 2023
- Actualizaciones de seguridad del sistema operativo
- 10 de septiembre de 2023
- Correcciones varias.
- 30 de agosto de 2023
- Actualizaciones de seguridad del sistema operativo
- 15 de agosto de 2023
- Actualizaciones de seguridad del sistema operativo
- 23 de junio de 2023
- La biblioteca Snowflake-jdbc se actualiza a la versión 3.13.29 para solucionar un problema de seguridad.
- Actualizaciones de seguridad del sistema operativo
- 15 de junio de 2023
- [SPARK-43098] Se ha corregido el error COUNT de corrección cuando la subconsulta escalar tiene un grupo por cláusula.
- [SPARK-43156][SPARK-43098] Extender la prueba de errores de recuento de subconsulta escalares con
decorrelateInnerQuery
desactivado. - [SPARK-40862] Admite subconsultas no agregadas en RewriteCorrelatedScalarSubquery.
- Actualizaciones de seguridad del sistema operativo
- 2 de junio de 2023
- El analizador JSON en el modo
failOnUnknownFields
quita un registro en modoDROPMALFORMED
y produce un error directamente en el modoFAILFAST
. - Se ha corregido un problema en el análisis de datos de rescate de JSON para evitar
UnknownFieldException
. - Se solucionó un problema en Auto Loader donde los diferentes formatos de archivos de origen eran inconsistentes cuando el esquema proporcionado no incluía particiones inferidas. Este problema podría provocar errores inesperados al leer archivos con columnas que faltan en el esquema de partición inferido.
- [SPARK-37520] Agregar las funciones de cadena
startswith()
yendswith()
- [SPARK-43413] Se ha corregido la nulabilidad de
IN
de la subconsultaListQuery
. - Actualizaciones de seguridad del sistema operativo
- El analizador JSON en el modo
- 17 de mayo de 2023
- Actualizaciones de seguridad del sistema operativo
- 25 de abril de 2023
- Actualizaciones de seguridad del sistema operativo
- 11 de abril de 2023
- Se ha corregido un error por el que la evolución del esquema del cargador automático puede entrar en un bucle de error infinito, cuando se detecta una nueva columna en el esquema de un objeto JSON anidado.
- [SPARK-42967] Se ha corregido SparkListenerTaskStart.stageAttemptId cuando se inicia una tarea después de cancelar la fase.
- 29 de marzo de 2023
- Actualizaciones de seguridad del sistema operativo
- 14 de marzo de 2023
- [SPARK-42484] Se ha mejorado el mensaje de error de
UnsafeRowUtils
. - Correcciones varias.
- [SPARK-42484] Se ha mejorado el mensaje de error de
- 28 de febrero de 2023
- Los usuarios ahora pueden leer y escribir determinadas tablas Delta que requieren la versión 3 del lector y la versión 7 del escritor mediante Databricks Runtime 9.1 LTS o posterior. Para ello, las características de tabla enumeradas en el protocolo de las tablas deben ser compatibles con la versión actual de Databricks Runtime.
- Actualizaciones de seguridad del sistema operativo
- 16 de febrero de 2023
- Actualizaciones de seguridad del sistema operativo
- 31 de enero de 2023
- Los tipos de tabla de las tablas JDBC ahora son EXTERNAL de manera predeterminada.
- 18 de enero de 2023
- Actualizaciones de seguridad del sistema operativo
- 29 de noviembre de 2022
- Se ha corregido un error con el análisis de JSON en el cargador automático cuando todas las columnas se dejaban como cadenas (
cloudFiles.inferColumnTypes
no se había establecido o se había establecido enfalse
) y el JSON contenía objetos anidados. - Actualizaciones de seguridad del sistema operativo
- Se ha corregido un error con el análisis de JSON en el cargador automático cuando todas las columnas se dejaban como cadenas (
- 15 de noviembre de 2022
- Se ha actualizado Apache commons-text a 1.10.0.
- Actualizaciones de seguridad del sistema operativo
- Correcciones varias.
- 1 de noviembre de 2022
- Se ha corregido un problema por el que si una tabla Delta tenía una columna definida por el usuario denominada
_change_type
, pero la opción Change data feed (Cambiar fuente de distribución de datos) estaba deshabilitada en esa tabla, los datos de esa columna se rellenaban incorrectamente con valores NULL al ejecutarMERGE
. - Se ha corregido un problema con el cargador automático en el que un archivo se puede duplicar en el mismo microproceso cuando
allowOverwrites
está habilitado. - [SPARK-40596] Rellenar ExecutorDecommission con mensajes en ExecutorDecommissionInfo
- Actualizaciones de seguridad del sistema operativo
- Se ha corregido un problema por el que si una tabla Delta tenía una columna definida por el usuario denominada
- 18 de octubre de 2022
- Actualizaciones de seguridad del sistema operativo
- 5 de octubre de 2022
- Correcciones varias.
- Actualizaciones de seguridad del sistema operativo
- 22 de septiembre de 2022
- Los usuarios pueden establecer spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) para volver a habilitar la lista integrada para Auto Loader en ADLS Gen2. La lista integrada se desactivó anteriormente debido a problemas de rendimiento, pero puede haber provocado un aumento en los costos de almacenamiento para los clientes.
- [SPARK-40315] Adición de hashCode() para el literal de ArrayBasedMapData
- [SPARK-40089] Corrección de la ordenación para algunos tipos decimales
- [SPARK-39887] RemoveRedundantAliases debe mantener alias que hacen que la salida de los nodos de proyección sea única
- 6 de septiembre de 2022
- [SPARK-40235] Uso del bloqueo interrumpible en lugar de sincronizado en Executor.updateDependencies()
- [SPARK-35542] Corrección: el creador de depósitos diseñado para varias columnas con parámetros splitsArray, inputCols y outputCols no se puede cargar después de guardarlo
- [SPARK-40079] Adición de la validación inputCols de Imputer para el caso de entrada vacío
- 24 de agosto de 2022
- [SPARK-39666] Uso de UnsafeProjection.create para respetar
spark.sql.codegen.factoryMode
en ExpressionEncoder - [SPARK-39962] Aplicar proyección cuando los atributos de grupo están vacíos
- Actualizaciones de seguridad del sistema operativo
- [SPARK-39666] Uso de UnsafeProjection.create para respetar
- 9 de agosto de 2022
- Actualizaciones de seguridad del sistema operativo
- 27 de julio de 2022
- Haga que la operación Merge Delta sea coherente cuando el origen no es determinista.
- [SPARK-39689] Compatibilidad con 2 caracteres
lineSep
en el origen de datos CSV - [SPARK-39575] Se ha agregado
ByteBuffer#rewind
después deByteBuffer#get
enAvroDeserializer
. - [SPARK-37392] Se ha corregido el error de rendimiento del optimizador de catalizadores.
- Actualizaciones de seguridad del sistema operativo
- 13 de julio de 2022
- [SPARK-39419]
ArraySort
produce una excepción si el comparador devuelve un valor null. - Se ha deshabilitado el uso de las API integradas en la nube por parte del cargador automático para la lista de directorios en Azure.
- Actualizaciones de seguridad del sistema operativo
- [SPARK-39419]
- 5 de julio de 2022
- Actualizaciones de seguridad del sistema operativo
- Correcciones varias.
- 15 de junio de 2022
- [SPARK-39283] Corrección del interbloqueo entre
TaskMemoryManager
yUnsafeExternalSorter.SpillableIterator
.
- [SPARK-39283] Corrección del interbloqueo entre
- 2 de junio de 2022
- [SPARK-34554] Implemente el método
copy()
enColumnarMap
. - Actualizaciones de seguridad del sistema operativo
- [SPARK-34554] Implemente el método
- 18 de mayo de 2022
- Se ha corregido una posible pérdida de memoria integrada en Auto Loader.
- Actualice la versión del SDK de AWS de la versión 1.11.655 a la 1.11.678.
- [SPARK-38918] La eliminación de columnas anidadas debe filtrar los atributos que no pertenecen a la relación actual
- [SPARK-39084] Corrección de
df.rdd.isEmpty()
medianteTaskContext
para detener el iterador al finalizar la tarea - Actualizaciones de seguridad del sistema operativo
- 19 de abril de 2022
- Actualizaciones de seguridad del sistema operativo
- Correcciones varias.
- 6 de abril de 2022
- [SPARK-38631] Utiliza una implementación basada en Java para descomprimir en Utils.unpack.
- Actualizaciones de seguridad del sistema operativo
- 22 de marzo de 2022
- Se cambió el directorio de trabajo actual de los cuadernos en los clústeres de alta simultaneidad con el control de acceso a la tabla o el paso de credenciales habilitado al directorio de inicio del usuario. Anteriormente, el directorio activo era
/databricks/driver
. - [SPARK-38437][SQL] Serialización Lenient de datetime desde el origen de datos
- [SPARK-38180] Permitir expresiones seguras de conversión vertical en predicados de igualdad correlacionados
- [SPARK-38155] No permitir agregados distintos en subconsultas laterales con predicados no admitidos
- [SPARK-27442] Se ha quitado un campo de comprobación al leer o escribir datos en un elemento parquet.
- Se cambió el directorio de trabajo actual de los cuadernos en los clústeres de alta simultaneidad con el control de acceso a la tabla o el paso de credenciales habilitado al directorio de inicio del usuario. Anteriormente, el directorio activo era
- 14 de marzo de 2022
- [SPARK-38236] Rutas de acceso de archivo absolutas especificadas en la tabla create/alter tratadas como relativas
- [SPARK-34069] Interrumpa el subproceso de tarea si la propiedad local
SPARK_JOB_INTERRUPT_ON_CANCEL
está establecida en true.
- 23 de febrero de 2022
- [SPARK-37859] Las tablas SQL creadas con JDBC mediante Spark 3.1 no son legibles en la versión 3.2
- 8 de febrero de 2022
- [SPARK-27442] Se ha quitado un campo de comprobación al leer o escribir datos en un elemento parquet.
- Actualizaciones de seguridad del sistema operativo
- 1 de febrero de 2022
- Actualizaciones de seguridad del sistema operativo
- 26 de enero de 2022
- Se ha corregido un error por el que las transacciones simultáneas en tablas Delta podían confirmarse en un orden no serializable bajo determinadas condiciones poco frecuentes.
- Se ha corregido un error por el que el comando
OPTIMIZE
podía producir un error si el dialecto ANSI SQL estaba habilitado.
- 19 de enero de 2022
- Correcciones secundarias y mejoras de seguridad.
- Actualizaciones de seguridad del sistema operativo
- 4 de noviembre de 2021
- Se ha corregido un error que podía provocar un error en los flujos de Structured Streaming con un elemento
ArrayIndexOutOfBoundsException
. - Se ha corregido una condición de carrera que podía provocar un error de consulta con una excepción IOException como
java.io.IOException: No FileSystem for scheme
o que las modificaciones asparkContext.hadoopConfiguration
no se aplicaran a las consultas. - El conector de Apache Spark para uso compartido de Delta se ha actualizado a la versión 0.2.0.
- Se ha corregido un error que podía provocar un error en los flujos de Structured Streaming con un elemento
- 20 de octubre de 2021
- Se ha actualizado el conector de BigQuery de la versión 0.18.1 a la 0.22.2. Esto agrega compatibilidad con el tipo BigNumeric.