Atualizações de manutenção do Databricks Runtime
Este artigo lista as atualizações de manutenção para versões do Databricks Runtime com suporte. Para adicionar uma atualização de manutenção a um cluster existente, reinicie o cluster. Para obter as atualizações de manutenção em versões do Databricks Runtime sem suporte, confira Atualizações de manutenção do Databricks Runtime (arquivado).
Observação
As versões são disponibilizadas em fases. Sua conta do Azure Databricks pode não ser atualizada por uns dias após a data de lançamento inicial.
Versões do Databricks Runtime
Atualizações de manutenção por versão:
- Databricks Runtime 15.4
- Databricks Runtime 15.3
- Databricks Runtime 15.2
- Databricks Runtime 14.3
- Databricks Runtime 14.1
- Databricks Runtime 13.3 LTS
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS
- Databricks Runtime 9.1 LTS
Databricks Runtime 15.4
Consulte Databricks Runtime 15.4 LTS.
- 5 de novembro de 2024
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [SPARK-49867][SQL] Melhorar a mensagem de erro quando o índice está fora dos limites ao chamar GetColumnByOrdinal
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulidade de structs aninhados
- [FAÍSCA-49829] Revise a otimização na adição de entrada ao repositório de estado na junção stream-stream (correção de correção)
- [SPARK-49905] Use ShuffleOrigin dedicado para o operador stateful para evitar que o shuffle seja modificado do AQE
- [SPARK-46632][SQL] Corrija a eliminação de subexpressão quando expressões ternárias equivalentes têm filhos diferentes
- [FAÍSCA-49443][SQL][PYTHON] Implementar to_variant_object expressão e fazer com que schema_of_variant expressões imprimam OBJECT para objetos variantes
- [FAÍSCA-49615] Correção de bug: Faça a validação do esquema de coluna ML estar em conformidade com a configuração
spark.sql.caseSensitive
do Spark.
- 22 de outubro de 2024
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [SPARK-49867][SQL] Melhorar a mensagem de erro quando o índice está fora dos limites ao chamar GetColumnByOrdinal
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulidade de structs aninhados
- [FAÍSCA-49829] Revise a otimização na adição de entrada ao repositório de estado na junção stream-stream (correção de correção)
- [SPARK-49905] Use ShuffleOrigin dedicado para o operador stateful para evitar que o shuffle seja modificado do AQE
- [SPARK-46632][SQL] Corrija a eliminação de subexpressão quando expressões ternárias equivalentes têm filhos diferentes
- [FAÍSCA-49443][SQL][PYTHON] Implementar to_variant_object expressão e fazer com que schema_of_variant expressões imprimam OBJECT para objetos variantes
- [FAÍSCA-49615] Correção de bug: Faça a validação do esquema de coluna ML estar em conformidade com a configuração
spark.sql.caseSensitive
do Spark.
- 10 de outubro de 2024
- [FAÍSCA-49743][SQL] OptimizeCsvJsonExpr não deve alterar os campos de esquema ao remover GetArrayStructFields
- [FAÍSCA-49688][CONECTAR] Corrigir uma corrida de dados entre o plano de interrupção e execução
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Classificar classe de erro para erro de função de usuário FlatMapGroupsWithState
- [FAÍSCA-49460][SQL] Acompanhamento: corrigir o risco potencial de NPE
- 25 de setembro de 2024
- [FAÍSCA-49628][SQL] ConstantFolding deve copiar a expressão com estado antes de avaliar
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" em que t é uma tabela vazia expandindo RewriteDistinctAggregates
- [FAÍSCA-49492][CONECTAR] Tentativa de reanexação em ExecutionHolder inativo
- [FAÍSCA-49458][CONECTAR][PYTHON] Fornecer ID de sessão do lado do servidor por meio de ReattachExecute
- [FAÍSCA-49017][SQL] A instrução Insert falha quando vários parâmetros estão sendo usados
- [FAÍSCA-49451] Permitir chaves duplicadas no parse_json.
- Diversas correções de bugs.
- 17 de setembro de 2024
- [FAÍSCA-48463][ML] Faça Binarizer, Bucketizer, Vector Assembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor suportando colunas de entrada aninhadas
- [FAÍSCA-49409][CONECTAR] Ajuste o valor padrão de CONNECT_SESSION_PLAN_CACHE_SIZE
- [FAÍSCA-49526][CONECTAR][HOTFIX-15.4.2] Suporte a caminhos no estilo Windows no ArtifactManager
- Reverter "[SPARK-48482][PYTHON] dropDuplicates e dropDuplicatesWIthinWatermark devem aceitar argumentos de comprimento variável"
- [FAÍSCA-43242][NÚCLEO] Correção do lançamento de 'Tipo inesperado de BlockId' no diagnóstico de corrupção aleatória
- [FAÍSCA-49366][CONECTAR] Tratar o nó União como folha na resolução da coluna do dataframe
- [FAÍSCA-49018][SQL] Corrigir approx_count_distinct não funcionando corretamente com agrupamento
- [FAÍSCA-49460][SQL] Remover
cleanupResource()
de EmptyRelationExec - [SPARK-49056][SQL] ErrorClassesJsonReader não lida com nulo corretamente
- [FAÍSCA-49336][CONECTAR] Limitar o nível de aninhamento ao truncar uma mensagem protobuf
- 29 de agosto de 2024
- A saída de uma instrução
SHOW CREATE TABLE
agora inclui todos os filtros de linha ou máscaras de coluna definidos em uma exibição materializada ou em uma tabela de streaming. Veja SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtrar dados de tabela confidenciais usando filtros de linha e máscaras de coluna. - Na computação configurada com o modo de acesso compartilhado, as leituras e gravações em lote do Kafka agora têm as mesmas limitações impostas que as documentadas para o Streaming Estruturado. Confira Limitações de streaming e requisitos para o modo de acesso compartilhado do Catálogo do Unity.
- [SPARK-48941][SPARK-48970] Correções do gravador / leitor de ML do backport
- [SPARK-49074][SQL] Corrigir variante com
df.cache()
- [SPARK-49263][CONNECT] cliente Python do Spark Connect: lidar consistentemente com as opções de leitor do Dataframe booleano
- [SPARK-48955][SQL] Incluir alterações do ArrayCompact na versão 15.4
- [SPARK-48937][SQL] Adicionar suporte à ordenação para as expressões de cadeia de caracteres StringToMap e Mask
- [SPARK-48929] Corrigir erro interno de exibição e limpar o contexto de exceção do analisador
- [SPARK-49125][SQL] Permitir nomes de coluna duplicados na gravação de CSV
- [SPARK-48934][SS] Tipos de data e hora do Python convertidos incorretamente para definir o tempo limite em applyInPandasWithState
- [SPARK-48843] Evitar loop infinito com BindParameters
- [SPARK-48981] Correção do método simpleString de StringType no pyspark para ordenações
- [SPARK-49065][SQL] A troca de base em formatadores/analisadores legados deve ser compatível com os fusos horários padrão não JVM
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correções do gravador de ML do Spark de backport
- [SPARK-48725][SQL] Integrar CollationAwareUTF8String.lowerCaseCodePoints em expressões de cadeia de caracteres
- [SPARK-48978][SQL] Implementar o caminho rápido ASCII no suporte de agrupamento para UTF8_LCASE
- [SPARK-49047][PYTHON] [CONNECT] Truncar a mensagem para registro em log
- [SPARK-49146][SS] Mover erros de asserção relacionados à falta de marca d'água em consultas de streaming no modo de acréscimo para a estrutura de erros
- [SPARK-48977][SQL] Otimizar a pesquisa da cadeia de caracteres na ordenação UTF8_LCASE
- [SPARK-48889][SS] testStream para descarregar os repositórios de estado antes de terminar
- [SPARK-48463] Fazer com que o StringIndexer dê suporte a colunas de entrada aninhadas
- [SPARK-48954] try_mod() substitui try_remainder()
- Atualizações de segurança do sistema operacional.
- A saída de uma instrução
Databricks Runtime 15.3
Consulte Databricks Runtime 15.3.
- 5 de novembro de 2024
- [SPARK-49905] Use ShuffleOrigin dedicado para o operador stateful para evitar que o shuffle seja modificado do AQE
- [SPARK-49867][SQL] Melhorar a mensagem de erro quando o índice está fora dos limites ao chamar GetColumnByOrdinal
- [SPARK-48843][15.3,15.2] Evitar loop infinito com BindParameters
- [FAÍSCA-49829] Revise a otimização na adição de entrada ao repositório de estado na junção stream-stream (correção de correção)
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulidade de structs aninhados
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [SPARK-46632][SQL] Corrija a eliminação de subexpressão quando expressões ternárias equivalentes têm filhos diferentes
- Atualizações de segurança do sistema operacional.
- 22 de outubro de 2024
- [SPARK-49905] Use ShuffleOrigin dedicado para o operador stateful para evitar que o shuffle seja modificado do AQE
- [SPARK-49867][SQL] Melhorar a mensagem de erro quando o índice está fora dos limites ao chamar GetColumnByOrdinal
- [SPARK-48843][15.3,15.2] Evitar loop infinito com BindParameters
- [FAÍSCA-49829] Revise a otimização na adição de entrada ao repositório de estado na junção stream-stream (correção de correção)
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulidade de structs aninhados
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [SPARK-46632][SQL] Corrija a eliminação de subexpressão quando expressões ternárias equivalentes têm filhos diferentes
- Atualizações de segurança do sistema operacional.
- 10 de outubro de 2024
- [FAÍSCA-49688][CONECTAR] Corrigir uma corrida de dados entre o plano de interrupção e execução
- [FAÍSCA-49743][SQL] OptimizeCsvJsonExpr não deve alterar os campos de esquema ao remover GetArrayStructFields
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Classificar classe de erro para erro de função de usuário FlatMapGroupsWithState
- Atualizações de segurança do sistema operacional.
- 25 de setembro de 2024
- [FAÍSCA-49492][CONECTAR] Tentativa de reanexação em ExecutionHolder inativo
- [FAÍSCA-49628][SQL] ConstantFolding deve copiar a expressão com estado antes de avaliar
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" em que t é uma tabela vazia expandindo RewriteDistinctAggregates
- [FAÍSCA-49458][CONECTAR][PYTHON] Fornecer ID de sessão do lado do servidor por meio de ReattachExecute
- [SPARK-48719][SQL] Corrige o bug de cálculo de
RegrSlope
&RegrIntercept
quando o primeiro parâmetro é nulo - Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- [FAÍSCA-49336][CONECTAR] Limitar o nível de aninhamento ao truncar uma mensagem protobuf
- [FAÍSCA-49526][CONECTAR][15.3.5] Suporte a caminhos no estilo Windows no ArtifactManager
- [FAÍSCA-49366][CONECTAR] Tratar o nó União como folha na resolução da coluna do dataframe
- [FAÍSCA-43242][NÚCLEO] Correção do lançamento de 'Tipo inesperado de BlockId' no diagnóstico de corrupção aleatória
- [FAÍSCA-49409][CONECTAR] Ajuste o valor padrão de CONNECT_SESSION_PLAN_CACHE_SIZE
- Atualizações de segurança do sistema operacional.
- 29 de agosto de 2024
- [SPARK-49263][CONNECT] cliente Python do Spark Connect: lidar consistentemente com as opções de leitor do Dataframe booleano
- [SPARK-49056][SQL] ErrorClassesJsonReader não lida com nulo corretamente
- [SPARK-48862] [PYTHON][CONNECT] Evitar chamar
_proto_to_string
quando o nível INFO não estiver habilitado - [SPARK-49146][SS] Mover erros de declaração relacionados à falta de marca d'água em consultas de streaming no modo de acréscimo para a estrutura de erros
- 14 de agosto de 2024
- [SPARK-48941][SPARK-48970] Correções do gravador / leitor de ML do backport
- [SPARK-48706][PYTHON] O UDF do Python em funções de ordem superior não deve gerar erro interno
- [SPARK-48954] try_mod() substitui try_remainder()
- [SPARK-48597] [SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-49065][SQL] A troca de base em formatadores/analisadores legados deve ser compatível com os fusos horários padrão não JVM
- [SPARK-49047][PYTHON][CONNECT] Truncar a mensagem para registro em log
- [SPARK-48740][SQL] Detectar o erro de especificação da janela ausente antecipadamente
- 1 de agosto de 2024
- [Alteração interruptiva] No Databricks Runtime 15.3 e superior, chamar qualquer função definida pelo usuário (UDF) do Python, função agregada definida pelo usuário (UDAF) ou função de tabela definida pelo usuário (UDTF) que usa um tipo
VARIANT
como argumento ou valor de retorno gera uma exceção. Essa alteração é feita para evitar problemas que possam ocorrer devido a um valor inválido retornado por uma dessas funções. Para saber mais sobre o tipoVARIANT
, consulte usar VARIANTs para armazenar dados semiestruturados. - Na computação sem servidor para notebooks e trabalhos, o modo SQL ANSI é habilitado por padrão. Consulte Parâmetros de configuração do Spark com suporte.
- Na computação configurada com o modo de acesso compartilhado, as leituras e gravações em lote do Kafka agora têm as mesmas limitações impostas que as documentadas para o Streaming Estruturado. Confira Limitações de streaming e requisitos para o modo de acesso compartilhado do Catálogo do Unity.
- A saída de uma instrução
SHOW CREATE TABLE
agora inclui todos os filtros de linha ou máscaras de coluna definidos em uma exibição materializada ou em uma tabela de streaming. Veja SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtrar dados de tabela confidenciais usando filtros de linha e máscaras de coluna. - [SPARK-46957][CORE] Os arquivos de ordem aleatória migrados descomissionados devem fazer a limpeza no executor
- [SPARK-48648][PYTHON][CONNECT] Tornar SparkConnectClient.tags corretamente threadlocal
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correções do gravador de ML do Spark de backport
- [SPARK-48713] [SQL] Adicionar verificação de intervalo de índice para UnsafeRow.pointTo quando baseObject for uma matriz de bytes
- [SPARK-48834] [SQL] Desabilitar a entrada/saída de variantes para UDFs, UDTFs e UDAFs escalares em python durante a compilação de consultas
- [SPARK-48934][SS] Tipos de data e hora do Python convertidos incorretamente para definir o tempo limite em applyInPandasWithState
- [SPARK-48705][PYTHON] Usar explicitamente worker_main quando iniciar com pyspark
- [SPARK-48544][SQL] Reduzir a pressão de memória dos BitSets TreeNode vazios
- [SPARK-48889][SS] testStream para descarregar os repositórios de estado antes de terminar
- [SPARK-49054][SQL] O valor padrão da coluna deve ser compatível com as funções current_*
- [SPARK-48653][PYTHON] Corrigir as referências de classe de erro das fonte de dados Python inválidas
- [SPARK-48463] Tornar o StringIndexer compatível com as colunas de entrada aninhadas
- [SPARK-48810] [CONNECT] A API Session stop() deve ser idempotente e não falhar se a sessão já tiver sido fechada pelo servidor
- [SPARK-48873][SQL] Usar UnsafeRow no analisador JSON.
- Atualizações de segurança do sistema operacional.
- [Alteração interruptiva] No Databricks Runtime 15.3 e superior, chamar qualquer função definida pelo usuário (UDF) do Python, função agregada definida pelo usuário (UDAF) ou função de tabela definida pelo usuário (UDTF) que usa um tipo
- 11 de julho de 2024
- (Alteração de comportamento) Os DataFrames armazenados em cache em relação às fontes da tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()
para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - O Driver JDBC do Snowflake foi atualizado para a versão 3.16.1.
- Esta versão inclui uma correção para um problema que impediu a exibição correta da guia Ambiente de Interface do Usuário do Spark durante a execução nos Serviços de Contêiner do Databricks.
- Para ignorar partições inválidas ao ler dados, fontes de dados baseadas em arquivo, como Parquet, ORC, CSV ou JSON, podem definir a opção de fonte de dados ignoreInvalidPartitionPaths como true. Por exemplo: spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)`. Também é possível usar a configuração do SQL spark.sql.files.ignoreInvalidPartitionPaths. No entanto, a opção de fonte de dados tem precedência sobre a configuração do SQL. Essa configuração é false por padrão.
- [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
- [SPARK-47463][SQL] Usar V2Predicate para encapsular a expressão com o tipo de retorno booliano
- [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] O Spark OutputCommitCoordinator deve anular o estágio quando o arquivo confirmado não for consistente com o status da tarefa
- [SPARK-48475][PYTHON] Otimizar _get_jvm_function no PySpark.
- [SPARK-48286] Corrigir a análise de coluna com a expressão padrão existente – Adicionar erro de usuário
- [SPARK-48481][SQL][SS] Não aplicar OptimizeOneRowPlan em relação a um Dataset de streaming
- Reverter “[SPARK-47406][SQL] Manipular TIMESTAMP e DATETIME no MYSQLDialect”
- [SPARK-48383][SS] Gerar erro melhor para partições incompatíveis na opção startOffset no Kafka
- [SPARK-48503][14.3-15.3][SQL] Corrigir subconsultas escalares inválidas com agrupar por em colunas não equivalentes que eram incorretamente permitidas
- [SPARK-48445][SQL] Não embutir UDFs com filhos caros
- [SPARK-48252][SQL] Atualizar CommonExpressionRef quando necessário
- [SPARK-48273][master][SQL] Corrigir a regravação tardia de PlanWithUnresolvedIdentifier
- [SPARK-48566][PYTHON] Corrigir bug em que os índices de partição estão incorretos quando UDTF analyze() usa tanto select quanto partitionColumns
- [SPARK-48556][SQL] Corrigir a mensagem de erro incorreta apontando para UNSUPPORTED_GROUPING_EXPRESSION
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento) Os DataFrames armazenados em cache em relação às fontes da tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
Databricks Runtime 15.2
Consulte Databricks Runtime 15.2.
- 5 de novembro de 2024
- [SPARK-49905] Use ShuffleOrigin dedicado para o operador stateful para evitar que o shuffle seja modificado do AQE
- [SPARK-48843][15.3,15.2] Evitar loop infinito com BindParameters
- [FAÍSCA-49829] Revise a otimização na adição de entrada ao repositório de estado na junção stream-stream (correção de correção)
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulidade de structs aninhados
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [SPARK-46632][SQL] Corrija a eliminação de subexpressão quando expressões ternárias equivalentes têm filhos diferentes
- Atualizações de segurança do sistema operacional.
- 22 de outubro de 2024
- [SPARK-49905] Use ShuffleOrigin dedicado para o operador stateful para evitar que o shuffle seja modificado do AQE
- [SPARK-48843][15.3,15.2] Evitar loop infinito com BindParameters
- [FAÍSCA-49829] Revise a otimização na adição de entrada ao repositório de estado na junção stream-stream (correção de correção)
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulidade de structs aninhados
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [SPARK-46632][SQL] Corrija a eliminação de subexpressão quando expressões ternárias equivalentes têm filhos diferentes
- Atualizações de segurança do sistema operacional.
- 10 de outubro de 2024
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Classificar classe de erro para erro de função de usuário FlatMapGroupsWithState
- [FAÍSCA-49743][SQL] OptimizeCsvJsonExpr não deve alterar os campos de esquema ao remover GetArrayStructFields
- [FAÍSCA-49688][CONECTAR] Corrigir uma corrida de dados entre o plano de interrupção e execução
- Atualizações de segurança do sistema operacional.
- 25 de setembro de 2024
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" em que t é uma tabela vazia expandindo RewriteDistinctAggregates
- [SPARK-48719][SQL] Corrija o bug de cálculo de RegrSlope e RegrIntercept quando o primeiro parâmetro é nulo
- [FAÍSCA-49458][CONECTAR][PYTHON] Fornecer ID de sessão do lado do servidor por meio de ReattachExecute
- [FAÍSCA-49628][SQL] ConstantFolding deve copiar a expressão com estado antes de avaliar
- [FAÍSCA-49492][CONECTAR] Tentativa de reanexação em ExecutionHolder inativo
- Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- [FAÍSCA-49336][CONECTAR] Limitar o nível de aninhamento ao truncar uma mensagem protobuf
- [FAÍSCA-49526][CONECTAR] Suporte a caminhos no estilo Windows no ArtifactManager
- [FAÍSCA-49366][CONECTAR] Tratar o nó União como folha na resolução da coluna do dataframe
- [FAÍSCA-43242][NÚCLEO] Correção do lançamento de 'Tipo inesperado de BlockId' no diagnóstico de corrupção aleatória
- [FAÍSCA-49409][CONECTAR] Ajuste o valor padrão de CONNECT_SESSION_PLAN_CACHE_SIZE
- Atualizações de segurança do sistema operacional.
- 29 de agosto de 2024
- [SPARK-49056][SQL] ErrorClassesJsonReader não lida com nulo corretamente
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-48862] [PYTHON][CONNECT] Evitar chamar
_proto_to_string
quando o nível INFO não estiver habilitado - [SPARK-49263][CONNECT] cliente Python do Spark Connect: lidar consistentemente com as opções de leitor do Dataframe booleano
- [SPARK-49146][SS] Mover erros de declaração relacionados à falta de marca d'água em consultas de streaming no modo de acréscimo para a estrutura de erros
- 14 de agosto de 2024
- [SPARK-48941][SPARK-48970] Correções do gravador / leitor de ML do backport
- [SPARK-48050][SS] Registrar em log o plano lógico no início da consulta
- [SPARK-48706][PYTHON] O UDF do Python em funções de ordem superior não deve gerar erro interno
- [SPARK-48740][SQL] Detectar o erro de especificação da janela ausente antecipadamente
- [SPARK-49065][SQL] A troca de base em formatadores/analisadores legados deve ser compatível com os fusos horários padrão não JVM
- [SPARK-49047][PYTHON][CONNECT] Truncar a mensagem para registro em log
- 1 de agosto de 2024
- Na computação sem servidor para notebooks e trabalhos, o modo SQL ANSI é habilitado por padrão. Consulte Parâmetros de configuração do Spark com suporte.
- Na computação configurada com o modo de acesso compartilhado, as leituras e gravações em lote do Kafka agora têm as mesmas limitações impostas que as documentadas para o Streaming Estruturado. Confira Limitações de streaming e requisitos para o modo de acesso compartilhado do Catálogo do Unity.
- A saída de uma instrução
SHOW CREATE TABLE
agora inclui todos os filtros de linha ou máscaras de coluna definidos em uma exibição materializada ou em uma tabela de streaming. Veja SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtrar dados confidenciais da tabela com filtros de linha e máscaras de coluna. - [SPARK-48705][PYTHON] Usar explicitamente worker_main quando iniciar com pyspark
- [SPARK-48047][SQL] Reduzir a pressão de memória de tags TreeNode vazias
- [SPARK-48810] [CONNECT] A API Session stop() deve ser idempotente e não falhar se a sessão já tiver sido fechada pelo servidor
- [SPARK-48873][SQL] Usar UnsafeRow no analisador JSON.
- [SPARK-46957][CORE] Os arquivos de ordem aleatória migrados descomissionados devem fazer a limpeza no executor
- [SPARK-48889][SS] testStream para descarregar os repositórios de estado antes de terminar
- [SPARK-48713] [SQL] Adicionar verificação de intervalo de índice para UnsafeRow.pointTo quando baseObject for uma matriz de bytes
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correções do gravador de ML do Spark de backport
- [SPARK-48544][SQL] Reduzir a pressão de memória dos BitSets TreeNode vazios
- [SPARK-48934][SS] Tipos de data e hora do Python convertidos incorretamente para definir o tempo limite em applyInPandasWithState
- [SPARK-48463] Tornar o StringIndexer compatível com as colunas de entrada aninhadas
- Atualizações de segurança do sistema operacional.
- 11 de julho de 2024
- (Alteração de comportamento) Os DataFrames armazenados em cache em relação às fontes da tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()
para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - O Driver JDBC do Snowflake foi atualizado para a versão 3.16.1.
- Esta versão inclui uma correção para um problema que impediu a exibição correta da guia Ambiente de Interface do Usuário do Spark durante a execução nos Serviços de Contêiner do Databricks.
- Em notebooks e trabalhos sem servidor, o modo SQL ANSI será habilitado por padrão e dará suporte a nomes curtos
- Para ignorar partições inválidas ao ler dados, fontes de dados baseadas em arquivo, como Parquet, ORC, CSV ou JSON, podem definir a opção de fonte de dados ignoreInvalidPartitionPaths como true. Por exemplo: spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)`. Também é possível usar a configuração do SQL spark.sql.files.ignoreInvalidPartitionPaths. No entanto, a opção de fonte de dados tem precedência sobre a configuração do SQL. Essa configuração é false por padrão.
- [SPARK-48273][SQL] Corrigir a regravação tardia de PlanWithUnresolvedIdentifier
- [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] O Spark OutputCommitCoordinator deve anular o estágio quando o arquivo confirmado não for consistente com o status da tarefa
- [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
- [SPARK-48286] Corrigir a análise de coluna com a expressão padrão existente – Adicionar erro de usuário
- [SPARK-48294][SQL] Gerenciar as letras minúsculas em nestedTypeMissingElementTypeError
- [SPARK-48556][SQL] Corrigir a mensagem de erro incorreta apontando para UNSUPPORTED_GROUPING_EXPRESSION
- [SPARK-48648][PYTHON][CONNECT] Tornar SparkConnectClient.tags corretamente threadlocal
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com agrupar por em colunas não equivalentes que eram incorretamente permitidas
- [SPARK-48252][SQL] Atualizar CommonExpressionRef quando necessário
- [SPARK-48475][PYTHON] Otimizar _get_jvm_function no PySpark.
- [SPARK-48566][PYTHON] Corrigir bug em que os índices de partição estão incorretos quando UDTF analyze() usa tanto select quanto partitionColumns
- [SPARK-48481][SQL][SS] Não aplicar OptimizeOneRowPlan em relação a um Dataset de streaming
- [SPARK-47463][SQL] Usar V2Predicate para encapsular a expressão com o tipo de retorno booliano
- [SPARK-48383][SS] Gerar erro melhor para partições incompatíveis na opção startOffset no Kafka
- [SPARK-48445][SQL] Não embutir UDFs com filhos caros
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento) Os DataFrames armazenados em cache em relação às fontes da tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
- 17 de junho de 2024
applyInPandasWithState()
está disponível em clusters compartilhados.- Corrige um bug em que a otimização da janela de classificação usando o Photon TopK manipulava incorretamente partições com structs.
- Correção de um bug na função try_divide() em que entradas contendo decimais resultaram em exceções inesperadas.
- [SPARK-48197][SQL] Evitar erro de asserção para a função lambda inválida
- [SPARK-48276][PYTHON][CONNECT] Adicionar o método
__repr__
ausente paraSQLExpression
- [SPARK-48014][SQL] Alterar o erro makeFromJava em EvaluatePython para um erro voltado para o usuário
- [SPARK-48016][SQL] Corrigir um bug na função try_divide quando tiver decimais
- [SPARK-47986][CONNECT][PYTHON] Não é possível criar uma nova sessão quando a sessão padrão é fechada pelo servidor
- [SPARK-48173][SQL] CheckAnalysis deve ver o plano de consulta inteiro
- [SPARK-48056][CONNECT][PYTHON] Executar novamente o plano se um erro de SESSION_NOT_FOUND for gerado e nenhuma resposta parcial tiver sido recebida
- [SPARK-48172][SQL] Corrigir problemas de escape em backport JDBCDialects para 15.2
- [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do repositório de estado e o instantâneo
- [SPARK-48288] Adicionar o tipo de dados de origem para a expressão de conversão do conector
- [SPARK-48310][PYTHON][CONNECT] As propriedades armazenadas em cache devem retornar cópias
- [SPARK-48277] Aprimorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
- [SPARK-47986][CONNECT][PYTHON] Não é possível criar uma nova sessão quando a sessão padrão é fechada pelo servidor
- Reverter “[SPARK-47406][SQL] Manipular TIMESTAMP e DATETIME no MYSQLDialect”
- [SPARK-47994][SQL] Corrigir um bug com o pushdown do filtro de coluna CASE WHEN no SQLServer
- [SPARK-47764][CORE][SQL] Limpar dependências de embaralhamento com base em ShuffleCleanupMode
- [SPARK-47921][CONNECT] Corrigir a criação de ExecuteJobTag no ExecuteHolder
- [SPARK-48010][SQL] Evitar chamadas repetidas para conf.resolver em resolveExpression
- [SPARK-48146][SQL] Corrigir a função de agregação na declaração With expression child
- [SPARK-48180][SQL] Aprimorar o erro quando a chamada UDTF com o arg TABLE esquecer os parênteses em torno de várias exprs PARTITION/ORDER BY
- Atualizações de segurança do sistema operacional.
Databricks Runtime 14.3
Confira Databricks Runtime 14.3 LTS.
- 5 de novembro de 2024
- [SPARK-48843] Evitar loop infinito com BindParameters
- [FAÍSCA-49829] Revise a otimização na adição de entrada ao repositório de estado na junção stream-stream (correção de correção)
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulidade de structs aninhados
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Classificar a classe Error para erro de função do usuário do coletor Foreach
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [SPARK-46632][SQL] Corrija a eliminação de subexpressão quando expressões ternárias equivalentes têm filhos diferentes
- [SPARK-49905] Use ShuffleOrigin dedicado para o operador stateful para evitar que o shuffle seja modificado do AQE
- Atualizações de segurança do sistema operacional.
- 22 de outubro de 2024
- [SPARK-48843] Evitar loop infinito com BindParameters
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulidade de structs aninhados
- [SPARK-49905] Use ShuffleOrigin dedicado para o operador stateful para evitar que o shuffle seja modificado do AQE
- [SPARK-46632][SQL] Corrija a eliminação de subexpressão quando expressões ternárias equivalentes têm filhos diferentes
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Classificar a classe Error para erro de função do usuário do coletor Foreach
- [FAÍSCA-49829] Revise a otimização na adição de entrada ao repositório de estado na junção stream-stream (correção de correção)
- Atualizações de segurança do sistema operacional.
- 10 de outubro de 2024
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Classificar classe de erro para erro de função de usuário FlatMapGroupsWithState
- [FAÍSCA-49743][SQL] OptimizeCsvJsonExpr não deve alterar os campos de esquema ao remover GetArrayStructFields
- [FAÍSCA-49688][CONECTAR] Corrigir uma corrida de dados entre o plano de interrupção e execução
- 25 de setembro de 2024
- [SPARK-48810] [CONNECT] A API Session stop() deve ser idempotente e não falhar se a sessão já tiver sido fechada pelo servidor
- [SPARK-48719][SQL] Corrija o bug de cálculo de 'RegrS...
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" em que t é uma tabela vazia expandindo RewriteDistinctAggregates
- [FAÍSCA-49628][SQL] ConstantFolding deve copiar a expressão com estado antes de avaliar
- [FAÍSCA-49492][CONECTAR] Tentativa de reanexação em ExecutionHolder inativo
- Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- [FAÍSCA-49336][CONECTAR] Limitar o nível de aninhamento ao truncar uma mensagem protobuf
- [FAÍSCA-43242][NÚCLEO] Correção do lançamento de 'Tipo inesperado de BlockId' no diagnóstico de corrupção aleatória
- [FAÍSCA-48463][ML] Faça Binarizer, Bucketizer, Vector Assembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor suportando colunas de entrada aninhadas
- [FAÍSCA-49526][CONECTAR] Suporte a caminhos no estilo Windows no ArtifactManager
- [FAÍSCA-49409][CONECTAR] Ajuste o valor padrão de CONNECT_SESSION_PLAN_CACHE_SIZE
- [FAÍSCA-49366][CONECTAR] Tratar o nó União como folha na resolução da coluna do dataframe
- 29 de agosto de 2024
- [SPARK-49146][SS] Mover erros de declaração relacionados à falta de marca d'água em consultas de streaming no modo de acréscimo para a estrutura de erros
- [SPARK-48862] [PYTHON][CONNECT] Evitar chamar
_proto_to_string
quando o nível INFO não estiver habilitado - [SPARK-49263][CONNECT] cliente Python do Spark Connect: lidar consistentemente com as opções de leitor do Dataframe booleano
- 14 de agosto de 2024
- [SPARK-48941][SPARK-48970] Correções do gravador / leitor de ML do backport
- [SPARK-48706][PYTHON] O UDF do Python em funções de ordem superior não deve gerar erro interno
- [SPARK-49056][SQL] ErrorClassesJsonReader não lida com nulo corretamente
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-49065][SQL] A troca de base em formatadores/analisadores legados deve ser compatível com os fusos horários padrão não JVM
- [SPARK-48934][SS] Tipos de data e hora do Python convertidos incorretamente para definir o tempo limite em applyInPandasWithState
- 1 de agosto de 2024
- Esta versão inclui uma correção de bug para as classes
ColumnVector
eColumnarArray
na interface Java do Spark. Antes dessa correção, umArrayIndexOutOfBoundsException
pode ser lançado ou um dado incorreto retornado quando uma instância de uma dessas classes continha valoresnull
. - Na computação sem servidor para notebooks e trabalhos, o modo SQL ANSI é habilitado por padrão. Consulte Parâmetros de configuração do Spark com suporte.
- Na computação configurada com o modo de acesso compartilhado, as leituras e gravações em lote do Kafka agora têm as mesmas limitações impostas que as documentadas para o Streaming Estruturado. Confira Limitações de streaming e requisitos para o modo de acesso compartilhado do Catálogo do Unity.
- A saída de uma instrução
SHOW CREATE TABLE
agora inclui todos os filtros de linha ou máscaras de coluna definidos em uma exibição materializada ou em uma tabela de streaming. Veja SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtrar dados confidenciais da tabela com filtros de linha e máscaras de coluna. - [SPARK-48896] [SPARK-48909] [SPARK-48883] Correções do gravador de ML do Spark de backport
- [SPARK-48889][SS] testStream para descarregar os repositórios de estado antes de terminar
- [SPARK-48705][PYTHON] Usar explicitamente worker_main quando iniciar com pyspark
- [SPARK-48047][SQL] Reduzir a pressão de memória de tags TreeNode vazias
- [SPARK-48544][SQL] Reduzir a pressão de memória dos BitSets TreeNode vazios
- [SPARK-46957][CORE] Os arquivos de ordem aleatória migrados descomissionados devem fazer a limpeza no executor
- [SPARK-48463] Tornar o StringIndexer compatível com as colunas de entrada aninhadas
- [SPARK-47202]][PYTHON] Corrigir datetimes de quebra de digitação com tzinfo
- [SPARK-47713][SQL] [CONNECT] Corrigir uma falha de auto-junção
- Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção de bug para as classes
- 11 de julho de 2024
- (Alteração de comportamento) Os DataFrames armazenados em cache em relação às fontes da tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()
para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - O Driver JDBC do Snowflake foi atualizado para a versão 3.16.1.
- Esta versão inclui uma correção para um problema que impediu a exibição correta da guia Ambiente de Interface do Usuário do Spark durante a execução nos Serviços de Contêiner do Databricks.
- Na computação sem servidor para notebooks e trabalhos, o modo SQL ANSI é habilitado por padrão. Consulte Parâmetros de configuração do Spark com suporte.
- Para ignorar partições inválidas ao ler dados, fontes de dados baseadas em arquivo, como Parquet, ORC, CSV ou JSON, podem definir a opção de fonte de dados ignoreInvalidPartitionPaths como true. Por exemplo: spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…). Também é possível usar a configuração do SQL spark.sql.files.ignoreInvalidPartitionPaths. No entanto, a opção de fonte de dados tem precedência sobre a configuração do SQL. Essa configuração é false por padrão.
- [SPARK-48648][PYTHON][CONNECT] Tornar SparkConnectClient.tags corretamente threadlocal
- [SPARK-48445][SQL] Não embutir UDFs com filhos caros
- [SPARK-48481][SQL][SS] Não aplicar OptimizeOneRowPlan em relação a um Dataset de streaming
- [SPARK-48383][SS] Gerar erro melhor para partições incompatíveis na opção startOffset no Kafka
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com agrupar por em colunas não equivalentes que eram incorretamente permitidas
- [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
- [SPARK-48273][SQL] Corrigir a regravação tardia de PlanWithUnresolvedIdentifier
- [SPARK-48252][SQL] Atualizar CommonExpressionRef quando necessário
- [SPARK-48475][PYTHON] Otimizar _get_jvm_function no PySpark.
- [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] O Spark OutputCommitCoordinator deve anular o estágio quando o arquivo confirmado não for consistente com o status da tarefa
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento) Os DataFrames armazenados em cache em relação às fontes da tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
- 17 de junho de 2024
applyInPandasWithState()
está disponível em clusters compartilhados.- Corrige um bug em que a otimização da janela de classificação usando o Photon TopK manipulava incorretamente partições com structs.
- [SPARK-48310][PYTHON][CONNECT] As propriedades armazenadas em cache devem retornar cópias
- [SPARK-48276][PYTHON][CONNECT] Adicionar o método
__repr__
ausente paraSQLExpression
- [SPARK-48294][SQL] Gerenciar as letras minúsculas em nestedTypeMissingElementTypeError
- Atualizações de segurança do sistema operacional.
- 21 de maio de 2024
- (Alteração de comportamento) agora há suporte para
dbutils.widgets.getAll()
para obter todos os valores de widget em um notebook. - Correção de um bug na função try_divide() em que entradas contendo decimais resultaram em exceções inesperadas.
- [SPARK-48056][CONNECT][PYTHON] Executar novamente o plano se um erro de SESSION_NOT_FOUND for gerado e nenhuma resposta parcial tiver sido recebida
- [SPARK-48146][SQL] Corrigir a função de agregação na declaração With expression child
- [SPARK-47986][CONNECT][PYTHON] Não é possível criar uma nova sessão quando a sessão padrão é fechada pelo servidor
- [SPARK-48180][SQL] Aprimorar o erro quando a chamada UDTF com o arg TABLE esquecer os parênteses em torno de várias exprs PARTITION/ORDER BY
- [SPARK-48016][SQL] Corrigir um bug na função try_divide quando tiver decimais
- [SPARK-48197][SQL] Evitar erro de asserção para a função lambda inválida
- [SPARK-47994][SQL] Corrigir um bug com o pushdown do filtro de coluna CASE WHEN no SQLServer
- [SPARK-48173][SQL] CheckAnalysis deve ver o plano de consulta inteiro
- [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do repositório de estado e o instantâneo
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento) agora há suporte para
- 09 de maio de 2024
- (Alteração de comportamento) os tipos UDF
applyInPandas
emapInPandas
agora têm suporte na computação do modo de acesso compartilhado executando o Databricks Runtime 14.3 e superior. - [SPARK-47739][SQL] Registrar tipo de avro lógico
- [SPARK-47941] [SS] [Connect] Propagar erros de inicialização de trabalho de ForeachBatch para usuários do PySpark
- [SPARK-48010][SQL] Evitar chamadas repetidas para conf.resolver em resolveExpression
- [SPARK-48044][PYTHON][CONNECT] Armazenar em cache
DataFrame.isStreaming
- [SPARK-47956][SQL] Verificação de sanidade para referência LCA não resolvida
- [SPARK-47543][CONNECT][PYTHON] Inferir dict como Mapype do Pandas DataFrame para permitir a criação de DataFrame
- [SPARK-47819][CONNECT][Cherry-pick-14.3] Usar o retorno de chamada assíncrono para limpeza de execução
- [SPARK-47764][CORE][SQL] Limpar dependências de embaralhamento com base em ShuffleCleanupMode
- [SPARK-48018][SS] Corrigir groupId nulo causando erro de param ausente ao lançar KafkaException.couldNotReadOffsetRange
- [SPARK-47839][SQL] Corrigir bug de agregação em RewriteWithExpression
- [SPARK-47371] [SQL] XML: Ignorar marcas de linha encontradas em CDATA
- [SPARK-47895][SQL] group by all deve ser idempotente
- [SPARK-47973][CORE] Registrar site de chamada no SparkContext.stop() e posterior no SparkContext.assertNotStopped()
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento) os tipos UDF
- 25 de abril de 2024
- [SPARK-47543][CONNECT] [PYTHON] Inferindo
dict
comoMapType
do DataFrame do Pandas para permitir a criação do DataFrame - [SPARK-47694][CONNECT] Tornar o tamanho máximo da mensagem configurável no lado do cliente
- [SPARK-47664][PYTHON] [CONNECT] [Cherry-pick-14.3] Validar o nome da coluna com o esquema armazenado em cache
- [SPARK-47862][PYTHON] [CONNECT] Corrigir a geração de arquivos proto
- Reverter “[SPARK-47543][CONNECT][PYTHON] Inferindo
dict
comoMapType
do DataFrame do Pandas para permitir a criação do DataFrame” - [SPARK-47704][SQL] A análise JSON falha com “java.lang.ClassCastException” quando spark.sql.json.enablePartialResults está habilitado
- [SPARK-47812][CONNECT] Suporte à serialização do SparkSession para a função de trabalho ForEachBatch
- [SPARK-47818][CONNECT] [Cherry-pick-14.3] Introduza o cache de planos no SparkConnectPlanner para melhorar o desempenho das solicitações de Análise
- [SPARK-47828][CONNECT] [PYTHON]
DataFrameWriterV2.overwrite
falha com plano inválido - Atualizações de segurança do sistema operacional.
- [SPARK-47543][CONNECT] [PYTHON] Inferindo
- 11 de abril de 2024
- (Alteração do comportamento) Para garantir um comportamento consistente entre os tipos de computação, os UDFs do PySpark em clusters compartilhados agora correspondem ao comportamento dos UDFs em clusters sem isolamento e atribuídos. Esta atualização inclui as seguintes alterações que podem interromper o código existente:
- Os UDFs com um tipo de retorno
string
não convertem mais implicitamente valores nãostring
em valoresstring
. Anteriormente, os UDFs com um tipo de retornostr
encapsulavam o valor de retorno com uma funçãostr()
, independentemente do tipo de dados real do valor retornado. - Os UDFs com tipos de retorno
timestamp
não aplicam mais implicitamente uma conversão paratimestamp
comtimezone
. - As configurações de cluster do Spark
spark.databricks.sql.externalUDF.*
não se aplicam mais aos UDFs do PySpark em clusters compartilhados. - A configuração
spark.databricks.safespark.externalUDF.plan.limit
do cluster do Spark não afeta mais os UDFs do PySpark, removendo a limitação da Visualização Pública de 5 UDFs por consulta para os UDFs do PySpark. - A configuração de cluster do Spark
spark.databricks.safespark.sandbox.size.default.mib
não se aplica mais aos UDFs do PySpark em clusters compartilhados. Em vez disso, é usada a memória disponível no sistema. Para limitar a memória dos UDFs do PySpark, usespark.databricks.pyspark.udf.isolation.memoryLimit
com um valor mínimo de100m
.
- Os UDFs com um tipo de retorno
- Agora há suporte para o tipo de dados
TimestampNTZ
como uma coluna de agrupamento com agrupamento líquido. Confira Usar clustering líquido para tabelas Delta. - [SPARK-47511][SQL] Canonizar expressões WITH reatribuindo IDs
- [SPARK-47509][SQL] Bloquear expressões de subconsulta em funções lambda e de ordem superior
- [SPARK-46990][SQL] Corrigir o carregamento de arquivos Avro vazios emitidos por hubs de eventos
- [SPARK-47638][PS][CONNECT] Ignorar a validação do nome da coluna no PS
- Atualizações de segurança do sistema operacional.
- (Alteração do comportamento) Para garantir um comportamento consistente entre os tipos de computação, os UDFs do PySpark em clusters compartilhados agora correspondem ao comportamento dos UDFs em clusters sem isolamento e atribuídos. Esta atualização inclui as seguintes alterações que podem interromper o código existente:
- 14 de março de 2024
- [SPARK-47135][SS] Implementar classes de erro para exceções de perda de dados do Kafka
- [SPARK-47176][SQL] Ter uma função auxiliar ResolveAllExpressionsUpWithPruning
- [SPARK-47145][SQL] Passar o identificador de tabela para o executável de verificação da fonte de dados de linha para a estratégia V2.
- [SPARK-47044][SQL] Adicionar uma consulta executada para fontes de dados externas JDBC para explicar a saída
- [SPARK-47167][SQL] Adicionar classe concreta para relação anônima JDBC
- [SPARK-47070] Corrigir agregação inválida após uma reescrita de subconsulta
- [SPARK-47121][CORE] Evitar RejectedExecutionExceptions durante o desligamento de StandaloneSchedulerBackend
- Reverter “[SPARK-46861][CORE] Evitar Deadlock no DAGScheduler”
- [SPARK-47125][SQL] Retornar nulo se Univocity nunca dispara a análise
- [SPARK-46999][SQL] ExpressionWithUnresolvedIdentifier deve incluir outras expressões na árvore de expressão
- [SPARK-47129][CONNECT][SQL] Fazer o cache
ResolveRelations
conectar ao plano corretamente - [SPARK-47241][SQL] Corrigir problemas de ordem de regras para o ExtractGenerator
- [SPARK-47035][SS][CONNECT] Protocolo para ouvinte do lado do cliente
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Correção de um problema em que o uso de uma coleção local como origem em um comando MERGE poderia resultar na métrica de operação numSourceRows informando o dobro do número correto de linhas.
- A criação de um esquema com um local definido agora exige que o usuário tenha privilégios SELECT e MODIFY em ANY FILE.
- [SPARK-47071][SQL] With expression embutida se contiver expressão especial
- [SPARK-47059][SQL] Anexar contexto de erro para o comando ALTER COLUMN v1
- [SPARK-46993][SQL] Corrigir dobragem constante para variáveis de sessão
- Atualizações de segurança do sistema operacional.
- 3 de janeiro de 2024
- [SPARK-46933] Adicionar a métrica de tempo de execução da consulta aos conectores que usam JDBCRDD.
- [SPARK-46763] Corrigir a falha de declaração em ReplaceDeduplicateWithAggregate para atributos duplicados.
- [SPARK-46954] XML: Encapsular InputStreamReader com BufferedReader.
- [SPARK-46655] Ignorar a captura de contexto da consulta em métodos
DataFrame
. - [SPARK-44815] Armazenar df.schema em cache para evitar RPC extra.
- [SPARK-46952] XML: Limitar o tamanho do registro corrompido.
- [SPARK-46794] Remover subconsultas de restrições LogicalRDD.
- [SPARK-46736] Manter o campo de mensagem vazio no conector protobuf.
- [SPARK-45182] Ignorar a conclusão da tarefa do estágio antigo depois de tentar novamente o estágio indeterminado pai, conforme determinado pela soma de verificação.
- [SPARK-46414] Usar prependBaseUri para renderizar importações JavaScript.
- [SPARK-46383] Reduzir o uso de heap do driver reduzindo o tempo de vida de
TaskInfo.accumulables()
. - [SPARK-46861] Evitar deadlock no DAGScheduler.
- [SPARK-46954] XML: Otimizar a pesquisa de índice de esquema.
- [SPARK-46676] dropDuplicatesWithinWatermark não deve falhar na canonicalização do plano.
- [SPARK-46644] Alterar adicionar e mesclar no SQLMetric para usar isZero.
- [SPARK-46731] Gerenciar a instância do provedor do repositório de estado por fonte de dados de estado – leitor.
- [SPARK-46677] Correção da resolução
dataframe["*"]
. - [SPARK-46610] Criar tabela deve gerar exceção se nenhum valor para uma chave for especificado nas opções.
- [SPARK-46941] Não é possível inserir o nó de limite do grupo de janelas para a computação top-k se contiver SizeBasedWindowFunction.
- [SPARK-45433] Corrige a inferência de esquema CSV/JSON quando os carimbos de data/hora não correspondem ao timestampFormat especificado.
- [SPARK-46930] Adicionar suporte para um prefixo personalizado para campos de tipo de união no Avro.
- [SPARK-46227] Backport para 14.3.
- [SPARK-46822] Respeitar spark.sql.legacy.charVarcharAsString ao converter o tipo jdbc para o tipo de catalisador no jdbc.
- Atualizações de segurança do sistema operacional.
Databricks Runtime 14.1
Consulte o Databricks Runtime 14.1.
- 5 de novembro de 2024
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [SPARK-49905] Use ShuffleOrigin dedicado para o operador stateful para evitar que o shuffle seja modificado do AQE
- 22 de outubro de 2024
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [SPARK-49905] Use ShuffleOrigin dedicado para o operador stateful para evitar que o shuffle seja modificado do AQE
- 10 de outubro de 2024
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Classificar classe de erro para erro de função de usuário FlatMapGroupsWithState
- [FAÍSCA-49743][SQL] OptimizeCsvJsonExpr não deve alterar os campos de esquema ao remover GetArrayStructFields
- Atualizações de segurança do sistema operacional.
- 25 de setembro de 2024
- [FAÍSCA-49628][SQL] ConstantFolding deve copiar a expressão com estado antes de avaliar
- [FAÍSCA-43242][NÚCLEO] Correção do lançamento de 'Tipo inesperado de BlockId' no diagnóstico de corrupção aleatória
- [SPARK-48719][SQL] Corrija o bug de cálculo de 'RegrS...
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" em que t é uma tabela vazia expandindo RewriteDistinctAggregates
- [FAÍSCA-46601] [NÚCLEO] Corrigir erro de log em handleStatusMessage
- Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- [FAÍSCA-49526][CONECTAR] Suporte a caminhos no estilo Windows no ArtifactManager
- Atualizações de segurança do sistema operacional.
- 29 de agosto de 2024
- [SPARK-49263][CONNECT] cliente Python do Spark Connect: lidar consistentemente com as opções de leitor do Dataframe booleano
- [SPARK-49056][SQL] ErrorClassesJsonReader não lida com nulo corretamente
- 14 de agosto de 2024
- [SPARK-48706][PYTHON] O UDF do Python em funções de ordem superior não deve gerar erro interno
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-49065][SQL] A troca de base em formatadores/analisadores legados deve ser compatível com os fusos horários padrão não JVM
- [SPARK-48050][SS] Registrar em log o plano lógico no início da consulta
- 1 de agosto de 2024
- Esta versão inclui uma correção de bug para as classes
ColumnVector
eColumnarArray
na interface Java do Spark. Antes dessa correção, umArrayIndexOutOfBoundsException
pode ser lançado ou um dado incorreto retornado quando uma instância de uma dessas classes continha valoresnull
. - A saída de uma instrução
SHOW CREATE TABLE
agora inclui todos os filtros de linha ou máscaras de coluna definidos em uma exibição materializada ou em uma tabela de streaming. Veja SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtrar dados confidenciais da tabela com filtros de linha e máscaras de coluna. - [SPARK-48705][PYTHON] Usar explicitamente worker_main quando iniciar com pyspark
- [SPARK-47202]][PYTHON] Corrigir datetimes de quebra de digitação com tzinfo
- Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção de bug para as classes
- 11 de julho de 2024
- (Alteração de comportamento) Os DataFrames armazenados em cache em relação às fontes da tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()
para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - Esta versão inclui uma correção para um problema que impediu a exibição correta da guia Ambiente de Interface do Usuário do Spark durante a execução nos Serviços de Contêiner do Databricks.
- [SPARK-48475][PYTHON] Otimizar _get_jvm_function no PySpark.
- [SPARK-48445][SQL] Não embutir UDFs com filhos caros
- [SPARK-48481][SQL][SS] Não aplicar OptimizeOneRowPlan em relação a um Dataset de streaming
- [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] O Spark OutputCommitCoordinator deve anular o estágio quando o arquivo confirmado não for consistente com o status da tarefa
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com agrupar por em colunas não equivalentes que eram incorretamente permitidas
- [SPARK-48273][SQL] Corrigir a regravação tardia de PlanWithUnresolvedIdentifier
- [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
- [SPARK-48383][SS] Gerar erro melhor para partições incompatíveis na opção startOffset no Kafka
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento) Os DataFrames armazenados em cache em relação às fontes da tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
- 17 de junho de 2024
- Corrige um bug em que a otimização da janela de classificação usando o Photon TopK manipulava incorretamente partições com structs.
- [SPARK-48276][PYTHON][CONNECT] Adicionar o método
__repr__
ausente paraSQLExpression
- [SPARK-48277] Aprimorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
- Atualizações de segurança do sistema operacional.
- 21 de maio de 2024
- (Alteração de comportamento) agora há suporte para
dbutils.widgets.getAll()
para obter todos os valores de widget em um notebook. - [SPARK-47994][SQL] Corrigir um bug com o pushdown do filtro de coluna CASE WHEN no SQLServer
- [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do repositório de estado e o instantâneo
- [SPARK-48173][SQL] CheckAnalysis deve ver o plano de consulta inteiro
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento) agora há suporte para
- 09 de maio de 2024
- [SPARK-47371] [SQL] XML: Ignorar marcas de linha encontradas em CDATA
- [SPARK-47895][SQL] group by all deve ser idempotente
- [SPARK-47956][SQL] Verificação de sanidade para referência LCA não resolvida
- [SPARK-48044][PYTHON][CONNECT] Armazenar em cache
DataFrame.isStreaming
- [SPARK-47973][CORE] Registrar site de chamada no SparkContext.stop() e posterior no SparkContext.assertNotStopped()
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2024
- [SPARK-47704][SQL] A análise JSON falha com “java.lang.ClassCastException” quando spark.sql.json.enablePartialResults está habilitado
- [SPARK-47828][CONNECT] [PYTHON]
DataFrameWriterV2.overwrite
falha com plano inválido - Atualizações de segurança do sistema operacional.
- 11 de abril de 2024
- [SPARK-47638][PS][CONNECT] Ignorar a validação do nome da coluna no PS
- [SPARK-38708][SQL] Atualizar o cliente Metastore do Hive para a versão 3.1.3 do Hive 3.1
- [SPARK-47309][SQL][XML] Adicionar testes unitários de inferência de esquema
- [SPARK-47509][SQL] Bloquear expressões de subconsulta em funções lambda e de ordem superior
- [SPARK-46990][SQL] Corrigir o carregamento de arquivos Avro vazios emitidos por hubs de eventos
- Atualizações de segurança do sistema operacional.
- 1º de abril de 2024
- [SPARK-47305][SQL] Corrigir o PruneFilters para marcar corretamente o sinalizador isStreaming do LocalRelation quando o plano tiver lote e streaming
- [SPARK-47218][SQL] XML: Ignorar marcas de linha comentadas no tokenizador XML
- [SPARK-47300][SQL]
quoteIfNeeded
deve citar o identificador que começa com dígitos - [SPARK-47368][SQL] Remover a verificação da configuração inferTimestampNTZ no ParquetRowConverter
- [SPARK-47070] Corrigir agregação inválida após uma reescrita de subconsulta
- [SPARK-47322][PYTHON][CONNECT] Tornar o tratamento de duplicação de nomes de colunas
withColumnsRenamed
consistente comwithColumnRenamed
- [SPARK-47300] Corrigir DecomposerSuite
- [SPARK-47218] [SQL] XML: Alterado o SchemaOfXml para falhar no modo DROPMALFORMED
- [SPARK-47385] Corrigir codificadores de tuplas com entradas de Opção.
- Atualizações de segurança do sistema operacional.
- 14 de março de 2024
- [SPARK-47176][SQL] Ter uma função auxiliar ResolveAllExpressionsUpWithPruning
- [SPARK-47145][SQL] Passar o identificador de tabela para o executável de verificação da fonte de dados de linha para a estratégia V2.
- [SPARK-47167][SQL] Adicionar classe concreta para relação anônima JDBC
- [SPARK-47129][CONNECT][SQL] Fazer o cache
ResolveRelations
conectar ao plano corretamente - Reverter “[SPARK-46861][CORE] Evitar Deadlock no DAGScheduler”
- [SPARK-47044][SQL] Adicionar uma consulta executada para fontes de dados externas JDBC para explicar a saída
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Correção de um problema em que o uso de uma coleção local como origem em um comando MERGE poderia resultar na métrica de operação numSourceRows informando o dobro do número correto de linhas.
- A criação de um esquema com um local definido agora exige que o usuário tenha privilégios SELECT e MODIFY em ANY FILE.
- Agora, é possível ingerir arquivos XML usando Autoloader, read_files, COPY INTO, DLT e DBSQL. O suporte a arquivos XML pode inferir e evoluir automaticamente o esquema, resgatar dados com incompatibilidades de tipo, validar XML usando XSD e dar suporte a expressões SQL, como from_xml, schema_of_xml e to_xml. Consulte Suporte a arquivos XML para obter mais detalhes. Se você já estava usando o pacote externo spark-xml, consulte aqui para obter diretrizes de migração.
- [SPARK-46248][SQL] XML: Suporte para opções ignoreCorruptFiles e ignoreMissingFiles
- [SPARK-47059][SQL] Anexar contexto de erro para o comando ALTER COLUMN v1
- [SPARK-46954][SQL] XML: Encapsular InputStreamReader com BufferedReader
- [SPARK-46954][SQL] XML: Otimizar a pesquisa de índice de esquema
- [SPARK-46630][SQL] XML: Validar o nome do elemento XML na gravação
- Atualizações de segurança do sistema operacional.
- 08 de fevereiro de 2024
- Não há suporte para consultas de feed de dados alterados (CDF) em exibições materializadas do Catálogo do Unity e a tentativa de executar uma consulta CDF com uma exibição materializada do Catálogo do Unity retorna um erro. As tabelas de streaming do Catálogo do Unity dão suporte para consultas CDF em tabelas não
APPLY CHANGES
no Databricks Runtime 14.1 e posterior. Não há suporte para consultas CDF com tabelas de streaming do Catálogo do Unity no Databricks Runtime 14.0 e versões anteriores. - [SPARK-46952] XML: Limitar o tamanho do registro corrompido.
- [SPARK-45182] Ignorar a conclusão da tarefa do estágio antigo depois de tentar novamente o estágio indeterminado pai, conforme determinado pela soma de verificação.
- [SPARK-46794] Remover subconsultas de restrições LogicalRDD.
- [SPARK-46933] Adicionar a métrica de tempo de execução da consulta aos conectores que usam JDBCRDD.
- [SPARK-46861] Evitar deadlock no DAGScheduler.
- [SPARK-45582] Verificar se a instância do repositório não é usada após chamar a confirmação dentro da agregação de streaming do modo de saída.
- [SPARK-46930] Adicionar suporte para um prefixo personalizado para campos de tipo de união no Avro.
- [SPARK-46941] Não é possível inserir o nó de limite do grupo de janelas para a computação top-k se contiver SizeBasedWindowFunction.
- [SPARK-46396] A inferência do carimbo de data/hora não deve gerar exceção.
- [SPARK-46822] Respeitar spark.sql.legacy.charVarcharAsString ao converter o tipo jdbc para o tipo de catalisador no jdbc.
- [SPARK-45957] Evitar gerar um plano de execução para comandos não executáveis.
- Atualizações de segurança do sistema operacional.
- Não há suporte para consultas de feed de dados alterados (CDF) em exibições materializadas do Catálogo do Unity e a tentativa de executar uma consulta CDF com uma exibição materializada do Catálogo do Unity retorna um erro. As tabelas de streaming do Catálogo do Unity dão suporte para consultas CDF em tabelas não
- 31 de janeiro de 2024
- [SPARK-46684] Corrigir CoGroup.applyInPandas/Arrow para passar argumentos corretamente.
- [SPARK-46763] Corrigir a falha de declaração em ReplaceDeduplicateWithAggregate para atributos duplicados.
- [SPARK-45498] Acompanhamento: Ignorar a conclusão da tarefa de tentativas do estágio antigo.
- [SPARK-46382] XML: Atualizar documento para
ignoreSurroundingSpaces
. - [SPARK-46383] Reduzir o uso de heap do driver reduzindo o tempo de vida de
TaskInfo.accumulables()
. - [SPARK-46382] XML: ignoreSurroundingSpaces padrão como true.
- [SPARK-46677] Correção da resolução
dataframe["*"]
. - [SPARK-46676] dropDuplicatesWithinWatermark não deve falhar na canonicalização do plano.
- [SPARK-46633] Corrigir o leitor do Avro para manipular blocos de comprimento zero.
- [SPARK-45912] Aprimoramento da API XSDToSchema: Alterar para a API HDFS para acessibilidade de armazenamento em nuvem.
- [SPARK-46599] XML: Usar TypeCoercion.findTightestCommonType para verificar a compatibilidade.
- [SPARK-46382] XML: Capturar valores intercalados entre elementos.
- [SPARK-46769] Refinar a inferência de esquema relacionada ao carimbo de data/hora.
- [SPARK-46610] Criar tabela deve gerar exceção se nenhum valor para uma chave for especificado nas opções.
- [SPARK-45964] Remover o acessador sql privado no pacote XML e JSON no pacote do catalisador.
- Reverter [SPARK-46769] Refinar inferência de esquema relacionada ao carimbo de data/hora.
- [SPARK-45962] Remover
treatEmptyValuesAsNulls
e usar a opçãonullValue
em XML. - [SPARK-46541] Corrigir a referência de coluna ambígua na autojunção.
- Atualizações de segurança do sistema operacional.
- 17 de janeiro de 2024
- O nó
shuffle
do plano explicativo retornado por uma consulta do Photon é atualizado para adicionar o sinalizadorcausedBroadcastJoinBuildOOM=true
quando ocorre um erro de falta de memória durante a operação de shuffle que faz parte de uma junção de transmissão. - Para evitar maior latência ao se comunicar pelo TLSv1.3, essa versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
- [SPARK-46538] Corrige o problema de referência de coluna ambígua em
ALSModel.transform
. - [SPARK-46417] Não gera falha ao chamar hive.getTable quando throwException for false.
- [SPARK-46484] Faz com que as funções auxiliares
resolveOperators
mantenham a ID do plano. - [SPARK-46153] XML: Adiciona suporte ao TimestampNTZType.
- [SPARK-46152] XML: Adiciona suporte a DecimalType na inferência de esquema XML.
- [SPARK-46145] O spark.catalog.listTables não gera exceção quando a tabela ou exibição não é encontrada.
- [SPARK-46478] Reverte SPARK-43049 para usar oracle varchar(255) para cadeia de caracteres.
- [SPARK-46394] Corrige problemas do spark.catalog.listDatabases() em esquemas com caracteres especiais quando
spark.sql.legacy.keepCommandOutputSchema
está definido como “true”. - [SPARK-46337] Faz
CTESubstitution
reter oPLAN_ID_TAG
. - [SPARK-46466] O leitor vetorizado de Parquet nunca deve trocar base para o carimbo de data/hora ntz.
- [SPARK-46587] XML: Corrige a conversão de inteiros grandes XSD.
- [SPARK-45814] Faz com que ArrowConverters.createEmptyArrowBatch chame close() para evitar perda de memória.
- [SPARK-46132] Suporte a senha de chave para chaves JKS para SSL de RPC.
- [SPARK-46602] Propaga
allowExisting
na criação da exibição quando a exibição/tabela não existir. - [SPARK-46173] Ignora a chamada trimAll durante a análise de data.
- [SPARK-46355] XML: Fecha InputStreamReader na conclusão da leitura.
- [SPARK-46600] Move o código compartilhado entre SqlConf e SqlApiConf para SqlApiConfHelper.
- [SPARK-46261]
DataFrame.withColumnsRenamed
deve manter a ordenação de dicionário/mapa. - [SPARK-46056] Correção do NPE de leitura vetorizada do Parquet com valor padrão byteArrayDecimalType.
- [SPARK-46260]
DataFrame.withColumnsRenamed
deve respeitar a ordem do dicionário. - [SPARK-46250] Estabiliza test_parity_listener.
- [SPARK-46370] Corrige o bug ao consultar uma tabela depois de alterar os padrões de coluna.
- [SPARK-46609] Evita a explosão exponencial em PartitioningPreservingUnaryExecNode.
- [SPARK-46058] Adiciona um sinalizador separado para privateKeyPassword.
- O nó
- 14 de dezembro de 2023
- Correção de um problema em que os sublinhados escapados nas operações getColumns provenientes de clientes JDBC ou ODBC eram tratados incorretamente e interpretados como curingas.
- [SPARK-45509] Corrigido comportamento de referência da coluna df para o Spark Connect.
- [SPARK-45844] Implementar a não diferenciação de maiúsculas de minúsculas para XML.
- [SPARK-46141] Altera o padrão de spark.sql.legacy.ctePrecedencePolicy para CORRECTED.
- [SPARK-46028] Faz com que
Column.__getitem__
aceite a coluna de entrada. - [SPARK-46255] Suporte para conversão de tipo complexo –> para cadeia de caracteres.
- [SPARK-45655] Permite expressões não determinísticas dentro de AggregateFunctions em CollectMetrics.
- [SPARK-45433] Corrige a inferência de esquema CSV/JSON quando os carimbos de data/hora não correspondem ao timestampFormat especificado.
- [SPARK-45316] Adicionar novos parâmetros
ignoreCorruptFiles
/ignoreMissingFiles
paraHadoopRDD
eNewHadoopRDD
. - [SPARK-45852] Lida normalmente com o erro de recursão durante o registro em log.
- [SPARK-45920] “group by ordinal” deve ser idempotente.
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Instalou um novo pacote
pyarrow-hotfix
para corrigir uma vulnerabilidade do PyArrow RCE. - Corrigido um problema em que os sublinhados com escape em operações de
getColumns
provenientes de clientes JDBC ou ODBC eram interpretados incorretamente como curingas. - Ao ingerir dados CSV usando o Carregador Automático ou tabelas de streaming, os arquivos CSV grandes agora podem ser divididos e podem ser processados em paralelo durante a inferência de esquema e o processamento de dados.
- [SPARK-45892] Validação do plano do otimizador de refatoração para desconectar
validateSchemaOutput
evalidateExprIdUniqueness
. - [SPARK-45620] As APIs relacionadas ao UDF do Python agora usam camelCase.
- [SPARK-44790] Associações e implementação de
to_xml
adicionadas para Python, Spark Connect e SQL. - [SPARK-45770] Resolução de coluna corrigida com
DataFrameDropColumns
paraDataframe.drop
. - [SPARK-45859] Tornou objetos UDF em
ml.functions
lentos. - [SPARK-45730] Restrições de tempo aprimoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-44784] Tornou o teste do SBT hermético.
- Atualizações de segurança do sistema operacional.
- Instalou um novo pacote
- 10 de novembro de 2023
- [SPARK-45545]
SparkTransportConf
herdaSSLOptions
na criação. - [SPARK-45250] Suporte adicionado para perfil de recurso de tarefa em nível de estágio para clusters de fios quando a alocação dinâmica está desabilitada.
- [SPARK-44753] Adicionado leitor e gravador XML DataFrame para PySpark SQL.
- [SPARK-45396] Adicionada uma entrada de documento para o módulo
PySpark.ml.connect
. - [SPARK-45584] Falha de execução corrigida de subconsulta com
TakeOrderedAndProjectExec
. - [SPARK-45541] SSLFactory adicionado.
- [SPARK-45577]
UserDefinedPythonTableFunctionAnalyzeRunner
corrigido para passar valores dobrados de argumentos nomeados. - [SPARK-45562] Tornou 'rowTag' uma opção necessária.
- [SPARK-45427] Configurações adicionadas de RPC SSL para
SSLOptions
eSparkTransportConf
. - [SPARK-43380] Corrigida a lentidão na leitura do Avro.
- [SPARK-45430]
FramelessOffsetWindowFunction
não falha mais quandoIGNORE NULLS
eoffset > rowCount
. - [SPARK-45429] Classes auxiliares adicionadas para comunicação SSL RPC.
- [SPARK-45386] Corrigido um problema em que
StorageLevel.NONE
retornava incorretamente 0. - [SPARK-44219] Adicionadas verificações de validação por regra para regravações de otimização.
- [SPARK-45543] Corrigido um problema em que
InferWindowGroupLimit
causava um problema se as outras funções de janela não tivessem a mesma moldura de janela que as funções de classificação. - Atualizações de segurança do sistema operacional.
- [SPARK-45545]
- 27 de setembro de 2023
- [SPARK-44823]
black
atualizado para 23.9.1 e verificação incorreta corrigida. - [SPARK-45339] O PySpark agora registra erros de tentativas.
- Reverter [SPARK-42946] Redigir dados confidenciais aninhados em substituições variáveis.
- [SPARK-44551] Comentários editados para sincronizar com o OSS.
- [SPARK-45360] Construtor de sessão do Spark dá suporte à inicialização a partir de
SPARK_REMOTE
. - [SPARK-45279]
plan_id
anexado a todos os planos lógicos. - [SPARK-45425]
TINYINT
mapeado paraShortType
deMsSqlServerDialect
. - [SPARK-45419] Entrada de mapa de versão de arquivo removida de versões maiores para evitar a reutilização de IDs de arquivo sst
rocksdb
. - [SPARK-45488] Adicionado suporte para valor no elemento
rowTag
. - [SPARK-42205] Registro em log removido de
Accumulables
em eventos de inícioTask/Stage
nos logs de eventosJsonProtocol
. - [SPARK-45426] Suporte adicionado para
ReloadingX509TrustManager
. - [SPARK-45256]
DurationWriter
falha ao gravar mais valores do que a capacidade inicial. - [SPARK-43380] Correção de problemas de conversão do tipo de dados
Avro
sem causar regressão de desempenho. - [SPARK-45182] Suporte adicionado para reverter o estágio do mapa aleatório para que todas as tarefas do estágio possam ser repetidas quando a saída do estágio for indeterminada.
- [SPARK-45399] Opções de XML adicionadas usando
newOption
. - Atualizações de segurança do sistema operacional.
- [SPARK-44823]
Databricks Runtime 13.3 LTS
Confira Databricks Runtime 13.3 LTS.
- 5 de novembro de 2024
- [SPARK-48843] Evitar loop infinito com BindParameters
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Classificar a classe Error para erro de função do usuário do coletor Foreach
- [SPARK-49905] Use ShuffleOrigin dedicado para o operador stateful para evitar que o shuffle seja modificado do AQE
- Atualizações de segurança do sistema operacional.
- 22 de outubro de 2024
- [SPARK-48843] Evitar loop infinito com BindParameters
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Classificar a classe Error para erro de função do usuário do coletor Foreach
- [SPARK-49905] Use ShuffleOrigin dedicado para o operador stateful para evitar que o shuffle seja modificado do AQE
- Atualizações de segurança do sistema operacional.
- 10 de outubro de 2024
- [FAÍSCA-49743][SQL] OptimizeCsvJsonExpr não deve alterar os campos de esquema ao remover GetArrayStructFields
- 25 de setembro de 2024
- [FAÍSCA-46601] [NÚCLEO] Corrigir erro de log em handleStatusMessage
- [SPARK-48719][SQL] Corrija o bug de cálculo de RegrSlope e RegrIntercept quando o primeiro parâmetro é nulo
- [FAÍSCA-43242][NÚCLEO] Correção do lançamento de 'Tipo inesperado de BlockId' no diagnóstico de corrupção aleatória
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" em que t é uma tabela vazia expandindo RewriteDistinctAggregates
- Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- [FAÍSCA-49526][CONECTAR] Suporte a caminhos no estilo Windows no ArtifactManager
- [FAÍSCA-48463][ML] Faça Binarizer, Bucketizer, Vector Assembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor suportando colunas de entrada aninhadas
- Atualizações de segurança do sistema operacional.
- 29 de agosto de 2024
- 14 de agosto de 2024
- [SPARK-49056][SQL] ErrorClassesJsonReader não lida com nulo corretamente
- [SPARK-49065][SQL] A troca de base em formatadores/analisadores legados deve ser compatível com os fusos horários padrão não JVM
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- 1 de agosto de 2024
- Esta versão inclui uma correção de bug para as classes
ColumnVector
eColumnarArray
na interface Java do Spark. Antes dessa correção, umArrayIndexOutOfBoundsException
pode ser lançado ou um dado incorreto retornado quando uma instância de uma dessas classes continha valoresnull
. - [SPARK-47202]][PYTHON] Corrigir datetimes de quebra de digitação com tzinfo
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correções do gravador de ML do Spark de backport
- [SPARK-48463] Tornar o StringIndexer compatível com as colunas de entrada aninhadas
- Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção de bug para as classes
- 11 de julho de 2024
- (Alteração de comportamento) Os DataFrames armazenados em cache em relação às fontes da tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()
para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - Esta versão inclui uma correção para um problema que impediu a exibição correta da guia Ambiente de Interface do Usuário do Spark durante a execução nos Serviços de Contêiner do Databricks.
- [SPARK-48383][SS] Gerar erro melhor para partições incompatíveis na opção startOffset no Kafka
- [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] O Spark OutputCommitCoordinator deve anular o estágio quando o arquivo confirmado não for consistente com o status da tarefa
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com agrupar por em colunas não equivalentes que eram incorretamente permitidas
- [SPARK-48481][SQL][SS] Não aplicar OptimizeOneRowPlan em relação a um Dataset de streaming
- [SPARK-48475][PYTHON] Otimizar _get_jvm_function no PySpark.
- [SPARK-48273][SQL] Corrigir a regravação tardia de PlanWithUnresolvedIdentifier
- [SPARK-48445][SQL] Não embutir UDFs com filhos caros
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento) Os DataFrames armazenados em cache em relação às fontes da tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
- 17 de junho de 2024
- [SPARK-48277] Aprimorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
- Atualizações de segurança do sistema operacional.
- 21 de maio de 2024
- (Alteração de comportamento) agora há suporte para
dbutils.widgets.getAll()
para obter todos os valores de widget em um notebook. - [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do repositório de estado e o instantâneo
- [SPARK-47994][SQL] Corrigir um bug com o pushdown do filtro de coluna CASE WHEN no SQLServer
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento) agora há suporte para
- 09 de maio de 2024
- [SPARK-47956][SQL] Verificação de sanidade para referência LCA não resolvida
- [SPARK-46822][SQL] Respeitar spark.sql.legacy.charVarcharAsString ao converter o tipo jdbc no tipo de catalisador no jdbc
- [SPARK-47895][SQL] group by all deve ser idempotente
- [SPARK-48018][SS] Corrigir groupId nulo causando erro de param ausente ao lançar KafkaException.couldNotReadOffsetRange
- [SPARK-47973][CORE] Registrar site de chamada no SparkContext.stop() e posterior no SparkContext.assertNotStopped()
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2024
- [SPARK-44653][SQL] Uniões não triviais de DataFrame não devem interromper o cache
- Diversas correções de bugs.
- 11 de abril de 2024
- [SPARK-47509][SQL] Bloquear expressões de subconsulta em funções lambda e de ordem superior
- Atualizações de segurança do sistema operacional.
- 1º de abril de 2024
- [SPARK-47385] Corrigir codificadores de tuplas com entradas de Opção.
- [SPARK-38708][SQL] Atualizar o cliente Metastore do Hive para a versão 3.1.3 do Hive 3.1
- [SPARK-47200][SS] Classe de erro para o erro de função de usuário do coletor de lote Foreach
- [SPARK-47368][SQL] Remover a verificação da configuração inferTimestampNTZ no ParquetRowConverter
- [SPARK-44252][SS] Definir uma nova classe de erro e aplicar para o caso em que o estado de carregamento do DFS falha
- [SPARK-47135][SS] Implementar classes de erro para exceções de perda de dados do Kafka
- [SPARK-47300][SQL]
quoteIfNeeded
deve citar o identificador que começa com dígitos - [SPARK-47305][SQL] Corrigir o PruneFilters para marcar corretamente o sinalizador isStreaming do LocalRelation quando o plano tiver lote e streaming
- [SPARK-47070] Corrigir agregação inválida após uma reescrita de subconsulta
- Atualizações de segurança do sistema operacional.
- 14 de março de 2024
- [SPARK-47145][SQL] Passar o identificador de tabela para o executável de verificação da fonte de dados de linha para a estratégia V2.
- [SPARK-47167][SQL] Adicionar classe concreta para relação anônima JDBC
- [SPARK-47176][SQL] Ter uma função auxiliar ResolveAllExpressionsUpWithPruning
- [SPARK-47044][SQL] Adicionar uma consulta executada para fontes de dados externas JDBC para explicar a saída
- [SPARK-47125][SQL] Retornar nulo se Univocity nunca dispara a análise
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Correção de um problema em que o uso de uma coleção local como origem em um comando MERGE poderia resultar na métrica de operação numSourceRows informando o dobro do número correto de linhas.
- A criação de um esquema com um local definido agora exige que o usuário tenha privilégios SELECT e MODIFY em ANY FILE.
- Atualizações de segurança do sistema operacional.
- 08 de fevereiro de 2024
- Não há suporte para consultas de feed de dados alterados (CDF) em exibições materializadas do Catálogo do Unity e a tentativa de executar uma consulta CDF com uma exibição materializada do Catálogo do Unity retorna um erro. As tabelas de streaming do Catálogo do Unity dão suporte para consultas CDF em tabelas não
APPLY CHANGES
no Databricks Runtime 14.1 e posterior. Não há suporte para consultas CDF com tabelas de streaming do Catálogo do Unity no Databricks Runtime 14.0 e versões anteriores. - [SPARK-46794] Remover subconsultas de restrições LogicalRDD.
- [SPARK-46933] Adicionar a métrica de tempo de execução da consulta aos conectores que usam JDBCRDD.
- [SPARK-45582] Verificar se a instância do repositório não é usada após chamar a confirmação dentro da agregação de streaming do modo de saída.
- [SPARK-46396] A inferência do carimbo de data/hora não deve gerar exceção.
- [SPARK-46861] Evitar deadlock no DAGScheduler.
- [SPARK-46941] Não é possível inserir o nó de limite do grupo de janelas para a computação top-k se contiver SizeBasedWindowFunction.
- Atualizações de segurança do sistema operacional.
- Não há suporte para consultas de feed de dados alterados (CDF) em exibições materializadas do Catálogo do Unity e a tentativa de executar uma consulta CDF com uma exibição materializada do Catálogo do Unity retorna um erro. As tabelas de streaming do Catálogo do Unity dão suporte para consultas CDF em tabelas não
- 31 de janeiro de 2024
- [SPARK-46610] Criar tabela deve gerar exceção se nenhum valor para uma chave for especificado nas opções.
- [SPARK-46383] Reduzir o uso de heap do driver reduzindo o tempo de vida de TaskInfo.accumulables().
- [SPARK-46600] Move o código compartilhado entre SqlConf e SqlApiConf para SqlApiConfHelper.
- [SPARK-46676] dropDuplicatesWithinWatermark não deve falhar na canonicalização do plano.
- [SPARK-46763] Corrigir a falha de declaração em ReplaceDeduplicateWithAggregate para atributos duplicados.
- Atualizações de segurança do sistema operacional.
- 17 de janeiro de 2024
- O nó
shuffle
do plano explicativo retornado por uma consulta do Photon é atualizado para adicionar o sinalizadorcausedBroadcastJoinBuildOOM=true
quando ocorre um erro de falta de memória durante a operação de shuffle que faz parte de uma junção de transmissão. - Para evitar maior latência ao se comunicar pelo TLSv1.3, essa versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
- [SPARK-46058] Adiciona um sinalizador separado para privateKeyPassword.
- [SPARK-46173] Ignora a chamada trimAll durante a análise de data.
- [SPARK-46370] Corrige o bug ao consultar uma tabela depois de alterar os padrões de coluna.
- [SPARK-46370] Corrige o bug ao consultar uma tabela depois de alterar os padrões de coluna.
- [SPARK-46370] Corrige o bug ao consultar uma tabela depois de alterar os padrões de coluna.
- [SPARK-46609] Evita a explosão exponencial em PartitioningPreservingUnaryExecNode.
- [SPARK-46132] Suporte a senha de chave para chaves JKS para SSL de RPC.
- [SPARK-46602] Propaga
allowExisting
na criação da exibição quando a exibição/tabela não existir. - [SPARK-46249] Exige bloqueio de instância para adquirir métricas do RocksDB, a fim de evitar conflitos com operações em segundo plano.
- [SPARK-46417] Não gera falha ao chamar hive.getTable quando throwException for false.
- [SPARK-46538] Corrige o problema de referência de coluna ambígua em
ALSModel.transform
. - [SPARK-46478] Reverte SPARK-43049 para usar oracle varchar(255) para cadeia de caracteres.
- [SPARK-46250] Estabiliza test_parity_listener.
- [SPARK-46394] Corrige problemas do spark.catalog.listDatabases() em esquemas com caracteres especiais quando
spark.sql.legacy.keepCommandOutputSchema
está definido como “true”. - [SPARK-46056] Correção do NPE de leitura vetorizada do Parquet com valor padrão byteArrayDecimalType.
- [SPARK-46145] O spark.catalog.listTables não gera exceção quando a tabela ou exibição não é encontrada.
- [SPARK-46466] O leitor vetorizado de Parquet nunca deve trocar base para o carimbo de data/hora ntz.
- O nó
- 14 de dezembro de 2023
- Correção de um problema em que os sublinhados escapados nas operações getColumns provenientes de clientes JDBC ou ODBC eram tratados incorretamente e interpretados como curingas.
- [SPARK-45920] “group by ordinal” deve ser idempotente.
- [SPARK-44582] Ignora o iterador no SMJ se ele tiver sido limpo.
- [SPARK-45433] Corrige a inferência de esquema CSV/JSON quando os carimbos de data/hora não correspondem ao timestampFormat especificado.
- [SPARK-45655] Permite expressões não determinísticas dentro de AggregateFunctions em CollectMetrics.
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Instalou um novo pacote
pyarrow-hotfix
para corrigir uma vulnerabilidade do PyArrow RCE. - O conector Spark-Snowflake foi atualizado para 2.12.0.
- [SPARK-44846] Removidas expressões de agrupamento complexas após
RemoveRedundantAggregates
. - [SPARK-45544] Suporte integrado a SSL em
TransportContext
. - [SPARK-45892] Validação do plano do otimizador de refatoração para desconectar
validateSchemaOutput
evalidateExprIdUniqueness
. - [SPARK-45730] Restrições de tempo aprimoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-45859] Tornou objetos UDF em
ml.functions
lentos. - Atualizações de segurança do sistema operacional.
- Instalou um novo pacote
- 10 de novembro de 2023
- Os filtros de partição nas consultas de streaming do Delta Lake são empurrados para baixo antes do limite de taxa para obter uma melhor utilização.
- Consultas de feed de dados alteradas em tabelas de streaming do Catálogo do Unity e exibições materializadas para exibir mensagens de erro.
- [SPARK-45545]
SparkTransportConf
herdaSSLOptions
na criação. - [SPARK-45584] Falha de execução corrigida de subconsulta com
TakeOrderedAndProjectExec
. - [SPARK-45427] Configurações adicionadas de RPC SSL para
SSLOptions
eSparkTransportConf
. - [SPARK-45541]
SSLFactory
adicionado. - [SPARK-45430]
FramelessOffsetWindowFunction
não falha mais quandoIGNORE NULLS
eoffset > rowCount
. - [SPARK-45429] Classes auxiliares adicionadas para comunicação SSL RPC.
- [SPARK-44219] Validações extras por regra adicionadas para regravações de otimização.
- [SPARK-45543] Corrigido um problema em que
InferWindowGroupLimit
causava um problema se as outras funções de janela não tivessem a mesma moldura de janela que as funções de classificação. - Atualizações de segurança do sistema operacional.
- 23 de outubro de 2023
- [SPARK-45256] Corrigido um problema em que
DurationWriter
falhava ao gravar mais valores do que a capacidade inicial. - [SPARK-45419] Evite reutilização de arquivos
rocksdb sst
em uma instânciarocksdb
diferente removendo as entradas do mapa de versão do arquivo de versões maiores. - [SPARK-45426] Suporte adicionado para
ReloadingX509TrustManager
. - Correções diversas.
- [SPARK-45256] Corrigido um problema em que
- 13 de outubro de 2023
- A dependência snowflake-jdbc foi atualizada de 3.13.29 para a 3.13.33.
- A função
array_insert
é baseada em 1 para índices positivos e negativos, mas antes ela era baseada em 0 para índices negativos. Agora ela insere um novo elemento no final das matrizes de entrada para o índice -1. Para restaurar o comportamento anterior, definaspark.sql.legacy.negativeIndexInArrayInsert
comotrue
. - Corrigido um problema em que não ignora arquivos corrompidos quando
ignoreCorruptFiles
estiver habilitado durante a inferência de esquema CSV com o Carregador Automático. - Reverter [SPARK-42946].
- [SPARK-42205] Atualizado o protocolo JSON para remover o registro em log de acumuladores em uma tarefa ou eventos de início de estágio.
- [SPARK-45178] Fallback para executar um lote único para
Trigger.AvailableNow
com fontes sem suporte em vez de usar o wrapper. - [SPARK-45316] Adicionar novos parâmetros
ignoreCorruptFiles
eignoreMissingFiles
paraHadoopRDD
eNewHadoopRDD
. - [SPARK-44740] Corrigidos os valores de metadados para Artifacts.
- [SPARK-45360] Configuração inicializada do construtor de sessão do Spark de
SPARK_REMOTE
. - [SPARK-44551] Comentários editados para sincronizar com o OSS.
- [SPARK-45346][SQL] A inferência de esquema Parquet agora respeita sinalizadores que diferenciam maiúsculas de minúsculas ao mesclar esquema.
- [SPARK-44658] Agora,
ShuffleStatus.getMapStatus
retornaNone
em vez deSome(null)
. - [SPARK-44840] Tornou o
array_insert()
baseado em 1 para índices negativos.
- 14 de setembro de 2023
- [SPARK-44873] Suporte adicionado para
alter view
com colunas aninhadas no cliente Hive. - [SPARK-44878] Desabilitado o limite estrito do gerenciador de gravação do
RocksDB
para evitar a exceção de inserção no cache concluído.
- [SPARK-44873] Suporte adicionado para
- 30 de agosto de 2023
- O comando dbutils
cp
(dbutils.fs.cp
) foi otimizado para uma cópia mais rápida. Com essa melhoria, as operações de cópia podem levar até 100 vezes menos tempo, dependendo do tamanho do arquivo. O recurso está disponível em todas as nuvens e sistemas de arquivos acessíveis no Databricks, incluindo para volumes de catálogo do Unity e montagens DBFS. - [SPARK-44455] Identificadores de cota com backticks no resultado
SHOW CREATE TABLE
. - [SPARK-44763] Corrigido um problema que mostrava uma cadeia de caracteres como um duplo em aritmética binária com intervalo.
- [SPARK-44871] Comportamento
percentile_disc
corrigido. - [SPARK-44714] Facilidade de restrição da resolução LCA em relação às consultas.
- [SPARK-44818] Correção da disputa para interrupção de tarefa pendente emitida antes
taskThread
de ser inicializado. - [SPARK-44505] Substituição adicionada para suporte colunar na Verificação de DSv2.
- [SPARK-44479] Conversão corrigida de protobuf de um tipo struct vazio.
- [SPARK-44718] Corresponder o padrão de configuração do modo de memória
ColumnVector
ao valor de configuraçãoOffHeapMemoryMode
. - [SPARK-42941] Suporte adicionado para
StreamingQueryListener
no Python. - [SPARK-44558] Exportar o nível de log do Spark Connect do PySpark.
- [SPARK-44464]
applyInPandasWithStatePythonRunner
corrigido para linhas de saída que têm Nulo como o valor da primeira coluna. - [SPARK-44643] Corrigido
Row.__repr__
quando o campo é uma linha vazia. - Atualizações de segurança do sistema operacional.
- O comando dbutils
Databricks Runtime 12.2 LTS
Confira Databricks Runtime 12.2 LTS.
- 10 de outubro de 2024
- [FAÍSCA-49743][SQL] OptimizeCsvJsonExpr não deve alterar os campos de esquema ao remover GetArrayStructFields
- 25 de setembro de 2024
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" em que t é uma tabela vazia expandindo RewriteDistinctAggregates
- [FAÍSCA-46601] [NÚCLEO] Corrigir erro de log em handleStatusMessage
- Diversas correções de bugs.
- 17 de setembro de 2024
- Atualizações de segurança do sistema operacional.
- 29 de agosto de 2024
- Diversas correções de bugs.
- 14 de agosto de 2024
- [SPARK-48941][SPARK-48970] Correções do gravador / leitor de ML do backport
- [SPARK-49065][SQL] A troca de base em formatadores/analisadores legados deve ser compatível com os fusos horários padrão não JVM
- [SPARK-49056][SQL] ErrorClassesJsonReader não lida com nulo corretamente
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-48463][ML] Tornar o StringIndexer compatível com as colunas de entrada aninhadas
- Atualizações de segurança do sistema operacional.
- 1 de agosto de 2024
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correções do gravador de ML do Spark de backport
- 1 de agosto de 2024
- Para aplicar os patches de segurança necessários, a versão do Python no Databricks Runtime 12.2 LTS é atualizada de 3.9.5 para 3.9.19.
- 11 de julho de 2024
- (Alteração de comportamento) Os DataFrames armazenados em cache em relação às fontes da tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()
para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - [SPARK-48481][SQL][SS] Não aplicar OptimizeOneRowPlan em relação a um Dataset de streaming
- [SPARK-47070] Corrigir agregação inválida após uma reescrita de subconsulta
- [SPARK-42741][SQL] Não desencapsular conversões em comparação binária quando literal for nulo
- [SPARK-48445][SQL] Não embutir UDFs com filhos caros
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com agrupar por em colunas não equivalentes que eram incorretamente permitidas
- [SPARK-48383][SS] Gerar erro melhor para partições incompatíveis na opção startOffset no Kafka
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento) Os DataFrames armazenados em cache em relação às fontes da tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
- 17 de junho de 2024
- [SPARK-48277] Aprimorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
- Diversas correções de bugs.
- 21 de maio de 2024
- [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do repositório de estado e o instantâneo
- Atualizações de segurança do sistema operacional.
- 09 de maio de 2024
- [SPARK-44251][SQL] Definir anulável corretamente na chave de junção unida na junção USING externa completa
- [SPARK-47973][CORE] Registrar site de chamada no SparkContext.stop() e posterior no SparkContext.assertNotStopped()
- [SPARK-47956][SQL] Verificação de sanidade para referência LCA não resolvida
- [SPARK-48018][SS] Corrigir groupId nulo causando erro de param ausente ao lançar KafkaException.couldNotReadOffsetRange
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2024
- Atualizações de segurança do sistema operacional.
- 11 de abril de 2024
- Atualizações de segurança do sistema operacional.
- 1º de abril de 2024
- [SPARK-47305][SQL] Corrigir o PruneFilters para marcar corretamente o sinalizador isStreaming do LocalRelation quando o plano tiver lote e streaming
- [SPARK-44252][SS] Definir uma nova classe de erro e aplicar para o caso em que o estado de carregamento do DFS falha
- [SPARK-47135][SS] Implementar classes de erro para exceções de perda de dados do Kafka
- [SPARK-47200][SS] Classe de erro para o erro de função de usuário do coletor de lote Foreach
- Atualizações de segurança do sistema operacional.
- 14 de março de 2024
- [SPARK-47176][SQL] Ter uma função auxiliar ResolveAllExpressionsUpWithPruning
- Reverter “[SPARK-46861][CORE] Evitar Deadlock no DAGScheduler”
- [SPARK-47125][SQL] Retornar nulo se Univocity nunca dispara a análise
- [SPARK-47167][SQL] Adicionar classe concreta para relação anônima JDBC
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Correção de um problema em que o uso de uma coleção local como origem em um comando MERGE poderia resultar na métrica de operação numSourceRows informando o dobro do número correto de linhas.
- A criação de um esquema com um local definido agora exige que o usuário tenha privilégios SELECT e MODIFY em ANY FILE.
- [SPARK-45582][SS] Verificar se a instância do repositório não é usada após chamar a confirmação dentro da agregação de streaming do modo de saída
- Atualizações de segurança do sistema operacional.
- 13 de fevereiro de 2024
- [SPARK-46861] Evitar deadlock no DAGScheduler.
- [SPARK-46794] Remover subconsultas de restrições LogicalRDD.
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2024
- [SPARK-46763] Corrigir a falha de declaração em ReplaceDeduplicateWithAggregate para atributos duplicados.
- Atualizações de segurança do sistema operacional.
- 25 de dezembro de 2023
- Para evitar maior latência ao se comunicar pelo TLSv1.3, essa versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
- [SPARK-39440] Adiciona uma configuração para desabilitar a linha do tempo do evento.
- [SPARK-46132] Suporte a senha de chave para chaves JKS para SSL de RPC.
- [SPARK-46394] Corrige problemas do spark.catalog.listDatabases() em esquemas com caracteres especiais quando
spark.sql.legacy.keepCommandOutputSchema
está definido como “true”. - [SPARK-46417] Não gera falha ao chamar hive.getTable quando throwException for false.
- [SPARK-43067] Corrige o local do arquivo de recurso da classe de erro no conector Kafka.
- [SPARK-46249] Exige bloqueio de instância para adquirir métricas do RocksDB, a fim de evitar conflitos com operações em segundo plano.
- [SPARK-46602] Propaga
allowExisting
na criação da exibição quando a exibição/tabela não existir. - [SPARK-46058] Adiciona um sinalizador separado para privateKeyPassword.
- [SPARK-46145] O spark.catalog.listTables não gera exceção quando a tabela ou exibição não é encontrada.
- [SPARK-46538] Corrige o problema de referência de coluna ambígua em
ALSModel.transform
. - [SPARK-42852] Reverte alterações relacionadas a NamedLambdaVariable de EquivalentExpressions.
- 14 de dezembro de 2023
- Correção de um problema em que os sublinhados escapados nas operações getColumns provenientes de clientes JDBC ou ODBC eram tratados incorretamente e interpretados como curingas.
- [SPARK-44582] Ignora o iterador no SMJ se ele tiver sido limpo.
- [SPARK-45920] “group by ordinal” deve ser idempotente.
- [SPARK-45655] Permite expressões não determinísticas dentro de AggregateFunctions em CollectMetrics.
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Instalou um novo pacote
pyarrow-hotfix
para corrigir uma vulnerabilidade do PyArrow RCE. - Corrigido um problema em que os sublinhados com escape em operações de
getColumns
provenientes de clientes JDBC ou ODBC eram interpretados incorretamente como curingas. - [SPARK-42205] Removidos os acumuladores de log nos eventos de início
Stage
eTask
. - [SPARK-44846] Removidas expressões de agrupamento complexas após
RemoveRedundantAggregates
. - [SPARK-43718] Corrigida a nulidade de chaves em junções de
USING
. - [SPARK-45544] Suporte integrado a SSL em
TransportContext
. - [SPARK-43973] A interface do usuário do Fluxo Estruturado agora exibe corretamente as consultas com falha.
- [SPARK-45730] Restrições de tempo aprimoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-45859] Tornou objetos UDF em
ml.functions
lentos. - Atualizações de segurança do sistema operacional.
- Instalou um novo pacote
- 14 de novembro de 2023
- Os filtros de partição nas consultas de streaming do Delta Lake são empurrados para baixo antes do limite de taxa para obter uma melhor utilização.
- [SPARK-45545]
SparkTransportConf
herdaSSLOptions
na criação. - [SPARK-45427] Configurações adicionadas de RPC SSL para
SSLOptions
eSparkTransportConf
. - [SPARK-45584] Falha de execução corrigida de subconsulta com
TakeOrderedAndProjectExec
. - [SPARK-45541]
SSLFactory
adicionado. - [SPARK-45430]
FramelessOffsetWindowFunction
não falha mais quandoIGNORE NULLS
eoffset > rowCount
. - [SPARK-45429] Classes auxiliares adicionadas para comunicação SSL RPC.
- Atualizações de segurança do sistema operacional.
- 24 de outubro de 2023
- [SPARK-45426] Suporte adicionado para
ReloadingX509TrustManager
. - Correções diversas.
- [SPARK-45426] Suporte adicionado para
- 13 de outubro de 2023
- A dependência snowflake-jdbc foi atualizada de 3.13.29 para a 3.13.33.
- [SPARK-42553] Garantir pelo menos uma unidade de tempo após o intervalo.
- [SPARK-45346] A inferência de esquema Parquet respeita o sinalizador que diferencia maiúsculas de minúsculas ao mesclar o esquema.
- [SPARK-45178] Fallback para executar um lote único para
Trigger.AvailableNow
com fontes sem suporte em vez de usar o wrapper. - [SPARK-45084]
StateOperatorProgress
para usar um número de partição de ordem aleatória preciso e adequado.
- 12 de setembro de 2023
- [SPARK-44873] Suporte adicionado para
alter view
com colunas aninhadas no cliente Hive. - [SPARK-44718] Corresponder o padrão de configuração do modo de memória
ColumnVector
ao valor de configuraçãoOffHeapMemoryMode
. - [SPARK-43799] Adicionada a opção binária de descritor à API
Protobuf
do PySpark. - Correções diversas.
- [SPARK-44873] Suporte adicionado para
- 30 de agosto de 2023
- [SPARK-44485]
TreeNode.generateTreeString
otimizado. - [SPARK-44818] Correção da disputa para interrupção de tarefa pendente emitida antes
taskThread
de ser inicializado. - [SPARK-44871][11.3-13.0] Comportamento
percentile_disc
corrigido. - [SPARK-44714] Restrição facilitada da resolução LCA em relação a consultas.
- Atualizações de segurança do sistema operacional.
- [SPARK-44485]
- 15 de agosto de 2023
- [SPARK-44504] A tarefa de manutenção limpa os provedores carregados em caso de erro de parada.
- [SPARK-44464]
applyInPandasWithStatePythonRunner
corrigido para linhas de saída que têmNull
como o valor da primeira coluna. - Atualizações de segurança do sistema operacional.
- 29 de julho de 2023
- Foi corrigido um problema em que
dbutils.fs.ls()
retornavaINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
quando chamado para um caminho de local de armazenamento que entrava em conflito com outro local de armazenamento externo ou gerenciado. - [SPARK-44199]
CacheManager
não atualiza mais ofileIndex
desnecessariamente. - Atualizações de segurança do sistema operacional.
- Foi corrigido um problema em que
- 24 de julho de 2023
- [SPARK-44337] Corrigido um problema em que qualquer campo definido como
Any.getDefaultInstance
causava erros de análise. - [SPARK-44136] Corrigido um problema em que
StateManager
era materializado em um executor em vez do driver emFlatMapGroupsWithStateExec
. - Atualizações de segurança do sistema operacional.
- [SPARK-44337] Corrigido um problema em que qualquer campo definido como
- 23 de junho de 2023
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2023
approx_count_distinct
fotonizado.- A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para que fosse resolvido um problema de segurança.
- [SPARK-43779] Agora,
ParseToDate
carregaEvalMode
no thread principal. - [SPARK-43156][SPARK-43098] Teste de erro de contagem de subconsultas escalar estendida com
decorrelateInnerQuery
desativado. - Atualizações de segurança do sistema operacional.
- 2 de junho de 2023
- O analisador JSON no modo
failOnUnknownFields
descarta um registro no modoDROPMALFORMED
e falha diretamente no modoFAILFAST
. - Aprimoramento do desempenho da atualizações incrementais com Iceberg e Parquet
SHALLOW CLONE
. - Corrigido um problema no Carregador Automático em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferido.
- [SPARK-43404] Ignorar a reutilização do arquivo SST para a mesma versão do armazenamento de estado do RocksDB para evitar erro de incompatibilidade de ID.
- [SPARK-43413][11.3-13.0] Corrigida a subconsulta
IN
da nulidadeListQuery
. - [SPARK-43522] Corrigida a criação de nome da coluna struct com índice de matriz.
- [SPARK-43541] Propagar todas as marcas
Project
na resolução de expressões e colunas ausentes. - [SPARK-43527] Corrigido
catalog.listCatalogs
no PySpark. - [SPARK-43123] Os metadados de campos internos não vazam mais para os catálogos.
- [SPARK-43340] Corrigido o campo de rastreamento de pilha ausente em eventlogs.
- [SPARK-42444]
DataFrame.drop
agora lida com colunas duplicadas corretamente. - [SPARK-42937]
PlanSubqueries
agora defineInSubqueryExec#shouldBroadcast
como true. - [SPARK-43286] Modo CBC
aes_encrypt
atualizado para gerar IVs aleatórios. - [SPARK-43378] Fechar corretamente os objetos de fluxo em
deserializeFromChunkedBuffer
.
- O analisador JSON no modo
- 17 de maio de 2023
- As verificações parquet agora são robustas em relação aos OOMs ao verificar arquivos excepcionalmente estruturados ajustando dinamicamente o tamanho do lote. Os metadados de arquivo são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente em tentativas de tarefa como uma rede de segurança final.
- Se um arquivo Avro fosse lido apenas com a opção
failOnUnknownFields
ou com o Carregador Automático no modo de evolução do esquemafailOnNewColumns
, as colunas que têm tipos de dados diferentes seriam lidas comonull
em vez de gerar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem a opçãorescuedDataColumn
. - O Carregador Automático agora faz o seguinte.
-
- Lê corretamente e não resgata mais os tipos
Integer
,Short
,Byte
se um desses tipos de dados for fornecido, mas o arquivo Avro sugere um dos outros dois tipos.
- Lê corretamente e não resgata mais os tipos
-
- Impede a leitura de tipos de intervalo como tipos de data ou carimbo de data/hora para evitar a obtenção de datas corrompidas.
-
- Impede tipos de leitura
Decimal
com precisão mais baixa.
- Impede tipos de leitura
- [SPARK-43172] Expõe o host e o token do cliente do Spark Connect.
- [SPARK-43293]
__qualified_access_only
é ignorado em colunas normais. - [SPARK-43098] Corrigido o bug
COUNT
de correção quando a subconsulta escalar é agrupada por cláusula. - [SPARK-43085] Suporte para atribuição de coluna
DEFAULT
para nomes de tabela de várias partes. - [SPARK-43190]
ListQuery.childOutput
já é consistente com a saída secundária. - [SPARK-43192] Removida a validação do conjunto de caracteres do agente de usuário.
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2023
- Se um arquivo Parquet fosse lido apenas com a opção
failOnUnknownFields
ou com o Carregador Automático no modo de evolução do esquemafailOnNewColumns
, as colunas que têm tipos de dados diferentes seriam lidas comonull
em vez de gerar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem a opçãorescuedDataColumn
. - O Carregador Automático agora lê corretamente e não resgata mais os tipos
Integer
,Short
,Byte
se um desses tipos de dados for fornecido. O arquivo Parquet sugere um dos outros dois tipos. Quando a coluna de dados resgatados foi habilitada anteriormente, a incompatibilidade de tipo de dados faria com que as colunas fossem salvas mesmo que fossem legíveis. - [SPARK-43009]
sql()
parametrizado com constantesAny
- [SPARK-42406] Encerrar campos recursivos do Protobuf removendo o campo
- [SPARK-43038] Suporte ao modo GCM por
aes_encrypt()
/aes_decrypt()
- [SPARK-42971] Alterar para imprimir
workdir
seappDirs
for nulo quando o evento de identificadorWorkDirCleanup
de trabalho - [SPARK-43018] Corrigir o bug para comandos INSERT com literais de carimbo de data/hora
- Atualizações de segurança do sistema operacional.
- Se um arquivo Parquet fosse lido apenas com a opção
- 11 de abril de 2023
- Suporte a formatos de fonte de dados herdados no comando
SYNC
. - Corrige um problema no comportamento %autoreload em notebooks fora de um repositório.
- Correção de um problema em que a evolução do esquema do Carregador Automático pode entrar em um loop de falha infinito quando uma nova coluna é detectada no esquema de um objeto JSON aninhado.
- [SPARK-42928] Torna
resolvePersistentFunction
sincronizado. - [SPARK-42936] Corrige o problema de LCA quando a cláusula pode ser resolvida diretamente por sua agregação filho.
- [SPARK-42967] Corrige
SparkListenerTaskStart.stageAttemptId
quando uma tarefa é iniciada após o cancelamento do estágio. - Atualizações de segurança do sistema operacional.
- Suporte a formatos de fonte de dados herdados no comando
- 29 de março de 2023
O Databricks SQL agora dá suporte à especificação de valores padrão para colunas de tabelas do Delta Lake, seja no momento da criação da tabela ou posteriormente. Os comandos
INSERT
,UPDATE
,DELETE
, eMERGE
subsequentes podem se referir ao valor padrão de uma coluna usando a palavra-chaveDEFAULT
explícita. Além disso, se qualquer atribuiçãoINSERT
tiver uma lista explícita de menos colunas do que a tabela de destino, os valores padrão de coluna correspondentes serão substituídos pelas colunas restantes (ou NULL se nenhum padrão for especificado).Por exemplo:
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; > 0, 2023-03-28 1, 2023-03-28z
O Carregador Automático agora inicia pelo menos um log do RocksDB síncrono limpo para fluxos
Trigger.AvailableNow
para verificar se o ponto de verificação pode ser limpo regularmente para fluxos do Carregador Automático em execução rápida. Isso pode fazer com que alguns fluxos levem mais tempo antes de serem desligados, mas economizarão custos de armazenamento e aprimorarão a experiência do Carregador Automático em execuções futuras.Agora você pode modificar uma tabela Delta para adicionar suporte a recursos de tabela usando
DeltaTable.addFeatureSupport(feature_name)
.[SPARK-42794] Aumentar o lockAcquireTimeoutMs para 2 minutos para adquirir o repositório de estado RocksDB no Fluxo Estruturado
[SPARK-42521] Adicionar NULLs para INSERTSs com listas especificadas pelo usuário de menos colunas do que a tabela de destino
[SPARK-42702][SPARK-42623] Suporte à consulta parametrizada em subconsulta e CTE
[SPARK-42668] Capturar exceção ao tentar fechar o fluxo compactado na interrupção de HDFSStateStoreProvider
[SPARK-42403] JsonProtocol deve lidar com cadeias de caracteres JSON nulas
- 8 de março de 2023
- A mensagem de erro "Falha ao inicializar a configuração" foi aprimorada para fornecer mais contexto para o cliente.
- Há uma alteração de terminologia para adicionar recursos a uma tabela Delta usando a propriedade table. A sintaxe preferencial agora
'delta.feature.featureName'='supported'
é em vez de'delta.feature.featureName'='enabled'
. Para compatibilidade com versões anteriores, o uso de'delta.feature.featureName'='enabled'
ainda funciona e continuará funcionando. - A partir desta versão, é possível criar/substituir uma tabela por uma propriedade
delta.ignoreProtocolDefaults
de tabela adicional para ignorar configurações do Spark relacionadas ao protocolo, que inclui versões de leitor e gravador padrão, bem como recursos de tabela com suporte por padrão. - [SPARK-42070] Alterar o valor padrão da função Mask de -1 para NULL
- [SPARK-41793] Resultado incorreto para quadros de janela definidos por uma cláusula de intervalo em decimais significantes
- [SPARK-42484] Mensagem de erro UnsafeRowUtils aprimorada
- [SPARK-42516] Sempre capturar a configuração de fuso horário da sessão ao criar exibições
- [SPARK-42635] Corrigir a expressão TimestampAdd.
- [SPARK-42622] Substituição desativada em valores
- [SPARK-42534] Corrigir cláusula DB2Dialect Limit
- [SPARK-42121] Adicionar funções internas com valor de tabela posexplode, posexplode_outer, json_tuple e stack
- [SPARK-42045] Modo ANSI SQL: Round/Bround deve retornar um erro no estouro de inteiro minúsculo/pequeno/grande
- Atualizações de segurança do sistema operacional.
Databricks Runtime 11.3 LTS
Confira Databricks Runtime 11.3 LTS.
- 10 de outubro de 2024
- Diversas correções de bugs.
- 25 de setembro de 2024
- [FAÍSCA-46601] [NÚCLEO] Corrigir erro de log em handleStatusMessage
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" em que t é uma tabela vazia expandindo RewriteDistinctAggregates
- Diversas correções de bugs.
- 17 de setembro de 2024
- Atualizações de segurança do sistema operacional.
- 29 de agosto de 2024
- 14 de agosto de 2024
- [SPARK-48941][SPARK-48970] Correções do gravador / leitor de ML do backport
- [SPARK-49065][SQL] A troca de base em formatadores/analisadores legados deve ser compatível com os fusos horários padrão não JVM
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-48463][ML] Tornar o StringIndexer compatível com as colunas de entrada aninhadas
- Atualizações de segurança do sistema operacional.
- 1 de agosto de 2024
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correções do gravador de ML do Spark de backport
- 1 de agosto de 2024
- Para aplicar os patches de segurança necessários, a versão do Python no Databricks Runtime 11.3 LTS é atualizada de 3.9.5 para 3.9.19.
- 11 de julho de 2024
- [SPARK-48383][SS] Gerar erro melhor para partições incompatíveis na opção startOffset no Kafka
- [SPARK-47070] Corrigir agregação inválida após uma reescrita de subconsulta
- Atualizações de segurança do sistema operacional.
- 17 de junho de 2024
- Atualizações de segurança do sistema operacional.
- 21 de maio de 2024
- [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do repositório de estado e o instantâneo
- Atualizações de segurança do sistema operacional.
- 09 de maio de 2024
- [SPARK-48018][SS] Corrigir groupId nulo causando erro de param ausente ao lançar KafkaException.couldNotReadOffsetRange
- [SPARK-47973][CORE] Registrar site de chamada no SparkContext.stop() e posterior no SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Definir anulável corretamente na chave de junção unida na junção USING externa completa
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2024
- Atualizações de segurança do sistema operacional.
- 11 de abril de 2024
- Atualizações de segurança do sistema operacional.
- 1º de abril de 2024
- [SPARK-44252][SS] Definir uma nova classe de erro e aplicar para o caso em que o estado de carregamento do DFS falha
- [SPARK-47135][SS] Implementar classes de erro para exceções de perda de dados do Kafka
- Reverter “[SPARK-46861][CORE] Evitar Deadlock no DAGScheduler”
- [SPARK-47200][SS] Classe de erro para o erro de função de usuário do coletor de lote Foreach
- Atualizações de segurança do sistema operacional.
- 14 de março de 2024
- [SPARK-47167][SQL] Adicionar classe concreta para relação anônima JDBC
- [SPARK-47125][SQL] Retornar nulo se Univocity nunca dispara a análise
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Correção de um problema em que o uso de uma coleção local como origem em um comando MERGE poderia resultar na métrica de operação numSourceRows informando o dobro do número correto de linhas.
- [SPARK-45582][SS] Verificar se a instância do repositório não é usada após chamar a confirmação dentro da agregação de streaming do modo de saída
- 13 de fevereiro de 2024
- [SPARK-46794] Remover subconsultas de restrições LogicalRDD.
- [SPARK-46861] Evitar deadlock no DAGScheduler.
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2024
- Atualizações de segurança do sistema operacional.
- 25 de dezembro de 2023
- Para evitar maior latência ao se comunicar pelo TLSv1.3, essa versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
- [SPARK-46058] Adiciona um sinalizador separado para privateKeyPassword.
- [SPARK-46602] Propaga
allowExisting
na criação da exibição quando a exibição/tabela não existir. - [SPARK-46394] Corrige problemas do spark.catalog.listDatabases() em esquemas com caracteres especiais quando
spark.sql.legacy.keepCommandOutputSchema
está definido como “true”. - [SPARK-46538] Corrige o problema de referência de coluna ambígua em
ALSModel.transform
. - [SPARK-39440] Adiciona uma configuração para desabilitar a linha do tempo do evento.
- [SPARK-46249] Exige bloqueio de instância para adquirir métricas do RocksDB, a fim de evitar conflitos com operações em segundo plano.
- [SPARK-46132] Suporte a senha de chave para chaves JKS para SSL de RPC.
- 14 de dezembro de 2023
- Correção de um problema em que os sublinhados escapados nas operações getColumns provenientes de clientes JDBC ou ODBC eram tratados incorretamente e interpretados como curingas.
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Instalou um novo pacote
pyarrow-hotfix
para corrigir uma vulnerabilidade do PyArrow RCE. - Corrigido um problema em que os sublinhados com escape em operações de
getColumns
provenientes de clientes JDBC ou ODBC eram interpretados incorretamente como curingas. - [SPARK-43973] A interface do usuário do Fluxo Estruturado agora exibe corretamente as consultas com falha.
- [SPARK-45730] Restrições de tempo aprimoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-45544] Suporte integrado a SSL em
TransportContext
. - [SPARK-45859] Tornou objetos UDF em
ml.functions
lentos. - [SPARK-43718] Corrigida a nulidade de chaves em junções de
USING
. - [SPARK-44846] Removidas expressões de agrupamento complexas após
RemoveRedundantAggregates
. - Atualizações de segurança do sistema operacional.
- Instalou um novo pacote
- 14 de novembro de 2023
- Os filtros de partição nas consultas de streaming do Delta Lake são empurrados para baixo antes do limite de taxa para obter uma melhor utilização.
- [SPARK-42205] Removidos os acumuladores de log nos eventos de início Stage e Task.
- [SPARK-45545]
SparkTransportConf
herdaSSLOptions
na criação. - Reverter [SPARK-33861].
- [SPARK-45541]
SSLFactory
adicionado. - [SPARK-45429] Classes auxiliares adicionadas para comunicação SSL RPC.
- [SPARK-45584] Falha de execução corrigida de subconsulta com
TakeOrderedAndProjectExec
. - [SPARK-45430]
FramelessOffsetWindowFunction
não falha mais quandoIGNORE NULLS
eoffset > rowCount
. - [SPARK-45427] Configurações adicionadas de RPC SSL para
SSLOptions
eSparkTransportConf
. - Atualizações de segurança do sistema operacional.
- 24 de outubro de 2023
- [SPARK-45426] Suporte adicionado para
ReloadingX509TrustManager
. - Correções diversas.
- [SPARK-45426] Suporte adicionado para
- 13 de outubro de 2023
- A dependência snowflake-jdbc foi atualizada de 3.13.29 para a 3.13.33.
- [SPARK-45178] Fallback para executar um lote único para
Trigger.AvailableNow
com fontes sem suporte em vez de usar o wrapper. - [SPARK-45084]
StateOperatorProgress
para usar um número de partição de ordem aleatória preciso e adequado. - [SPARK-45346] Agora, a inferência do esquema Parquet respeita o sinalizador que diferencia maiúsculas de minúsculas ao mesclar um esquema.
- Atualizações de segurança do sistema operacional.
- 10 de setembro de 2023
- Correções diversas.
- 30 de agosto de 2023
- [SPARK-44818] Correção da disputa para interrupção de tarefa pendente emitida antes
taskThread
de ser inicializado. - [SPARK-44871][11.3-13.0] Comportamento
percentile_disc
corrigido. - Atualizações de segurança do sistema operacional.
- [SPARK-44818] Correção da disputa para interrupção de tarefa pendente emitida antes
- 15 de agosto de 2023
- [SPARK-44485]
TreeNode.generateTreeString
otimizado. - [SPARK-44504] A tarefa de manutenção limpa os provedores carregados em caso de erro de parada.
- [SPARK-44464]
applyInPandasWithStatePythonRunner
corrigido para linhas de saída que têmNull
como o valor da primeira coluna. - Atualizações de segurança do sistema operacional.
- [SPARK-44485]
- 27 de julho de 2023
- Foi corrigido um problema em que
dbutils.fs.ls()
retornavaINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
quando chamado para um caminho de local de armazenamento que entrava em conflito com outro local de armazenamento externo ou gerenciado. - [SPARK-44199]
CacheManager
não atualiza mais ofileIndex
desnecessariamente. - Atualizações de segurança do sistema operacional.
- Foi corrigido um problema em que
- 24 de julho de 2023
- [SPARK-44136] Corrigido um problema em que o StateManager podia ser materializado no executor em vez de no driver em FlatMapGroupsWithStateExec.
- Atualizações de segurança do sistema operacional.
- 23 de junho de 2023
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2023
approx_count_distinct
fotonizado.- A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para que fosse resolvido um problema de segurança.
- [SPARK-43779] Agora,
ParseToDate
carregaEvalMode
no thread principal. - [SPARK-40862] Suportar subconsultas não agregadas em RewriteCorrelatedScalarSubquery
- [SPARK-43156][SPARK-43098] Teste de bug de contagem de subconsultas escalar estendida com
decorrelateInnerQuery
desativado. - [SPARK-43098] Corrige o bug COUNT de correção quando a subconsulta escalar tiver uma cláusula group by
- Atualizações de segurança do sistema operacional.
- 2 de junho de 2023
- O analisador JSON no modo
failOnUnknownFields
descarta um registro no modoDROPMALFORMED
e falha diretamente no modoFAILFAST
. - Aprimoramento do desempenho da atualizações incrementais com Iceberg e Parquet
SHALLOW CLONE
. - Corrigido um problema no Carregador Automático em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferido.
- [SPARK-43404] Ignorar a reutilização do arquivo SST para a mesma versão do armazenamento de estado do RocksDB para evitar erro de incompatibilidade de ID.
- [SPARK-43527] Corrigido
catalog.listCatalogs
no PySpark. - [SPARK-43413][11.3-13.0] Corrigida a subconsulta
IN
da nulidadeListQuery
. - [SPARK-43340] Corrigido o campo de rastreamento de pilha ausente em eventlogs.
- O analisador JSON no modo
Databricks Runtime 10.4 LTS
Consulte Databricks Runtime 10.4 LTS.
- 5 de novembro de 2024
- Atualizações de segurança do sistema operacional.
- 22 de outubro de 2024
- Atualizações de segurança do sistema operacional.
- 10 de outubro de 2024
- Atualizações de segurança do sistema operacional.
- 25 de setembro de 2024
- [FAÍSCA-46601] [NÚCLEO] Corrigir erro de log em handleStatusMessage
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" em que t é uma tabela vazia expandindo RewriteDistinctAggregates
- Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- Atualizações de segurança do sistema operacional.
- 29 de agosto de 2024
- [SPARK-49065][SQL] A troca de base em formatadores/analisadores legados deve ser compatível com os fusos horários padrão não JVM
- 14 de agosto de 2024
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-48941][SPARK-48970] Correções do gravador / leitor de ML do backport
- [SPARK-48463][ML] Tornar o StringIndexer compatível com as colunas de entrada aninhadas
- 1 de agosto de 2024
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correções do gravador de ML do Spark de backport
- Atualizações de segurança do sistema operacional.
- 11 de julho de 2024
- [SPARK-48383][SS] Gerar erro melhor para partições incompatíveis na opção startOffset no Kafka
- Atualizações de segurança do sistema operacional.
- 17 de junho de 2024
- Atualizações de segurança do sistema operacional.
- 21 de maio de 2024
- [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do repositório de estado e o instantâneo
- Atualizações de segurança do sistema operacional.
- 09 de maio de 2024
- [SPARK-48018][SS] Corrigir groupId nulo causando erro de param ausente ao lançar KafkaException.couldNotReadOffsetRange
- [SPARK-47973][CORE] Registrar site de chamada no SparkContext.stop() e posterior no SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Definir anulável corretamente na chave de junção unida na junção USING externa completa
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2024
- Atualizações de segurança do sistema operacional.
- 11 de abril de 2024
- Atualizações de segurança do sistema operacional.
- 1º de abril de 2024
- [SPARK-47135][SS] Implementar classes de erro para exceções de perda de dados do Kafka
- [SPARK-44252][SS] Definir uma nova classe de erro e aplicar para o caso em que o estado de carregamento do DFS falha
- [SPARK-47200][SS] Classe de erro para o erro de função de usuário do coletor de lote Foreach
- Reverter “[SPARK-46861][CORE] Evitar Deadlock no DAGScheduler”
- Atualizações de segurança do sistema operacional.
- 14 de março de 2024
- [SPARK-47125][SQL] Retornar nulo se Univocity nunca dispara a análise
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Correção de um problema em que o uso de uma coleção local como origem em um comando MERGE poderia resultar na métrica de operação numSourceRows informando o dobro do número correto de linhas.
- [SPARK-45582][SS] Verificar se a instância do repositório não é usada após chamar a confirmação dentro da agregação de streaming do modo de saída
- Atualizações de segurança do sistema operacional.
- 13 de fevereiro de 2024
- [SPARK-46861] Evitar deadlock no DAGScheduler.
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2024
- Atualizações de segurança do sistema operacional.
- 25 de dezembro de 2023
- Para evitar maior latência ao se comunicar pelo TLSv1.3, essa versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
- [SPARK-46058] Adiciona um sinalizador separado para privateKeyPassword.
- [SPARK-46538] Corrige o problema de referência de coluna ambígua em
ALSModel.transform
. - [SPARK-39440] Adiciona uma configuração para desabilitar a linha do tempo do evento.
- [SPARK-46132] Suporte a senha de chave para chaves JKS para SSL de RPC.
- 14 de dezembro de 2023
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Instalou um novo pacote
pyarrow-hotfix
para corrigir uma vulnerabilidade do PyArrow RCE. - [SPARK-45544] Suporte integrado a SSL em
TransportContext
. - [SPARK-45859] Tornou objetos UDF em
ml.functions
lentos. - [SPARK-43718] Corrigida a nulidade de chaves em junções de
USING
. - [SPARK-45730] Restrições de tempo aprimoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-42205] Removidos os acumuladores de log nos eventos de início Stage e Task.
- [SPARK-44846] Removidas expressões de agrupamento complexas após
RemoveRedundantAggregates
. - Atualizações de segurança do sistema operacional.
- Instalou um novo pacote
- 14 de novembro de 2023
- [SPARK-45541]
SSLFactory
adicionado. - [SPARK-45545]
SparkTransportConf
herdaSSLOptions
na criação. - [SPARK-45427] Configurações adicionadas de RPC SSL para
SSLOptions
eSparkTransportConf
. - [SPARK-45429] Classes auxiliares adicionadas para comunicação SSL RPC.
- [SPARK-45584] Falha de execução corrigida de subconsulta com
TakeOrderedAndProjectExec
. - Reverter [SPARK-33861].
- Atualizações de segurança do sistema operacional.
- [SPARK-45541]
- 24 de outubro de 2023
- [SPARK-45426] Suporte adicionado para
ReloadingX509TrustManager
. - Atualizações de segurança do sistema operacional.
- [SPARK-45426] Suporte adicionado para
- 13 de outubro de 2023
- [SPARK-45084]
StateOperatorProgress
para usar um número de partição de ordem aleatória preciso e adequado. - [SPARK-45178] Fallback para executar um lote único para
Trigger.AvailableNow
com fontes sem suporte em vez de usar o wrapper. - Atualizações de segurança do sistema operacional.
- [SPARK-45084]
- 10 de setembro de 2023
- Correções diversas.
- 30 de agosto de 2023
- [SPARK-44818] Correção da disputa para interrupção de tarefa pendente emitida antes
taskThread
de ser inicializado. - Atualizações de segurança do sistema operacional.
- [SPARK-44818] Correção da disputa para interrupção de tarefa pendente emitida antes
- 15 de agosto de 2023
- [SPARK-44504] A tarefa de manutenção limpa os provedores carregados em caso de erro de parada.
- [SPARK-43973] A interface do usuário do Fluxo Estruturado agora aparece corretamente as consultas com falha.
- Atualizações de segurança do sistema operacional.
- 23 de junho de 2023
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2023
- A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para que fosse resolvido um problema de segurança.
- [SPARK-43098] Corrige o bug COUNT de correção quando a subconsulta escalar tiver uma cláusula group by
- [SPARK-40862] Suportar subconsultas não agregadas em RewriteCorrelatedScalarSubquery
- [SPARK-43156][SPARK-43098] Teste de contagem de subconsultas escalar estendida com
decorrelateInnerQuery
desativado. - Atualizações de segurança do sistema operacional.
- 2 de junho de 2023
- O analisador JSON no modo
failOnUnknownFields
descarta um registro no modoDROPMALFORMED
e falha diretamente no modoFAILFAST
. - Corrigido um problema na análise de dados resgatados JSON para evitar
UnknownFieldException
. - Corrigido um problema no Carregador Automático em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferido.
- [SPARK-43404] Ignorar a reutilização do arquivo SST para a mesma versão do armazenamento de estado do RocksDB para evitar erro de incompatibilidade de ID.
- [SPARK-43413] Corrigida a subconsulta
IN
da nulidadeListQuery
. - Atualizações de segurança do sistema operacional.
- O analisador JSON no modo
- 17 de maio de 2023
- As verificações parquet agora são robustas em relação aos OOMs ao verificar arquivos excepcionalmente estruturados ajustando dinamicamente o tamanho do lote. Os metadados de arquivo são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente em tentativas de tarefa como uma rede de segurança final.
- [SPARK-41520] Dividir padrão de árvore
AND_OR
para separarAND
eOR
. - [SPARK-43190]
ListQuery.childOutput
já é consistente com a saída secundária. - Atualizações de segurança do sistema operacional.
- 25 de abril de 2023
- [SPARK-42928] Tornar o
resolvePersistentFunction
sincronizado. - Atualizações de segurança do sistema operacional.
- [SPARK-42928] Tornar o
- 11 de abril de 2023
- Correção de um problema em que a evolução do esquema do Carregador Automático pode entrar em um loop de falha infinito quando uma nova coluna é detectada no esquema de um objeto JSON aninhado.
- [SPARK-42937]
PlanSubqueries
agora defineInSubqueryExec#shouldBroadcast
como true. - [SPARK-42967] Corrigir SparkListenerTaskStart.stageAttemptId quando uma tarefa é iniciada após o cancelamento do estágio.
- 29 de março de 2023
- [SPARK-42668] Capturar exceção ao tentar fechar o fluxo compactado na interrupção de HDFSStateStoreProvider
- [SPARK-42635] Corrigir o…
- Atualizações de segurança do sistema operacional.
- 14 de março de 2023
- [SPARK-41162] Corrigir a junção anti e semi para autojunção com agregações
- [SPARK-33206] Corrigir o cache de índice de cálculo de peso em ordem aleatória para arquivos de índice pequenos
- [SPARK-42484] Aprimorou a mensagem de erro
UnsafeRowUtils
- Correções diversas.
- 28 de fevereiro de 2023
- Suporte à coluna gerada para yyyy-MM-dd date_format. Essa alteração dá suporte à remoção de partição para aaaa-MM-dd como um date_format em colunas geradas.
- Os usuários agora podem ler e gravar tabelas Delta específicas que exigem o Leitor versão 3 e o Gravador versão 7, usando o Databricks Runtime 9.1 LTS ou posterior. Para ter êxito, os recursos de tabela listados no protocolo das tabelas devem ter suporte da versão atual do Databricks Runtime.
- Suporte à coluna gerada para yyyy-MM-dd date_format. Essa alteração dá suporte à remoção de partição para aaaa-MM-dd como um date_format em colunas geradas.
- Atualizações de segurança do sistema operacional.
- 16 de fevereiro de 2023
- [SPARK-30220] Habilitar o uso de subconsultas Exists/In fora do nó Filtro
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2023
- Os tipos de tabelas JDBC agora são EXTERNAL por padrão.
- 18 de janeiro de 2023
- O conector do Azure Synapse retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto e vírgula. Nesses casos, a seguinte mensagem será retornada:
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
. - [SPARK-38277] Limpar o lote de gravação após a confirmação do armazenamento de estado de RocksDB
- [SPARK-41199] Corrigir o problema de métricas quando a fonte de transmissão DSv1 e a fonte de transmissão DSv2 são coutilizadas
- [SPARK-41198] Corrigir métricas na consulta de transmissão com fonte de transmissão CTE e DSv1.
- [SPARK-41339] Fechar e recriar o lote de gravação de RocksDB em vez de apenas limpar.
- [SPARK-41732] Aplicar remoção baseada em padrão de árvore para a regra SessionWindowing.
- Atualizações de segurança do sistema operacional.
- O conector do Azure Synapse retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto e vírgula. Nesses casos, a seguinte mensagem será retornada:
- 29 de novembro de 2022
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao escrever dados usando o conector do Redshift. As seguintes opções foram adicionadas para controlar o tratamento de espaço em branco:
csvignoreleadingwhitespace
, quando definido comotrue
, remove o espaço em branco à esquerda dos valores ao escrever quandotempformat
é definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Por padrão, o valor étrue
.csvignoretrailingwhitespace
, quando definido comotrue
, remove o espaço em branco à direita dos valores ao escrever quandotempformat
é definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Por padrão, o valor étrue
.
- Corrigido um problema com análise de JSON no Carregador Automático quando todas as colunas eram deixadas como cadeias de caracteres (
cloudFiles.inferColumnTypes
não era definido comofalse
) e o JSON continha objetos aninhados. - Atualizações de segurança do sistema operacional.
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao escrever dados usando o conector do Redshift. As seguintes opções foram adicionadas para controlar o tratamento de espaço em branco:
- 15 de novembro de 2022
- Atualização do Apache commons-text para 1.10.0.
- [SPARK-40646] A análise de JSON para structs, mapas e matrizes foi corrigida para que, quando uma parte de um registro não corresponder ao esquema, o restante do registro ainda possa ser analisado corretamente em vez de retornar nulos. Para aceitar o comportamento aprimorado, defina
spark.sql.json.enablePartialResults
comotrue
. O sinalizador é desabilitado por padrão para preservar o comportamento original. - [SPARK-40292] Corrigir os nomes da coluna na função
arrays_zip
quando as matrizes forem referenciadas por structs aninhados - Atualizações de segurança do sistema operacional.
- 1º de novembro de 2022
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas se Alterar feed de dados estivesse desabilitado nessa tabela, os dados dessa coluna preencheriam incorretamente com valores NULL ao executarMERGE
. - Corrigido um problema com o Carregador Automático em que um arquivo podia ser duplicado no mesmo microlote quando
allowOverwrites
estivesse habilitado - [SPARK-40697] Adicionar preenchimento de caracteres do lado da leitura para cobrir arquivos de dados externos
- [SPARK-40596] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
- 18 de outubro de 2022
- Atualizações de segurança do sistema operacional.
- 5 de outubro de 2022
- [SPARK-40468] Corrigir a remoção de coluna no CSV quando
_corrupt_record
estiver selecionado. - Atualizações de segurança do sistema operacional.
- [SPARK-40468] Corrigir a remoção de coluna no CSV quando
- 22 de setembro de 2022
- Os usuários podem definir spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled
,true
) para reabilitar a listagem interna do Carregador Automático no ADLS Gen2. A listagem interna foi desativada anteriormente devido a problemas de desempenho, mas pode ter gerado um aumento nos custos de armazenamento para os clientes. - [SPARK-40315] Adicionar hashCode() para Literal de ArrayBasedMapData
- [SPARK-40213] Suporte à conversão de valor ASCII para caracteres Latin-1
- [SPARK-40380] Corrigir dobra constante de InvokeLike para evitar literais não serializáveis inseridos no plano
- [SPARK-38404] Aprimorar a resolução de CTE quando uma CTE aninhada faz referência a uma CTE externa
- [SPARK-40089] Corrigir a classificação para alguns tipos Decimais
- [SPARK-39887] RemoveRedundantAliases deve manter os aliases que tornam a saída de nós de projeção exclusiva
- Os usuários podem definir spark.conf.set(
- 06 de setembro de 2022
- SPARK-40235 Usa o bloqueio interruptível em vez de sincronizado em Executor.updateDependencies().
- [SPARK-40218] Os GROUPING SETS devem preservar as colunas de agrupamento.
- [SPARK-39976] O ArrayIntersect deve processar null na expressão à esquerda corretamente.
- [SPARK-40053] Adiciona
assume
aos casos de cancelamento dinâmico que exigem o ambiente de runtime do Python. - [SPARK-35542] Correção: o classificador em buckets criado para várias colunas com os parâmetros splitsArray, inputCols e outputCols não pode ser carregado após salvá-lo.
- [SPARK-40079] Adição da validação inputCols do imputador para o caso de entrada vazio.
- 24 de agosto de 2022
- [SPARK-39983] Não armazena as relações de transmissão não serializadas em cache no driver.
- [SPARK-39775] Desabilita a validação de valores padrão ao analisar esquemas Avro.
- [SPARK-39962] Aplicar projeção quando os atributos de grupo estiverem vazios
- [SPARK-37643] Quando charVarcharAsString for verdadeiro, a consulta de predicado de tipo de dados char deve ignorar a regra de rpadding.
- Atualizações de segurança do sistema operacional.
- 9 de agosto de 2022
- [SPARK-39847] Corrigir condição de disputa em RocksDBLoader.loadLibrary() se o thread do chamador for interrompido
- [SPARK-39731] Corrigir problemas em fontes de dados CSV e JSON ao analisar datas no formato "yyyyMMdd" com política de analisador de tempo CORRIGIDA
- Atualizações de segurança do sistema operacional.
- 27 de julho de 2022
- [SPARK-39625] Adiciona Dataset.as(StructType).
- [SPARK-39689] Suporte a
lineSep
de 2 caracteres na fonte de dados CSV. - [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded deve ser thread-safe.
- [SPARK-39570] A tabela embutida deve permitir expressões com alias.
- [SPARK-39702] Reduz a sobrecarga de memória de TransportCipher$EncryptedMessage usando um byteRawChannel compartilhado.
- [SPARK-39575] Adiciona ByteBuffer#rewind após ByteBuffer#get no AvroDeserializer.
- [SPARK-39476] Desabilita a otimização de conversão de cancelamento de quebra de linha ao converter de Long para Float/Double ou de Integer para Float.
- [SPARK-38868] Não propaga exceções do predicado de filtro ao otimizar junções externas.
- Atualizações de segurança do sistema operacional.
- 20 de julho de 2022
- Torne os resultados da operação Delta MERGE consistentes quando a origem não for determinística.
- [SPARK-39355] A coluna única usa aspas para construir UnresolvedAttribute.
- [SPARK-39548] O comando CreateView com uma consulta de cláusula de janela aciona um problema de definição de janela incorreta não encontrada.
- [SPARK-39419] Corrige ArraySort para lançar uma exceção quando o comparador retorna nulo.
- Desabilitado o uso de APIs de nuvem internas do Carregador Automático para listagem de diretórios no Azure.
- Atualizações de segurança do sistema operacional.
- 5 de julho de 2022
- [SPARK-39376] Ocultar colunas duplicadas na expansão em estrela do alias de subconsulta de NATURAL/USING JOIN
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2022
- [SPARK-39283]Corrige o deadlock entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator.
- [SPARK-39285] O Spark não deve verificar nomes de campo ao ler arquivos.
- [SPARK-34096] Aprimora o desempenho de nth_value e ignorar nulos durante a janela de deslocamento.
- [SPARK-36718] Corrige a verificação
isExtractOnly
em CollapseProject.
- 2 de junho de 2022
- [SPARK-39093] Evita o erro de compilação de codegen ao dividir intervalos de ano-mês ou intervalos de dia-hora por um integral.
- [SPARK-38990] Evita NullPointerException ao avaliar o formato date_trunc/trunc como uma referência associada.
- Atualizações de segurança do sistema operacional.
- 18 de maio de 2022
- Corrige um possível vazamento de memória interna no Carregador Automático.
- [SPARK-38918] A remoção de coluna aninhada deve filtrar atributos que não pertencem à relação atual.
- [SPARK-37593] Reduz o tamanho da página padrão por LONG_ARRAY_OFFSET se G1GC e ON_HEAP forem usados.
- [SPARK-39084] Corrige df.rdd.isEmpty() usando TaskContext para interromper o enumerador na conclusão da tarefa.
- [SPARK-32268] Adiciona ColumnPruning em injectBloomFilter.
- [SPARK-38974] Filtra funções registradas com um determinado nome de banco de dados em funções de lista.
- [SPARK-38931] Cria um diretório dfs raiz para RocksDBFileManager com um número desconhecido de chaves no 1º ponto de verificação.
- Atualizações de segurança do sistema operacional.
- 19 de abril de 2022
- SDK do Java AWS atualizado da versão 1.11.655 para 1.12.1899.
- Corrigido um problema com bibliotecas com escopo de notebook que não funcionavam em trabalhos de streaming em lotes.
- [SPARK-38616] Acompanhar texto de consulta SQL no Catalyst TreeNode
- Atualizações de segurança do sistema operacional.
- 6 de abril de 2022
- As seguintes funções SQL do Spark agora estão disponíveis com esta versão:
timestampadd()
edateadd()
: adicionar uma duração de tempo em uma unidade especificada a uma expressão de carimbo de data/hora.timestampdiff()
edatediff()
: calcular a diferença de tempo entre duas expressões de carimbo de data/hora em uma unidade especificada.
- O Parquet-MR foi atualizado para 1.12.2
- Suporte aprimorado para esquemas abrangentes em arquivos parquet
- [SPARK-38631] Usa a implementação baseada em Java para descompactar em Utils.unpack.
- [SPARK-38509][SPARK-38481] Cherry-pick de três alterações de
timestmapadd/diff
. - [SPARK-38523] Correção referente à coluna de registro corrompido do CSV.
- [SPARK-38237] Permite que
ClusteredDistribution
exija chaves de clustering completas. - [SPARK-38437] Serialização branda de datetime da fonte de dados.
- [SPARK-38180] Permite expressões de up-cast seguras em predicados de igualdade correlacionados.
- [SPARK-38155] Não permite agregação distinta em subconsultas laterais com predicados sem suporte.
- Atualizações de segurança do sistema operacional.
- As seguintes funções SQL do Spark agora estão disponíveis com esta versão:
Databricks Runtime 9.1 LTS
Consulte Databricks Runtime 9.1 LTS.
- 5 de novembro de 2024
- Atualizações de segurança do sistema operacional.
- 22 de outubro de 2024
- Atualizações de segurança do sistema operacional.
- 10 de outubro de 2024
- Atualizações de segurança do sistema operacional.
- 25 de setembro de 2024
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" em que t é uma tabela vazia expandindo RewriteDistinctAggregates
- Atualizações de segurança do sistema operacional.
- 6 de Setembro de 2024
- Atualizações de segurança do sistema operacional.
- 29 de agosto de 2024
- [SPARK-49065][SQL] A troca de base em formatadores/analisadores legados deve ser compatível com os fusos horários padrão não JVM
- 14 de agosto de 2024
- 1 de agosto de 2024
- Atualizações de segurança do sistema operacional.
- 11 de julho de 2024
- Atualizações de segurança do sistema operacional.
- 17 de junho de 2024
- Atualizações de segurança do sistema operacional.
- 21 de maio de 2024
- [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do repositório de estado e o instantâneo
- Atualizações de segurança do sistema operacional.
- 09 de maio de 2024
- [SPARK-47973][CORE] Registrar site de chamada no SparkContext.stop() e posterior no SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Definir anulável corretamente na chave de junção unida na junção USING externa completa
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2024
- Diversas correções de bugs.
- 11 de abril de 2024
- Atualizações de segurança do sistema operacional.
- 1º de abril de 2024
- Reverter “[SPARK-46861][CORE] Evitar Deadlock no DAGScheduler”
- Atualizações de segurança do sistema operacional.
- 14 de março de 2024
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Correção de um problema em que o uso de uma coleção local como origem em um comando MERGE poderia resultar na métrica de operação numSourceRows informando o dobro do número correto de linhas.
- Atualizações de segurança do sistema operacional.
- 13 de fevereiro de 2024
- [SPARK-46861] Evitar deadlock no DAGScheduler.
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2024
- Atualizações de segurança do sistema operacional.
- 25 de dezembro de 2023
- Para evitar maior latência ao se comunicar pelo TLSv1.3, essa versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
- [SPARK-46058] Adiciona um sinalizador separado para privateKeyPassword.
- [SPARK-39440] Adiciona uma configuração para desabilitar a linha do tempo do evento.
- [SPARK-46132] Suporte a senha de chave para chaves JKS para SSL de RPC.
- 14 de dezembro de 2023
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Instalou um novo pacote
pyarrow-hotfix
para corrigir uma vulnerabilidade do PyArrow RCE. - [SPARK-45859] Tornou objetos UDF em
ml.functions
lentos. - [SPARK-45544] Suporte integrado a SSL em
TransportContext
. - [SPARK-45730] Restrições de tempo aprimoradas para
ReloadingX509TrustManagerSuite
. - Atualizações de segurança do sistema operacional.
- Instalou um novo pacote
- 14 de novembro de 2023
- [SPARK-45545]
SparkTransportConf
herdaSSLOptions
na criação. - [SPARK-45429] Classes auxiliares adicionadas para comunicação SSL RPC.
- [SPARK-45427] Configurações adicionadas de RPC SSL para
SSLOptions
eSparkTransportConf
. - [SPARK-45584] Falha de execução corrigida de subconsulta com
TakeOrderedAndProjectExec
. - [SPARK-45541]
SSLFactory
adicionado. - [SPARK-42205] Removidos os acumuladores de log nos eventos de início Stage e Task.
- Atualizações de segurança do sistema operacional.
- [SPARK-45545]
- 24 de outubro de 2023
- [SPARK-45426] Suporte adicionado para
ReloadingX509TrustManager
. - Atualizações de segurança do sistema operacional.
- [SPARK-45426] Suporte adicionado para
- 13 de outubro de 2023
- Atualizações de segurança do sistema operacional.
- 10 de setembro de 2023
- Correções diversas.
- 30 de agosto de 2023
- Atualizações de segurança do sistema operacional.
- 15 de agosto de 2023
- Atualizações de segurança do sistema operacional.
- 23 de junho de 2023
- A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para que fosse resolvido um problema de segurança.
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2023
- [SPARK-43098] Corrige o bug COUNT de correção quando a subconsulta escalar tiver uma cláusula “group by”.
- [SPARK-43156][SPARK-43098] Teste de bug de contagem de subconsultas escalar estendida com
decorrelateInnerQuery
desativado. - [SPARK-40862] Suporte a subconsultas não agregadas em RewriteCorrelatedScalarSubquery.
- Atualizações de segurança do sistema operacional.
- 2 de junho de 2023
- O analisador JSON no modo
failOnUnknownFields
descarta um registro no modoDROPMALFORMED
e falha diretamente no modoFAILFAST
. - Corrigido um problema na análise de dados resgatados JSON para evitar
UnknownFieldException
. - Corrigido um problema no Carregador Automático em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferido.
- [SPARK-37520] Adicionar as funções de cadeia de caracteres
startswith()
eendswith()
- [SPARK-43413] Corrigida a subconsulta
IN
da nulidadeListQuery
. - Atualizações de segurança do sistema operacional.
- O analisador JSON no modo
- 17 de maio de 2023
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2023
- Atualizações de segurança do sistema operacional.
- 11 de abril de 2023
- Correção de um problema em que a evolução do esquema do Carregador Automático pode entrar em um loop de falha infinito quando uma nova coluna é detectada no esquema de um objeto JSON aninhado.
- [SPARK-42967] Corrigir SparkListenerTaskStart.stageAttemptId quando uma tarefa é iniciada após o cancelamento do estágio.
- 29 de março de 2023
- Atualizações de segurança do sistema operacional.
- 14 de março de 2023
- [SPARK-42484] Aprimorou a mensagem de erro para
UnsafeRowUtils
. - Correções diversas.
- [SPARK-42484] Aprimorou a mensagem de erro para
- 28 de fevereiro de 2023
- Os usuários agora podem ler e gravar tabelas Delta específicas que exigem o Leitor versão 3 e o Gravador versão 7, usando o Databricks Runtime 9.1 LTS ou posterior. Para ter êxito, os recursos de tabela listados no protocolo das tabelas devem ter suporte da versão atual do Databricks Runtime.
- Atualizações de segurança do sistema operacional.
- 16 de fevereiro de 2023
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2023
- Os tipos de tabelas JDBC agora são EXTERNAL por padrão.
- 18 de janeiro de 2023
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2022
- Corrigido um problema com análise de JSON no Carregador Automático quando todas as colunas eram deixadas como cadeias de caracteres (
cloudFiles.inferColumnTypes
não era definido comofalse
) e o JSON continha objetos aninhados. - Atualizações de segurança do sistema operacional.
- Corrigido um problema com análise de JSON no Carregador Automático quando todas as colunas eram deixadas como cadeias de caracteres (
- 15 de novembro de 2022
- Atualização do Apache commons-text para 1.10.0.
- Atualizações de segurança do sistema operacional.
- Correções diversas.
- 1º de novembro de 2022
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas se Alterar feed de dados estivesse desabilitado nessa tabela, os dados dessa coluna preencheriam incorretamente com valores NULL ao executarMERGE
. - Corrigido um problema com o Carregador Automático em que um arquivo podia ser duplicado no mesmo microlote quando
allowOverwrites
estivesse habilitado - [SPARK-40596] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
- 18 de outubro de 2022
- Atualizações de segurança do sistema operacional.
- 5 de outubro de 2022
- Correções diversas.
- Atualizações de segurança do sistema operacional.
- 22 de setembro de 2022
- Os usuários podem definir spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) para reabilitar a listagem interna do Carregador Automático no ADLS Gen2. A listagem interna foi desativada anteriormente devido a problemas de desempenho, mas pode ter gerado um aumento nos custos de armazenamento para os clientes.
- [SPARK-40315] Adicionar hashCode() para Literal de ArrayBasedMapData
- [SPARK-40089] Corrigir a classificação para alguns tipos Decimais
- [SPARK-39887] RemoveRedundantAliases deve manter os aliases que tornam a saída de nós de projeção exclusiva
- 06 de setembro de 2022
- SPARK-40235 Usar o bloqueio interruptível em vez de sincronizado em Executor.updateDependencies()
- [SPARK-35542] Correção: o classificador em buckets criado para várias colunas com os parâmetros splitsArray, inputCols e outputCols não pode ser carregado após salvá-lo
- [SPARK-40079] Adição da validação inputCols do imputador para o caso de entrada vazio
- 24 de agosto de 2022
- [SPARK-39666] Usar UnsafeProjection.create para respeitar
spark.sql.codegen.factoryMode
em ExpressionEncoder - [SPARK-39962] Aplicar projeção quando os atributos de grupo estiverem vazios
- Atualizações de segurança do sistema operacional.
- [SPARK-39666] Usar UnsafeProjection.create para respeitar
- 9 de agosto de 2022
- Atualizações de segurança do sistema operacional.
- 27 de julho de 2022
- Torne os resultados da operação Delta MERGE consistentes quando a origem não for determinística.
- [SPARK-39689] Suporte para
lineSep
de 2 caracteres na fonte de dados CSV - [SPARK-39575]
ByteBuffer#rewind
adicionado apósByteBuffer#get
noAvroDeserializer
. - [SPARK-37392] Corrigido o erro de desempenho do otimizador do catalisador.
- Atualizações de segurança do sistema operacional.
- 13 de julho de 2022
- [SPARK-39419]
ArraySort
gera uma exceção quando o comparador retorna nulo. - Desabilitado o uso de APIs de nuvem internas do Carregador Automático para listagem de diretórios no Azure.
- Atualizações de segurança do sistema operacional.
- [SPARK-39419]
- 5 de julho de 2022
- Atualizações de segurança do sistema operacional.
- Correções diversas.
- 15 de junho de 2022
- [SPARK-39283] Corrigir o deadlock entre
TaskMemoryManager
eUnsafeExternalSorter.SpillableIterator
.
- [SPARK-39283] Corrigir o deadlock entre
- 2 de junho de 2022
- [SPARK-34554]Implementar o método
copy()
emColumnarMap
. - Atualizações de segurança do sistema operacional.
- [SPARK-34554]Implementar o método
- 18 de maio de 2022
- Corrigido um possível vazamento de memória interna no Carregador Automático.
- Atualize a versão do SDK do AWS da 1.11.655 para a 1.11.678.
- [SPARK-38918] A remoção de coluna aninhada deve filtrar atributos que não pertencem à relação atual
- [SPARK-39084] Corrigir
df.rdd.isEmpty()
usandoTaskContext
para interromper o enumerador na conclusão da tarefa - Atualizações de segurança do sistema operacional.
- 19 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Correções diversas.
- 6 de abril de 2022
- [SPARK-38631] Usa a implementação baseada em Java para descompactar em Utils.unpack.
- Atualizações de segurança do sistema operacional.
- 22 de março de 2022
- Alteração do diretório de trabalho atual dos notebooks em clusters de simultaneidade alta com controle de acesso de tabela ou passagem de credencial habilitada para o diretório inicial do usuário. Anteriormente, o diretório ativo era
/databricks/driver
. - [SPARK-38437] Serialização branda de datetime da fonte de dados
- [SPARK-38180] Permitir expressões de up-cast seguras em predicados de igualdade correlacionados
- [SPARK-38155] Não permitir agregação distinta em subconsultas laterais com predicados sem suporte
- [SPARK-27442] Removido um campo de verificação ao ler ou gravar dados em um parquet.
- Alteração do diretório de trabalho atual dos notebooks em clusters de simultaneidade alta com controle de acesso de tabela ou passagem de credencial habilitada para o diretório inicial do usuário. Anteriormente, o diretório ativo era
- 14 de março de 2022
- [SPARK-38236]Os caminhos absolutos de arquivo especificados na tabela criar/alterar são tratados como relativos
- [SPARK-34069] Interromper thread da tarefa se a propriedade local
SPARK_JOB_INTERRUPT_ON_CANCEL
estiver definida como verdadeiro.
- 23 de fevereiro de 2022
- [SPARK-37859] As tabelas SQL criadas com o JDBC com Spark 3.1 não podem ser lidas com o Spark 3.2.
- 8 de fevereiro de 2022
- [SPARK-27442] Removido um campo de verificação ao ler ou gravar dados em um parquet.
- Atualizações de segurança do sistema operacional.
- 1° de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
- 26 de janeiro de 2022
- Corrigido um problema em que as transações simultâneas em tabelas Delta podiam ser executadas em uma ordem não serializável em determinadas condições raras.
- Corrigido um problema em que o comando
OPTIMIZE
poderia falhar quando o dialeto ANSI SQL estava habilitado.
- 19 de janeiro de 2022
- Correções secundárias e aprimoramentos de segurança.
- Atualizações de segurança do sistema operacional.
- 4 de novembro de 2021
- Corrigido um problema que fazia com que fluxos do Fluxo Estruturado falhassem com um
ArrayIndexOutOfBoundsException
. - Corrigiu uma condição de corrida que pode causar uma falha de consulta com uma IOException como
java.io.IOException: No FileSystem for scheme
ou que pode fazer com que as modificações emsparkContext.hadoopConfiguration
não afetem as consultas. - O Apache Spark Conector para compartilhamento Delta foi atualizado para 0.2.0.
- Corrigido um problema que fazia com que fluxos do Fluxo Estruturado falhassem com um
- 20 de outubro de 2021
- Conector do BigQuery atualizado de 0.18.1 para 0.22.2. Isso adiciona suporte para o tipo BigNumeric.