Atualizações de manutenção do Databricks Runtime
Este artigo lista atualizações de manutenção para versões suportadas do Databricks Runtime. Para adicionar uma atualização de manutenção a um cluster existente, reinicie o cluster. Para obter as atualizações de manutenção em versões não suportadas do Databricks Runtime, consulte Atualizações de manutenção para o Databricks Runtime (arquivado).
Nota
Os lançamentos são feitos de forma faseada. Sua conta do Azure Databricks pode não ser atualizada por alguns dias após a data de lançamento inicial.
Lançamentos do Databricks Runtime
Atualizações de manutenção por versão:
- Databricks Runtime 16.2
- Databricks Runtime 16.1
- Databricks Runtime 16.0
- Tempo de execução do Databricks 15.4
- Tempo de execução do Databricks 14.3
- Databricks Runtime 13.3 LTS
- Tempo de execução do Databricks 12.2 LTS
- Tempo de execução do Databricks 11.3 LTS
- Tempo de execução do Databricks 10.4 LTS
- Tempo de execução do Databricks 9.1 LTS
Tempo de execução do Databricks 16.2
Consulte Databricks Runtime 16.2.
- 11 de março de 2025
- O Databricks Runtime 14.3 e acima inclui uma correção para um problema que causou incompatibilidades binárias com o código que instanciou uma classe
SparkListenerApplicationEnd
e foi compilado contra o Apache Spark. Esta incompatibilidade resultou da fusão do SPARK-46399 no Apache Spark. Essa mesclagem incluiu uma alteração que adicionou um argumento padrão ao construtorSparkListenerApplicationEnd
. Para restaurar a compatibilidade binária, essa correção adiciona um único construtor de argumento para a classeSparkListenerApplicationEnd
. - Reverter "[SPARK-48273][SQL] Corrigir reescrita tardia de PlanWithUnresolvedIdentifier"
- [SPARK-50985][SS] Classificar o erro de incompatibilidade de Temporizações do Kafka em vez de afirmar e lançar erro para servidor ausente no KafkaTokenProvider
- [SPARK-51065][SQL] Proibir esquema não anulável quando a codificação Avro é usada para TransformWithState
- [SPARK-51237][SS] Adicionar detalhes da API para novas APIs auxiliares transformWithState conforme necessário
- [SPARK-51222][SQL] Otimizar ReplaceCurrentLike
- [SPARK-51351][SS] Não materialize a saída no Python worker para TWS
- [SPARK-51084][SQL] Atribuir classe de erro apropriada para negativeScaleNotAllowedError
- [SPARK-51249][SS] Corrigindo a codificação NoPrefixKeyStateEncoder e Avro para usar o número correto de bytes de versão
- Atualizações de segurança do sistema operacional.
- O Databricks Runtime 14.3 e acima inclui uma correção para um problema que causou incompatibilidades binárias com o código que instanciou uma classe
- 5 de fevereiro de 2025
- Esta versão inclui uma correção para um problema que afeta a conversão de determinados tipos de dados ao serializar colunas de dados XML resgatadas. Os tipos de dados afetados são datas, carimbos de data/hora do tipo não NTZ e decimais quando o
prefersDecimal
está ativado. Para saber mais sobre a coluna de dados resgatados, consulte O que é a coluna de dados resgatados?. - [SPARK-50770][SS] Remover o âmbito de pacote para as APIs do operador transformWithState
- Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção para um problema que afeta a conversão de determinados tipos de dados ao serializar colunas de dados XML resgatadas. Os tipos de dados afetados são datas, carimbos de data/hora do tipo não NTZ e decimais quando o
Tempo de execução do Databricks 16.1
Consulte Databricks Runtime 16.1.
- 11 de março de 2025
- O Databricks Runtime 14.3 e versões superiores incluem uma correção para um problema que causava incompatibilidades binárias com o código que instanciava uma classe
SparkListenerApplicationEnd
e era compilado contra o Apache Spark. Esta incompatibilidade resultou da fusão do SPARK-46399 no Apache Spark. Essa mesclagem incluiu uma alteração que adicionou um argumento padrão ao construtorSparkListenerApplicationEnd
. Para restaurar a compatibilidade binária, essa correção adiciona um único construtor de argumento para a classeSparkListenerApplicationEnd
. - [SPARK-51084][SQL] Atribuir classe de erro apropriada para negativeScaleNotAllowedError
- Reverter [SPARK-48273][SQL] Corrigir reescrita atrasada de PlanWithUnresolvedIdentifier
- [SPARK-51222][SQL] Otimizar ReplaceCurrentLike
- [SPARK-50985][SS] Classificar o erro de incompatibilidade dos Offsets de Carimbo de Hora do Kafka em vez de fazer afirmação e lançar erro por servidor ausente no KafkaTokenProvider
- [SPARK-50791][SQL] Correção de NPE no tratamento de erros do State Store
- Atualizações de segurança do sistema operacional.
- O Databricks Runtime 14.3 e versões superiores incluem uma correção para um problema que causava incompatibilidades binárias com o código que instanciava uma classe
- Fevereiro 11, 2025
- Esta versão inclui uma correção para um problema que afeta a conversão de determinados tipos de dados ao serializar colunas de dados XML resgatadas. Os tipos de dados afetados são datas, carimbos de data/hora do tipo não NTZ e decimais quando o
prefersDecimal
está ativado. Para saber mais sobre a coluna de dados resgatados, consulte O que é a coluna de dados resgatados?. - [SPARK-50492][SS] Correção de java.util.NoSuchElementException quando a coluna de tempo do evento é removida após a utilização de dropDuplicatesWithinWatermark
- Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção para um problema que afeta a conversão de determinados tipos de dados ao serializar colunas de dados XML resgatadas. Os tipos de dados afetados são datas, carimbos de data/hora do tipo não NTZ e decimais quando o
- 27 de novembro de 2024
- Esta versão inclui uma correção para um problema que pode fazer com que a chave primária numa tabela Delta seja descartada em determinados casos extremos relacionados a compactação automática em segundo plano.
- Esta versão inclui uma correção para um problema que afeta a conversão de determinados tipos de dados ao serializar colunas de dados XML resgatadas. Os tipos de dados afetados são datas, carimbos de data/hora do tipo não NTZ e decimais quando o
prefersDecimal
está ativado. Para saber mais sobre a coluna de dados resgatados, consulte O que é a coluna de dados resgatados?. - Com esta versão, o tamanho do cache usado por um SSD em um nó de computação Databricks se expande dinamicamente para o tamanho inicial do SSD e diminui quando necessário, até o limite de
spark.databricks.io.cache.maxDiskUsage
. Veja Otimizar desempenho com recurso à cache no Azure Databricks. - [SPARK-50338][CORE] Tornar as exceções de LazyTry menos detalhadas
- Atualizações de segurança do sistema operacional.
Tempo de execução do Databricks 16.0
Consulte Databricks Runtime 16.0.
- 11 de março de 2025
- O Databricks Runtime 14.3 e versões superiores inclui uma correção para um problema que causou incompatibilidades binárias com o código que instanciou uma classe
SparkListenerApplicationEnd
e foi compilado contra o Apache Spark. Esta incompatibilidade resultou da fusão do SPARK-46399 no Apache Spark. Essa mesclagem incluiu uma alteração que adicionou um argumento padrão ao construtorSparkListenerApplicationEnd
. Para restaurar a compatibilidade binária, essa correção adiciona um único construtor de argumento para a classeSparkListenerApplicationEnd
. - [SPARK-51084][SQL] Atribuir classe de erro apropriada para negativeScaleNotAllowedError
- [SPARK-51222][SQL] Otimizar ReplaceCurrentLike
- [SPARK-50985][SS] Classificar erro de incompatibilidade de offsets de timestamp do Kafka em vez de afirmar e lançar um erro para servidor ausente em KafkaTokenProvider
- [SPARK-50791][SQL] Corrigir NPE no tratamento de erros do State Store
- Atualizações de segurança do sistema operacional.
- O Databricks Runtime 14.3 e versões superiores inclui uma correção para um problema que causou incompatibilidades binárias com o código que instanciou uma classe
- Fevereiro 11, 2025
- Esta versão inclui uma correção para um problema que afeta a conversão de determinados tipos de dados ao serializar colunas de dados XML resgatadas. Os tipos de dados afetados são datas, carimbos de data/hora do tipo não NTZ e decimais quando o
prefersDecimal
está ativado. Para saber mais sobre a coluna de dados resgatados, consulte O que é a coluna de dados resgatados?. -
[SPARK-50705][SQL] Tornar
QueryPlan
sem bloqueio - [SPARK-50492][SS] Corrigir java.util.NoSuchElementException quando a coluna de tempo do evento é removida após usar dropDuplicatesWithinWatermark
- Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção para um problema que afeta a conversão de determinados tipos de dados ao serializar colunas de dados XML resgatadas. Os tipos de dados afetados são datas, carimbos de data/hora do tipo não NTZ e decimais quando o
- 4 de dezembro de 2024
- A declaração
USE CATALOG
apoia agora a cláusulaIDENTIFIER
. Com esse suporte, você pode parametrizar o catálogo atual com base em uma variável de cadeia de caracteres ou marcador de parâmetro. - Esta versão inclui uma correção para um problema que pode fazer com que a chave primária numa tabela Delta seja descartada em determinados casos extremos relacionados à compactação automática de fundo.
- Com esta versão, o tamanho do cache usado por um SSD em um nó de computação Databricks se expande dinamicamente para o tamanho inicial do SSD e diminui quando necessário, até o limite de
spark.databricks.io.cache.maxDiskUsage
. Veja Otimizar desempenho com recurso à cache no Azure Databricks. - [SPARK-50322][SQL] Corrigir identificador parametrizado em uma subconsulta
-
[SPARK-50034][CORE] Corrigir o Reporte Incorreto de Erros Fatais como Exceções Não Detectadas em
SparkUncaughtExceptionHandler
- [SPARK-47435][SQL] Corrigir problema de overflow do MySQL TINYINT não assinado
- [SPARK-49757][SQL] Suporte a IDENTIFIER expressão na instrução SETCATALOG
- [SPARK-50426][PYTHON] Evite a pesquisa de fontes de dados Python estáticas ao usar fontes de dados incorporadas ou Java
- [SPARK-50338][CORE] Tornar as exceções de LazyTry menos detalhadas
- Atualizações de segurança do sistema operacional.
- A declaração
- 10 de dezembro de 2024
- (Alteração comprometedora) No Databricks Runtime 15.4 e versões posteriores, o tratamento de expressões regulares no Photon é atualizado para alinhar-se com o comportamento das expressões regulares do Apache Spark. Anteriormente, as funções de expressão regular executadas pelo Photon, como
split()
eregexp_extract()
, aceitavam algumas expressões regulares rejeitadas pelo analisador Spark. Para manter a consistência com o Apache Spark, as consultas Photon agora falharão para expressões regulares que o Spark considera não válidas. Devido a essa alteração, você poderá ver erros se o código do Spark incluir expressões regulares inválidas. Por exemplo, a expressãosplit(str_col, '{')
, que contém uma chave não correspondente e foi anteriormente aceita por Photon, agora não funciona. Para corrigir essa expressão, você pode escapar do caractere de chave:split(str_col, '\\{')
. O comportamento de Photon e Spark também diferiu na correspondência de expressões regulares de caracteres não-ASCII. Isso também é atualizado para que o Photon corresponda ao comportamento do Apache Spark. - Com esta versão, agora você pode consultar a função
vector_search
usandoquery_text
para entrada de texto ouquery_vector
para incorporar entrada. - Agora você pode definir um tempo limite para consultas do Spark Connect usando a propriedade de configuração do Spark
spark.databricks.execution.timeout
. Para notebooks executados em computação sem servidor, o valor padrão é9000
(segundos). Os trabalhos executados na computação sem servidor e na computação com modo de acesso padrão não têm um tempo limite, a menos que essa propriedade de configuração esteja definida. Uma execução que dura mais do que o tempo limite especificado resulta em um erro deQUERY_EXECUTION_TIMEOUT_EXCEEDED
. - [SPARK-49843][SQL] Corrigir a alteração do comentário em colunas char/varchar
- [c0][SPARK-49924][/c0][SQL] Manter após a substituição de
containsNull
- [SPARK-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída do processo filho
- [SPARK-48780][SQL] Tornar genérica a gestão de erros em NamedParametersSupport para lidar com funções e procedimentos
- [SPARK-49876][CONNECT] Livre-se de bloqueios globais do Spark Connect Service
- [SPARK-49905] Use ShuffleOrigin dedicado para operador com estado para evitar que o shuffle seja modificado a partir do AQE
- [SPARK-49615] Correção de bug: Tornar a validação do esquema de coluna ML compatível com a configuração do Spark spark.sql.caseSensitive.
- [SPARK-48782][SQL] Adicionar suporte para executar procedimentos em catálogos
- [SPARK-49863][SQL] Corrigir o NormalizeFloatingNumbers para preservar a nulidade das estruturas aninhadas
- [SPARK-49829] Revisar a otimização ao adicionar entradas ao armazenamento de estado na junção de fluxo a fluxo (correção de exatidão)
- Reverter "[SPARK-49002][SQL] Lidar de forma consistente com localizações inválidas em WAREHOUSE/SCHEMA/TABLE/PARTITION/DIRECTORY"
- [SPARK-50028][CONNECT] Substitua bloqueios globais no ouvinte do servidor Spark Connect por bloqueios refinados
- [SPARK-49615] [ML] Assegure que toda a validação do esquema dos datasets de transformadores de funcionalidades de ML esteja em conformidade com a configuração "spark.sql.caseSensitive".
- [SPARK-50124][SQL] LIMIT/OFFSET deve preservar a ordenação de dados
- Atualizações de segurança do sistema operacional.
- (Alteração comprometedora) No Databricks Runtime 15.4 e versões posteriores, o tratamento de expressões regulares no Photon é atualizado para alinhar-se com o comportamento das expressões regulares do Apache Spark. Anteriormente, as funções de expressão regular executadas pelo Photon, como
Tempo de execução do Databricks 15.4
Consulte Databricks Runtime 15.4 LTS.
- 11 de março de 2025
- Databricks Runtime 14.3 e posteriores inclui uma correção para um problema que causava incompatibilidades binárias com o código que instanciava uma classe
SparkListenerApplicationEnd
e foi compilado contra Apache Spark. Esta incompatibilidade resultou da fusão do SPARK-46399 no Apache Spark. Essa mesclagem incluiu uma alteração que adicionou um argumento padrão ao construtorSparkListenerApplicationEnd
. Para restaurar a compatibilidade binária, essa correção adiciona um único construtor de argumento para a classeSparkListenerApplicationEnd
. - [SPARK-50985][SS] Classificar incompatibilidade de deslocamentos de timestamp do Kafka em vez de uma asserção e um lançamento de erro devido à ausência de servidor em KafkaTokenProvider
- [SPARK-50791][SQL] Corrigir NPE no tratamento de erros do "State Store"
- [SPARK-50310][PYTHON] Melhorar o desempenho da coluna quando o DQC está desativado
- [SPARK-51222][SQL] Otimizar ReplaceCurrentLike
- [SPARK-49525][SS][CONNECT] Pequena melhoria de log para o Server Side Streaming Query ListenerBus Listener
- [SPARK-51084][SQL] Atribuir classe de erro apropriada para negativeScaleNotAllowedError
- Atualizações de segurança do sistema operacional.
- Databricks Runtime 14.3 e posteriores inclui uma correção para um problema que causava incompatibilidades binárias com o código que instanciava uma classe
- Fevereiro 11, 2025
- Esta versão inclui uma correção para um problema que afeta a conversão de determinados tipos de dados ao serializar colunas de dados XML resgatadas. Os tipos de dados afetados são datas, carimbos de data/hora do tipo não NTZ e decimais quando o
prefersDecimal
está ativado. Para saber mais sobre a coluna de dados resgatados, consulte O que é a coluna de dados resgatados?. - [SPARK-50492][SS] Corrigir java.util.NoSuchElementException quando a coluna de tempo do evento é removida após a utilização de dropDuplicatesWithinWatermark
- Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção para um problema que afeta a conversão de determinados tipos de dados ao serializar colunas de dados XML resgatadas. Os tipos de dados afetados são datas, carimbos de data/hora do tipo não NTZ e decimais quando o
- 10 de dezembro de 2024
- A declaração
USE CATALOG
apoia agora a cláusulaIDENTIFIER
. Com esse suporte, você pode parametrizar o catálogo atual com base em uma variável de cadeia de caracteres ou marcador de parâmetro. - Esta versão inclui uma correção para um problema que pode fazer com que a chave primária numa tabela Delta seja descartada em determinados casos extremos relacionados à compactação automática de fundo.
- Com esta versão, o tamanho do cache usado por um SSD em um nó de computação Databricks se expande dinamicamente para o tamanho inicial do SSD e diminui quando necessário, até o limite de
spark.databricks.io.cache.maxDiskUsage
. Veja Otimizar desempenho com recurso à cache no Azure Databricks. - O pacote pyodbc é atualizado da versão 4.0.38 para a versão 4.0.39. Esta alteração é necessária porque um bug foi encontrado na versão 4.0.38 e essa versão foi removida do PyPI.
- [SPARK-50329][SQL] corrigir InSet$toString
- [SPARK-47435][SQL] Corrigir problema de estouro do MySQL TINYINT NÃO ASSINADO
- [SPARK-49757][SQL] Suportar a IDENTIFIER expressão na instrução SETCATALOG
- [SPARK-50426][PYTHON] Evite a pesquisa de fontes de dados Python estáticas ao usar fontes de dados incorporadas ou Java
- [SPARK-48863][SQL] corrigir ClassCastException ao analisar JSON com "spark.sql.json.enablePartialResults" ativado
- [SPARK-50310][PYTHON] Adicionar um sinalizador para desativar DataFrameQueryContext para PySpark
- [15.3-15.4] [SPARK-50034][CORE] Corrigir o relato incorreto de erros fatais como exceções não detetadas em
SparkUncaughtExceptionHandler
- Atualizações de segurança do sistema operacional.
- A declaração
- 26 de novembro de 2024
- Com esta versão, agora você pode consultar a função
vector_search
usandoquery_text
para entrada de texto ouquery_vector
para incorporar entrada. - Agora você pode definir um tempo limite para consultas do Spark Connect usando a propriedade de configuração do Spark
spark.databricks.execution.timeout
. Para notebooks executados em computação sem servidor, o valor padrão é9000
(segundos). Os trabalhos executados na computação sem servidor e na computação com modo de acesso padrão não têm um tempo limite, a menos que essa propriedade de configuração esteja definida. Uma execução que dura mais do que o tempo limite especificado resulta em um erro deQUERY_EXECUTION_TIMEOUT_EXCEEDED
. - [SPARK-50322][SQL] Corrigir identificador parametrizado em uma subconsulta
- [SPARK-49615] [ML] Assegure que toda a validação do esquema dos conjuntos de dados dos transformadores de características de ML esteja em conformidade com a configuração "spark.sql.caseSensitive".
- [SPARK-50124][SQL] LIMIT/OFFSET deve preservar a ordenação de dados
- Atualizações de segurança do sistema operacional.
- Com esta versão, agora você pode consultar a função
- 5 de novembro de 2024
- (Mudança importante) No Databricks Runtime 15.4 e acima, o tratamento de expressões regulares no Photon é atualizado para corresponder ao comportamento das expressões regulares do Apache Spark. Anteriormente, as funções de expressão regular executadas pelo Photon, como
split()
eregexp_extract()
, aceitavam algumas expressões regulares rejeitadas pelo analisador Spark. Para manter a consistência com o Apache Spark, as consultas Photon agora falharão para expressões regulares que o Spark considera não válidas. Devido a essa alteração, você poderá ver erros se o código do Spark incluir expressões regulares inválidas. Por exemplo, a expressãosplit(str_col, '{')
, que contém uma chave não correspondente e foi anteriormente aceita por Photon, agora não funciona. Para corrigir essa expressão, você pode escapar do caractere de chave:split(str_col, '\\{')
. O comportamento do Photon e do Spark também diferiu ao comparar expressões regulares de caracteres não ASCII. Isso também é atualizado para que o Photon corresponda ao comportamento do Apache Spark. - [SPARK-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída de filhos
- [SPARK-49867][SQL] Melhorar a mensagem de erro quando o índice está fora dos limites ao chamar GetColumnByOrdinal
- [SPARK-49863][SQL] Corrigir o NormalizeFloatingNumbers para preservar a nullabilidade das estruturas aninhadas
- [SPARK-49829] Revisar a otimização na adição de entrada ao armazenamento de estado na junção de fluxo a fluxo (correção de precisão)
- [SPARK-49905] Utilize o ShuffleOrigin dedicado para o operador com estado para prevenir que o shuffle seja modificado pela AQE.
- [SPARK-46632][SQL] Corrigir a eliminação de subexpressões quando expressões ternárias equivalentes têm filhos diferentes
- [SPARK-49443][SQL][PYTHON] Implementar a expressão to_variant_object e fazer com que as expressões schema_of_variant imprimam OBJECT para Objetos Variantes.
-
[SPARK-49615] Correção de bugs: Faça com que a validação do esquema da coluna ML esteja em conformidade com o spark config
spark.sql.caseSensitive
.
- (Mudança importante) No Databricks Runtime 15.4 e acima, o tratamento de expressões regulares no Photon é atualizado para corresponder ao comportamento das expressões regulares do Apache Spark. Anteriormente, as funções de expressão regular executadas pelo Photon, como
- Outubro 22, 2024
- [SPARK-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída de filhos
- [SPARK-49867][SQL] Melhorar a mensagem de erro quando o índice está fora dos limites ao chamar GetColumnByOrdinal
- [SPARK-49863][SQL] Corrigir o NormalizeFloatingNumbers para preservar a nulabilidade das estruturas aninhadas
- [SPARK-49829] Revisar a otimização na incorporação de dados no armazenamento de estado numa junção de fluxo a fluxo (correção de erros)
- [SPARK-49905] Use ShuffleOrigin dedicado para o operador stateful para evitar que o shuffle seja modificado pelo AQE
- [SPARK-46632][SQL] Corrigir a eliminação de subexpressões quando as expressões ternárias equivalentes têm filhos diferentes
- [SPARK-49443][SQL][PYTHON] Implementar expressão to_variant_object e fazer com que expressões schema_of_variant imprimam OBJECT para Variant Objects
-
[SPARK-49615] Correção de bugs: Faça com que a validação do esquema da coluna ML esteja em conformidade com o spark config
spark.sql.caseSensitive
.
- 10 de outubro de 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar campos de esquema ao remover GetArrayStructFields
- [SPARK-49688][CONNECT] Corrigir uma concorrência de dados entre interrupção e execução do plano
- [BACKPORT] [SPARK-49474][SS] Classificar a classe de Erro para erros da função de utilizador FlatMapGroupsWithState
- [SPARK-49460][SQL] Revisão: corrigir o risco potencial de NPE
- 25 de setembro de 2024
- [SPARK-49628][SQL] ConstantFolding deve copiar a expressão com estado antes de avaliar
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- [SPARK-49492][CONECTAR] Tentativa de reanexar em ExecutionHolder inativo
- [SPARK-49458][CONECTAR][PYTHON] Fornecer o ID da sessão do servidor através do ReattachExecute
- [SPARK-49017]A instrução SQL INSERT falha quando vários parâmetros estão a ser usados
- [SPARK-49451] Permitir chaves duplicadas no parse_json.
- Correções de bugs diversos.
- 17 de setembro de 2024
- [SPARK-48463][ML] Tornar o Binarizer, Bucketizer, Vector Assembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer e Interactor compatíveis com colunas de entrada aninhadas
- [SPARK-49409][CONNECT] Ajustar o valor padrão de CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-49526][CONNECT][HOTFIX-15.4.2] Suporte a caminhos no formato Windows no ArtifactManager
- Reverter "[SPARK-48482][PYTHON] dropDuplicates e dropDuplicatesWithinWatermark devem aceitar argumentos de comprimento variável"
- [SPARK-43242][CORE] Corrigir o erro de 'Tipo inesperado de BlockId' no diagnóstico de corrupção durante o shuffle
- [SPARK-49366][CONNECT] Tratar o nó União como uma folha na resolução de colunas do dataframe
- [SPARK-49018][SQL] Corrigir approx_count_distinct não funciona corretamente com a ordenação
-
[SPARK-49460][SQL] Remover
cleanupResource()
de EmptyRelationExec - [SPARK-49056][SQL] ErrorClassesJsonReader não pode manipular null corretamente
- [SPARK-49336][CONNECT] Limitar o nível de aninhamento ao truncar uma mensagem de protobuf
- 29 de agosto de 2024
- A saída de uma instrução
SHOW CREATE TABLE
agora inclui quaisquer filtros de linha ou máscaras de coluna definidas numa vista materializada ou tabela de streaming. Ver SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtrar dados confidenciais de tabela usando filtros de linha e máscaras de coluna. - Na computação configurada com o modo de acesso compartilhado, as leituras e gravações em lote Kafka agora têm as mesmas limitações impostas que as documentadas para o Structured Streaming. Consulte Limitações e requisitos de streaming para o modo de acesso padrão do Unity Catalog.
- [SPARK-48941][SPARK-48970] Correções no Backport para escritor/leitor de ML
-
[SPARK-49074][SQL] Corrigir variante com
df.cache()
- [SPARK-49263][CONNECT] Cliente Python do Spark Connect: manipular de forma consistente as opções de leitura booleanas do DataFrame
- [SPARK-48955][SQL] Incorporar alterações do ArrayCompact na versão 15.4
- [SPARK-48937][SQL] Adicionar suporte de ordenação para expressões de strings StringToMap
- [SPARK-48929] Corrigir erro interno de vista e limpar o contexto de exceção do analisador
- [SPARK-49125][SQL] Permitir nomes de colunas duplicados na escrita CSV
- [SPARK-48934][SS] Tipos datetime do Python foram convertidos incorretamente para a definição de tempo limite no applyInPandasWithState.
- [SPARK-48843] Evite loop infinito com BindParameters
- [SPARK-48981] Corrigir o método simpleString de StringType em pyspark para ordenações
- [SPARK-49065][SQL] O rebaseamento nos formatadores/analisadores legados deve suportar fusos horários que não são o padrão da JVM
- [SPARK-48896][SPARK-48909][SPARK-48883] Correções de backport do Spark ML writer
- [FAÍSCA-48725][SQL] Integrar CollationAwareUTF8String.lowerCaseCodePoints em expressões de string
- [SPARK-48978][SQL] Implementar o percurso rápido ASCII no suporte de collation para UTF8_LCASE
- [SPARK-49047][PYTHON][CONECTAR] Truncar a mensagem para o registo
- [SPARK-49146][SS] Mover erros de afirmação relacionados à marca temporal ausente nas consultas de streaming no modo de acréscimo para a estrutura de gestão de erros
- [SPARK-48977][SQL] Otimizar a pesquisa de cadeias de caracteres no agrupamento UTF8_LCASE
- [SPARK-48889][SS] testStream para descarregar armazenamentos de estado antes de terminar
- [SPARK-48463] Tornar o StringIndexer compatível com colunas de entrada aninhadas
- [SPARK-48954] try_mod() substitui try_remainder()
- Atualizações de segurança do sistema operacional.
- A saída de uma instrução
Tempo de execução do Databricks 14.3
Consulte Databricks Runtime 14.3 LTS.
- 11 de março de 2025
- O Databricks Runtime 14.3 e posteriores inclui uma correção para um problema que causou incompatibilidades binárias com o código que instanciou uma classe
SparkListenerApplicationEnd
e foi compilado contra o Apache Spark. Esta incompatibilidade resultou da fusão do SPARK-46399 no Apache Spark. Essa mesclagem incluiu uma alteração que adicionou um argumento padrão ao construtorSparkListenerApplicationEnd
. Para restaurar a compatibilidade binária, essa correção adiciona um único construtor de argumento para a classeSparkListenerApplicationEnd
. - [SPARK-50791][SQL] Corrigir NPE no tratamento de erros do State Store
-
[SPARK-50705][SQL] Tornar
QueryPlan
sem bloqueio - [SPARK-49525][SS][CONNECT] Pequena melhoria de log para o Server Side Streaming Query ListenerBus Listener
- Atualizações de segurança do sistema operacional.
- O Databricks Runtime 14.3 e posteriores inclui uma correção para um problema que causou incompatibilidades binárias com o código que instanciou uma classe
- Fevereiro 11, 2025
- Esta versão inclui uma correção para um problema que afeta a conversão de determinados tipos de dados ao serializar colunas de dados XML resgatadas. Os tipos de dados afetados são datas, carimbos de data/hora do tipo não NTZ e decimais quando o
prefersDecimal
está ativado. Para saber mais sobre a coluna de dados resgatados, consulte O que é a coluna de dados resgatados?. - [SPARK-50492][SS] Corrigir java.util.NoSuchElementException quando a coluna de tempo do evento é removida após aplicar dropDuplicatesWithinWatermark
- [SPARK-51084][SQL] Atribuir classe de erro apropriada para negativeScaleNotAllowedError
- Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção para um problema que afeta a conversão de determinados tipos de dados ao serializar colunas de dados XML resgatadas. Os tipos de dados afetados são datas, carimbos de data/hora do tipo não NTZ e decimais quando o
- 10 de dezembro de 2024
- Esta versão inclui uma correção para um problema que pode fazer com que a chave primária numa tabela Delta seja eliminada em determinados casos extremos relacionados com a compactação automática em segundo plano.
- [SPARK-50329][SQL] corrigir InSet$toString
- Atualizações de segurança do sistema operacional.
- 26 de novembro de 2024
- [SPARK-49615] [ML] Assegure que toda a validação do esquema do conjunto de dados dos transformadores de funcionalidades de ML esteja em conformidade com a configuração "spark.sql.caseSensitive".
- Atualizações de segurança do sistema operacional.
- 5 de novembro de 2024
- [SPARK-48843] Evite loop infinito com BindParameters
- [SPARK-49829] Revisar a otimização da adição de entradas ao armazenamento de estado na junção entre fluxos (correção de exatidão)
- [SPARK-49863][SQL] Corrigir o NormalizeFloatingNumbers para preservar a nullabilidade das estruturas aninhadas
- [BACKPORT] [SPARK-49326][SS] Classificar a classe de erro para erro de função de utilizador no Foreach sink
- [SPARK-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída de elemento filho
- [SPARK-46632][SQL] Corrigir a eliminação de subexpressões quando expressões ternárias equivalentes têm filhos diferentes
- [SPARK-49905] Use ShuffleOrigin dedicado para operador com estado para evitar que a AQE modifique o shuffle
- Atualizações de segurança do sistema operacional.
- Outubro 22, 2024
- [SPARK-48843] Evite loop infinito com BindParameters
- [SPARK-49863][SQL] Corrigir o NormalizeFloatingNumbers para preservar os valores nulos das estruturas aninhadas
- [SPARK-49905] Use ShuffleOrigin dedicado para operador stateful para prevenir que o shuffle seja alterado pelo AQE
- [SPARK-46632][SQL] Corrigir a eliminação de subexpressões quando expressões ternárias equivalentes têm filhos diferentes
- [SPARK-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída de filhos
- [BACKPORT] [SPARK-49326][SS] Classificar a classe de erro para erro de função de utilizador no Foreach sink
- [SPARK-49829] Revisar a otimização na adição de entrada ao armazenamento de estado na junção de fluxo a fluxo (correção de precisão)
- Atualizações de segurança do sistema operacional.
- 10 de outubro de 2024
- [BACKPORT] [SPARK-49474][SS] Classificar erro de função de utilizador FlatMapGroupsWithState como classe de erro
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar campos de esquema ao remover GetArrayStructFields
- [SPARK-49688][CONNECT] Corrigir uma condição de corrida entre interrupção e execução de plano
- 25 de setembro de 2024
- [SPARK-48810][CONNECT] A API Session stop() deve ser idempotente e não deve falhar se a sessão já estiver fechada pelo servidor
- [SPARK-48719][SQL] Corrigir o bug de cálculo de 'RegrS...
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- [SPARK-49628][SQL] ConstantFolding deve copiar a expressão com estado antes de avaliar
- [SPARK-49492][CONECTAR] Tentativa de reconectar a ExecutionHolder inativo
- Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- [SPARK-49336][CONNECT] Limitar o nível de aninhamento ao truncar uma mensagem protobuf
- [SPARK-43242][CORE] Corrigir erro 'Tipo inesperado de BlockId' no diagnóstico de corrupção durante o shuffle
- [SPARK-48463][ML] Tornar o Binarizer, Bucketizer, Vector Assembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer e Interactor compatíveis com colunas de entrada aninhadas
- [SPARK-49526][CONNECT] Suportar caminhos de estilo Windows no ArtifactManager
- [SPARK-49409][CONNECT] Ajustar o valor padrão de CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-49366][CONNECT] Tratar o nó União como uma folha na resolução de colunas do dataframe
- 29 de agosto de 2024
- [SPARK-49146][SS] Mover erros de asserção relacionados à falta de marca temporal nas consultas em modo de acréscimo de streaming para o framework de erros
-
[SPARK-48862][PYTHON][CONNECT] Evite chamar
_proto_to_string
quando o nível INFO não estiver ativado - [SPARK-49263][CONECTAR] Cliente Python do Spark Connect: manipulação consistente das opções booleanas do leitor de DataFrame
- 14 de agosto de 2024
- [FAÍSCA-48941][FAÍSCA-48970] Correções para escritor/leitor no Backport ML
- [SPARK-48706][PYTHON] O UDF em Python em funções de ordem superior não deve gerar um erro interno
- [SPARK-49056][SQL] ErrorClassesJsonReader não consegue lidar com null corretamente
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-49065][SQL] O rebasamento nos formatadores/analisadores herdados deve suportar fusos horários que não são padrão da JVM
- [SPARK-48934][SS] Os tipos datetime do Python foram convertidos incorretamente para a definição do tempo limite em applyInPandasWithState
- 1 de agosto de 2024
- Esta versão inclui uma correção de bug para as
ColumnVector
classes eColumnarArray
na interface Java do Spark. Antes dessa correção, umArrayIndexOutOfBoundsException
pode ser lançado ou dados incorretos retornados quando uma instância de uma dessas classes continha valoresnull
. - Na computação sem servidor para blocos de anotações e trabalhos, o modo ANSI SQL é habilitado por padrão. Consulte parâmetros de configuração do Spark suportados.
- Na computação configurada com o modo de acesso compartilhado, as leituras e gravações em lote Kafka agora têm as mesmas limitações impostas que as documentadas para o Structured Streaming. Consulte Limitações e requisitos de streaming para o modo de acesso padrão do Unity Catalog.
- A saída de uma instrução
SHOW CREATE TABLE
agora inclui quaisquer filtros de linha ou máscaras de coluna definidas numa vista materializada ou tabela de streaming. Ver SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtrar dados confidenciais de tabela usando filtros de linha e máscaras de coluna. - [SPARK-48896][SPARK-48909][SPARK-48883] Correções de backport do Spark ML writer
- [SPARK-48889][SS] testStream para descarregar stores de estado antes de terminar
- [SPARK-48705][PYTHON] Use explicitamente worker_main quando começa com pyspark
- [SPARK-48047][SQL] Reduzir a pressão de memória das tags TreeNode vazias
- [SPARK-48544][SQL] Reduza a pressão de memória de BitSets vazios de TreeNode
- [FAÍSCA-46957][CORE] Descomissionamento de arquivos shuffle migrados devem ser capazes de ser limpos pelo executor
- [SPARK-48463] Tornar o StringIndexer compatível com colunas de entrada aninhadas
- [SPARK-47202][PYTHON] Corrigir erro de digitação que prejudica datetimes com tzinfo
- [SPARK-47713][SQL][CONNECT] Corrigir uma falha de associação automática
- Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção de bug para as
- Julho 11, 2024
- (Mudança de comportamento) Os DataFrames armazenados em cache em fontes de tabelas Delta agora tornam-se inválidos caso a tabela de origem seja substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()
para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - O Snowflake JDBC Driver é atualizado para a versão 3.16.1.
- Esta versão inclui uma correção para um problema que impedia que a guia Ambiente da Interface do Usuário do Spark fosse exibida corretamente ao ser executada nos Serviços de Contêiner do Databricks.
- Na computação sem servidor para blocos de anotações e trabalhos, o modo ANSI SQL é habilitado por padrão. Consulte parâmetros de configuração do Spark suportados.
- Para ignorar partições inválidas ao ler dados, as fontes de dados baseadas em arquivo, como Parquet, ORC, CSV ou JSON, podem definir a opção de fonte de dados ignoreInvalidPartitionPaths como true. Por exemplo: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...). Você também pode usar a configuração SQL `spark.sql.files.ignoreInvalidPartitionPaths`. No entanto, a opção de fonte de dados tem precedência sobre a configuração SQL. Essa configuração é falsa por padrão.
- [SPARK-48648][PYTHON][CONNECT] Garantir que SparkConnectClient.tags sejam devidamente threadlocal
- [SPARK-48445][SQL] Não colocar UDFs em linha com operações custosas
- [SPARK-48481][SQL][SS] Não aplique OptimizeOneRowPlan contra um conjunto de dados em streaming
- [SPARK-48383][SS] Apresentar um erro mais claro para partições incompatíveis na opção startOffset no Kafka.
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com group-by em colunas não equivalentes que foram permitidas de forma incorreta
- [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
- [SPARK-48273][SQL] Corrigir a reescrita tardia de PlanWithUnresolvedIdentifier
- [SPARK-48252][SQL] Atualizar CommonExpressionRef quando necessário
- [SPARK-48475][PYTHON] Otimizar _get_jvm_function no PySpark.
- [SPARK-48292][CORE] Revert [SPARK-39195][SQL] Spark OutputCommitCoordinator deve abortar o estágio quando o arquivo confirmado não está consistente com o status da tarefa
- Atualizações de segurança do sistema operacional.
- (Mudança de comportamento) Os DataFrames armazenados em cache em fontes de tabelas Delta agora tornam-se inválidos caso a tabela de origem seja substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
- 17 de junho de 2024
-
applyInPandasWithState()
está disponível em computação com modo de acesso padrão. - Corrige um bug em que a otimização da janela de ordenação usando Photon TopK lidava incorretamente com partições que contêm structs.
- [SPARK-48310][PYTHON][CONNECT] As propriedades em cache devem retornar cópias
-
[SPARK-48276][PYTHON][CONNECT] Adicionar o método ausente
__repr__
paraSQLExpression
- [SPARK-48294][SQL] Manipular minúsculas em nestedTypeMissingElementTypeError
- Atualizações de segurança do sistema operacional.
-
- 21 de maio de 2024
- (Mudança de comportamento)
dbutils.widgets.getAll()
agora tem suporte para obter todos os valores de widget em um caderno. - Corrigido um bug na função try_divide() em que entradas contendo decimais resultavam em exceções inesperadas.
- [SPARK-48056][CONNECT][PYTHON] Reexecutar o plano se ocorrer um erro de SESSION_NOT_FOUND e nenhuma resposta parcial for recebida.
- [SPARK-48146][SQL] Corrigir função agregada no elemento filho de uma expressão 'With'
- [SPARK-47986][CONNECT][PYTHON] Não é possível criar uma nova sessão quando a sessão padrão é fechada pelo servidor
- [SPARK-48180][SQL] Melhorar o erro quando a chamada UDTF com TABLE arg esquece parênteses em torno de vários PARTITION/ORDER BY exprs
- [SPARK-48016][SQL] Corrigir um bug na função try_divide ao lidar com decimais
- [SPARK-48197][SQL] Evitar erro de afirmação para função lambda inválida
- [SPARK-47994][SQL] Corrigir bug com o envio para baixo do filtro de coluna CASE WHEN no SQLServer
- [SPARK-48173][SQL] CheckAnalysis deve ver todo o plano de consulta completo
- [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do armazenamento de estado e o snapshotting
- Atualizações de segurança do sistema operacional.
- (Mudança de comportamento)
- 9 de maio de 2024
- (Alteração de comportamento)
applyInPandas
emapInPandas
os tipos UDF agora são suportados na computação em modo de acesso partilhado a executar o Databricks Runtime 14.3 e superior. - [SPARK-47739][SQL] Registrar tipo Avro lógico
- [SPARK-47941] [SS] [Conectar] Propagar erros de inicialização do trabalhador ForeachBatch para os utilizadores do PySpark
- [SPARK-48010][SQL] Evite chamadas repetidas para conf.resolver em resolveExpression
-
[SPARK-48044][PYTHON][CONNECT] Cache
DataFrame.isStreaming
- [SPARK-47956][SQL] Verificação de integridade para referência de LCA não resolvida
- [SPARK-47543][CONNECT][PYTHON] Inferir dicionário como MapType de Pandas DataFrame para permitir a criação de DataFrame
- [SPARK-47819][CONECTAR][Cherry-pick-14.3] Usar callback assíncrono para limpeza pós-execução
- [SPARK-47764][CORE][SQL] Limpeza de dependências de shuffle com base no ShuffleCleanupMode
- [SPARK-48018][SS] Corrigir groupId nulo que causa erro de parâmetro ausente ao lançar a exceção KafkaException.couldNotReadOffsetRange
- [SPARK-47839][SQL] Corrigir bug agregado em RewriteWithExpression
- [SPARK-47371] [SQL] XML: Ignorar etiquetas de linha encontradas em CDATA
- [SPARK-47895][SQL] agrupar por tudo deve ser idempotente
- [SPARK-47973][CORE] Registar local de chamada em SparkContext.stop() e posteriormente em SparkContext.assertNotStopped()
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento)
- 25 de abril de 2024
-
[FAÍSCA-47543][CONECTAR][PYTHON] Inferir
dict
comoMapType
a partir do Pandas DataFrame para permitir a criação do DataFrame - [SPARK-47694][CONECTAR] Permitir que o tamanho máximo da mensagem seja configurável no lado do cliente
- [SPARK-47664][PYTHON][CONNECT][Cherry-pick-14.3] Validar o nome da coluna com o esquema armazenado em cache
- [SPARK-47862][PYTHON][CONNECT]Corrigir a geração de arquivos proto
- Reverter "[SPARK-47543][CONNECT][PYTHON] Inferir
dict
comoMapType
a partir de um DataFrame do Pandas para permitir a criação de DataFrames" - [SPARK-47704][SQL] A interpretação JSON falha com "java.lang.ClassCastException" quando spark.sql.json.enablePartialResults está ativado
- [SPARK-47812][CONNECT] Suporte à serialização de SparkSession para o worker ForEachBatch
- [SPARK-47818][CONECTAR][Cherry-pick-14.3] Introduza o cache de planos no SparkConnectPlanner para melhorar o desempenho de solicitações de Análise
-
[SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
falha devido a um plano inválido - Atualizações de segurança do sistema operacional.
-
[FAÍSCA-47543][CONECTAR][PYTHON] Inferir
- 11 de abril de 2024
- (Mudança de comportamento) Para garantir um comportamento consistente entre os tipos de computação, as UDFs do PySpark na computação com modo de acesso padrão agora correspondem ao comportamento das UDFs em clusters sem isolamento e atribuídos. Esta atualização inclui as seguintes alterações que podem quebrar o código existente:
- UDFs com um tipo de retorno
string
não convertem mais implicitamente valores nãostring
em valoresstring
. Anteriormente, UDFs com um tipo de retorno destr
envolviam o valor de retorno com uma funçãostr()
, independentemente do tipo de dados real do valor retornado. - UDFs com
timestamp
tipos de retorno já não aplicam implicitamente uma conversão paratimestamp
comtimezone
. - As configurações de cluster do Spark já não se aplicam
spark.databricks.sql.externalUDF.*
às UDFs do PySpark na computação com modo de acesso padrão. - A configuração
spark.databricks.safespark.externalUDF.plan.limit
do cluster Spark não afeta mais as UDFs do PySpark, removendo a limitação de Pré-visualização Pública de 5 UDFs por consulta para as UDFs de PySpark. - A configuração do cluster Spark
spark.databricks.safespark.sandbox.size.default.mib
não se aplica mais às UDFs do PySpark na computação com o modo de acesso padrão. Em vez disso, a memória disponível no sistema é usada. Para limitar a memória de UDFs PySpark, usespark.databricks.pyspark.udf.isolation.memoryLimit
com um valor mínimo de100m
.
- UDFs com um tipo de retorno
- O tipo de dados
TimestampNTZ
agora é suportado como coluna de aglomeração com aglomeração líquida. Consulte Usar agrupamento líquido para tabelas Delta. - [SPARK-47511][SQL] Canonicalizar as expressões reatribuindo IDs
- [SPARK-47509][SQL] Bloquear expressões de subconsulta em funções lambda e de ordem superior
- [SPARK-46990][SQL] Corrigir o carregamento de arquivos Avro vazios emitidos por hubs de eventos
- [SPARK-47638][PS][CONNECT] Ignorar validação do nome da coluna no PS
- Atualizações de segurança do sistema operacional.
- (Mudança de comportamento) Para garantir um comportamento consistente entre os tipos de computação, as UDFs do PySpark na computação com modo de acesso padrão agora correspondem ao comportamento das UDFs em clusters sem isolamento e atribuídos. Esta atualização inclui as seguintes alterações que podem quebrar o código existente:
- Março 14, 2024
- [SPARK-47135][SS] Implementar classes de erro para exceções de perda de dados Kafka
- [SPARK-47176][SQL] Introduzir uma função auxiliar ResolveAllExpressionsUpWithPruning
- [SPARK-47145][SQL] Passe o identificador da tabela para o executor de análise da fonte de dados de linha na estratégia V2.
- [SPARK-47044][SQL] Adicionar a consulta executada às fontes de dados externas JDBC para que a saída seja explicada
- [SPARK-47167][SQL] Adicionar classe concreta para relação anónima JDBC
- [SPARK-47070] Corrigir agregação inválida após reescrever a subconsulta
- [SPARK-47121][CORE] Evitar RejectedExecutionExceptions durante o desligamento do StandaloneSchedulerBackend
- Reverter "[SPARK-46861][CORE] Evitar impasse no DAGScheduler"
- [FAÍSCA-47125][SQL] Devolver null se Univocity nunca iniciar a análise
- [SPARK-46999][SQL] ExpressionWithUnresolvedIdentifier deve incluir outras expressões na árvore de expressões
-
[SPARK-47129][CONECTAR][SQL] Conectar corretamente o plano de cache
ResolveRelations
- [SPARK-47241][SQL] Corrigir problemas de ordem das regras para ExtractGenerator
- [SPARK-47035][SS][CONNECT] Protocolo para Ouvinte do Lado do Cliente
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Corrigido um problema em que o uso de uma coleção local como origem num comando MERGE pode resultar na métrica de operação "numSourceRows" indicando o dobro do número correto de linhas.
- Criar um esquema com um local definido agora requer que o utilizador tenha privilégios de SELECT e "MODIFICAR" em QUALQUER FICHEIRO.
- [SPARK-47071][SQL] Integrar a expressão 'With' contendo expressão especial
- [SPARK-47059][SQL] Anexar contexto de erro para o comando ALTER COLUMN v1
- [SPARK-46993][SQL] Corrigir a dobragem constante para variáveis de sessão
- Atualizações de segurança do sistema operacional.
- 3 de janeiro de 2024
- [SPARK-46933] Adicionar a métrica de tempo de execução da consulta aos conectores que utilizam JDBCRDD.
- [SPARK-46763] Corrigir a falha de afirmação em ReplaceDeduplicateWithAggregate para atributos duplicados.
- [SPARK-46954] XML: Envolva InputStreamReader com BufferedReader.
-
[SPARK-46655] Ignorar a captura do contexto da consulta nos métodos
DataFrame
. - [SPARK-44815] Guardar em cache o esquema do df para evitar chamadas RPC adicionais.
- [SPARK-46952] XML: Limitar o tamanho do registro corrompido.
- [SPARK-46794] Remover subconsultas das restrições do LogicalRDD.
- [SPARK-46736] Manter o campo de mensagem vazio no conector Protobuf.
- [SPARK-45182] Ignorar a conclusão da tarefa do estágio antigo após tentar novamente o estágio pai indeterminado, conforme determinado pela soma de verificação.
- [SPARK-46414] Use prependBaseUri para renderizar importações de JavaScript.
-
[SPARK-46383] Reduzir o uso de heap do controlador reduzindo a vida útil de
TaskInfo.accumulables()
. - [SPARK-46861] Evite o impasse no DAGScheduler.
- [SPARK-46954] XML: Otimizar a pesquisa do índice de esquema.
- [SPARK-46676] dropDuplicatesWithinWatermark não deve falhar durante a canonicalização do plano.
- [SPARK-46644] Mudar adicionar e mesclar no SQLMetric para usar isZero.
- [FAÍSCA-46731] Gerencie a instância do provedor de armazenamento de estado por fonte de dados de estado - leitor.
-
[SPARK-46677] Corrigir
dataframe["*"]
resolução. - [SPARK-46610] A criação de tabela deve lançar uma exceção quando não houver valor para uma chave nas opções.
- [SPARK-46941] Não é possível inserir o nó de limite do grupo de janelas para computação top-k se contiver SizeBasedWindowFunction.
- [SPARK-45433] Corrigir a inferência de esquema CSV/JSON quando os timestamps não correspondem ao timestampFormat especificado.
- [SPARK-46930] Adicionar suporte para um prefixo personalizado para campos do tipo União no Avro.
- [SPARK-46227] Retroport para 14.3.
- [SPARK-46822] Respeitar spark.sql.legacy.charVarcharAsString ao converter o tipo jdbc para o tipo catalyst em jdbc.
- Atualizações de segurança do sistema operacional.
Databricks Runtime 13.3 LTS
Consulte Databricks Runtime 13.3 LTS.
- 11 de março de 2025
- Atualizações de segurança do sistema operacional.
- Fevereiro 11, 2025
- [SPARK-50492][SS] Correção de java.util.NoSuchElementException quando a coluna de tempo do evento é removida após a utilização de dropDuplicatesWithinWatermark
- [SPARK-45915][SQL] Tratar decimal(x, 0) da mesma forma que IntegralType em PromoteStrings
- Atualizações de segurança do sistema operacional.
- 10 de dezembro de 2024
- Atualizações de segurança do sistema operacional.
- 26 de novembro de 2024
- [SPARK-49615] [ML] Faça com que toda a validação do esquema do conjunto de dados dos transformadores de funcionalidades de ML esteja em conformidade com a configuração "spark.sql.caseSensitive".
- Atualizações de segurança do sistema operacional.
- 5 de novembro de 2024
- [SPARK-48843] Evite loop infinito com BindParameters
- [BACKPORT] [SPARK-49326][SS] Classificar a classe de erro para erro de função de utilizador no Foreach sink
- [FAÍSCA-49905] Use ShuffleOrigin dedicado para operador stateful para evitar que o shuffle seja modificado a partir do AQE
- Atualizações de segurança do sistema operacional.
- Outubro 22, 2024
- [SPARK-48843] Evite loop infinito com BindParameters
- [BACKPORT] [SPARK-49326][SS] Classificar a classe de erro para erro de função de utilizador no Foreach sink
- [SPARK-49905] Usar ShuffleOrigin dedicado para o operador com estado, para evitar que o shuffle seja modificado pelo AQE.
- Atualizações de segurança do sistema operacional.
- 10 de outubro de 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar campos de esquema ao remover GetArrayStructFields
- 25 de setembro de 2024
- [SPARK-46601] [CORE] Corrigir erro de log no handleStatusMessage
- [SPARK-48719][SQL] Corrigir o erro de cálculo no RegrSlope & RegrIntercept quando o primeiro parâmetro é nulo
- [FAÍSCA-43242][CORE] Corrigir lançar 'Tipo inesperado de BlockId' no diagnóstico de corrupção durante o shuffle
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- [SPARK-49526][CONNECT] Suporte a caminhos no estilo Windows no ArtifactManager
- [SPARK-48463][ML] Tornar o Binarizer, Bucketizer, Vector Assembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer e Interactor compatíveis com colunas de entrada aninhadas
- Atualizações de segurança do sistema operacional.
- 29 de agosto de 2024
- 14 de agosto de 2024
- [SPARK-49056][SQL] ErrorClassesJsonReader não consegue gerir null corretamente
- [SPARK-49065][SQL] O rebasamento em formatadores/analisadores herdados deve suportar fusos horários que não sejam os padrão da JVM
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- 1 de agosto de 2024
- Esta versão inclui uma correção de bug para as
ColumnVector
classes eColumnarArray
na interface Java do Spark. Antes dessa correção, umArrayIndexOutOfBoundsException
pode ser lançado ou dados incorretos retornados quando uma instância de uma dessas classes continha valoresnull
. - [FAÍSCA-47202][PYTHON] Corrigir erro tipográfico que quebra Datetimes com tzinfo
- [SPARK-48896][SPARK-48909][SPARK-48883] Correções de backport do Spark ML writer
- [SPARK-48463] Tornar o StringIndexer compatível com colunas de entrada aninhadas
- Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção de bug para as
- Julho 11, 2024
- (Mudança de comportamento) Os DataFrames armazenados em cache em fontes de tabelas Delta agora tornam-se inválidos caso a tabela de origem seja substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()
para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - Esta versão inclui uma correção para um problema que impedia que a guia Ambiente da Interface do Usuário do Spark fosse exibida corretamente ao ser executada nos Serviços de Contêiner do Databricks.
- [SPARK-48383][SS] Apresentar um erro mais claro para partições incompatíveis na opção startOffset no Kafka.
- [SPARK-48292][CORE] Revert [SPARK-39195][SQL] Spark OutputCommitCoordinator deve abortar o estágio quando o arquivo confirmado não está consistente com o status da tarefa
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com group-by em colunas não equivalentes que foram permitidas de forma incorreta
- [SPARK-48481][SQL][SS] Não aplique OptimizeOneRowPlan contra um conjunto de dados em streaming
- [SPARK-48475][PYTHON] Otimizar _get_jvm_function no PySpark.
- [SPARK-48273][SQL] Corrigir a reescrita tardia de PlanWithUnresolvedIdentifier
- [FAÍSCA-48445][SQL] Não embutir UDFs com operações dispendiosas
- Atualizações de segurança do sistema operacional.
- (Mudança de comportamento) Os DataFrames armazenados em cache em fontes de tabelas Delta agora tornam-se inválidos caso a tabela de origem seja substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
- 17 de junho de 2024
- [SPARK-48277] Melhorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
- Atualizações de segurança do sistema operacional.
- 21 de maio de 2024
- (Mudança de comportamento)
dbutils.widgets.getAll()
agora tem suporte para obter todos os valores de widget em um caderno. - [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do armazenamento de estado e a criação de snapshot
- [SPARK-47994][SQL] Corrigir bug com o envio para baixo do filtro de coluna CASE WHEN no SQLServer
- Atualizações de segurança do sistema operacional.
- (Mudança de comportamento)
- 9 de maio de 2024
- [SPARK-47956][SQL] Verificação de validade para referência LCA não resolvida
- [SPARK-46822][SQL] Respeitar spark.sql.legacy.charVarcharAsString ao converter o tipo jdbc para o tipo catalyst no contexto do jdbc
- [SPARK-47895][SQL] agrupar todos deve ser idempotente
- [SPARK-48018][SS] Resolver groupId nulo que causa erro de parâmetro ausente ao gerar KafkaException.couldNotReadOffsetRange
- [SPARK-47973][CORE] Registar local de chamada em SparkContext.stop() e posteriormente em SparkContext.assertNotStopped()
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2024
- [SPARK-44653][SQL] Uniões de DataFrame não triviais não devem afetar o cache
- Correções de bugs diversos.
- 11 de abril de 2024
- [SPARK-47509][SQL] Bloquear expressões de subconsulta em funções lambda e de ordem superior
- Atualizações de segurança do sistema operacional.
- 1 de abril de 2024
- [SPARK-47385] Corrigir codificadores de tupla com entradas do tipo Option.
- [SPARK-38708][SQL] Atualização do cliente Hive Metastore para 3.1.3 para Hive 3.1
- [SPARK-47200][SS] Classe de erro para erro na função de utilizador do coletor de lotes Foreach
- [SPARK-47368][SQL] Remover a verificação de configuração inferTimestampNTZ em ParquetRowConverter
- [SPARK-44252][SS] Defina uma nova classe de erro e aplique para o caso em que o estado de carregamento do DFS falhar
- [SPARK-47135][SS] Implementar classes de erro para exceções de perda de dados Kafka
-
[SPARK-47300][SQL]
quoteIfNeeded
deve citar o identificador que começa com dígitos - [SPARK-47305][SQL] Corrigir PruneFilters para marcar corretamente o sinalizador isStreaming de LocalRelation quando o plano inclui tanto processamento em lote quanto streaming.
- [SPARK-47070] Corrigir agregação inválida após reescrever a subconsulta
- Atualizações de segurança do sistema operacional.
- Março 14, 2024
- [SPARK-47145][SQL] Passe o identificador da tabela para o executor de análise da fonte de dados de linha na estratégia V2.
- [SPARK-47167][SQL] Adicionar classe concreta para relação anónima JDBC
- [SPARK-47176][SQL] Introduzir uma função auxiliar ResolveAllExpressionsUpWithPruning
- [SPARK-47044][SQL] Adicionar a consulta executada às fontes de dados externas JDBC para que a saída seja explicada
- [FAÍSCA-47125][SQL] Retornar null se Univocity nunca iniciar a análise
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Corrigido um problema em que o uso de uma coleção local como origem num comando MERGE pode resultar na métrica de operação "numSourceRows" indicando o dobro do número correto de linhas.
- Criar um esquema com um local definido agora requer que o utilizador tenha privilégios de SELECT e "MODIFICAR" em QUALQUER FICHEIRO.
- Atualizações de segurança do sistema operacional.
- 8 de fevereiro de 2024
- Consultas de alterações de feed de dados (CDF) em vistas materializadas do Catálogo Unity não são suportadas, e tentar executar uma consulta CDF com uma vista materializada do Catálogo Unity resulta num erro. As tabelas de streaming do Unity Catalog suportam consultas CDF em tabelas não
APPLY CHANGES
no Databricks Runtime 14.1 e posterior. As consultas CDF não são suportadas com tabelas de streaming do Unity Catalog no Databricks Runtime 14.0 e anteriores. - [SPARK-46794] Remover subconsultas das restrições do LogicalRDD.
- [SPARK-46933] Adicionar a métrica de tempo de execução da consulta aos conectores que utilizam JDBCRDD.
- [FAÍSCA-45582] Certifique-se de que a instância de armazenamento não seja usada depois de chamar a confirmação na agregação de streaming no modo de saída.
- [SPARK-46396] A inferência de timestamp não deve lançar exceção.
- [SPARK-46861] Evite o impasse no DAGScheduler.
- [SPARK-46941] Não é possível inserir o nó de limite do grupo de janelas para computação top-k se contiver SizeBasedWindowFunction.
- Atualizações de segurança do sistema operacional.
- Consultas de alterações de feed de dados (CDF) em vistas materializadas do Catálogo Unity não são suportadas, e tentar executar uma consulta CDF com uma vista materializada do Catálogo Unity resulta num erro. As tabelas de streaming do Unity Catalog suportam consultas CDF em tabelas não
- 31 de janeiro de 2024
- [SPARK-46610] A criação de tabela deve lançar uma exceção quando não houver valor para uma chave nas opções.
- [SPARK-46383] Reduza o uso de heap do driver ao diminuir a duração de vida de TaskInfo.accumulables().
- [SPARK-46600] Mova o código comum entre SqlConf e SqlApiConf para SqlApiConfHelper.
- [SPARK-46676] dropDuplicatesWithinWatermark não deve falhar na canonicalização do plano.
- [SPARK-46763] Corrigir a falha de afirmação em ReplaceDeduplicateWithAggregate para atributos duplicados.
- Atualizações de segurança do sistema operacional.
- 17 de janeiro de 2024
- O nó
shuffle
do plano explicativo retornado por uma consulta Photon é atualizado para adicionar o sinalizadorcausedBroadcastJoinBuildOOM=true
quando ocorre um erro de falta de memória durante um shuffle que faz parte de uma associação de transmissão. - Para evitar o aumento da latência ao se comunicar por TLSv1.3, esta versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
- [FAÍSCA-46058] Adicionar indicador separado para privateKeyPassword.
- [SPARK-46173] Remover a chamada trimAll ao analisar datas.
- [SPARK-46370] Corrigir bug ao consultar a tabela depois de alterar os valores padrão da coluna.
- [SPARK-46370] Corrigir bug ao consultar a tabela depois de alterar os valores padrão da coluna.
- [SPARK-46370] Corrigir bug ao consultar a tabela depois de alterar os valores padrão da coluna.
- [SPARK-46609] Evite explosões exponenciais em PartitioningPreservingUnaryExecNode.
- [SPARK-46132] Suporte para senha de chave para chaves JKS para RPC SSL.
-
[SPARK-46602] Propague
allowExisting
na criação da vista quando a vista/tabela não existir. - [SPARK-46249] Requerer bloqueio de instância para obter métricas do RocksDB e evitar condição de corrida com operações em segundo plano.
- [SPARK-46417] Não apresente falhas ao chamar hive.getTable e lançar exceção for falso.
-
[SPARK-46538] Corrigir o problema da referência de coluna ambígua no
ALSModel.transform
. - [SPARK-46478] Reverter SPARK-43049 para usar Oracle varchar(255) para string.
- [SPARK-46250] Estabilizar teste_parity_listener.
-
[SPARK-46394] Corrige problemas spark.catalog.listDatabases() em esquemas com caracteres especiais quando
spark.sql.legacy.keepCommandOutputSchema
definido para true. - [SPARK-46056] Corrigir NPE na leitura vetorizada do Parquet com o valor padrão de byteArrayDecimalType.
- [SPARK-46145] spark.catalog.listTables não lança exceção quando a tabela ou exibição não é encontrada.
- [SPARK-46466] O leitor de parquet vetorizado nunca deve fazer rebase para timestamps sem fuso horário.
- O nó
- 14 de dezembro de 2023
- Corrigido um problema em que caracteres de sublinhado precedidos por uma barra invertida em operações getColumns originadas de clientes JDBC ou ODBC eram tratados incorretamente e interpretados como curingas.
- [SPARK-45920] agrupar por ordinal deve ser idempotente.
- [SPARK-44582] Ignorar o iterador no SMJ se tiver sido removido.
- [SPARK-45433] Corrija a inferência do esquema CSV/JSON quando os carimbos de data/hora não corresponderem ao timestampFormat especificado.
- [SPARK-45655] Permitir expressões não determinísticas dentro de AggregateFunctions em CollectMetrics.
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Instalado um novo pacote
pyarrow-hotfix
para corrigir uma vulnerabilidade do PyArrow RCE. - O conector faísca-floco de neve é atualizado para 2.12.0.
-
[SPARK-44846] Removidas expressões de agrupamento complexo após
RemoveRedundantAggregates
. -
[SPARK-45544] Suporte SSL integrado no
TransportContext
. -
[SPARK-45892] Refatorar a validação do plano do otimizador para separar
validateSchemaOutput
evalidateExprIdUniqueness
. -
[SPARK-45730] Melhoria das restrições de tempo para
ReloadingX509TrustManagerSuite
. -
[SPARK-45859] Tornou objetos UDF em
ml.functions
avaliados de forma preguiçosa. - Atualizações de segurança do sistema operacional.
- Instalado um novo pacote
- 10 de novembro de 2023
- Os filtros de partição nas consultas de streaming Delta Lake são empurrados para baixo antes do limite de taxa para obter uma melhor utilização.
- Foram alteradas as consultas de feeds de dados nas tabelas de streaming e nas vistas materializadas do Catálogo Unity para exibir mensagens de erro.
-
[SPARK-45545]
SparkTransportConf
herdaSSLOptions
ao criar. -
[SPARK-45584] Corrigida a falha de execução da subconsulta com
TakeOrderedAndProjectExec
. -
[SPARK-45427] Adicionadas configurações de SSL RPC para
SSLOptions
eSparkTransportConf
. -
[FAÍSCA-45541] Adicionado
SSLFactory
. -
[SPARK-45430]
FramelessOffsetWindowFunction
já não falha quandoIGNORE NULLS
eoffset > rowCount
. - [SPARK-45429] Adicionadas classes auxiliares para comunicação RPC SSL.
- [SPARK-44219] Adicionadas validações extra para cada regra nas reescritas de otimização.
-
[SPARK-45543] Corrigido um problema em que
InferWindowGroupLimit
causava uma falha se as outras funções de janela não tivessem a mesma estrutura de janela que as funções do tipo classificação. - Atualizações de segurança do sistema operacional.
- 23 de outubro de 2023
-
[SPARK-45256] Corrigido um problema em que
DurationWriter
falhava ao escrever mais valores do que a capacidade inicial. -
[FAÍSCA-45419] Evite reutilizar
rocksdb sst
ficheiros noutra instânciarocksdb
removendo entradas no mapa de versão de ficheiros de uma versão superior. -
[SPARK-45426] Adicionado suporte para
ReloadingX509TrustManager
. - Correções diversas.
-
[SPARK-45256] Corrigido um problema em que
- 13 de outubro de 2023
- Dependência do Snowflake-jdbc atualizada de 3.13.29 para 3.13.33.
- A
array_insert
função é baseada em 1 para índices positivos e negativos, enquanto antes, era baseada em 0 para índices negativos. Ele agora insere um novo elemento no final das matrizes de entrada para o índice -1. Para restaurar o comportamento anterior, definaspark.sql.legacy.negativeIndexInArrayInsert
comotrue
. - Corrigido um problema relacionado a não ignorar arquivos corrompidos quando
ignoreCorruptFiles
é ativado durante a inferência de esquema CSV com o Auto Loader. - Reverter "[SPARK-42946]."
- [SPARK-42205] O protocolo JSON foi atualizado para remover o registo de Accumulables em eventos de início de tarefas ou etapas.
-
[SPARK-45178] Reverter para executar um único lote para
Trigger.AvailableNow
com fontes não suportadas em vez de usar o wrapper. -
[SPARK-45316] Adicionar novos parâmetros
ignoreCorruptFiles
eignoreMissingFiles
aoHadoopRDD
eNewHadoopRDD
. - [SPARK-44740] Valores de metadados fixos para artefatos.
-
[SPARK-45360] Configuração do construtor de sessões do Spark inicializada a partir de
SPARK_REMOTE
. - [SPARK-44551] Comentários editados para sincronizar com o OSS.
- [SPARK-45346] A inferência do esquema Parquet agora respeita sinalizadores que diferenciam maiúsculas de minúsculas ao mesclar o esquema.
-
[SPARK-44658]
ShuffleStatus.getMapStatus
agora retornaNone
em vez deSome(null)
. - [SPARK-44840] Alterado para começar do 1 para índices negativos.
- 14 de setembro de 2023
-
[SPARK-44873] Adicionado suporte para
alter view
com colunas aninhadas no cliente Hive. - [SPARK-44878] Desativou-se o limite rigoroso para o gerenciador de escrita para evitar a exceção de inserção ao completar a cache.
-
[SPARK-44873] Adicionado suporte para
- 30 de agosto de 2023
- O comando dbutils
cp
(dbutils.fs.cp
) foi otimizado para uma cópia mais rápida. Com essa melhoria, as operações de cópia podem levar até 100 vezes menos, dependendo do tamanho do arquivo. O recurso está disponível em todas as nuvens e sistemas de arquivos acessíveis no Databricks, inclusive para volumes de catálogo Unity e montagens DBFS. -
[FAÍSCA-44455] Use backticks para citar identificadores no resultado
SHOW CREATE TABLE
. - [SPARK-44763] Corrigido um problema que mostrava uma string como um double na aritmética binária com intervalo.
-
[SPARK-44871] Corrigido comportamento
percentile_disc
. - [SPARK-44714] Facilitar a flexibilização da resolução de LCA sobre consultas.
-
[FAÍSCA-44818] Corrida fixa para interrupção de tarefa pendente emitida antes
taskThread
de ser inicializada. - [SPARK-44505] Adicionado método de substituição para suporte colunar no Scan do DSv2.
- [SPARK-44479] Corrigida a conversão de protobuf de um tipo struct vazio.
-
[SPARK-44718] Ajustar o padrão de configuração no modo de memória para corresponder ao valor de configuração
OffHeapMemoryMode
. -
[SPARK-42941] Adicionado o suporte para
StreamingQueryListener
no Python. - [SPARK-44558] Exportar o nível de log do Spark Connect do PySpark.
- [SPARK-44464] Corrigido para produzir linhas que têm null como valor da primeira coluna.
-
[SPARK-44643] Corrigido
Row.__repr__
quando o campo é uma linha vazia. - Atualizações de segurança do sistema operacional.
- O comando dbutils
Tempo de execução do Databricks 12.2 LTS
Consulte Databricks Runtime 12.2 LTS.
11 de março de 2025
- Atualizações de segurança do sistema operacional.
10 de dezembro de 2024
- Atualizações de segurança do sistema operacional.
26 de novembro de 2024
- Correções de bugs diversos.
10 de outubro de 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar campos de esquema ao remover GetArrayStructFields
25 de setembro de 2024
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- [SPARK-46601] [CORE] Corrigir erro de log no handleStatusMessage
- Correções de bugs diversos.
17 de setembro de 2024
- Atualizações de segurança do sistema operacional.
29 de agosto de 2024
- Correções de bugs diversos.
14 de agosto de 2024
- [SPARK-48941][SPARK-48970] Correções retroativas de escritor/leitor ML
- [SPARK-49065][SQL] Os rebasamentos nos formatadores/analisadores legados devem suportar fusos horários que não sejam o padrão da JVM.
- [SPARK-49056][SQL] ErrorClassesJsonReader não consegue manipular valores nulos corretamente
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-48463][ML] Tornar o StringIndexer compatível com colunas de entrada aninhadas
- Atualizações de segurança do sistema operacional.
1 de agosto de 2024
- [SPARK-48896][SPARK-48909][SPARK-48883] Correções de backport do Spark ML writer
1 de agosto de 2024
- Para aplicar os patches de segurança necessários, a versão Python no Databricks Runtime 12.2 LTS é atualizada de 3.9.5 para 3.9.19.
Julho 11, 2024
- (Mudança de comportamento) Os DataFrames armazenados em cache em fontes de tabelas Delta agora tornam-se inválidos caso a tabela de origem seja substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()
para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - [SPARK-48481][SQL][SS] Não aplique OptimizeOneRowPlan contra um conjunto de dados em streaming
- [SPARK-47070] Corrigir agregação inválida após reescrever a subconsulta
- [SPARK-42741][SQL] Não desembrulhe conversões na comparação binária quando o literal é nulo
- [SPARK-48445][SQL] Não embuta UDFs com subexpressões dispendiosas
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com group-by em colunas não equivalentes que foram permitidas de forma incorreta
- [SPARK-48383][SS] Apresentar um erro mais claro para partições incompatíveis na opção startOffset no Kafka.
- Atualizações de segurança do sistema operacional.
- (Mudança de comportamento) Os DataFrames armazenados em cache em fontes de tabelas Delta agora tornam-se inválidos caso a tabela de origem seja substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
17 de junho de 2024
- [SPARK-48277] Melhorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
- Correções de bugs diversos.
21 de maio de 2024
- [FAÍSCA-48105][SS] Corrigir a condição de competição entre o descarregamento do armazenamento de estado e a criação de snapshot
- Atualizações de segurança do sistema operacional.
9 de maio de 2024
- [SPARK-44251][SQL] Definir corretamente a nulabilidade da chave de junção coalescida numa junção exterior completa com o uso de USING join
- [SPARK-47973][CORE] Registo do local da chamada em SparkContext.stop() e depois em SparkContext.assertNotStopped()
- [SPARK-47956][SQL] Verificação de coerência para referência de LCA não resolvida
- [SPARK-48018][SS] Corrigir groupId nulo que causa erro de parâmetro ausente ao lançar KafkaException.couldNotReadOffsetRange
- Atualizações de segurança do sistema operacional.
25 de abril de 2024
- Atualizações de segurança do sistema operacional.
11 de abril de 2024
- Atualizações de segurança do sistema operacional.
1 de abril de 2024
- [SPARK-47305][SQL] Corrigir PruneFilters para marcar corretamente o sinalizador isStreaming de LocalRelation quando o plano incluir processamento em lote e streaming.
- [SPARK-44252][SS] Defina uma nova classe de erro e aplique para o caso em que o estado de carregamento do DFS falhar
- [SPARK-47135][SS] Implementar classes de erro para exceções de perda de dados Kafka
- [SPARK-47200][SS] Classe de erro para erro de função do utilizador do batch sink Foreach
- Atualizações de segurança do sistema operacional.
Março 14, 2024
- [SPARK-47176][SQL] Introduzir uma função auxiliar ResolveAllExpressionsUpWithPruning
- Reverter a alteração "[SPARK-46861][CORE] Evitar um deadlock no DAGScheduler"
- [FAÍSCA-47125][SQL] Devolver null se o Univocity nunca iniciar a análise de parsing
- [SPARK-47167][SQL] Adicionar classe concreta para relação anónima JDBC
- Atualizações de segurança do sistema operacional.
29 de fevereiro de 2024
- Corrigido um problema em que o uso de uma coleção local como origem num comando MERGE pode resultar na métrica de operação "numSourceRows" indicando o dobro do número correto de linhas.
- Criar um esquema com um local definido agora requer que o utilizador tenha privilégios de SELECT e "MODIFICAR" em QUALQUER FICHEIRO.
- [SPARK-45582][SS] Certifique-se de que a instância de armazenamento não seja utilizada após efetuar o commit na agregação de streaming no modo de saída.
- Atualizações de segurança do sistema operacional.
Fevereiro 13, 2024
- [SPARK-46861] Evite o bloqueio no DAGScheduler.
- [SPARK-46794] Remover subconsultas das restrições do LogicalRDD.
- Atualizações de segurança do sistema operacional.
31 de janeiro de 2024
- [SPARK-46763] Corrigir a falha de afirmação em ReplaceDeduplicateWithAggregate para atributos duplicados.
- Atualizações de segurança do sistema operacional.
25 de dezembro de 2023
- Para evitar o aumento da latência ao se comunicar por TLSv1.3, esta versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
- [SPARK-39440] Adicionar uma configuração para desativar a cronologia de eventos.
- [SPARK-46132] Suporte para senha de chave para chaves JKS para RPC SSL.
-
[SPARK-46394] Corrige problemas spark.catalog.listDatabases() em esquemas com caracteres especiais quando
spark.sql.legacy.keepCommandOutputSchema
definido para true. - [SPARK-46417] Não falhe ao chamar hive.getTable e o throwException for falso.
- [SPARK-43067] Corrigir a localização do ficheiro de recursos da classe de erro no conector Kafka.
- [SPARK-46249] Exigir bloqueio de instância para obter métricas do RocksDB e evitar conflito de corrida com operações em segundo plano.
-
[SPARK-46602] Propagar
allowExisting
durante a criação da vista quando a vista/tabela não existir. - [FAÍSCA-46058] Adicionar indicador separado para privateKeyPassword.
- [SPARK-46145] spark.catalog.listTables não lança exceção quando a tabela ou exibição não é encontrada.
-
[SPARK-46538] Corrigir o problema da referência de coluna ambígua no
ALSModel.transform
. - [FAÍSCA-42852] Reverter as alterações relacionadas a NamedLambdaVariable de EquivalentExpressions.
14 de dezembro de 2023
- Corrigido um problema em que caracteres de sublinhado precedidos por uma barra invertida em operações getColumns originadas de clientes JDBC ou ODBC eram tratados incorretamente e interpretados como curingas.
- [SPARK-44582] Ignorar o iterador no SMJ se tiver sido limpo.
- [SPARK-45920] agrupar por ordinal deve ser idempotente.
- [SPARK-45655] Permitir expressões não determinísticas dentro de AggregateFunctions em CollectMetrics.
- Atualizações de segurança do sistema operacional.
29 de novembro de 2023
- Instalado um novo pacote
pyarrow-hotfix
para corrigir uma vulnerabilidade do PyArrow RCE. - Corrigido um problema em que caracteres de sublinhado escapados nas operações
getColumns
originadas de clientes de JDBC ou ODBC eram interpretados erroneamente como curingas. -
[SPARK-42205] Removidos os acumuláveis de registo nos eventos de início em
Stage
eTask
. -
[FAÍSCA-44846] Removidas expressões de agrupamento complexas após
RemoveRedundantAggregates
. -
[SPARK-43718] Corrigida a anulabilidade das chaves em junções
USING
. -
[SPARK-45544] Suporte SSL integrado no
TransportContext
. - [SPARK-43973] A interface de utilizador do Structured Streaming agora exibe consultas com falha corretamente.
-
[SPARK-45730] Melhoria das restrições de tempo para
ReloadingX509TrustManagerSuite
. -
[SPARK-45859] Fez objetos UDF em
ml.functions
serem inicializados de forma lenta. - Atualizações de segurança do sistema operacional.
- Instalado um novo pacote
14 de novembro de 2023
- Os filtros de partição nas consultas de streaming Delta Lake são empurrados para baixo antes do limite de taxa para obter uma melhor utilização.
-
[SPARK-45545]
SparkTransportConf
herda naSSLOptions
criação. -
[SPARK-45427] Adicionadas configurações de SSL RPC para
SSLOptions
eSparkTransportConf
. -
[SPARK-45584] Corrigida a falha de execução da subconsulta com
TakeOrderedAndProjectExec
. -
[FAÍSCA-45541] Adicionado
SSLFactory
. -
[SPARK-45430]
FramelessOffsetWindowFunction
já não falha quandoIGNORE NULLS
eoffset > rowCount
. - [SPARK-45429] Adicionadas classes auxiliares para comunicação RPC SSL.
- Atualizações de segurança do sistema operacional.
24 de outubro de 2023
-
[SPARK-45426] Adicionado suporte para
ReloadingX509TrustManager
. - Correções diversas.
-
[SPARK-45426] Adicionado suporte para
13 de outubro de 2023
- Dependência do Snowflake-jdbc atualizada de 3.13.29 para 3.13.33.
- [SPARK-42553] Certifique-se de que exista pelo menos uma unidade de tempo após o intervalo.
- [SPARK-45346] A inferência do esquema Parquet respeita a distinção entre maiúsculas e minúsculas ao combinar o esquema.
-
[SPARK-45178] Reverter para a execução de um único processamento para
Trigger.AvailableNow
com fontes não suportadas em vez de utilizar o wrapper. -
[SPARK-45084]
StateOperatorProgress
usar um número de partições de shuffle preciso e adequado.
12 de setembro de 2023
-
[SPARK-44873] Adicionou-se suporte para
alter view
com colunas aninhadas no cliente Hive. -
[SPARK-44718] Ajustar a configuração padrão do modo de memória para
ColumnVector
corresponder ao valor de configuração deOffHeapMemoryMode
. -
[SPARK-43799] Adicionada opção binária de descritores à API do PySpark
Protobuf
. - Correções diversas.
-
[SPARK-44873] Adicionou-se suporte para
30 de agosto de 2023
-
[SPARK-44485] Otimizado
TreeNode.generateTreeString
. -
[FAÍSCA-44818] Corrida fixa para interrupção de tarefa pendente emitida antes
taskThread
de ser inicializada. -
[SPARK-44871][11.3-13.0] Corrigido o comportamento
percentile_disc
. - [SPARK-44714] Aliviamento da restrição da resolução de LCA em relação a consultas.
- Atualizações de segurança do sistema operacional.
-
[SPARK-44485] Otimizado
15 de agosto de 2023
- [SPARK-44504] A tarefa de manutenção limpa os fornecedores carregados quando ocorre um erro de paragem.
-
[SPARK-44464] Corrigido
applyInPandasWithStatePythonRunner
para gerar linhas comNull
como valor da primeira coluna. - Atualizações de segurança do sistema operacional.
29 de julho de 2023
- Corrigido um problema em que
dbutils.fs.ls()
retornavaINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
quando era chamado para um caminho de local de armazenamento que colidia com outro local de armazenamento externo ou gerenciado. -
[SPARK-44199]
CacheManager
já não atualiza ofileIndex
desnecessariamente. - Atualizações de segurança do sistema operacional.
- Corrigido um problema em que
24 de julho de 2023
-
[SPARK-44337] Corrigido um problema em que qualquer campo definido como
Any.getDefaultInstance
causava erros de análise. -
[SPARK-44136] Corrigido um problema em que
StateManager
era materializado num executor em vez do driver emFlatMapGroupsWithStateExec
. - Atualizações de segurança do sistema operacional.
-
[SPARK-44337] Corrigido um problema em que qualquer campo definido como
23 de junho de 2023
- Atualizações de segurança do sistema operacional.
15 de junho de 2023
- Fotonizado
approx_count_distinct
. - A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para resolver um problema de segurança.
-
[SPARK-43779]
ParseToDate
agora carregaEvalMode
no thread principal. -
[SPARK-43156][SPARK-43098] Teste estendido de erro de contagem de subconsulta escalar com o
decorrelateInnerQuery
desativado. - Atualizações de segurança do sistema operacional.
- Fotonizado
2 de junho de 2023
- O analisador JSON no
failOnUnknownFields
modo descarta um registro noDROPMALFORMED
modo e falha diretamente noFAILFAST
modo. - Melhore o desempenho de atualizações incrementais com
SHALLOW CLONE
Iceberg e Parquet. - Corrigido um problema no Auto Loader em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferida.
- [SPARK-43404] Evitar a reutilização do arquivo sst para a mesma versão do estado de armazenamento RocksDB para evitar o erro de incompatibilidade de ID.
-
[SPARK-43413][11.3-13.0] Corrigida a subconsulta
IN
quanto à anulabilidadeListQuery
. - [SPARK-43522] Corrigida a criação do nome da coluna de estrutura com o índice da matriz.
-
[SPARK-43541] Propagar todas as tags
Project
na resolução de expressões e de colunas que estão ausentes. -
[SPARK-43527] Corrigido
catalog.listCatalogs
no PySpark. - [SPARK-43123] Os metadados de campo interno não vazam mais para catálogos.
- [SPARK-43340] Corrigido o campo de stack trace ausente nos registos de eventos.
-
[SPARK-42444]
DataFrame.drop
agora lida corretamente com colunas duplicadas. -
[SPARK-42937]
PlanSubqueries
agora defineInSubqueryExec#shouldBroadcast
como true. - [SPARK-43286] Atualizado o modo CBC para gerar IVs aleatórios.
-
[SPARK-43378] Feche corretamente os objetos de stream no
deserializeFromChunkedBuffer
.
- O analisador JSON no
17 de maio de 2023
- As varreduras de Parquet agora são resistentes a erros de falta de memória (OOMs) ao examinar arquivos excepcionalmente estruturados, ajustando dinamicamente o tamanho do lote. Metadados de arquivo são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente em tentativas de reexecução da tarefa como uma última medida de segurança.
- Se um arquivo Avro foi lido apenas com a opção
failOnUnknownFields
ou com o Auto Loader no modo de evolução do esquemafailOnNewColumns
, as colunas que têm tipos de dados diferentes seriam lidas comonull
em vez de lançar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem a opçãorescuedDataColumn
. - Auto Loader agora faz o seguinte.
-
- Lê corretamente e deixa de resgatar os tipos
Integer
,Short
eByte
se um desses tipos de dados for fornecido, mas o ficheiro Avro sugerir um dos outros dois tipos.
- Lê corretamente e deixa de resgatar os tipos
-
- Impede a leitura de tipos de intervalo como tipos de carimbo de data ou hora para evitar datas corrompidas.
-
- Impede a leitura de tipos
Decimal
com menor precisão.
- Impede a leitura de tipos
- [SPARK-43172] Expõe host e token do cliente Spark Connect.
-
[SPARK-43293]
__qualified_access_only
é ignorado em colunas normais. - [SPARK-43098] Corrigido o erro de exatidão quando a subconsulta escalar está numa cláusula de agrupamento.
-
[SPARK-43085] Suporte para atribuição de coluna
DEFAULT
em nomes de tabelas com várias partes. -
[SPARK-43190]
ListQuery.childOutput
está agora em conformidade com a saída secundária. - [SPARK-43192] Removida a validação do conjunto de caracteres do agente de utilizador.
- Atualizações de segurança do sistema operacional.
25 de abril de 2023
- Se um arquivo Parquet fosse lido apenas com a opção
failOnUnknownFields
ou com o Auto Loader no modo de evolução do esquemafailOnNewColumns
, as colunas que tivessem tipos de dados diferentes seriam lidas comonull
em vez de lançar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem a opçãorescuedDataColumn
. - O Auto Loader agora lê corretamente e não resgata mais os tipos
Integer
,Short
eByte
se um desses tipos de dados for fornecido. O arquivo Parquet indica um dos outros dois tipos. Quando a coluna de dados resgatada estava habilitada anteriormente, a incompatibilidade de tipo de dados fazia com que as colunas fossem salvas mesmo que fossem legíveis. -
[SPARK-43009] Parametrizado
sql()
comAny
constantes - [SPARK-42406] Encerrar campos recursivos do Protobuf eliminando o campo
-
[SPARK-43038] Suportar o modo CBC por
aes_encrypt()
/aes_decrypt()
-
[FAÍSCA-42971] Alterar para imprimir
workdir
seappDirs
for nulo quando o trabalhador manipularWorkDirCleanup
evento - [SPARK-43018] Corrigir um erro nos comandos INSERT com literais de carimbo de data/hora
- Atualizações de segurança do sistema operacional.
- Se um arquivo Parquet fosse lido apenas com a opção
11 de abril de 2023
- Ofereça suporte a formatos de origem de dados legados no comando
SYNC
. - Corrige um problema no comportamento do %autoreload em notebooks fora de um repositório.
- Corrigido um problema em que a evolução do esquema do Auto Loader podia entrar em um loop de falha infinito quando uma nova coluna é detetada no esquema de um objeto JSON aninhado.
-
[SPARK-42928] Torna
resolvePersistentFunction
sincronizado. - [FAÍSCA-42936] Corrige o problema de LCan quando a cláusula pode ser resolvida diretamente por sua sub-agregação.
- [SPARK-42967] Corrige quando uma tarefa é iniciada após o cancelamento da fase.
- Atualizações de segurança do sistema operacional.
- Ofereça suporte a formatos de origem de dados legados no comando
29 de março de 2023
O Databricks SQL agora oferece suporte à especificação de valores padrão para colunas de tabelas Delta Lake, no momento da criação da tabela ou depois. Os comandos
INSERT
,UPDATE
,DELETE
eMERGE
subsequentes podem fazer referência ao valor padrão de qualquer coluna usando a palavra-chaveDEFAULT
explícita. Além disso, se qualquer atribuição deINSERT
tiver uma lista explícita de menos colunas do que a tabela de destino, os valores padrão da coluna correspondente serão substituídos pelas colunas restantes (ou NULL se nenhum padrão for especificado).Por exemplo:
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; > 0, 2023-03-28 1, 2023-03-28z
O Auto Loader agora inicia pelo menos uma limpeza síncrona de logs do RocksDB para fluxos de
Trigger.AvailableNow
, a fim de garantir que o ponto de verificação possa ser limpo regularmente para fluxos do Auto Loader em execução rápida. Isso pode fazer com que alguns fluxos demorem mais tempo antes de serem desligados, mas economizará custos de armazenamento e melhorará a experiência do Auto Loader em execuções futuras.Agora você pode modificar uma tabela Delta para adicionar suporte aos recursos da tabela usando
DeltaTable.addFeatureSupport(feature_name)
.[SPARK-42794] Aumentar o lockAcquireTimeoutMs para 2 minutos para adquirir o armazenamento de estado do RocksDB no Structure Streaming.
[SPARK-42521] Adicionar NULLs para INSERTs com listas especificadas pelo usuário de menos colunas do que a tabela de destino
[SPARK-42702][SPARK-42623] Suporte a consulta parametrizada em subconsulta e CTE
[FAÍSCA-42668] Exceção de captura ao tentar fechar o fluxo compactado em HDFSStateStoreProvider stop
[SPARK-42403] JsonProtocol deve lidar com cadeias de caracteres JSON nulas
8 de março de 2023
- A mensagem de erro "Falha ao inicializar a configuração" foi melhorada para fornecer mais contexto para o cliente.
- Há uma alteração de terminologia para adicionar recursos a uma tabela Delta usando a propriedade da tabela. A sintaxe preferida é agora
'delta.feature.featureName'='supported'
em vez de'delta.feature.featureName'='enabled'
. Para compatibilidade com versões anteriores, o uso'delta.feature.featureName'='enabled'
ainda funciona e continuará a funcionar. - A partir desta versão, é possível criar/substituir uma tabela com uma propriedade de tabela adicional
delta.ignoreProtocolDefaults
para ignorar configurações do Spark relacionadas com o protocolo, que incluem as versões padrão de leitor e gravador e os recursos de tabela suportados por padrão. - [SPARK-42070] Alterar o valor padrão do argumento da função Mask de -1 para NULL
- [SPARK-41793] Resultado incorreto para molduras de janela definidas por uma cláusula de intervalo em decimais significativos
- [SPARK-42484] UnsafeRowUtils mensagem de erro aprimorada
- [SPARK-42516] Sempre capture a configuração de fuso horário da sessão ao criar exibições
- [SPARK-42635] Corrigir a expressão TimestampAdd.
- [SPARK-42622] Desativação de substituição nos valores
- [SPARK-42534] Corrigir cláusula DB2Dialect Limit
- [SPARK-42121] Adicionar funções internas com valor de tabela posexplode, posexplode_outer, json_tuple e stack
- [SPARK-42045] Modo ANSI SQL: Round/Bround deve retornar um erro em caso de overflow de inteiro minúsculo/pequeno/significativo.
- Atualizações de segurança do sistema operacional.
Tempo de execução do Databricks 11.3 LTS
Consulte Databricks Runtime 11.3 LTS.
- 5 de março de 2025
- Atualizações de segurança do sistema operacional.
- Fevereiro 11, 2025
- Esta versão inclui uma correção para um caso limite em que um
CLONE
incremental pode voltar a copiar os ficheiros já copiados de uma tabela de origem para uma tabela de destino. Ver Clonar uma tabela no Azure Databricks.
- Esta versão inclui uma correção para um caso limite em que um
- 10 de dezembro de 2024
- Atualizações de segurança do sistema operacional.
- 26 de novembro de 2024
- Correções de bugs diversos.
- 10 de outubro de 2024
- Correções de bugs diversos.
- 25 de setembro de 2024
- [SPARK-46601] [CORE] Corrigir erro de log no handleStatusMessage
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- Correções de bugs diversos.
- 17 de setembro de 2024
- Atualizações de segurança do sistema operacional.
- 29 de agosto de 2024
- 14 de agosto de 2024
- [FAÍSCA-48941][FAÍSCA-48970] Correções de escritor/leitor de Backport ML
- [SPARK-49065][SQL] O rebasamento nos formatadores/analisadores herdados deve suportar fusos horários que não são o padrão da JVM
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-48463][ML] Tornar o StringIndexer compatível com colunas de entrada aninhadas
- Atualizações de segurança do sistema operacional.
- 1 de agosto de 2024
- [SPARK-48896][SPARK-48909][SPARK-48883] Correções de backport do Spark ML writer
- 1 de agosto de 2024
- Para aplicar os patches de segurança necessários, a versão Python no Databricks Runtime 11.3 LTS é atualizada de 3.9.5 para 3.9.19.
- Julho 11, 2024
- [SPARK-48383][SS] Apresentar um erro mais claro para partições incompatíveis na opção startOffset no Kafka.
- [SPARK-47070] Corrigir agregação inválida após reescrever a subconsulta
- Atualizações de segurança do sistema operacional.
- 17 de junho de 2024
- Atualizações de segurança do sistema operacional.
- 21 de maio de 2024
- [FAÍSCA-48105][SS] Corrigir a condição de competição entre o descarregamento do armazenamento de estado e a criação de snapshot
- Atualizações de segurança do sistema operacional.
- 9 de maio de 2024
- [SPARK-48018][SS] Corrigir groupId nulo que causa erro de parâmetro em falta ao lançar KafkaException.couldNotReadOffsetRange
- [SPARK-47973][CORE] Registar local da chamada em SparkContext.stop() e posteriormente em SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Definir a nulabilidade corretamente na chave de junção resultante num full outer join usando USING
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2024
- Atualizações de segurança do sistema operacional.
- 11 de abril de 2024
- Atualizações de segurança do sistema operacional.
- 1 de abril de 2024
- [SPARK-44252][SS] Defina uma nova classe de erro e aplique para o caso em que o estado de carregamento do DFS falhar
- [SPARK-47135][SS] Implementar classes de erro para exceções de perda de dados Kafka
- Reverter "[SPARK-46861][CORE] Evitar impasse no DAGScheduler"
- [SPARK-47200][SS] Classe de erro para erro de função do utilizador do batch sink Foreach
- Atualizações de segurança do sistema operacional.
- Março 14, 2024
- [SPARK-47167][SQL] Adicionar classe concreta para relação anónima JDBC
- [FAÍSCA-47125][SQL] Retornar null se Univocity nunca acionar a análise
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Corrigido um problema em que o uso de uma coleção local como origem num comando MERGE pode resultar na métrica de operação "numSourceRows" indicando o dobro do número correto de linhas.
- [SPARK-45582][SS] Assegure-se de que a instância de armazenamento não seja usada após chamar o commit na agregação de streaming em modo de saída.
- Fevereiro 13, 2024
- [SPARK-46794] Remover subconsultas das restrições do LogicalRDD.
- [SPARK-46861] Evite o impasse no DAGScheduler.
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2024
- Atualizações de segurança do sistema operacional.
- 25 de dezembro de 2023
- Para evitar o aumento da latência ao se comunicar por TLSv1.3, esta versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
- [SPARK-46058] Adicionar sinalizador separado para privateKeyPassword.
-
[SPARK-46602] Propagar
allowExisting
na criação da vista quando a vista/tabela não existir. -
[SPARK-46394] Corrige problemas spark.catalog.listDatabases() em esquemas com caracteres especiais quando
spark.sql.legacy.keepCommandOutputSchema
definido para true. -
[SPARK-46538] Corrigir o problema da referência de coluna ambígua no
ALSModel.transform
. - [SPARK-39440] Adicionar uma configuração para desativar a cronologia de eventos.
- [SPARK-46249] Requerer bloqueio de instância para obter métricas do RocksDB e evitar condição de corrida com operações em segundo plano.
- [SPARK-46132] Suporte para palavra-passe de chave para chaves JKS em RPC SSL.
- 14 de dezembro de 2023
- Corrigido um problema em que caracteres de sublinhado precedidos por uma barra invertida em operações getColumns originadas de clientes JDBC ou ODBC eram tratados incorretamente e interpretados como curingas.
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Instalado um novo pacote
pyarrow-hotfix
para corrigir uma vulnerabilidade do PyArrow RCE. - Corrigido um problema em que caracteres de sublinhado escapados nas operações
getColumns
originadas de clientes de JDBC ou ODBC eram interpretados erroneamente como curingas. - [SPARK-43973] A interface de utilizador do Structured Streaming agora exibe de forma correta as consultas com falha.
-
[SPARK-45730] Melhoria das restrições de tempo para
ReloadingX509TrustManagerSuite
. -
[SPARK-45544] Suporte SSL integrado no
TransportContext
. -
[FAÍSCA-45859] Fez objetos UDF em
ml.functions
preguiçoso. -
[SPARK-43718] Corrigida a anulabilidade para chaves em
USING
joins. -
[FAÍSCA-44846] Removidas expressões de agrupamento complexo após
RemoveRedundantAggregates
. - Atualizações de segurança do sistema operacional.
- Instalado um novo pacote
- 14 de novembro de 2023
- Os filtros de partição nas consultas de streaming Delta Lake são empurrados para baixo antes do limite de taxa para obter uma melhor utilização.
- [SPARK-42205] Removidos os acumuláveis de log nos eventos de início de Estágio e de Tarefa.
-
[SPARK-45545]
SparkTransportConf
herda naSSLOptions
criação. - Reverter [SPARK-33861].
-
[SPARK-45541] Adicionado
SSLFactory
. - [SPARK-45429] Adicionadas classes auxiliares para comunicação RPC SSL.
-
[SPARK-45584] Corrigida a falha de execução da subconsulta com
TakeOrderedAndProjectExec
. -
[SPARK-45430]
FramelessOffsetWindowFunction
já não falha quandoIGNORE NULLS
eoffset > rowCount
. -
[SPARK-45427] Adicionadas configurações de SSL RPC para
SSLOptions
eSparkTransportConf
. - Atualizações de segurança do sistema operacional.
- 24 de outubro de 2023
-
[SPARK-45426] Adicionado suporte para
ReloadingX509TrustManager
. - Correções diversas.
-
[SPARK-45426] Adicionado suporte para
- 13 de outubro de 2023
- Dependência do Snowflake-jdbc atualizada de 3.13.29 para 3.13.33.
-
[SPARK-45178] Recuar para executar um único lote para
Trigger.AvailableNow
com fontes não suportadas em vez de usar o wrapper. -
[SPARK-45084]
StateOperatorProgress
para utilizar um número de partições de shuffle que seja preciso e adequado. - [SPARK-45346] A inferência de esquema do Parquet agora respeita a distinção entre maiúsculas e minúsculas ao mesclar um esquema.
- Atualizações de segurança do sistema operacional.
- 10 de setembro de 2023
- Correções diversas.
- 30 de agosto de 2023
-
[FAÍSCA-44818] Corrida fixa para interrupção de tarefa pendente emitida antes
taskThread
de ser inicializada. -
[SPARK-44871][11.3-13.0] Corrigido o comportamento
percentile_disc
. - Atualizações de segurança do sistema operacional.
-
[FAÍSCA-44818] Corrida fixa para interrupção de tarefa pendente emitida antes
- 15 de agosto de 2023
-
[SPARK-44485] Otimizado
TreeNode.generateTreeString
. - [SPARK-44504] Tarefa de manutenção limpa os fornecedores carregados em caso de erro de interrupção.
-
[SPARK-44464] Corrigido
applyInPandasWithStatePythonRunner
para gerar linhas comNull
como valor da primeira coluna. - Atualizações de segurança do sistema operacional.
-
[SPARK-44485] Otimizado
- 27 de julho de 2023
- Corrigido um problema em que
dbutils.fs.ls()
retornavaINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
quando era chamado para um caminho de local de armazenamento que colidia com outro local de armazenamento externo ou gerenciado. -
[SPARK-44199]
CacheManager
já não atualiza ofileIndex
desnecessariamente. - Atualizações de segurança do sistema operacional.
- Corrigido um problema em que
- 24 de julho de 2023
- [SPARK-44136] Corrigido um problema em que o StateManager era materializado no executor, em vez de no driver, no FlatMapGroupsWithStateExec.
- Atualizações de segurança do sistema operacional.
- 23 de junho de 2023
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2023
- Fotonizado
approx_count_distinct
. - A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para resolver um problema de segurança.
-
[SPARK-43779]
ParseToDate
agora carregaEvalMode
no thread principal. - [SPARK-40862] Suporte para subconsultas não agregadas em RewriteCorrelatedScalarSubquery
-
[FAÍSCA-43156][FAÍSCA-43098] Teste prolongado de erro de contagem em subconsulta escalar com
decorrelateInnerQuery
desativado. - [SPARK-43098] Corrigir o bug de contagem de precisão quando a subconsulta escalar possui uma cláusula de agrupamento
- Atualizações de segurança do sistema operacional.
- Fotonizado
- 2 de junho de 2023
- O analisador JSON no
failOnUnknownFields
modo descarta um registro noDROPMALFORMED
modo e falha diretamente noFAILFAST
modo. - Melhore o desempenho de atualizações incrementais com
SHALLOW CLONE
Iceberg e Parquet. - Corrigido um problema no Auto Loader em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferida.
- Evitar a reutilização do ficheiro sst para a mesma versão do state store do RocksDB para evitar o erro de incompatibilidade de ID.
-
[SPARK-43527] Corrigido
catalog.listCatalogs
no PySpark. -
[SPARK-43413][11.3-13.0] Corrigida a anulabilidade da subconsulta
IN
ListQuery
. - [SPARK-43340] Corrigido o campo de rastreio de pilha ausente nos logs de eventos.
- O analisador JSON no
Tempo de execução do Databricks 10.4 LTS
Consulte Databricks Runtime 10.4 LTS.
- 11 de março de 2025
- Atualizações de segurança do sistema operacional.
- Fevereiro 11, 2025
- Esta versão inclui uma correção para um caso limite em que um
CLONE
incremental pode voltar a copiar os ficheiros já copiados de uma tabela de origem para uma tabela de destino. Ver Clonar uma tabela no Azure Databricks. - Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção para um caso limite em que um
- 10 de dezembro de 2024
- Atualizações de segurança do sistema operacional.
- 26 de novembro de 2024
- Atualizações de segurança do sistema operacional.
- 5 de novembro de 2024
- Atualizações de segurança do sistema operacional.
- Outubro 22, 2024
- Atualizações de segurança do sistema operacional.
- 10 de outubro de 2024
- Atualizações de segurança do sistema operacional.
- 25 de setembro de 2024
- [SPARK-46601] [CORE] Corrigir erro de log no handleStatusMessage
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- Atualizações de segurança do sistema operacional.
- 29 de agosto de 2024
- [SPARK-49065][SQL] O rebasamento em formatadores/analisadores legados deve suportar fusos horários que não sejam os padrão da JVM
- 14 de agosto de 2024
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [FAÍSCA-48941][FAÍSCA-48970] Correções de escritor/leitor de Backport ML
- [SPARK-48463][ML] Tornar o StringIndexer compatível com colunas de entrada aninhadas
- 1 de agosto de 2024
- [SPARK-48896][SPARK-48909][SPARK-48883] Correções de backport do Spark ML writer
- Atualizações de segurança do sistema operacional.
- Julho 11, 2024
- [SPARK-48383][SS] Lançar um erro melhor para partições não correspondentes na opção startOffset no Kafka.
- Atualizações de segurança do sistema operacional.
- 17 de junho de 2024
- Atualizações de segurança do sistema operacional.
- 21 de maio de 2024
- [SPARK-48105][SS] Corrigir a race condition entre o descarregamento do armazenamento de estado e a criação de snapshot
- Atualizações de segurança do sistema operacional.
- 9 de maio de 2024
- [SPARK-48018][SS] Corrigir "groupId" nulo que provoca erro de parâmetro ausente ao lançar a exceção "KafkaException.couldNotReadOffsetRange".
- [FAÍSCA-47973][CORE] Registar o local da chamada em SparkContext.stop() e depois em SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Definir a nulabilidade corretamente na chave de junção coalescida numa junção exterior total USING join
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2024
- Atualizações de segurança do sistema operacional.
- 11 de abril de 2024
- Atualizações de segurança do sistema operacional.
- 1 de abril de 2024
- [SPARK-47135][SS] Implementar classes de erro para exceções de perda de dados Kafka
- [SPARK-44252][SS] Defina uma nova classe de erro e aplique para o caso em que o estado de carregamento do DFS falhar
- [SPARK-47200][SS] Classe de erro para erro de função do utilizador do batch sink Foreach
- Reverter “[SPARK-46861][CORE] Evitar impasse no DAGScheduler”
- Atualizações de segurança do sistema operacional.
- Março 14, 2024
- [FAÍSCA-47125][SQL] Retornar null se Univocity nunca acionar a análise
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Corrigido um problema em que o uso de uma coleção local como origem num comando MERGE pode resultar na métrica de operação "numSourceRows" indicando o dobro do número correto de linhas.
- [SPARK-45582][SS] Certifique-se de que a instância de armazenamento não seja usada após chamar o commit na agregação de streaming em modo de saída.
- Atualizações de segurança do sistema operacional.
- Fevereiro 13, 2024
- [SPARK-46861] Evite o impasse no DAGScheduler.
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2024
- Atualizações de segurança do sistema operacional.
- 25 de dezembro de 2023
- Para evitar o aumento da latência ao se comunicar por TLSv1.3, esta versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
- [FAÍSCA-46058] Adicionar indicador separado para privateKeyPassword.
-
[SPARK-46538] Corrigir o problema da referência de coluna ambígua no
ALSModel.transform
. - [SPARK-39440] Adicionar uma configuração para desativar a linha do tempo de eventos.
- [SPARK-46132] Suporte para palavra-passe das chaves JKS no SSL RPC.
- 14 de dezembro de 2023
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Instalado um novo pacote
pyarrow-hotfix
para corrigir uma vulnerabilidade do PyArrow RCE. -
[SPARK-45544] Suporte SSL integrado no
TransportContext
. -
[FAÍSCA-45859] Tornou objetos UDF em
ml.functions
preguiçosos. -
[SPARK-43718] Corrigida a anulabilidade para chaves em
USING
joins. -
[SPARK-45730] Melhoria das restrições de tempo para
ReloadingX509TrustManagerSuite
. - [SPARK-42205] Removidos os acumuláveis de logs nos eventos de início de Estágio e Tarefa.
-
[SPARK-44846] Removidas expressões de agrupamento complexo após
RemoveRedundantAggregates
. - Atualizações de segurança do sistema operacional.
- Instalado um novo pacote
- 14 de novembro de 2023
-
[SPARK-45541] Adicionado
SSLFactory
. -
[SPARK-45545]
SparkTransportConf
herda aquando daSSLOptions
criação. -
[SPARK-45427] Adicionadas configurações de SSL RPC para
SSLOptions
eSparkTransportConf
. - [SPARK-45429] Adicionadas classes auxiliares para comunicação RPC SSL.
-
[SPARK-45584] Corrigida a falha de execução da subconsulta com
TakeOrderedAndProjectExec
. - Reverter [SPARK-33861].
- Atualizações de segurança do sistema operacional.
-
[SPARK-45541] Adicionado
- 24 de outubro de 2023
-
[SPARK-45426] Adicionado suporte para
ReloadingX509TrustManager
. - Atualizações de segurança do sistema operacional.
-
[SPARK-45426] Adicionado suporte para
- 13 de outubro de 2023
-
[SPARK-45084]
StateOperatorProgress
usar um número de partições de shuffle preciso e adequado. -
[SPARK-45178] Retomar a execução de um único lote para
Trigger.AvailableNow
com fontes não suportadas em vez de usar o envoltório. - Atualizações de segurança do sistema operacional.
-
[SPARK-45084]
- 10 de setembro de 2023
- Correções diversas.
- 30 de agosto de 2023
-
[FAÍSCA-44818] Corrida fixa para interrupção de tarefa pendente emitida antes
taskThread
de ser inicializada. - Atualizações de segurança do sistema operacional.
-
[FAÍSCA-44818] Corrida fixa para interrupção de tarefa pendente emitida antes
- 15 de agosto de 2023
- [SPARK-44504] Tarefa de manutenção limpa os fornecedores carregados em caso de erro de interrupção.
- [SPARK-43973] Interface do utilizador de streaming estruturado agora exibe corretamente consultas falhadas.
- Atualizações de segurança do sistema operacional.
- 23 de junho de 2023
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2023
- A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para resolver um problema de segurança.
- [SPARK-43098] Corrigir o bug de contagem de precisão quando a subconsulta escalar possui uma cláusula de agrupamento
- [SPARK-40862] Suporte para subconsultas não agregadas em RewriteCorrelatedScalarSubquery
-
[SPARK-43156][SPARK-43098] Teste de contagem de subconsulta escalar ampliada com
decorrelateInnerQuery
desligado. - Atualizações de segurança do sistema operacional.
- 2 de junho de 2023
- O analisador JSON no
failOnUnknownFields
modo descarta um registro noDROPMALFORMED
modo e falha diretamente noFAILFAST
modo. - Corrigido um problema na análise de dados recuperados em JSON para evitar
UnknownFieldException
. - Corrigido um problema no Auto Loader em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferida.
- [SPARK-43404] Evitar a reutilização do ficheiro sst para a mesma versão do armazenamento de estado RocksDB para evitar o erro de incompatibilidade de ID.
-
[SPARK-43413] Corrigida a nulabilidade da subconsulta
ListQuery
. - Atualizações de segurança do sistema operacional.
- O analisador JSON no
- 17 de maio de 2023
- As varreduras de parquet agora são robustas contra OOMs ao examinar arquivos excepcionalmente estruturados, ajustando dinamicamente o tamanho do lote. Metadados de arquivo são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente em tentativas de reexecução da tarefa como uma última medida de segurança.
-
[SPARK-41520] Dividir
AND_OR
padrão de árvore para separarAND
eOR
. -
[SPARK-43190]
ListQuery.childOutput
está agora em conformidade com a saída secundária. - Atualizações de segurança do sistema operacional.
- 25 de abril de 2023
-
[FAÍSCA-42928] Faça o
resolvePersistentFunction
sincronizar. - Atualizações de segurança do sistema operacional.
-
[FAÍSCA-42928] Faça o
- 11 de abril de 2023
- Corrigido um problema em que a evolução do esquema do Auto Loader podia entrar em um loop de falha infinito quando uma nova coluna é detetada no esquema de um objeto JSON aninhado.
-
[SPARK-42937]
PlanSubqueries
agora defineInSubqueryExec#shouldBroadcast
como true. - [SPARK-42967] Corrigir SparkListenerTaskStart.stageAttemptId quando uma tarefa é iniciada depois que o estágio é cancelado.
- 29 de março de 2023
- [SPARK-42668] Capturar exceção ao tentar fechar o fluxo compactado ao parar o HDFSStateStoreProvider
- [SPARK-42635] Corrigir o ...
- Atualizações de segurança do sistema operacional.
- 14 de março de 2023
- [SPARK-41162] Corrigir anti-junção e semi-junção para autojunção com agregações
- [FAÍSCA-33206] Corrigir cálculo de peso de cache de índice aleatório para arquivos de índice pequenos
-
[SPARK-42484] Foi melhorada a mensagem de erro
UnsafeRowUtils
- Correções diversas.
- 28 de fevereiro de 2023
- Suporte para coluna gerada para o formato de data aaaa-MM-dd. Esta alteração suporta a poda de partições para aaaa-MM-dd como formato de data nas colunas geradas.
- Os usuários agora podem ler e escrever tabelas Delta específicas que exigem o Reader versão 3 e o Writer versão 7, usando o Databricks Runtime 9.1 LTS ou posterior. Para serem bem-sucedidos, os recursos de tabela listados no protocolo das tabelas devem ser suportados pela versão atual do Databricks Runtime.
- Suporte para coluna gerada para o formato de data aaaa-MM-dd. Esta alteração suporta a poda de partições para aaaa-MM-dd como formato de data nas colunas geradas.
- Atualizações de segurança do sistema operacional.
- 16 de fevereiro de 2023
- [SPARK-30220] Habilitar o uso de subconsultas Exists/In fora do nó de Filtro
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2023
- Os tipos de tabelas JDBC são agora EXTERNOS por padrão.
- 18 de janeiro de 2023
- O conector Sinapse do Azure retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres não válidos, como espaços em branco ou ponto-e-vírgula. Nesses casos, a seguinte mensagem será retornada:
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
. - [SPARK-38277] Limpar lote de escrita após a confirmação do armazenamento de estado do RocksDB
- [SPARK-41199] Corrigir problema de métricas quando a fonte de streaming DSv1 e a fonte de streaming DSv2 são co-utilizadas
- [SPARK-41198] Corrigir métricas numa consulta de streaming que utiliza uma CTE e uma fonte de transmissão DSv1.
- [SPARK-41339] Fechar e recriar o lote de gravação do RocksDB em vez de apenas o limpar.
- [SPARK-41732] Aplique poda baseada em padrões de árvores para a regra SessionWindowing.
- Atualizações de segurança do sistema operacional.
- O conector Sinapse do Azure retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres não válidos, como espaços em branco ou ponto-e-vírgula. Nesses casos, a seguinte mensagem será retornada:
- 29 de novembro de 2022
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao gravar dados usando o conector Redshift. As seguintes opções foram adicionadas para controlar o manuseio de espaços em branco:
-
csvignoreleadingwhitespace
, quando configurado paratrue
, remove o espaço em branco à esquerda dos valores durante a escrita quandotempformat
está configurado paraCSV
ouCSV GZIP
. Os espaços em branco são retidos quando a configuração é definida comofalse
. Por predefinição, o valor étrue
. -
csvignoretrailingwhitespace
, quando definido comotrue
, remove o espaço em branco à direita dos valores durante as gravações quandotempformat
está definido comoCSV
ouCSV GZIP
. Os espaços em branco são retidos quando a configuração é definida comofalse
. Por predefinição, o valor étrue
.
-
- Corrigiu-se um problema na análise de JSON no Auto Loader quando todas as colunas eram deixadas como strings (
cloudFiles.inferColumnTypes
não foi definido ou estava definido comofalse
) e o JSON continha objetos aninhados. - Atualizações de segurança do sistema operacional.
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao gravar dados usando o conector Redshift. As seguintes opções foram adicionadas para controlar o manuseio de espaços em branco:
- 15 de novembro de 2022
- Apache commons-text atualizado para 1.10.0.
-
[SPARK-40646] A análise JSON para estruturas, mapas e arrays foi corrigida para que, quando uma parte de um registo não corresponder ao esquema, o restante do registo ainda possa ser analisado corretamente em vez de retornar nulos. Para optar pelo comportamento melhorado, defina
spark.sql.json.enablePartialResults
comotrue
. O sinalizador é desativado por padrão para preservar o comportamento original. -
[SPARK-40292] Corrigir nomes de colunas na função
arrays_zip
quando matrizes são referenciadas a partir de estruturas aninhadas - Atualizações de segurança do sistema operacional.
- 1 de novembro de 2022
- Corrigido um problema onde, se uma tabela Delta tivesse uma coluna definida pelo utilizador chamada
_change_type
, mas o Change data feed estivesse desativado nessa tabela, os dados nessa coluna seriam incorretamente preenchidos com valores NULL ao executarMERGE
. - Corrigido um problema com o Auto Loader em que um arquivo pode ser duplicado no mesmo microlote quando
allowOverwrites
está ativado - [SPARK-40697] Adicionar preenchimento de caracteres no lado de leitura para cobrir arquivos de dados externos
- [SPARK-40596] Preencher ExecutorDecommission com mensagens no ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
- Corrigido um problema onde, se uma tabela Delta tivesse uma coluna definida pelo utilizador chamada
- 18 de outubro de 2022
- Atualizações de segurança do sistema operacional.
- 5 de outubro de 2022
-
[SPARK-40468] Corrigir poda de colunas em CSV quando
_corrupt_record
estiver selecionado. - Atualizações de segurança do sistema operacional.
-
[SPARK-40468] Corrigir poda de colunas em CSV quando
- 22 de setembro de 2022
- Os usuários podem definir spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled
,true
) para reativar a listagem integrada do Auto Loader no ADLS Gen2. A listagem integrada foi desativada anteriormente devido a problemas de desempenho, mas pode ter levado ao aumento dos custos de armazenamento para os clientes. - [SPARK-40315] Adicionar hashCode() para Literal de ArrayBasedMapData
- [SPARK-40213] Suporte para a conversão de valor ASCII para caracteres Latin-1
- [SPARK-40380] Corrigir a constant folding de InvokeLike para evitar literais não serializáveis incorporados no plano.
- [SPARK-38404] Melhorar a resolução de CTEs quando uma CTE interna faz referência a uma CTE externa
- [SPARK-40089] Corrigir a classificação para alguns tipos decimais
- [SPARK-39887] RemoveRedundantAliases deverá manter aliases que tornam a saída dos nós de projeção únicos
- Os usuários podem definir spark.conf.set(
- 6 de setembro de 2022
- [SPARK-40235] Use o bloqueio interruptível em vez de sincronizado em Executor.updateDependencies().
- [SPARK-40218] Os GROUPING SETS devem preservar as colunas de agrupamento.
- [SPARK-39976] ArrayIntersect deve tratar null na expressão à esquerda corretamente.
-
[FAÍSCA-40053] Adicionar
assume
aos casos de cancelamento dinâmico que requerem um ambiente de execução Python. - [SPARK-35542] Correção: Bucketizer criado para várias colunas com parâmetros splitsArray, inputCols e outputCols não pode ser carregado depois de salvá-lo.
- [SPARK-40079] Adicionar validação das "inputCols" do Imputer para o caso de entrada vazia.
- 24 de agosto de 2022
- [SPARK-39983] Não armazene em cache as relações de broadcast não serializadas no driver.
- [SPARK-39775] Desative a validação de valores padrão ao analisar esquemas Avro.
- [SPARK-39962] Aplicar projeção quando os atributos de grupo estiverem vazios
- [SPARK-37643] quando a propriedade charVarcharAsString é verdadeira, para consultas de predicado com o tipo de dados char, deve-se ignorar a regra de preenchimento à direita.
- Atualizações de segurança do sistema operacional.
- 9 de agosto de 2022
- [SPARK-39847] Corrigir a condição de corrida em RocksDBLoader.loadLibrary() se o encadeamento que o chamou for interrompido
- [SPARK-39731] Corrigir um problema nas origens de dados CSV e JSON ao analisar datas no formato "yyyyMMdd" com a configuração do analisador de tempo CORRIGIDO.
- Atualizações de segurança do sistema operacional.
- 27 de julho de 2022
- [SPARK-39625] Adicionar Dataset.as(StructType).
- [FAÍSCA-39689]Suporte para 2 caracteres nas fontes de dados CSV.
- [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded deve ser seguro para threads.
- [SPARK-39570] tabela integrada deve permitir expressões com alias.
- [SPARK-39702] Reduzir a sobrecarga de memória do TransportCipher$EncryptedMessage ao utilizar um byteRawChannel partilhado.
- [SPARK-39575] adicionar ByteBuffer#rewind no AvroDeserializer após ByteBuffer#get.
- [SPARK-39476] Desativar otimização de 'unwrap cast' ao converter de Long para Float, Double ou de Integer para Float.
- [SPARK-38868] Não propague exceções do predicado de filtro ao otimizar uniões externas.
- Atualizações de segurança do sistema operacional.
- 20 de julho de 2022
- Torne os resultados da operação Delta MERGE consistentes quando a origem não for determinística.
- [SPARK-39355] Coluna única usa aspas para definir "UnresolvedAttribute".
- [SPARK-39548] O comando CreateView com uma consulta que usa cláusula de janela provocou um problema de definição de janela não encontrada.
- [SPARK-39419] Corrigir ArraySort para lançar uma exceção quando o comparador retornar nulo.
- Desativou o uso de APIs de nuvem internas do Auto Loader para listagem de diretórios no Azure.
- Atualizações de segurança do sistema operacional.
- 5 de julho de 2022
- [SPARK-39376] Ocultar colunas duplicadas na expansão 'star' do alias de uma subconsulta NATURAL/USING JOIN
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2022
- [SPARK-39283] Corrigir o impasse entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator.
- [SPARK-39285] O Spark não deve verificar nomes de campos ao ler ficheiros.
- [SPARK-34096] Melhorar o desempenho para nth_value ao ignorar nulos sobre a janela de offset.
-
[SPARK-36718] Corrija a
isExtractOnly
verificação em CollapseProject.
- 2 de junho de 2022
- [SPARK-39093] Evite erros de compilação de codegen ao dividir intervalos de ano-mês ou intervalos de tempo de dia por um valor inteiro.
- [SPARK-38990] Evite NullPointerException ao avaliar o formato date_trunc/trunc como uma referência vinculada.
- Atualizações de segurança do sistema operacional.
- 18 de maio de 2022
- Corrige uma possível fuga de memória incorporada no Auto Loader.
- [SPARK-38918] A poda de colunas aninhadas deve remover atributos que não pertencem à relação atual.
- [SPARK-37593] Reduza o tamanho da página padrão por LONG_ARRAY_OFFSET se G1GC e ON_HEAP forem usados.
- [SPARK-39084] Corrigir df.rdd.isEmpty() usando TaskContext para parar o iterador na conclusão da tarefa.
- [SPARK-32268] Adicionar ColumnPruning em injectBloomFilter.
- [SPARK-38974] Filtrar funções registadas com um determinado nome de base de dados em funções de lista.
- [SPARK-38931] Criar o diretório DFS raiz para o RocksDBFileManager com um número desconhecido de chaves no primeiro checkpoint.
- Atualizações de segurança do sistema operacional.
- 19 de abril de 2022
- Java AWS SDK atualizado da versão 1.11.655 para 1.12.1899.
- Corrigido um problema com bibliotecas de notebook que não funcionavam em tarefas de transmissão em lote.
- [SPARK-38616] Acompanhe o texto da consulta SQL no Catalyst TreeNode
- Atualizações de segurança do sistema operacional.
- 6 de abril de 2022
- As seguintes funções do Spark SQL estão agora disponíveis com esta versão:
-
timestampadd()
edateadd()
: Adicione uma duração de tempo em uma unidade especificada a uma expressão de data e hora. -
timestampdiff()
edatediff()
: Calcule a diferença de tempo entre dois carimbos de data/hora numa unidade especificada.
-
- Parquet-MR foi atualizado para 1.12.2
- Suporte melhorado para esquemas abrangentes em arquivos parquet
- [SPARK-38631] Usa implementação baseada em Java para extrair arquivos tar em Utils.unpack.
-
[SPARK-38509][SPARK-38481] Selecione três
timestmapadd/diff
mudanças. - [SPARK-38523] Correção referente à coluna de registro corrompido do CSV.
-
[SPARK-38237] Permitir
ClusteredDistribution
exigir chaves de agrupamento completas. - [SPARK-38437] Serialização leniente de data e hora da fonte de dados.
- [SPARK-38180] Permitir expressões de conversão para tipos superiores em predicados de igualdade correlacionados.
- [FAÍSCA-38155] Não permitir agregados distintos em subconsultas laterais com predicados não suportados.
- Atualizações de segurança do sistema operacional.
- As seguintes funções do Spark SQL estão agora disponíveis com esta versão:
Tempo de execução do Databricks 9.1 LTS
Consulte Databricks Runtime 9.1 LTS.
- 11 de março de 2025
- Atualizações de segurança do sistema operacional.
- Fevereiro 11, 2025
- Atualizações de segurança do sistema operacional.
- 10 de dezembro de 2024
- Atualizações de segurança do sistema operacional.
- 26 de novembro de 2024
- Atualizações de segurança do sistema operacional.
- 5 de novembro de 2024
- Atualizações de segurança do sistema operacional.
- Outubro 22, 2024
- Atualizações de segurança do sistema operacional.
- 10 de outubro de 2024
- Atualizações de segurança do sistema operacional.
- 25 de setembro de 2024
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- Atualizações de segurança do sistema operacional.
- 6 de setembro de 2024
- Atualizações de segurança do sistema operacional.
- 29 de agosto de 2024
- [SPARK-49065][SQL] O rebasamento nos formatadores/analisadores herdados deve suportar fusos horários que não são padrão da JVM
- 14 de agosto de 2024
- 1 de agosto de 2024
- Atualizações de segurança do sistema operacional.
- Julho 11, 2024
- Atualizações de segurança do sistema operacional.
- 17 de junho de 2024
- Atualizações de segurança do sistema operacional.
- 21 de maio de 2024
- [FAÍSCA-48105][SS] Corrigir a condição de competição entre o descarregamento do armazenamento de estado e a criação de snapshot
- Atualizações de segurança do sistema operacional.
- 9 de maio de 2024
- [SPARK-47973][CORE] Registar o local da chamada em SparkContext.stop() e posteriormente em SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Ajustar corretamente a nulabilidade na chave de junção coalescida numa junção externa total USANDO a cláusula USING
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2024
- Correções de bugs diversos.
- 11 de abril de 2024
- Atualizações de segurança do sistema operacional.
- 1 de abril de 2024
- Reverter "[SPARK-46861][CORE] Evitar impasse no DAGScheduler"
- Atualizações de segurança do sistema operacional.
- Março 14, 2024
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Corrigido um problema em que o uso de uma coleção local como origem num comando MERGE pode resultar na métrica de operação "numSourceRows" indicando o dobro do número correto de linhas.
- Atualizações de segurança do sistema operacional.
- Fevereiro 13, 2024
- [SPARK-46861] Evite o impasse no DAGScheduler.
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2024
- Atualizações de segurança do sistema operacional.
- 25 de dezembro de 2023
- Para evitar o aumento da latência ao se comunicar por TLSv1.3, esta versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
- [SPARK-46058] Adicionar indicador separado para privateKeyPassword.
- [SPARK-39440] Adicionar uma configuração para desativar a linha do tempo de eventos.
- [SPARK-46132] Suporte de palavra-passe de chave para chaves JKS para RPC SSL.
- 14 de dezembro de 2023
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Instalado um novo pacote
pyarrow-hotfix
para corrigir uma vulnerabilidade do PyArrow RCE. -
[FAÍSCA-45859] Fez os objetos UDF em
ml.functions
serem inicializados de forma preguiçosa (tardia). -
[SPARK-45544] Suporte SSL integrado no
TransportContext
. -
[SPARK-45730] Melhoria das restrições de tempo para
ReloadingX509TrustManagerSuite
. - Atualizações de segurança do sistema operacional.
- Instalado um novo pacote
- 14 de novembro de 2023
-
[SPARK-45545]
SparkTransportConf
herdaSSLOptions
durante a criação. - [SPARK-45429] Adicionadas classes auxiliares para comunicação RPC SSL.
-
[SPARK-45427] Adicionadas configurações de SSL RPC para
SSLOptions
eSparkTransportConf
. -
[SPARK-45584] Corrigida a falha de execução da subconsulta com
TakeOrderedAndProjectExec
. -
[SPARK-45541] Adicionado
SSLFactory
. - [SPARK-42205] Removido o registo de acumuláveis nos eventos de início de Fase e de Tarefa.
- Atualizações de segurança do sistema operacional.
-
[SPARK-45545]
- 24 de outubro de 2023
-
[SPARK-45426] Adicionado suporte para
ReloadingX509TrustManager
. - Atualizações de segurança do sistema operacional.
-
[SPARK-45426] Adicionado suporte para
- 13 de outubro de 2023
- Atualizações de segurança do sistema operacional.
- 10 de setembro de 2023
- Correções diversas.
- 30 de agosto de 2023
- Atualizações de segurança do sistema operacional.
- 15 de agosto de 2023
- Atualizações de segurança do sistema operacional.
- 23 de junho de 2023
- A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para resolver um problema de segurança.
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2023
- [SPARK-43098] Correção no erro de correção da função COUNT quando a subconsulta escalar possui uma cláusula GROUP BY.
-
[FAÍSCA-43156][FAÍSCA-43098] Estenda o teste de bug da contagem de subconsultas escalares com
decorrelateInnerQuery
desativado. - [SPARK-40862] Suporte para subconsultas não agregadas em RewriteCorrelatedScalarSubquery.
- Atualizações de segurança do sistema operacional.
- 2 de junho de 2023
- O analisador JSON no
failOnUnknownFields
modo descarta um registro noDROPMALFORMED
modo e falha diretamente noFAILFAST
modo. - Corrigido um problema na análise de dados recuperados em JSON para evitar
UnknownFieldException
. - Corrigido um problema no Auto Loader em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferida.
-
[SPARK-37520] Adicionar as funções de cadeia de caracteres
startswith()
eendswith()
-
[SPARK-43413] Corrigida a nulabilidade da subconsulta
ListQuery
. - Atualizações de segurança do sistema operacional.
- O analisador JSON no
- 17 de maio de 2023
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2023
- Atualizações de segurança do sistema operacional.
- 11 de abril de 2023
- Corrigido um problema em que a evolução do esquema do Auto Loader podia entrar em um loop de falha infinito quando uma nova coluna é detetada no esquema de um objeto JSON aninhado.
- [SPARK-42967] Corrigir SparkListenerTaskStart.stageAttemptId quando uma tarefa é iniciada depois que o estágio é cancelado.
- 29 de março de 2023
- Atualizações de segurança do sistema operacional.
- 14 de março de 2023
-
[SPARK-42484] A mensagem de erro foi melhorada para
UnsafeRowUtils
. - Correções diversas.
-
[SPARK-42484] A mensagem de erro foi melhorada para
- 28 de fevereiro de 2023
- Os usuários agora podem ler e escrever tabelas Delta específicas que exigem o Reader versão 3 e o Writer versão 7, usando o Databricks Runtime 9.1 LTS ou posterior. Para serem bem-sucedidos, os recursos de tabela listados no protocolo das tabelas devem ser suportados pela versão atual do Databricks Runtime.
- Atualizações de segurança do sistema operacional.
- 16 de fevereiro de 2023
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2023
- Os tipos de tabela de tabelas JDBC agora são EXTERNOS por padrão.
- 18 de janeiro de 2023
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2022
- Corrigiu-se um problema na análise de JSON no Auto Loader quando todas as colunas eram deixadas como strings (
cloudFiles.inferColumnTypes
não foi definido ou estava definido comofalse
) e o JSON continha objetos aninhados. - Atualizações de segurança do sistema operacional.
- Corrigiu-se um problema na análise de JSON no Auto Loader quando todas as colunas eram deixadas como strings (
- 15 de novembro de 2022
- Apache commons-text atualizado para 1.10.0.
- Atualizações de segurança do sistema operacional.
- Correções diversas.
- 1 de novembro de 2022
- Corrigido um problema onde, se uma tabela Delta tivesse uma coluna definida pelo utilizador chamada
_change_type
, mas o Change data feed estivesse desativado nessa tabela, os dados nessa coluna seriam incorretamente preenchidos com valores NULL ao executarMERGE
. - Corrigido um problema com o Auto Loader em que um arquivo pode ser duplicado no mesmo microlote quando
allowOverwrites
está ativado - [SPARK-40596] Adicionar mensagens ao ExecutorDecommission a partir do ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
- Corrigido um problema onde, se uma tabela Delta tivesse uma coluna definida pelo utilizador chamada
- 18 de outubro de 2022
- Atualizações de segurança do sistema operacional.
- 5 de outubro de 2022
- Correções diversas.
- Atualizações de segurança do sistema operacional.
- 22 de setembro de 2022
- Os usuários podem definir spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") para reativar a listagem interna do Auto Loader no ADLS Gen2. A listagem integrada foi desativada anteriormente devido a problemas de desempenho, mas pode ter levado ao aumento dos custos de armazenamento para os clientes.
- [FAÍSCA-40315] Adicionar hashCode() para o Literal do ArrayBasedMapData
- [SPARK-40089] Corrigir a classificação para alguns tipos decimais
- [SPARK-39887] RemoveRedundantAliases deve manter aliases que tornam a saída dos nós de projeção exclusivos
- 6 de setembro de 2022
- [SPARK-40235] Use bloqueio interrompível em vez de bloqueio sincronizado em Executor.updateDependencies()
- [SPARK-35542] Correção: Bucketizer criado para várias colunas com parâmetros splitsArray, inputCols e outputCols não pode ser carregado depois de salvá-lo
- [SPARK-40079] Adicionar validação para inputCols do Imputer no caso de entradas vazias
- 24 de agosto de 2022
-
[SPARK-39666] Use UnsafeProjection.create para garantir o respeito de
spark.sql.codegen.factoryMode
em ExpressionEncoder - [SPARK-39962] Aplicar projeção quando os atributos de grupo estiverem vazios
- Atualizações de segurança do sistema operacional.
-
[SPARK-39666] Use UnsafeProjection.create para garantir o respeito de
- 9 de agosto de 2022
- Atualizações de segurança do sistema operacional.
- 27 de julho de 2022
- Torne os resultados da operação Delta MERGE consistentes quando a origem não for determinística.
-
[SPARK-39689] Suporte para 2 caracteres na fonte de dados CSV
lineSep
-
[FAÍSCA-39575] Adicionado
ByteBuffer#rewind
depois deByteBuffer#get
emAvroDeserializer
. - [SPARK-37392] Corrigido o erro de desempenho do otimizador Catalyst.
- Atualizações de segurança do sistema operacional.
- 13 de julho de 2022
-
[SPARK-39419]
ArraySort
lança uma exceção quando o comparador retorna null. - Desativou o uso de APIs de nuvem internas do Auto Loader para listagem de diretórios no Azure.
- Atualizações de segurança do sistema operacional.
-
[SPARK-39419]
- 5 de julho de 2022
- Atualizações de segurança do sistema operacional.
- Correções diversas.
- 15 de junho de 2022
-
[FAÍSCA-39283] Corrigir o impasse entre
TaskMemoryManager
eUnsafeExternalSorter.SpillableIterator
.
-
[FAÍSCA-39283] Corrigir o impasse entre
- 2 de junho de 2022
-
[SPARK-34554] Implementar o
copy()
método emColumnarMap
. - Atualizações de segurança do sistema operacional.
-
[SPARK-34554] Implementar o
- 18 de maio de 2022
- Corrigido um potencial vazamento de memória embutido no Auto Loader.
- Atualize a versão do AWS SDK de 1.11.655 para 1.11.678.
- [SPARK-38918] A poda de colunas aninhadas deve filtrar atributos que não pertencem à relação atual
-
[SPARK-39084] Corrigir
df.rdd.isEmpty()
usandoTaskContext
para parar o iterador na conclusão da tarefa - Atualizações de segurança do sistema operacional.
- 19 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Correções diversas.
- 6 de abril de 2022
- [SPARK-38631] Usa implementação baseada em Java para extrair arquivos tar em Utils.unpack.
- Atualizações de segurança do sistema operacional.
- 22 de março de 2022
- Alterado o diretório de trabalho atual de notebooks em clusters de alta concorrência com controlo de acesso a tabelas ou transmissão de credenciais ativada para o diretório inicial do utilizador. Anteriormente, o diretório ativo era
/databricks/driver
. - [SPARK-38437] Serialização leniente de data e hora da fonte de dados
- [SPARK-38180] Permitir promoção de tipo segura em predicados de igualdade correlacionados
- [SPARK-38155] Não permitir agregações distintas em subconsultas laterais com predicados não suportados
- [SPARK-27442] Removido um campo de verificação ao ler ou escrever dados num arquivo parquet.
- Alterado o diretório de trabalho atual de notebooks em clusters de alta concorrência com controlo de acesso a tabelas ou transmissão de credenciais ativada para o diretório inicial do utilizador. Anteriormente, o diretório ativo era
- 14 de março de 2022
- [SPARK-38236] Os caminhos de arquivo absolutos especificados na tabela create/alter são tratados como relativos
-
[SPARK-34069] Interromper a thread da tarefa se a propriedade local
SPARK_JOB_INTERRUPT_ON_CANCEL
estiver definida como verdadeira.
- 23 de fevereiro de 2022
- [SPARK-37859] tabelas SQL criadas com JDBC com Spark 3.1 não são legíveis com o Spark 3.2.
- 8 de fevereiro de 2022
- [FAÍSCA-27442] Removido um campo de verificação ao ler ou gravar dados em um parquet.
- Atualizações de segurança do sistema operacional.
- 1 de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
- 26 de janeiro de 2022
- Corrigimos um problema em que transações simultâneas em tabelas Delta podiam ser realizadas numa ordem que não seja serializável em determinadas condições raras.
- Corrigido um problema em que o comando
OPTIMIZE
podia falhar quando o dialeto ANSI SQL estava habilitado.
- 19 de janeiro de 2022
- Pequenas correções e melhorias de segurança.
- Atualizações de segurança do sistema operacional.
- 4 de novembro de 2021
- Corrigido um problema que poderia levar a que os fluxos de Streaming Estruturado falhassem com um
ArrayIndexOutOfBoundsException
. - Corrigida uma condição de corrida que poderia causar uma falha de consulta com um IOException como
java.io.IOException: No FileSystem for scheme
ou impedir que as modificações emsparkContext.hadoopConfiguration
surtissem efeito nas consultas. - O Apache Spark Connector for Delta Sharing foi atualizado para 0.2.0.
- Corrigido um problema que poderia levar a que os fluxos de Streaming Estruturado falhassem com um
- 20 de outubro de 2021
- Conector BigQuery atualizado de 0.18.1 para 0.22.2. Isso adiciona suporte para o tipo BigNumeric.