Atualizações de manutenção do Databricks Runtime
Este artigo lista atualizações de manutenção para versões suportadas do Databricks Runtime. Para adicionar uma atualização de manutenção a um cluster existente, reinicie o cluster. Para obter as atualizações de manutenção em versões não suportadas do Databricks Runtime, consulte Atualizações de manutenção para o Databricks Runtime (arquivado).
Nota
Os lançamentos são encenados. Sua conta do Azure Databricks pode não ser atualizada por alguns dias após a data de lançamento inicial.
Versões do Databricks Runtime
Atualizações de manutenção por versão:
- Databricks Runtime 16.1
- Databricks Runtime 16.0
- Tempo de execução do Databricks 15.4
- Tempo de execução do Databricks 14.3
- Tempo de execução do Databricks 14.1
- Databricks Tempo de execução 13.3 LTS
- Tempo de execução do Databricks 12.2 LTS
- Tempo de execução do Databricks 11.3 LTS
- Tempo de execução do Databricks 10.4 LTS
- Tempo de execução do Databricks 9.1 LTS
Databricks Runtime 16.1
Consulte Databricks Runtime 16.1.
- 27 de novembro de 2024
- Esta versão inclui uma correção para um problema que pode fazer com que a chave primária numa tabela Delta seja descartada em determinados casos extremos relacionados à compactação automática de fundo.
- Com esta versão, o tamanho do cache usado por um SSD em um nó de computação Databricks se expande dinamicamente para o tamanho inicial do SSD e diminui quando necessário, até o limite de
spark.databricks.io.cache.maxDiskUsage
. Veja Otimizar desempenho com recurso à cache no Azure Databricks. - [SPARK-50338][CORE] Tornar as exceções de LazyTry menos detalhadas
- Atualizações de segurança do sistema operacional.
Databricks Runtime 16.0
Consulte Databricks Runtime 16.0.
- 4 de dezembro de 2024
- A declaração
USE CATALOG
apoia agora a cláusulaIDENTIFIER
. Com esse suporte, você pode parametrizar o catálogo atual com base em uma variável de cadeia de caracteres ou marcador de parâmetro. - Esta versão inclui uma correção para um problema que pode fazer com que a chave primária numa tabela Delta seja descartada em determinados casos extremos relacionados à compactação automática em segundo plano.
- Com esta versão, o tamanho do cache usado por um SSD em um nó de computação Databricks se expande dinamicamente para o tamanho inicial do SSD e diminui quando necessário, até o limite de
spark.databricks.io.cache.maxDiskUsage
. Veja Otimização do desempenho através de cache no Azure Databricks. - [SPARK-50322][SQL] Corrigir identificador parametrizado em uma subconsulta
-
[SPARK-50034][CORE] Corrigir Mau Relato de Erros Fatais como Exceções Não Detetadas em
SparkUncaughtExceptionHandler
- [SPARK-47435][SQL] Corrigir problema de estouro do MySQL TINYINT NÃO ASSINADO
- [SPARK-49757][SQL] Suporte IDENTIFIER expressão na instrução SETCATALOG
- [SPARK-50426][PYTHON] Evite a pesquisa de fontes de dados Python estáticas ao usar fontes de dados incorporadas ou Java
- [SPARK-50338][CORE] Tornar as exceções de LazyTry menos detalhadas
- Atualizações de segurança do sistema operacional.
- A declaração
- 10 de dezembro de 2024
- (Alteração disruptiva) No Databricks Runtime 15.4 e posteriores, a manipulação de expressões regulares no Photon é atualizada para corresponder ao comportamento das expressões regulares do Apache Spark. Anteriormente, as funções de expressão regular executadas pelo Photon, como
split()
eregexp_extract()
, aceitavam algumas expressões regulares rejeitadas pelo analisador Spark. Para manter a consistência com o Apache Spark, as consultas Photon agora falharão para expressões regulares que o Spark considera não válidas. Devido a essa alteração, você poderá ver erros se o código do Spark incluir expressões regulares inválidas. Por exemplo, a expressãosplit(str_col, '{')
, que contém uma chave incomparável e foi anteriormente aceita por Photon, agora falha. Para corrigir essa expressão, você pode escapar do caractere de chave:split(str_col, '\\{')
. O comportamento de Photon e Spark também diferiu em relação à correspondência com expressões regulares de caracteres não-ASCII. Isso também é atualizado para que o Photon corresponda ao comportamento do Apache Spark. - Com esta versão, agora você pode consultar a função
vector_search
usandoquery_text
para entrada de texto ouquery_vector
para incorporar entrada. - Agora você pode definir um tempo limite para consultas do Spark Connect usando a propriedade de configuração do Spark
spark.databricks.execution.timeout
. Para notebooks executados em computação sem servidor, o valor padrão é9000
(segundos). Os trabalhos executados em clusters compartilhados e de computação sem servidor não têm um tempo limite, a menos que essa propriedade de configuração esteja definida. Uma execução que dura mais do que o tempo limite especificado resulta em um erro deQUERY_EXECUTION_TIMEOUT_EXCEEDED
. - [SPARK-49843][SQL] Corrigir alterar comentário em colunas char/varchar
-
[SPARK-49924][SQL] Manter
containsNull
apósArrayCompact
substituição - [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [SPARK-48780][SQL] Tornar genérica a gestão de erros em NamedParametersSupport para lidar com funções e procedimentos
- [SPARK-49876][CONNECT] Livre-se de bloqueios globais do Spark Connect Service
- [FAÍSCA-49905] Use ShuffleOrigin dedicado para operador stateful para evitar que o shuffle seja modificado a partir do AQE
- [SPARK-49615] Bugfix: Tornar a validação do esquema de coluna ML compatível com a configuração do spark spark.sql.caseSensitive
- [SPARK-48782][SQL] Adicionar suporte para executar procedimentos em catálogos
- [FAÍSCA-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a anulabilidade de estruturas aninhadas
- [SPARK-49829] Revisar a otimização na adição de entrada ao armazenamento de estado na junção de fluxo contínuo (correção)
- Reverter "[SPARK-49002][SQL] Lidar de forma consistente com locais inválidos em WAREHOUSE/SCHEMA/TABLE/PARTITION/DIRECTORY
- [SPARK-50028][CONNECT] Substitua bloqueios globais no ouvinte do servidor Spark Connect por bloqueios refinados
- [SPARK-49615] [ML] Faça com que toda a validação do esquema do conjunto de dados dos transformadores de funcionalidades de ML esteja em conformidade com a configuração "spark.sql.caseSensitive".
- [SPARK-50124][SQL] LIMIT/OFFSET deve preservar a ordenação de dados
- Atualizações de segurança do sistema operacional.
- (Alteração disruptiva) No Databricks Runtime 15.4 e posteriores, a manipulação de expressões regulares no Photon é atualizada para corresponder ao comportamento das expressões regulares do Apache Spark. Anteriormente, as funções de expressão regular executadas pelo Photon, como
Tempo de execução do Databricks 15.4
Consulte Databricks Runtime 15.4 LTS.
- 10 de dezembro de 2024
- A declaração
USE CATALOG
apoia agora a cláusulaIDENTIFIER
. Com esse suporte, você pode parametrizar o catálogo atual com base em uma variável de cadeia de caracteres ou marcador de parâmetro. - Esta versão inclui uma correção para um problema que pode fazer com que a chave primária numa tabela Delta seja descartada em determinados casos de limite relacionados à compactação automática de fundo.
- Com esta versão, o tamanho do cache usado por um SSD em um nó de computação Databricks se expande dinamicamente para o tamanho inicial do SSD e diminui quando necessário, até o limite de
spark.databricks.io.cache.maxDiskUsage
. Consulte Otimização do desempenho com cache no Azure Databricks. - O pacote pyodbc é atualizado da versão 4.0.38 para a versão 4.0.39. Esta alteração é necessária porque um bug foi encontrado na versão 4.0.38 e essa versão foi removida do PyPI.
- [SPARK-50329][SQL] corrigir InSet$toString
- [SPARK-47435][SQL] Corrigir problema de estouro do MySQL TINYINT NÃO ASSINADO
- [SPARK-49757][SQL] Suporte IDENTIFIER expressão na instrução SETCATALOG
- [SPARK-50426][PYTHON] Evite a pesquisa de fontes de dados Python estáticas ao usar fontes de dados incorporadas ou Java
- [SPARK-48863][SQL] corrigir ClassCastException ao analisar JSON com "spark.sql.json.enablePartialResults" ativado
- [SPARK-50310][PYTHON] Adicionar um sinalizador para desativar DataFrameQueryContext para PySpark
- [15.3-15.4] [[SPARK-50034]]https://issues.apache.org/jira/browse/SPARK-50034)[CORE] Corrigir o erro de relato errado de erros fatais como exceções não detectadas em
SparkUncaughtExceptionHandler
- Atualizações de segurança do sistema operacional.
- A declaração
- 26 de novembro de 2024
- Com esta versão, agora você pode consultar a função
vector_search
usandoquery_text
para entrada de texto ouquery_vector
para incorporar entrada. - Agora você pode definir um tempo limite para consultas do Spark Connect usando a propriedade de configuração do Spark
spark.databricks.execution.timeout
. Para notebooks executados em computação sem servidor, o valor padrão é9000
(segundos). Os trabalhos executados em clusters compartilhados e de computação sem servidor não têm um tempo limite, a menos que essa propriedade de configuração esteja definida. Uma execução que dura mais do que o tempo limite especificado resulta em um erro deQUERY_EXECUTION_TIMEOUT_EXCEEDED
. - [SPARK-50322][SQL] Corrigir identificador parametrizado em uma subconsulta
- [SPARK-49615] [ML] Assegure que a validação do esquema de todos os transformadores de características de ML esteja em conformidade com a configuração "spark.sql.caseSensitive".
- [SPARK-50124][SQL] LIMIT/OFFSET deve preservar a ordenação de dados
- Atualizações de segurança do sistema operacional.
- Com esta versão, agora você pode consultar a função
- 5 de novembro de 2024
- (Alteração disruptiva) No Databricks Runtime 15.4 e posteriores, a manipulação de expressões regulares no Photon é atualizada para corresponder ao comportamento das expressões regulares do Apache Spark. Anteriormente, as funções de expressão regular executadas pelo Photon, como
split()
eregexp_extract()
, aceitavam algumas expressões regulares rejeitadas pelo analisador Spark. Para manter a consistência com o Apache Spark, as consultas Photon agora falharão para expressões regulares que o Spark considera não válidas. Devido a essa alteração, você poderá ver erros se o código do Spark incluir expressões regulares inválidas. Por exemplo, a expressãosplit(str_col, '{')
, que contém uma chave incomparável e foi anteriormente aceita por Photon, agora falha. Para corrigir essa expressão, você pode escapar do caractere de chave:split(str_col, '\\{')
. O comportamento de Photon e Spark também diferiu em relação à correspondência com expressões regulares de caracteres não-ASCII. Isso também é atualizado para que o Photon corresponda ao comportamento do Apache Spark. - [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [FAÍSCA-49867][SQL] Melhorar a mensagem de erro quando o índice está fora dos limites ao chamar GetColumnByOrdinal
- [FAÍSCA-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a anulabilidade de estruturas aninhadas
- [SPARK-49829] Revisar a otimização na adição de entrada ao armazenamento de estado na junção de fluxo contínuo (correção de precisão)
- [FAÍSCA-49905] Use ShuffleOrigin dedicado para operador stateful para evitar que o shuffle seja modificado a partir do AQE
- [FAÍSCA-46632][SQL] Corrigir a eliminação de subexpressões quando expressões ternárias equivalentes têm filhos diferentes
- [FAÍSCA-49443][SQL][PYTHON] Implementar to_variant_object expressão e fazer com que schema_of_variant expressões imprimam OBJECT for Variant Objects
-
[SPARK-49615] Correção de bugs: Faça com que a validação do esquema da coluna ML esteja em conformidade com o spark config
spark.sql.caseSensitive
.
- (Alteração disruptiva) No Databricks Runtime 15.4 e posteriores, a manipulação de expressões regulares no Photon é atualizada para corresponder ao comportamento das expressões regulares do Apache Spark. Anteriormente, as funções de expressão regular executadas pelo Photon, como
- Outubro 22, 2024
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [FAÍSCA-49867][SQL] Melhorar a mensagem de erro quando o índice está fora dos limites ao chamar GetColumnByOrdinal
- [FAÍSCA-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a anulabilidade de estruturas aninhadas
- [SPARK-49829] Revisar a otimização na adição de entrada ao armazenamento de estado na correspondência de fluxos (correção de erros)
- [FAÍSCA-49905] Use ShuffleOrigin dedicado para operador stateful para evitar que o shuffle seja modificado a partir do AQE
- [FAÍSCA-46632][SQL] Corrigir a eliminação de subexpressões quando expressões ternárias equivalentes têm filhos diferentes
- [FAÍSCA-49443][SQL][PYTHON] Implementar to_variant_object expressão e fazer com que schema_of_variant expressões imprimam OBJECT for Variant Objects
-
[SPARK-49615] Correção de bugs: Faça com que a validação do esquema da coluna ML esteja em conformidade com o spark config
spark.sql.caseSensitive
.
- 10 de outubro de 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar campos de esquema ao remover GetArrayStructFields
- [FAÍSCA-49688][CONECTAR] Corrigir uma corrida de dados entre o plano de interrupção e execução
- [BACKPORT] [[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Classificar a classe de Erro para a função de utilizador FlatMapGroupsWithState error
- [FAÍSCA-49460][SQL] Acompanhamento: corrigir o risco potencial de NPE
- 25 de setembro de 2024
- [FAÍSCA-49628][SQL] ConstantFolding deve copiar a expressão com estado antes de avaliar
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- [FAÍSCA-49492][CONECTAR] Reanexar tentativa em ExecutionHolder inativo
- [FAÍSCA-49458][CONECTAR][PYTHON] Forneça a ID da sessão do lado do servidor via ReattachExecute
- [SPARK-49017]instrução [SQL] Insert falha quando vários parâmetros estão a ser usados
- [FAÍSCA-49451] Permitir chaves duplicadas no parse_json.
- Correções de bugs diversos.
- 17 de setembro de 2024
- [SPARK-48463][ML] Make Binarizer, Bucketizer, Vector Assembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor suportando colunas de entrada aninhadas
- [FAÍSCA-49409][CONECTAR] Ajuste o valor padrão de CONNECT_SESSION_PLAN_CACHE_SIZE
- [FAÍSCA-49526][CONECTAR][HOTFIX-15.4.2] Suporta caminhos no estilo do Windows no ArtifactManager
- Reverter "[SPARK-48482][PYTHON] dropDuplicates e dropDuplicatesWIthinWatermark deve aceitar args de comprimento variável"
- [FAÍSCA-43242][CORE] Corrigir lançamento 'Tipo inesperado de BlockId' no diagnóstico de corrupção aleatória
- [SPARK-49366][CONNECT] Tratar o nó União como folha na resolução da coluna do dataframe
- [FAÍSCA-49018][SQL] Corrigir approx_count_distinct não está funcionando corretamente com o agrupamento
-
[SPARK-49460][SQL] Remover
cleanupResource()
de EmptyRelationExec - [FAÍSCA-49056][SQL] ErrorClassesJsonReader não pode manipular null corretamente
- [SPARK-49336][CONNECT] Limitar o nível de aninhamento ao truncar uma mensagem protobuf
- 29 de agosto de 2024
- A saída de uma instrução
SHOW CREATE TABLE
agora inclui quaisquer filtros de linha ou máscaras de coluna definidas numa vista materializada ou tabela de streaming. Ver SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtrar dados confidenciais de tabela usando filtros de linha e máscaras de coluna. - Na computação configurada com o modo de acesso compartilhado, as leituras e gravações em lote Kafka agora têm as mesmas limitações impostas que as documentadas para o Structured Streaming. Consulte Limitações e requisitos de streaming para o modo de acesso compartilhado do Unity Catalog.
- [FAÍSCA-48941][FAÍSCA-48970] Correções de gravador/leitor de backport ML
-
[FAÍSCA-49074][SQL] Corrigir variante com
df.cache()
- [FAÍSCA-49263][CONECTAR] Cliente python do Spark Connect: manipule consistentemente as opções do leitor de Dataframe booleano
- [FAÍSCA-48955][SQL] Incluir alterações do ArrayCompact na versão 15.4
- [FAÍSCA-48937][SQL] Adicionar suporte de agrupamento para expressões de cadeia de caracteres StringToMap
- [FAÍSCA-48929] Corrigir erro interno de exibição e limpar o contexto de exceção do analisador
- [SPARK-49125][SQL] Permitir nomes de colunas duplicados na escrita CSV
- [FAÍSCA-48934][SS] Tipos de datetime Python convertidos incorretamente para definir o tempo limite em applyInPandasWithState
- [FAÍSCA-48843] Evite loop infinito com BindParameters
- [FAÍSCA-48981] Corrigir o método simpleString de StringType no pyspark para agrupamentos
- [FAÍSCA-49065][SQL] A rebase em formatters/analisadores herdados deve suportar fusos horários não padrão da JVM
- [FAÍSCA-48896][FAÍSCA-48909][FAÍSCA-48883] Correções do gravador de ML de faísca de backport
- [FAÍSCA-48725][SQL] Integrar CollationAwareUTF8String.lowerCaseCodePoints em expressões de cadeia de caracteres
- [FAÍSCA-48978][SQL] Implementar o caminho rápido ASCII no suporte de agrupamento para UTF8_LCASE
- [FAÍSCA-49047][PYTHON][CONECTAR] Truncar a mensagem para registro em log
- [SPARK-49146][SS] Mover erros de asserção relacionados à marca d'água ausente nas consultas de streaming do modo de acréscimo para a estrutura de erro
- [SPARK-48977][SQL] Otimizar a pesquisa de cadeia de caracteres sob agrupamento de UTF8_LCASE
- [FAÍSCA-48889][SS] testStream para descarregar armazenamentos de estado antes de terminar
- [SPARK-48463] Tornar o StringIndexer compatível com colunas de entrada aninhadas
- [FAÍSCA-48954] try_mod() substitui try_remainder()
- Atualizações de segurança do sistema operacional.
- A saída de uma instrução
Tempo de execução do Databricks 14.3
Consulte Databricks Runtime 14.3 LTS.
- 10 de dezembro de 2024
- Esta versão inclui uma correção para um problema que pode levar à remoção da chave primária numa tabela Delta em determinados casos extremos relacionados com a compactação automática em segundo plano.
- [SPARK-50329][SQL] corrigir InSet$toString
- Atualizações de segurança do sistema operacional.
- 26 de novembro de 2024
- [SPARK-49615] [ML] Faça com que toda a validação do esquema do conjunto de dados dos transformadores de recursos de ML esteja em conformidade com a configuração "spark.sql.caseSensitive".
- Atualizações de segurança do sistema operacional.
- 5 de novembro de 2024
- [FAÍSCA-48843] Evite loop infinito com BindParameters
- [SPARK-49829] Revisar a otimização na adição de entrada ao armazenamento de estado na junção entre fluxos (correção)
- [FAÍSCA-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a anulabilidade de estruturas aninhadas
- [BACKPORT] [[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Classificar a classe de Erro para erro de função do utilizador no receptor Foreach
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [FAÍSCA-46632][SQL] Corrigir a eliminação de subexpressões quando expressões ternárias equivalentes têm filhos diferentes
- [FAÍSCA-49905] Use ShuffleOrigin dedicado para operador stateful para evitar que o shuffle seja modificado a partir do AQE
- Atualizações de segurança do sistema operacional.
- Outubro 22, 2024
- [FAÍSCA-48843] Evite loop infinito com BindParameters
- [FAÍSCA-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a anulabilidade de estruturas aninhadas
- [FAÍSCA-49905] Use ShuffleOrigin dedicado para operador stateful para evitar que o shuffle seja modificado a partir do AQE
- [FAÍSCA-46632][SQL] Corrigir a eliminação de subexpressões quando expressões ternárias equivalentes têm filhos diferentes
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [BACKPORT] [[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Classificar classe de erro para erro de função de utilizador do sink Foreach
- [SPARK-49829] Revisar a otimização na inclusão de dados no armazenamento de estado na junção de fluxo a fluxo (correção de precisão)
- Atualizações de segurança do sistema operacional.
- 10 de outubro de 2024
- [BACKPORT] [[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Classificar a classe de erro para erro na função de utilizador FlatMapGroupsWithState
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar campos de esquema ao remover GetArrayStructFields
- [FAÍSCA-49688][CONECTAR] Corrigir uma corrida de dados entre o plano de interrupção e execução
- 25 de setembro de 2024
- [FAÍSCA-48810][CONECTAR] A API Session stop() deve ser idempotente e não falhar se a sessão já estiver fechada pelo servidor
- [FAÍSCA-48719][SQL] Corrigir o bug de cálculo de 'RegrS...
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- [FAÍSCA-49628][SQL] ConstantFolding deve copiar a expressão com estado antes de avaliar
- [FAÍSCA-49492][CONECTAR] Reanexar tentativa em ExecutionHolder inativo
- Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- [SPARK-49336][CONNECT] Limitar o nível de aninhamento ao truncar uma mensagem protobuf
- [FAÍSCA-43242][CORE] Corrigir lançamento 'Tipo inesperado de BlockId' no diagnóstico de corrupção aleatória
- pt-PT: [SPARK-48463][ML] Make Binarizer, Bucketizer, Vector Assembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor suportando colunas de entrada aninhadas
- [FAÍSCA-49526][CONECTAR] Suporte a caminhos no estilo do Windows no ArtifactManager
- [FAÍSCA-49409][CONECTAR] Ajuste o valor padrão de CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-49366][CONNECT] Tratar o nó União como folha na resolução da coluna do dataframe
- 29 de agosto de 2024
- [SPARK-49146][SS] Mover erros de asserção relacionados à marca d'água ausente nas consultas de streaming em modo de acréscimo para o framework de erros
-
[FAÍSCA-48862][PYTHON][CONECTAR] Evite ligar
_proto_to_string
quando o nível INFO não estiver ativado - [FAÍSCA-49263][CONECTAR] Cliente python do Spark Connect: manipule consistentemente as opções do leitor de Dataframe booleano
- 14 de agosto de 2024
- [FAÍSCA-48941][FAÍSCA-48970] Correções de gravador/leitor de backport ML
- [FAÍSCA-48706][PYTHON] Python UDF em funções de ordem superior não deve lançar erro interno
- [FAÍSCA-49056][SQL] ErrorClassesJsonReader não pode manipular null corretamente
- [FAÍSCA-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [FAÍSCA-49065][SQL] A rebase em formatters/analisadores herdados deve suportar fusos horários não padrão da JVM
- [FAÍSCA-48934][SS] Tipos de datetime Python convertidos incorretamente para definir o tempo limite em applyInPandasWithState
- 1 de agosto de 2024
- Esta versão inclui uma correção de bug para as
ColumnVector
classes eColumnarArray
na interface Java do Spark. Antes dessa correção, umArrayIndexOutOfBoundsException
pode ser lançado ou dados incorretos retornados quando uma instância de uma dessas classes continha valoresnull
. - Na computação sem servidor para blocos de anotações e trabalhos, o modo ANSI SQL é habilitado por padrão. Consulte parâmetros de configuração do Spark suportados.
- Na computação configurada com o modo de acesso compartilhado, as leituras e gravações em lote Kafka agora têm as mesmas limitações impostas que as documentadas para o Structured Streaming. Consulte Limitações e requisitos de streaming para o modo de acesso partilhado do Unity Catalog.
- A saída de uma instrução
SHOW CREATE TABLE
agora inclui quaisquer filtros de linha ou máscaras de coluna definidos em uma exibição materializada ou tabela de streaming. Ver SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtrar dados confidenciais de tabela usando filtros de linha e máscaras de coluna. - [FAÍSCA-48896][FAÍSCA-48909][FAÍSCA-48883] Correções do gravador de ML de faísca de backport
- [FAÍSCA-48889][SS] testStream para descarregar armazenamentos de estado antes de terminar
- [FAÍSCA-48705][PYTHON] Use explicitamente worker_main quando ele começa com pyspark
- [FAÍSCA-48047][SQL] Reduza a pressão de memória de tags TreeNode vazias
- [FAÍSCA-48544][SQL] Reduza a pressão de memória de BitSets TreeNode vazios
- [FAÍSCA-46957][CORE] Descomissionar arquivos shuffle migrados deve ser capaz de limpar do executor
- [SPARK-48463] Tornar o StringIndexer compatível com colunas de entrada aninhadas
- [FAÍSCA-47202][PYTHON] Corrigir erros de digitação quebrando datetimes com tzinfo
- [SPARK-47713][SQL][CONNECT] Corrigir uma falha de associação automática
- Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção de bug para as
- Julho 11, 2024
- (Mudança de comportamento) Os DataFrames armazenados em cache em fontes de tabelas Delta agora tornam-se inválidos caso a tabela de origem seja substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()
para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - O Snowflake JDBC Driver é atualizado para a versão 3.16.1.
- Esta versão inclui uma correção para um problema que impedia que a guia Ambiente da Interface do Usuário do Spark fosse exibida corretamente ao ser executada nos Serviços de Contêiner do Databricks.
- Na computação sem servidor para blocos de anotações e trabalhos, o modo ANSI SQL é habilitado por padrão. Consulte parâmetros de configuração do Spark suportados.
- Para ignorar partições inválidas ao ler dados, as fontes de dados baseadas em arquivo, como Parquet, ORC, CSV ou JSON, podem definir a opção de fonte de dados ignoreInvalidPartitionPaths como true. Por exemplo: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...). Você também pode usar a configuração SQL spark.sql.files.ignoreInvalidPartitionPaths. No entanto, a opção de fonte de dados tem precedência sobre a configuração SQL. Essa configuração é falsa por padrão.
- [FAÍSCA-48648][PYTHON][CONECTAR] Tornar SparkConnectClient.tags corretamente threadlocal
- [FAÍSCA-48445][SQL] Não inline UDFs com crianças caras
- [FAÍSCA-48481][SQL][SS] Não aplique OptimizeOneRowPlan contra streaming Dataset
- [FAÍSCA-48383][SS] Lançar melhor erro para partições incompatíveis na opção startOffset em Kafka
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com group-by em colunas não equivalentes que foram permitidas de forma incorreta
- [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
- [FAÍSCA-48273][SQL] Corrigir a reescrita tardia de PlanWithUnresolvedIdentifier
- [SPARK-48252][SQL] Atualizar CommonExpressionRef quando necessário
- [SPARK-48475][PYTHON] Otimizar _get_jvm_function no PySpark.
- [FAÍSCA-48292][CORE] Revert [SPARK-39195][SQL] Spark OutputCommitCoordinator deve abortar o estágio quando o arquivo confirmado não é consistente com o status da tarefa
- Atualizações de segurança do sistema operacional.
- (Mudança de comportamento) Os DataFrames armazenados em cache em fontes de tabelas Delta agora tornam-se inválidos caso a tabela de origem seja substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
- 17 de junho de 2024
-
applyInPandasWithState()
está disponível em clusters compartilhados. - Corrige um bug em que a otimização da janela de ordenação usando Photon TopK lidava incorretamente com partições que contêm structs.
- [FAÍSCA-48310][PYTHON][CONECTAR] As propriedades armazenadas em cache devem retornar cópias
-
[FAÍSCA-48276][PYTHON][CONECTAR] Adicione o método ausente
__repr__
paraSQLExpression
- [FAÍSCA-48294][SQL] Manipular minúsculas em nestedTypeMissingElementTypeError
- Atualizações de segurança do sistema operacional.
-
- 21 de maio de 2024
- (Mudança de comportamento)
dbutils.widgets.getAll()
agora é suportado para obter todos os valores de widget em um bloco de anotações. - Corrigido um bug na função try_divide() em que entradas contendo decimais resultavam em exceções inesperadas.
- [FAÍSCA-48056][CONECTAR][PYTHON] Execute novamente o plano se um erro de SESSION_NOT_FOUND for gerado e nenhuma resposta parcial for recebida
- [FAÍSCA-48146][SQL] Corrigir função agregada em Com expressão asserção filho
- [FAÍSCA-47986][CONECTAR][PYTHON] Não é possível criar uma nova sessão quando a sessão padrão é fechada pelo servidor
- [SPARK-48180][SQL] Melhorar o erro quando a chamada UDTF com TABLE arg esquece parênteses em torno de vários PARTITION/ORDER BY exprs
- [FAÍSCA-48016][SQL] Corrigir um bug na função try_divide quando com decimais
- [FAÍSCA-48197][SQL] Evitar erro de declaração para função lambda inválida
- [SPARK-47994][SQL] Corrigir bug com o envio para baixo do filtro de coluna CASE WHEN no SQLServer
- [FAÍSCA-48173][SQL] CheckAnalysis deve ver todo o plano de consulta
- [FAÍSCA-48105][SS] Corrigir a condição de corrida entre o descarregamento do armazenamento de estado e o snapshot
- Atualizações de segurança do sistema operacional.
- (Mudança de comportamento)
- 9 de maio de 2024
- (Alteração de comportamento)
applyInPandas
emapInPandas
os tipos UDF agora são suportados na computação do modo de acesso compartilhado executando o Databricks Runtime 14.3 e superior. - [FAÍSCA-47739][SQL] Registrar tipo avro lógico
- [FAÍSCA-47941] [SS] [Conectar] Propagar erros de inicialização do trabalhador ForeachBatch aos usuários para o PySpark
- [FAÍSCA-48010][SQL] Evite chamadas repetidas para conf.resolver em resolveExpression
-
[FAÍSCA-48044][PYTHON][CONECTAR] Cache
DataFrame.isStreaming
- [FAÍSCA-47956][SQL] Verificação de sanidade para referência de ACV não resolvida
- [FAÍSCA-47543][CONECTAR][PYTHON] Inferindo ditado como Mapype do Pandas DataFrame para permitir a criação de DataFrame
- [FAÍSCA-47819][CONECTAR][Cherry-pick-14.3] Usar retorno de chamada assíncrono para limpeza de execução
- [FAÍSCA-47764][CORE][SQL] Limpeza de dependências aleatórias com base em ShuffleCleanupMode
- [FAÍSCA-48018][SS] Corrigir groupId nulo causando erro de param ausente ao lançar KafkaException.couldNotReadOffsetRange
- [FAÍSCA-47839][SQL] Corrigir bug agregado em RewriteWithExpression
- [FAÍSCA-47371] [SQL] XML: Ignorar marcas de linha encontradas no CDATA
- [FAÍSCA-47895][SQL] grupo por todos deve ser idempotente
- [FAÍSCA-47973][CORE] Site de chamada de log em SparkContext.stop() e posterior em SparkContext.assertNotStopped()
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento)
- 25 de abril de 2024
-
[FAÍSCA-47543][CONECTAR][PYTHON] Inferindo
dict
a partirMapType
do Pandas DataFrame para permitir a criação do DataFrame - [FAÍSCA-47694][CONECTAR] Torne o tamanho máximo da mensagem configurável no lado do cliente
- [SPARK-47664][PYTHON][CONNECT][Cherry-pick-14.3] Validar o nome da coluna com o esquema armazenado em cache
- [FAÍSCA-47862][PYTHON][CONECTAR]Corrigir a geração de arquivos proto
- Reverter "[SPARK-47543][CONNECT][PYTHON] Inferindo
dict
a partirMapType
do Pandas DataFrame para permitir a criação do DataFrame" - [FAÍSCA-47704][SQL] A análise JSON falha com "java.lang.ClassCastException" quando spark.sql.json.enablePartialResults está ativado
- [FAÍSCA-47812][CONECTAR] Suporte à serialização de SparkSession para o trabalhador ForEachBatch
- [FAÍSCA-47818][CONECTAR][Cherry-pick-14.3] Introduza o cache de planos no SparkConnectPlanner para melhorar o desempenho de solicitações de análise
-
[FAÍSCA-47828][CONECTAR][PYTHON]
DataFrameWriterV2.overwrite
falha com plano inválido - Atualizações de segurança do sistema operacional.
-
[FAÍSCA-47543][CONECTAR][PYTHON] Inferindo
- 11 de abril de 2024
- (Mudança de comportamento) Para garantir um comportamento consistente entre os tipos de computação, as UDFs do PySpark em clusters compartilhados agora correspondem ao comportamento das UDFs em clusters sem isolamento e atribuídos. Esta atualização inclui as seguintes alterações que podem quebrar o código existente:
- UDFs com um tipo de retorno
string
não convertem mais implicitamente valores nãostring
em valoresstring
. Anteriormente, UDFs com um tipo de retorno de encapsulavam o valor de retorno com umastr
função, independentemente do tipo de dados real do valor retornadostr()
. - UDFs com
timestamp
tipos de retorno não aplicam mais implicitamente uma conversão paratimestamp
comtimezone
. - As configurações de
spark.databricks.sql.externalUDF.*
cluster do Spark não se aplicam mais às UDFs do PySpark em clusters compartilhados. - A configuração
spark.databricks.safespark.externalUDF.plan.limit
do cluster Spark não afeta mais UDFs do PySpark, removendo a limitação de visualização pública de 5 UDFs por consulta para UDFs do PySpark. - A configuração
spark.databricks.safespark.sandbox.size.default.mib
de cluster do Spark não se aplica mais a UDFs do PySpark em clusters compartilhados. Em vez disso, a memória disponível no sistema é usada. Para limitar a memória de UDFs PySpark, usespark.databricks.pyspark.udf.isolation.memoryLimit
com um valor mínimo de100m
.
- UDFs com um tipo de retorno
- O tipo de dados
TimestampNTZ
agora é suportado como coluna de agrupamento com o método de clustering líquido. Consulte Usar agrupamento líquido para tabelas Delta. - [FAÍSCA-47511][SQL] Canonicalize com expressões reatribuindo IDs
- [FAÍSCA-47509][SQL] Bloquear expressões de subconsulta em funções lambda e de ordem superior
- [FAÍSCA-46990][SQL] Corrigir o carregamento de arquivos Avro vazios emitidos por hubs de eventos
- [SPARK-47638][PS][CONNECT] Ignorar validação do nome da coluna no PS
- Atualizações de segurança do sistema operacional.
- (Mudança de comportamento) Para garantir um comportamento consistente entre os tipos de computação, as UDFs do PySpark em clusters compartilhados agora correspondem ao comportamento das UDFs em clusters sem isolamento e atribuídos. Esta atualização inclui as seguintes alterações que podem quebrar o código existente:
- Março 14, 2024
- [FAÍSCA-47135][SS] Implementar classes de erro para exceções de perda de dados Kafka
- [FAÍSCA-47176][SQL] Ter uma função auxiliar ResolveAllExpressionsUpWithPruning
- [SPARK-47145][SQL] Passe o identificador da tabela para o executor de análise da fonte de dados de linha na estratégia V2.
- [SPARK-47044][SQL] Adicionar consulta executada para fontes de dados externas JDBC para explicar a saída
- [FAÍSCA-47167][SQL] Adicionar classe concreta para relação anônima JDBC
- [FAÍSCA-47070] Corrigir agregação inválida após a reescrita da subconsulta
- [FAÍSCA-47121][CORE] Evite RejectedExecutionExceptions durante o desligamento StandaloneSchedulerBackend
- Reverter "[SPARK-46861][CORE] Evitar impasse no DAGScheduler"
- [FAÍSCA-47125][SQL] Retornar null se Univocity nunca acionar a análise
- [FAÍSCA-46999][SQL] ExpressionWithUnresolvedIdentifier deve incluir outras expressões na árvore de expressões
-
[FAÍSCA-47129][CONECTAR][SQL] Fazer
ResolveRelations
o plano de conexão de cache corretamente - [FAÍSCA-47241][SQL] Corrigir problemas de ordem de regra para ExtractGenerator
- [FAÍSCA-47035][SS][CONECTAR] Protocolo para ouvinte do lado do cliente
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Corrigido um problema em que o uso da coleção local como origem num comando MERGE poderia resultar na métrica de operação "numSourceRows" indicando o dobro do número correto de linhas.
- Criar um esquema com um local definido agora requer que o utilizador tenha privilégios de SELECT e MODIFICAR em QUALQUER FICHEIRO.
- [FAÍSCA-47071][SQL] Inline With expression se contiver expressão especial
- [SPARK-47059][SQL] Anexar contexto de erro para o comando ALTER COLUMN v1
- [FAÍSCA-46993][SQL] Corrigir dobragem constante para variáveis de sessão
- Atualizações de segurança do sistema operacional.
- 3 de janeiro de 2024
- [FAÍSCA-46933] Adicione a métrica de tempo de execução da consulta aos conectores que usam JDBCRDD.
- [FAÍSCA-46763] Corrija a falha de asserção em ReplaceDeduplicateWithAggregate para atributos duplicados.
- [FAÍSCA-46954] XML: Envolva InputStreamReader com BufferedReader.
-
[FAÍSCA-46655] Ignorar a captura de contexto de consulta em
DataFrame
métodos. - [SPARK-44815] Guardar em cache df.schema para evitar RPC extra.
- [SPARK-46952] XML: Limitar o tamanho do registro corrompido.
- [SPARK-46794] Remover subconsultas das restrições do LogicalRDD.
- [FAÍSCA-46736] Retenha o campo de mensagem vazio no conector Protobuf.
- [FAÍSCA-45182] Ignore a conclusão da tarefa do estágio antigo depois de tentar novamente o estágio indeterminado pai, conforme determinado pela soma de verificação.
- [FAÍSCA-46414] Use prependBaseUri para renderizar importações de javascript.
-
[FAÍSCA-46383] Reduza o uso de pilha de driver reduzindo a vida útil do
TaskInfo.accumulables()
. - [FAÍSCA-46861] Evite o impasse no DAGScheduler.
- [SPARK-46954] XML: Otimizar a pesquisa de índice do esquema.
- [FAÍSCA-46676] dropDuplicatesWithinWatermark não deve falhar na canonicalização do plano.
- [FAÍSCA-46644] Altere adicionar e mesclar no SQLMetric para usar isZero.
- [FAÍSCA-46731] Gerencie a instância do provedor de armazenamento de estado por fonte de dados de estado - leitor.
-
[FAÍSCA-46677] Corrija
dataframe["*"]
a resolução. - [SPARK-46610] A criação de tabela deve lançar uma exceção quando não houver valor para uma chave nas opções.
- [SPARK-46941] Não é possível inserir o nó de limite do grupo de janelas para computação top-k se contiver SizeBasedWindowFunction.
- [SPARK-45433] Corrija a inferência do esquema CSV/JSON quando os carimbos de data/hora não corresponderem ao timestampFormat especificado.
- [FAÍSCA-46930] Adicione suporte para um prefixo personalizado para campos de tipo União no Avro.
- [FAÍSCA-46227] Backport para 14.3.
- [FAÍSCA-46822] Respeite spark.sql.legacy.charVarcharAsString ao transmitir o tipo jdbc para o tipo catalyst no jdbc.
- Atualizações de segurança do sistema operacional.
Tempo de execução do Databricks 14.1
Consulte Databricks Runtime 14.1.
- 10 de dezembro de 2024
- Atualizações de segurança do sistema operacional.
- 26 de novembro de 2024
- Atualizações de segurança do sistema operacional.
- 5 de novembro de 2024
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [FAÍSCA-49905] Use ShuffleOrigin dedicado para operador stateful para evitar que o shuffle seja modificado a partir do AQE
- Outubro 22, 2024
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [FAÍSCA-49905] Use ShuffleOrigin dedicado para operador stateful para evitar que o shuffle seja modificado a partir do AQE
- 10 de outubro de 2024
- [BACKPORT] [[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Classificar a classe de erro para a função de utilizador FlatMapGroupsWithState.
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar campos de esquema ao remover GetArrayStructFields
- Atualizações de segurança do sistema operacional.
- 25 de setembro de 2024
- [FAÍSCA-49628][SQL] ConstantFolding deve copiar a expressão com estado antes de avaliar
- [FAÍSCA-43242][CORE] Corrigir lançamento 'Tipo inesperado de BlockId' no diagnóstico de corrupção aleatória
- [FAÍSCA-48719][SQL] Corrigir o bug de cálculo de 'RegrS...
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- [FAÍSCA-46601] [CORE] Corrigir erro de log em handleStatusMessage
- Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- [FAÍSCA-49526][CONECTAR] Suporte a caminhos no estilo do Windows no ArtifactManager
- Atualizações de segurança do sistema operacional.
- 29 de agosto de 2024
- [FAÍSCA-49263][CONECTAR] Cliente python do Spark Connect: manipule consistentemente as opções do leitor de Dataframe booleano
- [FAÍSCA-49056][SQL] ErrorClassesJsonReader não pode manipular null corretamente
- 14 de agosto de 2024
- [FAÍSCA-48706][PYTHON] Python UDF em funções de ordem superior não deve lançar erro interno
- [FAÍSCA-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [FAÍSCA-49065][SQL] A rebase em formatters/analisadores herdados deve suportar fusos horários não padrão da JVM
- [FAÍSCA-48050][SS] Registrar o plano lógico no início da consulta
- 1 de agosto de 2024
- Esta versão inclui uma correção de bug para as
ColumnVector
classes eColumnarArray
na interface Java do Spark. Antes dessa correção, umArrayIndexOutOfBoundsException
pode ser lançado ou dados incorretos retornados quando uma instância de uma dessas classes continha valoresnull
. - A saída de uma instrução
SHOW CREATE TABLE
agora inclui quaisquer filtros de linha ou máscaras de coluna definidos em uma exibição materializada ou tabela de streaming. Ver SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtrar dados confidenciais de tabela usando filtros de linha e máscaras de coluna. - [FAÍSCA-48705][PYTHON] Use explicitamente worker_main quando ele começa com pyspark
- [FAÍSCA-47202][PYTHON] Corrigir erros de digitação quebrando datetimes com tzinfo
- Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção de bug para as
- Julho 11, 2024
- (Mudança de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for reescrita. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()
para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - Esta versão inclui uma correção para um problema que impedia que a guia Ambiente da Interface do Usuário do Spark fosse exibida corretamente ao ser executada nos Serviços de Contêiner do Databricks.
- [SPARK-48475][PYTHON] Otimizar _get_jvm_function no PySpark.
- [FAÍSCA-48445][SQL] Não inline UDFs com crianças caras
- [FAÍSCA-48481][SQL][SS] Não aplique OptimizeOneRowPlan contra streaming Dataset
- [FAÍSCA-48292][CORE] Revert [SPARK-39195][SQL] Spark OutputCommitCoordinator deve abortar o estágio quando o arquivo confirmado não é consistente com o status da tarefa
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com group-by em colunas não equivalentes que foram permitidas incorretamente
- [FAÍSCA-48273][SQL] Corrigir a reescrita tardia de PlanWithUnresolvedIdentifier
- [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
- [FAÍSCA-48383][SS] Lançar melhor erro para partições incompatíveis na opção startOffset em Kafka
- Atualizações de segurança do sistema operacional.
- (Mudança de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for reescrita. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
- 17 de junho de 2024
- Corrige um bug em que a otimização da janela de classificação usando Photon TopK manipulava incorretamente partições com structs.
-
[FAÍSCA-48276][PYTHON][CONECTAR] Adicione o método ausente
__repr__
paraSQLExpression
- [FAÍSCA-48277] Melhorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
- Atualizações de segurança do sistema operacional.
- 21 de maio de 2024
- (Mudança de comportamento)
dbutils.widgets.getAll()
agora é suportado para obter todos os valores de widget em um bloco de anotações. - [SPARK-47994][SQL] Corrigir bug com a propagação do filtro de coluna CASE WHEN no SQLServer
- [FAÍSCA-48105][SS] Corrigir a condição de corrida entre o descarregamento do armazenamento de estado e o snapshot
- [FAÍSCA-48173][SQL] CheckAnalysis deve ver todo o plano de consulta
- Atualizações de segurança do sistema operacional.
- (Mudança de comportamento)
- 9 de maio de 2024
- [FAÍSCA-47371] [SQL] XML: Ignorar marcas de linha encontradas no CDATA
- [FAÍSCA-47895][SQL] grupo por todos deve ser idempotente
- [FAÍSCA-47956][SQL] Verificação de sanidade para referência de ACV não resolvida
-
[FAÍSCA-48044][PYTHON][CONECTAR] Cache
DataFrame.isStreaming
- [FAÍSCA-47973][CORE] Site de chamada de log em SparkContext.stop() e posterior em SparkContext.assertNotStopped()
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2024
- [FAÍSCA-47704][SQL] A análise JSON falha com "java.lang.ClassCastException" quando spark.sql.json.enablePartialResults está ativado
-
[FAÍSCA-47828][CONECTAR][PYTHON]
DataFrameWriterV2.overwrite
falha com plano inválido - Atualizações de segurança do sistema operacional.
- 11 de abril de 2024
- [SPARK-47638][PS][CONNECT] Ignorar validação do nome da coluna no PS
- [FAÍSCA-38708][SQL] Atualize o Hive Metastore Client para a versão 3.1.3 do Hive 3.1
- [SPARK-47309][SQL][XML] Adicionar testes de unidade de inferência de esquema
- [FAÍSCA-47509][SQL] Bloquear expressões de subconsulta em funções lambda e de ordem superior
- [FAÍSCA-46990][SQL] Corrigir o carregamento de arquivos Avro vazios emitidos por hubs de eventos
- Atualizações de segurança do sistema operacional.
- 1 de abril de 2024
- [FAÍSCA-47305][SQL] Corrija PruneFilters para marcar o sinalizador isStreaming de LocalRelation corretamente quando o plano tiver lote e streaming
- [FAÍSCA-47218][SQL] XML: Ignorar marcas de linha comentadas no tokenizador XML
-
[SPARK-47300][SQL]
quoteIfNeeded
deve citar o identificador que começa com dígitos - [SPARK-47368][SQL] Remover a verificação de configuração inferTimestampNTZ em ParquetRowConverter
- [FAÍSCA-47070] Corrigir agregação inválida após a reescrita da subconsulta
-
[SPARK-47322][PYTHON][CONNECT] Torne
withColumnsRenamed
tratamento de duplicação de nomes de coluna consistente comwithColumnRenamed
- [FAÍSCA-47300] Correção para DecomposerSuite
- [FAÍSCA-47218] [SQL] XML: SchemaOfXml alterado para falhar no modo DROPMALFORMED
- [FAÍSCA-47385] Corrija codificadores de tupla com entradas Option.
- Atualizações de segurança do sistema operacional.
- Março 14, 2024
- [FAÍSCA-47176][SQL] Ter uma função auxiliar ResolveAllExpressionsUpWithPruning
- [SPARK-47145][SQL] Passe o identificador da tabela para a execução de verificação da fonte de dados de linha na estratégia V2.
- [FAÍSCA-47167][SQL] Adicionar classe concreta para relação anônima JDBC
-
[FAÍSCA-47129][CONECTAR][SQL] Fazer
ResolveRelations
o plano de conexão de cache corretamente - Reverter "[SPARK-46861][CORE] Evitar impasse no DAGScheduler"
- [SPARK-47044][SQL] Adicionar consulta executada para fontes de dados externas JDBC para explicar a saída
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Corrigido um problema em que o uso de uma coleção local como fonte em um comando MERGE podia resultar na métrica de operação numSourceRows reportar o dobro do número correto de linhas.
- Criar um esquema com um local definido agora requer que o utilizador tenha privilégios de SELECT e MODIFICAR em QUALQUER FICHEIRO.
- Agora você pode ingerir arquivos XML usando Autoloader, read_files, COPY INTO, DLT e DBSQL. O suporte a arquivos XML pode inferir e evoluir automaticamente o esquema, resgatar dados com incompatibilidades de tipo, validar XML usando XSD, suportar expressões SQL como from_xml, schema_of_xml e to_xml. Consulte Suporte a arquivos XML para obter mais detalhes. Se você já estava usando o pacote spark-xml externo, consulte aqui para obter orientações sobre migração.
- [FAÍSCA-46248][SQL] XML: Suporte para as opções ignoreCorruptFiles e ignoreMissingFiles
- [SPARK-47059][SQL] Anexar contexto de erro para o comando ALTER COLUMN v1
- [FAÍSCA-46954][SQL] XML: Wrap InputStreamReader com BufferedReader
- [SPARK-46954][SQL] XML: Otimizar pesquisa de índice de esquema
- [FAÍSCA-46630][SQL] XML: Validar o nome do elemento XML na gravação
- Atualizações de segurança do sistema operacional.
- 8 de fevereiro de 2024
- Consultas de feed de dados (CDF) de alteração em vistas materializadas do Catálogo Unity não são suportadas, e tentar executar uma consulta CDF com uma vista materializada do Catálogo Unity retorna um erro. As tabelas de streaming do Unity Catalog suportam consultas CDF em tabelas não
APPLY CHANGES
no Databricks Runtime 14.1 e posterior. As consultas CDF não são suportadas com tabelas de streaming do Unity Catalog no Databricks Runtime 14.0 e anteriores. - [SPARK-46952] XML: Limitar o tamanho do registro corrompido.
- [FAÍSCA-45182] Ignore a conclusão da tarefa do estágio antigo depois de tentar novamente o estágio indeterminado pai, conforme determinado pela soma de verificação.
- [SPARK-46794] Remover subconsultas das restrições do LogicalRDD.
- [FAÍSCA-46933] Adicione a métrica de tempo de execução da consulta aos conectores que usam JDBCRDD.
- [FAÍSCA-46861] Evite o impasse no DAGScheduler.
- [FAÍSCA-45582] Certifique-se de que a instância de armazenamento não seja usada depois de chamar a confirmação na agregação de streaming no modo de saída.
- [FAÍSCA-46930] Adicione suporte para um prefixo personalizado para campos de tipo União no Avro.
- [SPARK-46941] Não é possível inserir o nó de limite do grupo de janelas para computação top-k se contiver SizeBasedWindowFunction.
- [FAÍSCA-46396] A inferência de carimbo de data/hora não deve lançar exceção.
- [FAÍSCA-46822] Respeite spark.sql.legacy.charVarcharAsString ao transmitir o tipo jdbc para o tipo catalyst no jdbc.
- [FAÍSCA-45957] Evite gerar plano de execução para comandos não executáveis.
- Atualizações de segurança do sistema operacional.
- Consultas de feed de dados (CDF) de alteração em vistas materializadas do Catálogo Unity não são suportadas, e tentar executar uma consulta CDF com uma vista materializada do Catálogo Unity retorna um erro. As tabelas de streaming do Unity Catalog suportam consultas CDF em tabelas não
- 31 de janeiro de 2024
- [FAÍSCA-46684] Corrija CoGroup.applyInPandas/Arrow para passar argumentos corretamente.
- [FAÍSCA-46763] Corrija a falha de asserção em ReplaceDeduplicateWithAggregate para atributos duplicados.
- [FAÍSCA-45498] Acompanhamento: Ignore a conclusão de tarefas de tentativas de estágio antigas.
-
[SPARK-46382] XML: Documento de atualização para
ignoreSurroundingSpaces
. -
[FAÍSCA-46383] Reduza o uso de pilha de driver reduzindo a vida útil do
TaskInfo.accumulables()
. - [FAÍSCA-46382] XML: Default ignoreSurroundingSpaces como true.
-
[FAÍSCA-46677] Corrija
dataframe["*"]
a resolução. - [FAÍSCA-46676] dropDuplicatesWithinWatermark não deve falhar na canonicalização do plano.
- [FAÍSCA-46633] Corrija o leitor Avro para lidar com blocos de comprimento zero.
- [FAÍSCA-45912] Aprimoramento da API XSDToSchema: Mude para a API HDFS para acessibilidade de armazenamento em nuvem.
- [FAÍSCA-46599] XML: Use TypeCoercion.findTightestCommonType para verificação de compatibilidade.
- [SPARK-46382] XML: Capturar valores intercalados entre elementos.
- [SPARK-46769] Refinar a inferência de esquema relacionada a timestamps.
- [SPARK-46610] A criação de uma tabela deve lançar uma exceção quando não houver valor para uma chave nas opções.
- [SPARK-45964] Remova o acessador sql privado no pacote XML e JSON dentro do pacote Catalyst.
- Reverter [SPARK-46769] Refinar a inferência de esquema relacionada com o carimbo de data e hora.
-
[SPARK-45962] Remover
treatEmptyValuesAsNulls
e usar a opçãonullValue
em vez disso em XML. - [SPARK-46541] Corrija a referência de coluna ambígua na associação automática.
- Atualizações de segurança do sistema operacional.
- 17 de janeiro de 2024
- O nó
shuffle
do plano explicativo retornado por uma consulta Photon é atualizado para adicionar o sinalizadorcausedBroadcastJoinBuildOOM=true
quando ocorre um erro de falta de memória durante um shuffle que faz parte de uma associação de transmissão. - Para evitar o aumento da latência ao se comunicar por TLSv1.3, esta versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
-
[SPARK-46538] Corrigir o problema da referência de coluna ambígua no
ALSModel.transform
. - [FAÍSCA-46417] Não falhe ao chamar hive.getTable e throwException for false.
-
[FAÍSCA-46484] Faça
resolveOperators
com que as funções auxiliares mantenham a ID do plano. - [FAÍSCA-46153] XML: Adicionar suporte a TimestampNTZType.
- [SPARK-46152] XML: Adicionar suporte ao DecimalType na inferência de esquema XML.
- [SPARK-46145] spark.catalog.listTables não lança exceção quando a tabela ou exibição não é encontrada.
- [FAÍSCA-46478] Reverta SPARK-43049 para usar oracle varchar(255) para string.
-
[SPARK-46394] Corrige problemas spark.catalog.listDatabases() em esquemas com caracteres especiais quando
spark.sql.legacy.keepCommandOutputSchema
definido para true. -
[FAÍSCA-46337] Faça
CTESubstitution
reter oPLAN_ID_TAG
. - [FAÍSCA-46466] O leitor de parquet vetorizado nunca deve fazer rebase para ntz de carimbo de data/hora.
- [FAÍSCA-46587] XML: Corrija a conversão de inteiros grandes XSD.
- [FAÍSCA-45814] Faça ArrowConverters.createEmptyArrowBatch call close() para evitar vazamento de memória.
- [FAÍSCA-46132] Senha de chave de suporte para chaves JKS para RPC SSL.
-
[SPARK-46602] Propagar
allowExisting
na criação da vista quando a vista/tabela não existir. - [FAÍSCA-46173] Pular corteTodas as chamadas durante a análise de data.
- [FAÍSCA-46355] XML: Feche InputStreamReader na conclusão da leitura.
- [FAÍSCA-46600] Mova o código compartilhado entre SqlConf e SqlApiConf para SqlApiConfHelper.
-
[FAÍSCA-46261]
DataFrame.withColumnsRenamed
deve manter a ordem do ditado/mapa. - [FAÍSCA-46056] Corrija o NPE de leitura vetorizado do Parquet com o valor padrão byteArrayDecimalType.
-
[FAÍSCA-46260]
DataFrame.withColumnsRenamed
deve respeitar a ordem do ditado. - [FAÍSCA-46250] Deflake test_parity_listener.
- [SPARK-46370] Corrigir bug ao consultar a tabela depois de alterar os valores padrão da coluna.
- [FAÍSCA-46609] Evite explosões exponenciais em PartitioningPreservingUnaryExecNode.
- [FAÍSCA-46058] Adicione sinalizador separado para privateKeyPassword.
- O nó
- 14 de dezembro de 2023
- Corrigido um problema em que sublinhados escapados em operações getColumns originadas de clientes JDBC ou ODBC eram tratadas incorretamente e interpretadas como curingas.
- [SPARK-45509] Corrigir comportamento de referência da coluna df para Spark Connect.
- [FAÍSCA-45844] Implemente a indiferenciação de maiúsculas e minúsculas para XML.
- [FAÍSCA-46141] Altere o padrão de spark.sql.legacy.ctePrecedencePolicy para CORRIGIDO.
-
[SPARK-46028] Fazer com que
Column.__getitem__
aceite coluna de entrada. - [FAÍSCA-46255] Suporte tipo complexo -> conversão de string.
- [FAÍSCA-45655] Permita expressões não determinísticas dentro de AggregateFunctions em CollectMetrics.
- [SPARK-45433] Corrija a inferência do esquema CSV/JSON quando os carimbos de data/hora não corresponderem ao timestampFormat especificado.
-
[SPARK-45316] Adicionar novos parâmetros
ignoreCorruptFiles
/ignoreMissingFiles
aoHadoopRDD
eNewHadoopRDD
. - [FAÍSCA-45852] Lide graciosamente com o erro de recursão durante o registro.
- [FAÍSCA-45920] grupo por ordinal deve ser idempotente.
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Instalado um novo pacote
pyarrow-hotfix
para corrigir uma vulnerabilidade do PyArrow RCE. - Corrigido um problema em que caracteres de sublinhado escapados nas operações
getColumns
originadas de clientes de JDBC ou ODBC eram interpretados erroneamente como curingas. - Ao ingerir dados CSV usando o Auto Loader ou tabelas de streaming, arquivos CSV grandes agora são dividiveis e podem ser processados em paralelo durante a inferência de esquema e o processamento de dados.
-
[FAÍSCA-45892] Validação do plano do otimizador de refatoração para desacoplar
validateSchemaOutput
evalidateExprIdUniqueness
. - [FAÍSCA-45620] APIs relacionadas ao Python UDF agora usam camelCase.
-
[FAÍSCA-44790] Adicionada
to_xml
implementação e ligações para Python, Spark Connect e SQL. -
[SPARK-45770] Resolução de coluna fixa com
DataFrameDropColumns
paraDataframe.drop
. -
[FAÍSCA-45859] Fez objetos UDF em
ml.functions
preguiçoso. -
[FAÍSCA-45730] Restrições de tempo melhoradas para
ReloadingX509TrustManagerSuite
o . - [FAÍSCA-44784] Fez testes do SBT herméticos.
- Atualizações de segurança do sistema operacional.
- Instalado um novo pacote
- 10 de novembro de 2023
-
[FAÍSCA-45545]
SparkTransportConf
herda após aSSLOptions
criação. - [FAÍSCA-45250] Adicionado suporte para perfil de recurso de tarefa em nível de estágio para clusters de fios quando a alocação dinâmica está desativada.
- [FAÍSCA-44753] Adicionado leitor e gravador XML DataFrame para PySpark SQL.
-
[FAÍSCA-45396] Adicionada uma entrada doc para
PySpark.ml.connect
o módulo. -
[FAÍSCA-45584] Corrigida a falha de execução da subconsulta com
TakeOrderedAndProjectExec
o . - [FAÍSCA-45541] Adicionado SSLFactory.
-
[SPARK-45577] Corrigido
UserDefinedPythonTableFunctionAnalyzeRunner
para passar valores agregados de argumentos nomeados. - [FAÍSCA-45562] Tornou 'rowTag' uma opção obrigatória.
-
[FAÍSCA-45427] Adicionadas configurações de SSL RPC para
SSLOptions
eSparkTransportConf
. - [FAÍSCA-43380] Corrigida lentidão na leitura Avro.
-
[FAÍSCA-45430]
FramelessOffsetWindowFunction
já não falha quandoIGNORE NULLS
eoffset > rowCount
. - [FAÍSCA-45429] Adicionadas classes auxiliares para comunicação RPC SSL.
-
[SPARK-45386] Corrigido um problema em que
StorageLevel.NONE
retornava incorretamente 0. - [FAÍSCA-44219] Adicionadas verificações de validação por regra para regravações de otimização.
-
[SPARK-45543] Corrigido um problema em que
InferWindowGroupLimit
causava um problema se as outras funções de janela não tivessem a mesma estrutura de janela que as funções de classificação. - Atualizações de segurança do sistema operacional.
-
[FAÍSCA-45545]
- 27 de setembro de 2023
-
[FAÍSCA-44823] Atualizado
black
para 23.9.1 e corrigido erro de verificação. - [FAÍSCA-45339] O PySpark agora registra erros que ele repete.
- Reverter [SPARK-42946] Dados confidenciais editados aninhados em substituições variáveis.
- [SPARK-44551] Comentários editados para sincronizar com o OSS.
-
[FAÍSCA-45360] O construtor de sessões do Spark suporta a inicialização a partir do
SPARK_REMOTE
. -
[FAÍSCA-45279] Anexado
plan_id
a todos os planos lógicos. -
[FAÍSCA-45425] Mapeado
TINYINT
paraShortType
MsSqlServerDialect
. -
[FAÍSCA-45419] Removida a entrada de mapa de versão de arquivo de versões maiores para evitar a reutilização
rocksdb
de IDs de arquivo sst. -
[FAÍSCA-45488] Suporte adicionado para valor no
rowTag
elemento. -
[FAÍSCA-42205] Removido o registo de eventos de início em
Accumulables
Task/Stage
registos deJsonProtocol
eventos. -
[FAÍSCA-45426] Adicionado suporte para
ReloadingX509TrustManager
. -
[SPARK-45256]
DurationWriter
falha ao escrever mais valores do que a capacidade inicial. -
[FAÍSCA-43380] Corrigidos
Avro
problemas de conversão de tipo de dados sem causar regressão de desempenho. - [FAÍSCA-45182] Adicionado suporte para reverter o estágio do mapa aleatório para que todas as tarefas do estágio possam ser repetidas quando a saída do palco for indeterminada.
-
[FAÍSCA-45399] Opções XML adicionadas usando
newOption
o . - Atualizações de segurança do sistema operacional.
-
[FAÍSCA-44823] Atualizado
Databricks Tempo de execução 13.3 LTS
Consulte Databricks Runtime 13.3 LTS.
- 10 de dezembro de 2024
- Atualizações de segurança do sistema operacional.
- 26 de novembro de 2024
- [SPARK-49615] [ML] Faça com que a validação do esquema do conjunto de dados de todos os transformadores de características de ML esteja em conformidade com a configuração "spark.sql.caseSensitive".
- Atualizações de segurança do sistema operacional.
- 5 de novembro de 2024
- [FAÍSCA-48843] Evite loop infinito com BindParameters
- [BACKPORT] [[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Classificar a classe de erro para erros de funções do utilizador no sink Foreach
- [FAÍSCA-49905] Use ShuffleOrigin dedicado para operador stateful para evitar que o shuffle seja modificado a partir do AQE
- Atualizações de segurança do sistema operacional.
- Outubro 22, 2024
- [FAÍSCA-48843] Evite loop infinito com BindParameters
- [BACKPORT] [[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Classificar classe de erro para erro na função de utilizador do coletor Foreach
- [FAÍSCA-49905] Use ShuffleOrigin dedicado para operador stateful para evitar que o shuffle seja modificado a partir do AQE
- Atualizações de segurança do sistema operacional.
- 10 de outubro de 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar campos de esquema ao remover GetArrayStructFields
- 25 de setembro de 2024
- [FAÍSCA-46601] [CORE] Corrigir erro de log em handleStatusMessage
- [FAÍSCA-48719][SQL] Corrigir o bug de cálculo de RegrSlope & RegrIntercept quando o primeiro parâmetro é nulo
- [FAÍSCA-43242][CORE] Corrigir lançamento 'Tipo inesperado de BlockId' no diagnóstico de corrupção aleatória
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- [FAÍSCA-49526][CONECTAR] Suporte a caminhos no estilo do Windows no ArtifactManager
- [SPARK-48463][ML] Tornar Binarizer, Bucketizer, Montador de Vetores, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor com suporte a colunas de entrada aninhadas
- Atualizações de segurança do sistema operacional.
- 29 de agosto de 2024
- 14 de agosto de 2024
- [FAÍSCA-49056][SQL] ErrorClassesJsonReader não pode manipular null corretamente
- [FAÍSCA-49065][SQL] A rebase em formatters/analisadores herdados deve suportar fusos horários não padrão da JVM
- [FAÍSCA-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- 1 de agosto de 2024
- Esta versão inclui uma correção de bug para as
ColumnVector
classes eColumnarArray
na interface Java do Spark. Antes dessa correção, umArrayIndexOutOfBoundsException
pode ser lançado ou dados incorretos retornados quando uma instância de uma dessas classes continha valoresnull
. - [FAÍSCA-47202][PYTHON] Corrigir erros de digitação quebrando datetimes com tzinfo
- [FAÍSCA-48896][FAÍSCA-48909][FAÍSCA-48883] Correções do gravador de ML de faísca de backport
- [SPARK-48463] Tornar o StringIndexer compatível com colunas de entrada aninhadas
- Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção de bug para as
- Julho 11, 2024
- (Mudança de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()
para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - Esta versão inclui uma correção para um problema que impedia que a guia Ambiente da Interface do Usuário do Spark fosse exibida corretamente ao ser executada nos Serviços de Contêiner do Databricks.
- [FAÍSCA-48383][SS] Lançar melhor erro para partições incompatíveis na opção startOffset em Kafka
- [FAÍSCA-48292][CORE] Revert [SPARK-39195][SQL] Spark OutputCommitCoordinator deve abortar o estágio quando o arquivo confirmado não é consistente com o status da tarefa
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com group-by em colunas não equivalentes que foram permitidas incorretamente
- [FAÍSCA-48481][SQL][SS] Não aplique OptimizeOneRowPlan contra streaming Dataset
- [SPARK-48475][PYTHON] Otimizar _get_jvm_function no PySpark.
- [FAÍSCA-48273][SQL] Corrigir a reescrita tardia de PlanWithUnresolvedIdentifier
- [FAÍSCA-48445][SQL] Não inline UDFs com crianças caras
- Atualizações de segurança do sistema operacional.
- (Mudança de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
- 17 de junho de 2024
- [FAÍSCA-48277] Melhorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
- Atualizações de segurança do sistema operacional.
- 21 de maio de 2024
- (Mudança de comportamento)
dbutils.widgets.getAll()
agora suporta obter todos os valores de widget num notebook. - [FAÍSCA-48105][SS] Corrigir a condição de corrida entre o descarregamento do armazenamento de estado e o snapshot
- [SPARK-47994][SQL] Corrigir bug com o filtro de coluna CASE WHEN aplicado no SQLServer
- Atualizações de segurança do sistema operacional.
- (Mudança de comportamento)
- 9 de maio de 2024
- [FAÍSCA-47956][SQL] Verificação de sanidade para referência de ACV não resolvida
- [FAÍSCA-46822][SQL] Respeite spark.sql.legacy.charVarcharAsString ao fundir o tipo jdbc para o tipo catalyst no jdbc
- [FAÍSCA-47895][SQL] grupo por todos deve ser idempotente
- [FAÍSCA-48018][SS] Corrigir groupId nulo causando erro de param ausente ao lançar KafkaException.couldNotReadOffsetRange
- [FAÍSCA-47973][CORE] Site de chamada de log em SparkContext.stop() e posterior em SparkContext.assertNotStopped()
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2024
- [FAÍSCA-44653][SQL] Uniões de DataFrame não triviais não devem quebrar o cache
- Correções de bugs diversos.
- 11 de abril de 2024
- [FAÍSCA-47509][SQL] Bloquear expressões de subconsulta em funções lambda e de ordem superior
- Atualizações de segurança do sistema operacional.
- 1 de abril de 2024
- [FAÍSCA-47385] Corrija codificadores de tupla com entradas Option.
- [FAÍSCA-38708][SQL] Atualize o Hive Metastore Client para a versão 3.1.3 do Hive 3.1
- [FAÍSCA-47200][SS] Classe de erro para erro de função de usuário do coletor de lote Foreach
- [SPARK-47368][SQL] Remover a verificação de configuração de inferTimestampNTZ em ParquetRowConverter
- [SPARK-44252][SS] Defina uma nova classe de erro e aplique para o caso em que o estado de carregamento do DFS falhar
- [FAÍSCA-47135][SS] Implementar classes de erro para exceções de perda de dados Kafka
-
[SPARK-47300][SQL]
quoteIfNeeded
deve colocar entre aspas identificadores que comecem com dígitos - [FAÍSCA-47305][SQL] Corrija PruneFilters para marcar o sinalizador isStreaming de LocalRelation corretamente quando o plano tiver lote e streaming
- [FAÍSCA-47070] Corrigir agregação inválida após a reescrita da subconsulta
- Atualizações de segurança do sistema operacional.
- Março 14, 2024
- [SPARK-47145][SQL] Passe o identificador da tabela para a execução de varredura da fonte de dados de linha na estratégia V2.
- [FAÍSCA-47167][SQL] Adicionar classe concreta para relação anônima JDBC
- [FAÍSCA-47176][SQL] Ter uma função auxiliar ResolveAllExpressionsUpWithPruning
- [SPARK-47044][SQL] Adicionar consulta executada para fontes de dados externas JDBC para explicar a saída
- [FAÍSCA-47125][SQL] Retornar null se Univocity nunca acionar a análise
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Corrigido um problema em que o uso de uma coleção local como fonte no comando MERGE poderia resultar na métrica de operação numSourceRows reportando o dobro do número correto de linhas.
- Criar um esquema com um local definido agora requer que o utilizador tenha privilégios de SELECT e MODIFICAR em QUALQUER FICHEIRO.
- Atualizações de segurança do sistema operacional.
- 8 de fevereiro de 2024
- Não há suporte para consultas de feed de dados (CDF) de alteração em exibições materializadas do Catálogo Unity, e a tentativa de executar uma consulta CDF com uma exibição materializada do Catálogo Unity retorna um erro. As tabelas de streaming do Unity Catalog suportam consultas CDF em tabelas não
APPLY CHANGES
no Databricks Runtime 14.1 e posterior. As consultas CDF não são suportadas com tabelas de streaming do Unity Catalog no Databricks Runtime 14.0 e anteriores. - [SPARK-46794] Remover subconsultas de restrições LogicalRDD.
- [FAÍSCA-46933] Adicione a métrica de tempo de execução da consulta aos conectores que usam JDBCRDD.
- [FAÍSCA-45582] Certifique-se de que a instância de armazenamento não seja usada depois de chamar a confirmação na agregação de streaming no modo de saída.
- [FAÍSCA-46396] A inferência de carimbo de data/hora não deve lançar exceção.
- [FAÍSCA-46861] Evite o impasse no DAGScheduler.
- [SPARK-46941] Não é possível inserir o nó de limite do grupo de janelas para computação top-k se contiver SizeBasedWindowFunction.
- Atualizações de segurança do sistema operacional.
- Não há suporte para consultas de feed de dados (CDF) de alteração em exibições materializadas do Catálogo Unity, e a tentativa de executar uma consulta CDF com uma exibição materializada do Catálogo Unity retorna um erro. As tabelas de streaming do Unity Catalog suportam consultas CDF em tabelas não
- 31 de janeiro de 2024
- [SPARK-46610] Criar tabela deve gerar uma exceção quando não houver valor para uma chave nas opções.
- [FAÍSCA-46383] Reduza o uso de heap de driver reduzindo a vida útil de TaskInfo.accumulables().
- [FAÍSCA-46600] Mova o código compartilhado entre SqlConf e SqlApiConf para SqlApiConfHelper.
- [FAÍSCA-46676] dropDuplicatesWithinWatermark não deve falhar na canonicalização do plano.
- [FAÍSCA-46763] Corrija a falha de asserção em ReplaceDeduplicateWithAggregate para atributos duplicados.
- Atualizações de segurança do sistema operacional.
- 17 de janeiro de 2024
- O nó
shuffle
do plano explicativo retornado por uma consulta Photon é atualizado para adicionar o sinalizadorcausedBroadcastJoinBuildOOM=true
quando ocorre um erro de falta de memória durante um shuffle que faz parte de uma associação de transmissão. - Para evitar o aumento da latência ao se comunicar por TLSv1.3, esta versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
- [FAÍSCA-46058] Adicione sinalizador separado para privateKeyPassword.
- [FAÍSCA-46173] Pular corteTodas as chamadas durante a análise de data.
- [SPARK-46370] Corrigir bug ao consultar de uma tabela depois de alterar os valores padrão da coluna.
- [SPARK-46370] Corrigir bug ao consultar a tabela após alterar os valores padrão da coluna.
- [SPARK-46370] Corrigir um erro ao consultar da tabela depois de alterar os valores padrão da coluna.
- [FAÍSCA-46609] Evite explosões exponenciais em PartitioningPreservingUnaryExecNode.
- [FAÍSCA-46132] Senha de chave de suporte para chaves JKS para RPC SSL.
-
[SPARK-46602] Propagar
allowExisting
na criação da vista quando a vista/tabela não existir. - [FAÍSCA-46249] Exija o bloqueio de instância para adquirir métricas do RocksDB para evitar corridas com operações em segundo plano.
- [FAÍSCA-46417] Não falhe ao chamar hive.getTable e throwException for false.
-
[SPARK-46538] Corrigir o problema de referência de coluna ambígua no
ALSModel.transform
. - [FAÍSCA-46478] Reverta SPARK-43049 para usar oracle varchar(255) para string.
- [FAÍSCA-46250] Deflake test_parity_listener.
-
[SPARK-46394] Corrigiu problemas em spark.catalog.listDatabases() em esquemas com caracteres especiais quando
spark.sql.legacy.keepCommandOutputSchema
está definido como verdadeiro. - [FAÍSCA-46056] Corrija o NPE de leitura vetorizado do Parquet com o valor padrão byteArrayDecimalType.
- [SPARK-46145] spark.catalog.listTables não lança exceção quando a tabela ou exibição não é encontrada.
- [FAÍSCA-46466] O leitor de parquet vetorizado nunca deve fazer rebase para ntz de carimbo de data/hora.
- O nó
- 14 de dezembro de 2023
- Corrigido um problema em que sublinhados escapados em operações getColumns originadas de clientes JDBC ou ODBC eram tratadas incorretamente e interpretadas como curingas.
- [FAÍSCA-45920] grupo por ordinal deve ser idempotente.
- [FAÍSCA-44582] Ignore o iterador no SMJ se ele foi limpo.
- [SPARK-45433] Corrija a inferência do esquema CSV/JSON quando os carimbos de data/hora não corresponderem ao timestampFormat especificado.
- [FAÍSCA-45655] Permita expressões não determinísticas dentro de AggregateFunctions em CollectMetrics.
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Instalado um novo pacote
pyarrow-hotfix
para corrigir uma vulnerabilidade do PyArrow RCE. - O conector faísca-floco de neve é atualizado para 2.12.0.
-
[FAÍSCA-44846] Removidas expressões de agrupamento complexo após
RemoveRedundantAggregates
. -
[FAÍSCA-45544] Suporte SSL integrado no
TransportContext
. -
[FAÍSCA-45892] Validação do plano do otimizador de refatoração para desacoplar
validateSchemaOutput
evalidateExprIdUniqueness
. -
[FAÍSCA-45730] Restrições de tempo melhoradas para
ReloadingX509TrustManagerSuite
o . -
[FAÍSCA-45859] Fez objetos UDF em
ml.functions
preguiçoso. - Atualizações de segurança do sistema operacional.
- Instalado um novo pacote
- 10 de novembro de 2023
- Os filtros de partição nas consultas de streaming Delta Lake são empurrados para baixo antes do limite de taxa para obter uma melhor utilização.
- Consultas de transmissão de dados alteradas em tabelas de streaming e visões materializadas do Catálogo Unity para exibir mensagens de erro.
-
[FAÍSCA-45545]
SparkTransportConf
herda após aSSLOptions
criação. -
[FAÍSCA-45584] Corrigida a falha de execução da subconsulta com
TakeOrderedAndProjectExec
o . -
[FAÍSCA-45427] Adicionadas configurações de SSL RPC para
SSLOptions
eSparkTransportConf
. -
[FAÍSCA-45541] Adicionado
SSLFactory
. -
[FAÍSCA-45430]
FramelessOffsetWindowFunction
já não falha quandoIGNORE NULLS
eoffset > rowCount
. - [FAÍSCA-45429] Adicionadas classes auxiliares para comunicação RPC SSL.
- [FAÍSCA-44219] Adicionadas validações extras por regra para regravações de otimização.
-
[SPARK-45543] Corrigido um problema em que
InferWindowGroupLimit
causava um problema se as outras funções da janela não tivessem a mesma moldura da janela que as funções de classificação. - Atualizações de segurança do sistema operacional.
- 23 de outubro de 2023
-
[SPARK-45256] Corrigido um problema em que
DurationWriter
falhava ao escrever mais valores do que a capacidade inicial. -
[FAÍSCA-45419] Evite reutilizar
rocksdb sst
arquivos em uma instância diferenterocksdb
removendo entradas de mapa de versão de arquivo de versões maiores. -
[FAÍSCA-45426] Adicionado suporte para
ReloadingX509TrustManager
. - Correções diversas.
-
[SPARK-45256] Corrigido um problema em que
- 13 de outubro de 2023
- Dependência de flocos de neve-jdbc atualizada de 3.13.29 para 3.13.33.
- A
array_insert
função é baseada em 1 para índices positivos e negativos, enquanto antes, era baseada em 0 para índices negativos. Ele agora insere um novo elemento no final das matrizes de entrada para o índice -1. Para restaurar o comportamento anterior, definaspark.sql.legacy.negativeIndexInArrayInsert
comotrue
. - Corrigido um problema relacionado a não ignorar arquivos corrompidos quando
ignoreCorruptFiles
é ativado durante a inferência de esquema CSV com o Auto Loader. - Reverter [SPARK-42946].
- [SPARK-42205] Atualizado o protocolo JSON para remover o registo de Accumulables numa tarefa ou eventos de início de uma etapa.
-
[FAÍSCA-45178] Fallback para executar um único lote para
Trigger.AvailableNow
com fontes não suportadas em vez de usar o wrapper. -
[SPARK-45316] Adicionar novos parâmetros
ignoreCorruptFiles
eignoreMissingFiles
aoHadoopRDD
eNewHadoopRDD
. - [SPARK-44740] Valores de metadados fixos para artefatos.
-
[FAÍSCA-45360] Configuração inicializada do construtor de sessões do Spark a partir de
SPARK_REMOTE
. - [SPARK-44551] Comentários editados para sincronizar com o OSS.
- [SPARK-45346] A inferência do esquema Parquet agora respeita sinalizadores que diferenciam maiúsculas de minúsculas ao mesclar o esquema.
-
[FAÍSCA-44658]
ShuffleStatus.getMapStatus
agora retornaNone
em vez deSome(null)
. -
[FAÍSCA-44840] Feito
array_insert()
com base em 1 para índices negativos.
- 14 de setembro de 2023
-
[SPARK-44873] Adicionado suporte para
alter view
com colunas aninhadas no cliente Hive. -
[SPARK-44878] Desativado o limite estrito para
RocksDB
gestor de escrita para evitar exceção de inserção na conclusão da cache.
-
[SPARK-44873] Adicionado suporte para
- 30 de agosto de 2023
- O comando dbutils
cp
(dbutils.fs.cp
) foi otimizado para uma cópia mais rápida. Com essa melhoria, as operações de cópia podem levar até 100 vezes menos, dependendo do tamanho do arquivo. O recurso está disponível em todas as nuvens e sistemas de arquivos acessíveis no Databricks, inclusive para volumes de catálogo Unity e montagens DBFS. -
[FAÍSCA-44455] Identificadores de cotação com backticks no
SHOW CREATE TABLE
resultado. - [FAÍSCA-44763] Corrigido um problema que mostrava uma cadeia de caracteres como um duplo na aritmética binária com intervalo.
-
[FAÍSCA-44871] Comportamento fixo
percentile_disc
. - [FAÍSCA-44714] Facilite a restrição da resolução de LCA em relação a consultas.
-
[FAÍSCA-44818] Corrida fixa para interrupção de tarefa pendente emitida antes
taskThread
de ser inicializada. - [FAÍSCA-44505] Adicionada substituição para suporte colunar no Scan for DSv2.
- [FAÍSCA-44479] Conversão de protobuf fixa a partir de um tipo struct vazio.
-
[FAÍSCA-44718] Corresponder
ColumnVector
o padrão de configuração do modo de memória aoOffHeapMemoryMode
valor de configuração. -
[FAÍSCA-42941] Adicionado suporte para
StreamingQueryListener
em Python. - [FAÍSCA-44558] Exporte o nível de log do Spark Connect do PySpark.
-
[SPARK-44464] Corrigido
applyInPandasWithStatePythonRunner
para linhas de saída que têm Null como o valor da primeira coluna. -
[FAÍSCA-44643] Corrigido
Row.__repr__
quando o campo é uma linha vazia. - Atualizações de segurança do sistema operacional.
- O comando dbutils
Tempo de execução do Databricks 12.2 LTS
Consulte Databricks Runtime 12.2 LTS.
- 10 de dezembro de 2024
- Atualizações de segurança do sistema operacional.
- 26 de novembro de 2024
- Correções de bugs diversos.
- 10 de outubro de 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar campos de esquema ao remover GetArrayStructFields
- 25 de setembro de 2024
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- [FAÍSCA-46601] [CORE] Corrigir erro de log em handleStatusMessage
- Correções de bugs diversos.
- 17 de setembro de 2024
- Atualizações de segurança do sistema operacional.
- 29 de agosto de 2024
- Correções de bugs diversos.
- 14 de agosto de 2024
- [FAÍSCA-48941][FAÍSCA-48970] Correções de gravador/leitor de backport ML
- [FAÍSCA-49065][SQL] A rebase em formatters/analisadores herdados deve suportar fusos horários não padrão da JVM
- [FAÍSCA-49056][SQL] ErrorClassesJsonReader não pode manipular null corretamente
- [FAÍSCA-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-48463][ML] Tornar o StringIndexer compatível com colunas de entrada aninhadas
- Atualizações de segurança do sistema operacional.
- 1 de agosto de 2024
- [FAÍSCA-48896][FAÍSCA-48909][FAÍSCA-48883] Correções do gravador de ML de faísca de backport
- 1 de agosto de 2024
- Para aplicar os patches de segurança necessários, a versão Python no Databricks Runtime 12.2 LTS é atualizada de 3.9.5 para 3.9.19.
- Julho 11, 2024
- (Mudança de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()
para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - [FAÍSCA-48481][SQL][SS] Não aplique OptimizeOneRowPlan contra streaming Dataset
- [FAÍSCA-47070] Corrigir agregação inválida após a reescrita da subconsulta
- [FAÍSCA-42741][SQL] Não desembrulhe moldes na comparação binária quando literal é nulo
- [FAÍSCA-48445][SQL] Não inline UDFs com crianças caras
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com group-by em colunas não equivalentes que foram permitidas incorretamente
- [FAÍSCA-48383][SS] Lançar melhor erro para partições incompatíveis na opção startOffset em Kafka
- Atualizações de segurança do sistema operacional.
- (Mudança de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
- 17 de junho de 2024
- [FAÍSCA-48277] Melhorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
- Correções de bugs diversos.
- 21 de maio de 2024
- [FAÍSCA-48105][SS] Corrigir a condição de corrida entre o descarregamento do armazenamento de estado e o snapshot
- Atualizações de segurança do sistema operacional.
- 9 de maio de 2024
- [SPARK-44251][SQL] Definir a nulabilidade corretamente na chave de junção coalescida numa junção exterior total USANDO join
- [FAÍSCA-47973][CORE] Site de chamada de log em SparkContext.stop() e posterior em SparkContext.assertNotStopped()
- [FAÍSCA-47956][SQL] Verificação de sanidade para referência de ACV não resolvida
- [FAÍSCA-48018][SS] Corrigir groupId nulo causando erro de param ausente ao lançar KafkaException.couldNotReadOffsetRange
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2024
- Atualizações de segurança do sistema operacional.
- 11 de abril de 2024
- Atualizações de segurança do sistema operacional.
- 1 de abril de 2024
- [FAÍSCA-47305][SQL] Corrija PruneFilters para marcar o sinalizador isStreaming de LocalRelation corretamente quando o plano tiver lote e streaming
- [SPARK-44252][SS] Defina uma nova classe de erro e aplique para o caso em que o estado de carregamento do DFS falhar
- [FAÍSCA-47135][SS] Implementar classes de erro para exceções de perda de dados Kafka
- [FAÍSCA-47200][SS] Classe de erro para erro de função de usuário do coletor de lote Foreach
- Atualizações de segurança do sistema operacional.
- Março 14, 2024
- [FAÍSCA-47176][SQL] Ter uma função auxiliar ResolveAllExpressionsUpWithPruning
- Reverter "[SPARK-46861][CORE] Evitar impasse no DAGScheduler"
- [FAÍSCA-47125][SQL] Retornar null se Univocity nunca acionar a análise
- [FAÍSCA-47167][SQL] Adicionar classe concreta para relação anônima JDBC
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Corrigido um problema em que a utilização de uma coleção local como fonte num comando MERGE poderia resultar na métrica de operação numSourceRows indicando o dobro do número correto de linhas.
- Criar um esquema com um local definido agora requer que o utilizador tenha privilégios de SELECT e de MODIFICAR em QUALQUER FICHEIRO.
- [FAÍSCA-45582][SS] Certifique-se de que a instância de armazenamento não seja usada depois de chamar a confirmação na agregação de streaming no modo de saída
- Atualizações de segurança do sistema operacional.
- Fevereiro 13, 2024
- [FAÍSCA-46861] Evite o impasse no DAGScheduler.
- [SPARK-46794] Remover subconsultas de restrições LogicalRDD.
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2024
- [FAÍSCA-46763] Corrija a falha de asserção em ReplaceDeduplicateWithAggregate para atributos duplicados.
- Atualizações de segurança do sistema operacional.
- 25 de dezembro de 2023
- Para evitar o aumento da latência ao se comunicar por TLSv1.3, esta versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
- [FAÍSCA-39440] Adicione uma configuração para desativar a linha do tempo do evento.
- [FAÍSCA-46132] Senha de chave de suporte para chaves JKS para RPC SSL.
-
[SPARK-46394] Corrigir problemas spark.catalog.listDatabases() em esquemas com caracteres especiais quando
spark.sql.legacy.keepCommandOutputSchema
definido como true. - [FAÍSCA-46417] Não falhe ao chamar hive.getTable e throwException for false.
- [FAÍSCA-43067] Corrija o local do arquivo de recurso de classe de erro no conector Kafka.
- [FAÍSCA-46249] Exija o bloqueio de instância para adquirir métricas do RocksDB para evitar corridas com operações em segundo plano.
-
[SPARK-46602] Propagar
allowExisting
na criação da vista quando a vista/tabela não existir. - [FAÍSCA-46058] Adicione sinalizador separado para privateKeyPassword.
- [SPARK-46145] spark.catalog.listTables não lança exceção quando a tabela ou exibição não é encontrada.
-
[SPARK-46538] Corrigir o problema relacionado à referência de coluna ambígua no
ALSModel.transform
. - [FAÍSCA-42852] Reverta as alterações relacionadas NamedLambdaVariable de EquivalentExpressions.
- 14 de dezembro de 2023
- Corrigido um problema em que sublinhados escapados em operações getColumns originadas de clientes JDBC ou ODBC eram tratadas incorretamente e interpretadas como curingas.
- [FAÍSCA-44582] Ignore o iterador no SMJ se ele foi limpo.
- [FAÍSCA-45920] grupo por ordinal deve ser idempotente.
- [FAÍSCA-45655] Permita expressões não determinísticas dentro de AggregateFunctions em CollectMetrics.
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Instalado um novo pacote
pyarrow-hotfix
para corrigir uma vulnerabilidade do PyArrow RCE. - Corrigido um problema em que sublinhados precedidos de escape em operações
getColumns
originadas de clientes JDBC ou ODBC eram erroneamente interpretados como caracteres universais. -
[FAÍSCA-42205] Removidos os acumuláveis de registro e
Stage
Task
iniciar eventos. -
[FAÍSCA-44846] Removidas expressões de agrupamento complexo após
RemoveRedundantAggregates
. -
[FAÍSCA-43718] Corrigida a anulabilidade para chaves em
USING
junções. -
[FAÍSCA-45544] Suporte SSL integrado no
TransportContext
. - [FAÍSCA-43973] A interface do usuário de streaming estruturada agora exibe consultas com falha corretamente.
-
[FAÍSCA-45730] Restrições de tempo melhoradas para
ReloadingX509TrustManagerSuite
o . -
[FAÍSCA-45859] Fez objetos UDF em
ml.functions
preguiçoso. - Atualizações de segurança do sistema operacional.
- Instalado um novo pacote
- 14 de novembro de 2023
- Os filtros de partição nas consultas de streaming Delta Lake são empurrados para baixo antes do limite de taxa para obter uma melhor utilização.
-
[FAÍSCA-45545]
SparkTransportConf
herda após aSSLOptions
criação. -
[FAÍSCA-45427] Adicionadas configurações de SSL RPC para
SSLOptions
eSparkTransportConf
. -
[FAÍSCA-45584] Corrigida a falha de execução da subconsulta com
TakeOrderedAndProjectExec
o . -
[FAÍSCA-45541] Adicionado
SSLFactory
. -
[FAÍSCA-45430]
FramelessOffsetWindowFunction
já não falha quandoIGNORE NULLS
eoffset > rowCount
. - [FAÍSCA-45429] Adicionadas classes auxiliares para comunicação RPC SSL.
- Atualizações de segurança do sistema operacional.
- 24 de outubro de 2023
-
[FAÍSCA-45426] Adicionado suporte para
ReloadingX509TrustManager
. - Correções diversas.
-
[FAÍSCA-45426] Adicionado suporte para
- 13 de outubro de 2023
- Dependência de flocos de neve-jdbc atualizada de 3.13.29 para 3.13.33.
- [FAÍSCA-42553] Certifique-se de pelo menos uma unidade de tempo após o intervalo.
- [SPARK-45346] A inferência do esquema Parquet respeita o sinalizador sensível a maiúsculas e minúsculas ao mesclar o esquema.
-
[FAÍSCA-45178] Fallback para executar um único lote para
Trigger.AvailableNow
com fontes não suportadas em vez de usar o wrapper. -
[SPARK-45084]
StateOperatorProgress
usar um número preciso e adequado de partições de shuffle.
- 12 de setembro de 2023
-
[SPARK-44873] Foi adicionado suporte a
alter view
com colunas aninhadas no cliente Hive. -
[FAÍSCA-44718] Corresponder
ColumnVector
o padrão de configuração do modo de memória aoOffHeapMemoryMode
valor de configuração. -
[FAÍSCA-43799] Adicionada opção binária do descritor à API do PySpark
Protobuf
. - Correções diversas.
-
[SPARK-44873] Foi adicionado suporte a
- 30 de agosto de 2023
-
[FAÍSCA-44485] Otimizado
TreeNode.generateTreeString
. -
[FAÍSCA-44818] Corrida fixa para interrupção de tarefa pendente emitida antes
taskThread
de ser inicializada. -
[FAÍSCA-44871][11.3-13.0] Comportamento fixo
percentile_disc
. - [FAÍSCA-44714] Flexibilização da restrição da resolução de ACV em relação a consultas.
- Atualizações de segurança do sistema operacional.
-
[FAÍSCA-44485] Otimizado
- 15 de agosto de 2023
- [SPARK-44504] Tarefa de manutenção limpa os fornecedores carregados em caso de erro de interrupção.
-
[SPARK-44464] Corrigido
applyInPandasWithStatePythonRunner
para linhas que apresentamNull
como o valor da primeira coluna. - Atualizações de segurança do sistema operacional.
- 29 de julho de 2023
- Corrigido um problema em que
dbutils.fs.ls()
retornavaINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
quando era chamado para um caminho de local de armazenamento que colidia com outro local de armazenamento externo ou gerenciado. -
[FAÍSCA-44199]
CacheManager
já não refresca ofileIndex
desnecessariamente. - Atualizações de segurança do sistema operacional.
- Corrigido um problema em que
- 24 de julho de 2023
-
[SPARK-44337] Corrigido um problema em que qualquer campo definido como
Any.getDefaultInstance
causava erros de análise. -
[SPARK-44136] Corrigido um problema em que
StateManager
seria materializado num executor em vez de no condutor emFlatMapGroupsWithStateExec
. - Atualizações de segurança do sistema operacional.
-
[SPARK-44337] Corrigido um problema em que qualquer campo definido como
- 23 de junho de 2023
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2023
- Fotonizado
approx_count_distinct
. - A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para resolver um problema de segurança.
-
[FAÍSCA-43779]
ParseToDate
agora carregaEvalMode
no thread principal. -
[FAÍSCA-43156][FAÍSCA-43098] Teste de erro de contagem de subconsulta escalar estendida com
decorrelateInnerQuery
desativado. - Atualizações de segurança do sistema operacional.
- Fotonizado
- 2 de junho de 2023
- O analisador JSON no
failOnUnknownFields
modo descarta um registro noDROPMALFORMED
modo e falha diretamente noFAILFAST
modo. - Melhore o desempenho de atualizações incrementais com
SHALLOW CLONE
o Iceberg e o Parquet. - Corrigido um problema no Auto Loader em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferida.
- [FAÍSCA-43404] Ignore a reutilização do arquivo sst para a mesma versão do armazenamento de estado RocksDB para evitar o erro de incompatibilidade de ID.
-
[FAÍSCA-43413][11.3-13.0] Corrigida
IN
a anulabilidade da subconsultaListQuery
. - [SPARK-43522] Corrigido a criação do nome da coluna struct com o índice da matriz.
-
[SPARK-43541] Propagar todas as tags
Project
na resolução de expressões e de colunas que estão ausentes. -
[FAÍSCA-43527] Corrigido
catalog.listCatalogs
no PySpark. - [SPARK-43123] Os metadados de campo interno não vazam mais para catálogos.
- [FAÍSCA-43340] Corrigido o campo de rastreamento de pilha ausente nos logs de eventos.
-
[SPARK-42444]
DataFrame.drop
agora lida corretamente com colunas duplicadas. -
[FAÍSCA-42937]
PlanSubqueries
agora defineInSubqueryExec#shouldBroadcast
como true. -
[SPARK-43286] Atualizado
aes_encrypt
modo CBC para gerar IVs aleatórios. -
[FAÍSCA-43378] Feche corretamente os objetos de fluxo no
deserializeFromChunkedBuffer
.
- O analisador JSON no
- 17 de maio de 2023
- As varreduras de parquet agora são robustas contra OOMs ao examinar arquivos excepcionalmente estruturados, ajustando dinamicamente o tamanho do lote. Os metadados do arquivo são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente em novas tentativas de tarefas como uma rede de segurança final.
- Se um arquivo Avro foi lido apenas com a opção
failOnUnknownFields
ou com o Auto Loader no modo de evolução do esquemafailOnNewColumns
, as colunas que têm tipos de dados diferentes seriam lidas comonull
em vez de lançar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem arescuedDataColumn
opção. - Auto Loader agora faz o seguinte.
-
- Lê corretamente e não resgata mais ,
Integer
eShort
digitaByte
se um desses tipos de dados for fornecido, mas o arquivo Avro sugere um dos outros dois tipos.
- Lê corretamente e não resgata mais ,
-
- Impede a leitura de tipos de intervalo como tipos de carimbo de data ou hora para evitar datas corrompidas.
-
- Evita a leitura
Decimal
de tipos com menor precisão.
- Evita a leitura
- [FAÍSCA-43172] Expõe host e token do cliente Spark connect.
-
[SPARK-43293]
__qualified_access_only
é ignorado em colunas normais. -
[FAÍSCA-43098] Corrigido o erro de correção
COUNT
quando a subconsulta escalar é agrupada por cláusula. -
[SPARK-43085] Suporte para atribuição de coluna
DEFAULT
em nomes de tabelas com várias partes. -
[FAÍSCA-43190]
ListQuery.childOutput
é agora consistente com a produção secundária. - [FAÍSCA-43192] Removida a validação do conjunto de caracteres do agente do usuário.
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2023
- Se um arquivo Parquet fosse lido apenas com a opção
failOnUnknownFields
ou com o Auto Loader no modo de evolução do esquemafailOnNewColumns
, as colunas que tivessem tipos de dados diferentes seriam lidas comonull
em vez de lançar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem arescuedDataColumn
opção. - O Auto Loader agora lê corretamente e não resgata mais ,
Integer
eShort
digitaByte
se um desses tipos de dados for fornecido. O arquivo Parquet sugere um dos outros dois tipos. Quando a coluna de dados resgatada estava habilitada anteriormente, a incompatibilidade de tipo de dados fazia com que as colunas fossem salvas mesmo que fossem legíveis. -
[FAÍSCA-43009] Parametrizado
sql()
comAny
constantes - [FAÍSCA-42406] Encerrar campos recursivos do Protobuf soltando o campo
-
[FAÍSCA-43038] Apoie o modo CBC por
aes_encrypt()
/aes_decrypt()
-
[FAÍSCA-42971] Alterar para imprimir
workdir
seappDirs
for nulo quando o trabalhador manipularWorkDirCleanup
evento - [SPARK-43018] Corrigir um erro para comandos INSERT com literais de carimbo de data/hora
- Atualizações de segurança do sistema operacional.
- Se um arquivo Parquet fosse lido apenas com a opção
- 11 de abril de 2023
- Ofereça suporte a formatos de fonte de dados herdados no
SYNC
comando. - Corrige um problema no comportamento %autoreload em blocos de anotações fora de um repositório.
- Corrigido um problema em que a evolução do esquema do Auto Loader podia entrar em um loop de falha infinito quando uma nova coluna é detetada no esquema de um objeto JSON aninhado.
-
[FAÍSCA-42928] Faz
resolvePersistentFunction
sincronizado. - [FAÍSCA-42936] Corrige o problema de LCan quando a cláusula pode ser resolvida diretamente por sua agregação filha.
-
[FAÍSCA-42967] Corrige
SparkListenerTaskStart.stageAttemptId
quando uma tarefa é iniciada após o cancelamento do estágio. - Atualizações de segurança do sistema operacional.
- Ofereça suporte a formatos de fonte de dados herdados no
- 29 de março de 2023
O Databricks SQL agora oferece suporte à especificação de valores padrão para colunas de tabelas Delta Lake, no momento da criação da tabela ou depois. Os comandos
INSERT
,UPDATE
,DELETE
eMERGE
subsequentes podem fazer referência ao valor padrão de qualquer coluna usando a palavra-chaveDEFAULT
explícita. Além disso, se qualquer atribuição deINSERT
tiver uma lista explícita de menos colunas do que a tabela de destino, os valores padrão da coluna correspondente serão substituídos pelas colunas restantes (ou NULL se nenhum padrão for especificado).Por exemplo:
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; > 0, 2023-03-28 1, 2023-03-28z
O Auto Loader agora inicia pelo menos uma limpeza de log síncrona do RocksDB para fluxos de
Trigger.AvailableNow
para verificar se o ponto de verificação pode ser limpo regularmente para fluxos do Auto Loader de execução rápida. Isso pode fazer com que alguns fluxos demorem mais tempo antes de serem desligados, mas economizará custos de armazenamento e melhorará a experiência do Auto Loader em execuções futuras.Agora você pode modificar uma tabela Delta para adicionar suporte aos recursos da tabela usando
DeltaTable.addFeatureSupport(feature_name)
.[FAÍSCA-42794] Aumente o lockAcquireTimeoutMs para 2 minutos para adquirir o armazenamento de estado RocksDB no Structure Streaming
[SPARK-42521] Adicionar NULLs para INSERTs com listas especificadas pelo usuário de menos colunas do que a tabela de destino
[FAÍSCA-42702][FAÍSCA-42623] Suporte a consulta parametrizada em subconsulta e CTE
[FAÍSCA-42668] Exceção de captura ao tentar fechar o fluxo compactado em HDFSStateStoreProvider stop
[FAÍSCA-42403] JsonProtocol deve manipular cadeias de caracteres JSON nulas
- 8 de março de 2023
- A mensagem de erro "Falha ao inicializar a configuração" foi melhorada para fornecer mais contexto para o cliente.
- Há uma alteração de terminologia para adicionar recursos a uma tabela Delta usando a propriedade da tabela. A sintaxe preferida é agora
'delta.feature.featureName'='supported'
em vez de'delta.feature.featureName'='enabled'
. Para compatibilidade com versões anteriores, o uso'delta.feature.featureName'='enabled'
ainda funciona e continuará a funcionar. - A partir desta versão, é possível criar/substituir uma tabela com uma propriedade de tabela adicional
delta.ignoreProtocolDefaults
para ignorar configurações do Spark relacionadas com o protocolo, que incluem as versões padrão de leitor e gravador e os recursos de tabela suportados por padrão. - [FAÍSCA-42070] Altere o valor padrão do argumento da função Mask de -1 para NULL
- [SPARK-41793] Resultado incorreto para molduras de janela definidas por uma cláusula de intervalo em decimais significativos
- [FAÍSCA-42484] UnsafeRowUtils melhor mensagem de erro
- [SPARK-42516] Sempre capture a configuração de fuso horário da sessão ao criar exibições
- [FAÍSCA-42635] Corrija a expressão TimestampAdd.
- [SPARK-42622] Substituição desativada em valores
- [SPARK-42534] Corrigir cláusula DB2Dialect Limit
- [SPARK-42121] Adicionar funções internas com valor de tabela posexplode, posexplode_outer, json_tuple e stack
- [FAÍSCA-42045] Modo ANSI SQL: Round/Bround deve retornar um erro em estouro inteiro minúsculo/pequeno/significativo
- Atualizações de segurança do sistema operacional.
Tempo de execução do Databricks 11.3 LTS
Consulte Databricks Runtime 11.3 LTS.
- 10 de dezembro de 2024
- Atualizações de segurança do sistema operacional.
- 26 de novembro de 2024
- Correções de bugs diversos.
- 10 de outubro de 2024
- Correções de bugs diversos.
- 25 de setembro de 2024
- [FAÍSCA-46601] [CORE] Corrigir erro de log em handleStatusMessage
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- Correções de bugs diversos.
- 17 de setembro de 2024
- Atualizações de segurança do sistema operacional.
- 29 de agosto de 2024
- 14 de agosto de 2024
- [FAÍSCA-48941][FAÍSCA-48970] Correções de gravador/leitor de backport ML
- [FAÍSCA-49065][SQL] A rebase em formatters/analisadores herdados deve suportar fusos horários não padrão da JVM
- [FAÍSCA-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-48463][ML] Tornar o StringIndexer compatível com colunas de entrada aninhadas
- Atualizações de segurança do sistema operacional.
- 1 de agosto de 2024
- [FAÍSCA-48896][FAÍSCA-48909][FAÍSCA-48883] Correções do gravador de ML de faísca de backport
- 1 de agosto de 2024
- Para aplicar os patches de segurança necessários, a versão Python no Databricks Runtime 11.3 LTS é atualizada de 3.9.5 para 3.9.19.
- Julho 11, 2024
- [FAÍSCA-48383][SS] Lançar melhor erro para partições incompatíveis na opção startOffset em Kafka
- [FAÍSCA-47070] Corrigir agregação inválida após a reescrita da subconsulta
- Atualizações de segurança do sistema operacional.
- 17 de junho de 2024
- Atualizações de segurança do sistema operacional.
- 21 de maio de 2024
- [FAÍSCA-48105][SS] Corrigir a condição de corrida entre o descarregamento do armazenamento de estado e o snapshot
- Atualizações de segurança do sistema operacional.
- 9 de maio de 2024
- [FAÍSCA-48018][SS] Corrigir groupId nulo causando erro de param ausente ao lançar KafkaException.couldNotReadOffsetRange
- [FAÍSCA-47973][CORE] Site de chamada de log em SparkContext.stop() e posterior em SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Definir nulidade corretamente na chave de junção coalescida na junção externa completa USANDO
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2024
- Atualizações de segurança do sistema operacional.
- 11 de abril de 2024
- Atualizações de segurança do sistema operacional.
- 1 de abril de 2024
- [SPARK-44252][SS] Defina uma nova classe de erro e aplique para o caso em que o estado de carregamento do DFS falhar
- [FAÍSCA-47135][SS] Implementar classes de erro para exceções de perda de dados Kafka
- Reverter "[SPARK-46861][CORE] Evitar impasse no DAGScheduler"
- [FAÍSCA-47200][SS] Classe de erro para erro de função de usuário do coletor de lote Foreach
- Atualizações de segurança do sistema operacional.
- Março 14, 2024
- [FAÍSCA-47167][SQL] Adicionar classe concreta para relação anônima JDBC
- [FAÍSCA-47125][SQL] Retornar null se Univocity nunca acionar a análise
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Corrigido um problema em que o uso de uma coleção local como origem num comando MERGE poderia fazer com que a métrica de operação numSourceRows relatasse o dobro do número correto de linhas.
- [FAÍSCA-45582][SS] Certifique-se de que a instância de armazenamento não seja usada depois de chamar a confirmação na agregação de streaming no modo de saída
- Fevereiro 13, 2024
- [SPARK-46794] Remover subconsultas das restrições do LogicalRDD.
- [FAÍSCA-46861] Evite o impasse no DAGScheduler.
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2024
- Atualizações de segurança do sistema operacional.
- 25 de dezembro de 2023
- Para evitar o aumento da latência ao se comunicar por TLSv1.3, esta versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
- [FAÍSCA-46058] Adicione sinalizador separado para privateKeyPassword.
-
[SPARK-46602] Propagar
allowExisting
na criação da vista quando a vista/tabela não existir. -
[SPARK-46394] Corrigir problemas em spark.catalog.listDatabases() em os esquemas com caracteres especiais quando
spark.sql.legacy.keepCommandOutputSchema
está definido como verdadeiro. -
[SPARK-46538] Corrigir o problema de referência de coluna ambígua no
ALSModel.transform
. - [FAÍSCA-39440] Adicione uma configuração para desativar a linha do tempo do evento.
- [FAÍSCA-46249] Exija o bloqueio de instância para adquirir métricas do RocksDB para evitar corridas com operações em segundo plano.
- [FAÍSCA-46132] Senha de chave de suporte para chaves JKS para RPC SSL.
- 14 de dezembro de 2023
- Corrigido um problema em que sublinhados escapados em operações getColumns originadas de clientes JDBC ou ODBC eram tratadas incorretamente e interpretadas como curingas.
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Instalado um novo pacote
pyarrow-hotfix
para corrigir uma vulnerabilidade do PyArrow RCE. - Corrigido um problema em que tracinhos baixos precedidos por barra invertida em operações
getColumns
originadas de clientes JDBC ou ODBC eram interpretados erroneamente como caracteres curinga. - [FAÍSCA-43973] A interface do usuário de streaming estruturada agora exibe consultas com falha corretamente.
-
[FAÍSCA-45730] Restrições de tempo melhoradas para
ReloadingX509TrustManagerSuite
o . -
[FAÍSCA-45544] Suporte SSL integrado no
TransportContext
. -
[FAÍSCA-45859] Fez objetos UDF em
ml.functions
preguiçoso. -
[FAÍSCA-43718] Corrigida a anulabilidade para chaves em
USING
junções. -
[FAÍSCA-44846] Removidas expressões de agrupamento complexo após
RemoveRedundantAggregates
. - Atualizações de segurança do sistema operacional.
- Instalado um novo pacote
- 14 de novembro de 2023
- Os filtros de partição nas consultas de streaming Delta Lake são empurrados para baixo antes do limite de taxa para obter uma melhor utilização.
- [FAÍSCA-42205] Removidos os acumuláveis de log nos eventos de início de Estágio e Tarefa.
-
[FAÍSCA-45545]
SparkTransportConf
herda após aSSLOptions
criação. - Reverter [SPARK-33861].
-
[FAÍSCA-45541] Adicionado
SSLFactory
. - [FAÍSCA-45429] Adicionadas classes auxiliares para comunicação RPC SSL.
-
[FAÍSCA-45584] Corrigida a falha de execução da subconsulta com
TakeOrderedAndProjectExec
o . -
[FAÍSCA-45430]
FramelessOffsetWindowFunction
já não falha quandoIGNORE NULLS
eoffset > rowCount
. -
[FAÍSCA-45427] Adicionadas configurações de SSL RPC para
SSLOptions
eSparkTransportConf
. - Atualizações de segurança do sistema operacional.
- 24 de outubro de 2023
-
[FAÍSCA-45426] Adicionado suporte para
ReloadingX509TrustManager
. - Correções diversas.
-
[FAÍSCA-45426] Adicionado suporte para
- 13 de outubro de 2023
- Dependência de flocos de neve-jdbc atualizada de 3.13.29 para 3.13.33.
-
[FAÍSCA-45178] Fallback para executar um único lote para
Trigger.AvailableNow
com fontes não suportadas em vez de usar o wrapper. -
[SPARK-45084]
StateOperatorProgress
para usar um número de partições de shuffle preciso e adequado. - [SPARK-45346] A inferência de esquema do Parquet agora respeita a distinção entre maiúsculas e minúsculas ao mesclar um esquema.
- Atualizações de segurança do sistema operacional.
- 10 de setembro de 2023
- Correções diversas.
- 30 de agosto de 2023
-
[FAÍSCA-44818] Corrida fixa para interrupção de tarefa pendente emitida antes
taskThread
de ser inicializada. -
[FAÍSCA-44871][11.3-13.0] Comportamento fixo
percentile_disc
. - Atualizações de segurança do sistema operacional.
-
[FAÍSCA-44818] Corrida fixa para interrupção de tarefa pendente emitida antes
- 15 de agosto de 2023
-
[FAÍSCA-44485] Otimizado
TreeNode.generateTreeString
. - [SPARK-44504] Tarefa de manutenção limpa os fornecedores carregados em caso de erro de interrupção.
-
[SPARK-44464] Corrigido
applyInPandasWithStatePythonRunner
às linhas de saída que têmNull
como o valor da primeira coluna. - Atualizações de segurança do sistema operacional.
-
[FAÍSCA-44485] Otimizado
- 27 de julho de 2023
- Corrigido um problema em que
dbutils.fs.ls()
retornavaINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
quando era chamado para um caminho de local de armazenamento que colidia com outro local de armazenamento externo ou gerenciado. -
[FAÍSCA-44199]
CacheManager
já não refresca ofileIndex
desnecessariamente. - Atualizações de segurança do sistema operacional.
- Corrigido um problema em que
- 24 de julho de 2023
- [SPARK-44136] Corrigido um problema em que o StateManager pode ser materializado no executor em vez de no driver em FlatMapGroupsWithStateExec.
- Atualizações de segurança do sistema operacional.
- 23 de junho de 2023
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2023
- Fotonizado
approx_count_distinct
. - A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para resolver um problema de segurança.
-
[FAÍSCA-43779]
ParseToDate
agora carregaEvalMode
no thread principal. - [FAÍSCA-40862] Suporte a subconsultas não agregadas em RewriteCorrelatedScalarSubquery
-
[FAÍSCA-43156][FAÍSCA-43098] Teste de bug de contagem de subconsulta escalar estendida com
decorrelateInnerQuery
desativado. - [FAÍSCA-43098] Corrigir o bug COUNT de correção quando a subconsulta escalar tem um grupo por cláusula
- Atualizações de segurança do sistema operacional.
- Fotonizado
- 2 de junho de 2023
- O analisador JSON no
failOnUnknownFields
modo descarta um registro noDROPMALFORMED
modo e falha diretamente noFAILFAST
modo. - Melhore o desempenho de atualizações incrementais com
SHALLOW CLONE
o Iceberg e o Parquet. - Corrigido um problema no Auto Loader em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferida.
- [FAÍSCA-43404]Ignore a reutilização do arquivo sst para a mesma versão do armazenamento de estado RocksDB para evitar o erro de incompatibilidade de ID.
-
[FAÍSCA-43527] Corrigido
catalog.listCatalogs
no PySpark. -
[FAÍSCA-43413][11.3-13.0] Corrigida
IN
a anulabilidade da subconsultaListQuery
. - [FAÍSCA-43340] Corrigido o campo de rastreamento de pilha ausente nos logs de eventos.
- O analisador JSON no
Tempo de execução do Databricks 10.4 LTS
Consulte Databricks Runtime 10.4 LTS.
- 10 de dezembro de 2024
- Atualizações de segurança do sistema operacional.
- 26 de novembro de 2024
- Atualizações de segurança do sistema operacional.
- 5 de novembro de 2024
- Atualizações de segurança do sistema operacional.
- Outubro 22, 2024
- Atualizações de segurança do sistema operacional.
- 10 de outubro de 2024
- Atualizações de segurança do sistema operacional.
- 25 de setembro de 2024
- [FAÍSCA-46601] [CORE] Corrigir erro de log em handleStatusMessage
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- Atualizações de segurança do sistema operacional.
- 29 de agosto de 2024
- [FAÍSCA-49065][SQL] A rebase em formatters/analisadores herdados deve suportar fusos horários não padrão da JVM
- 14 de agosto de 2024
- [FAÍSCA-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [FAÍSCA-48941][FAÍSCA-48970] Correções de gravador/leitor de backport ML
- [SPARK-48463][ML] Tornar o StringIndexer compatível com colunas de entrada aninhadas
- 1 de agosto de 2024
- [FAÍSCA-48896][FAÍSCA-48909][FAÍSCA-48883] Correções do gravador de ML de faísca de backport
- Atualizações de segurança do sistema operacional.
- Julho 11, 2024
- [FAÍSCA-48383][SS] Lançar melhor erro para partições incompatíveis na opção startOffset em Kafka
- Atualizações de segurança do sistema operacional.
- 17 de junho de 2024
- Atualizações de segurança do sistema operacional.
- 21 de maio de 2024
- [FAÍSCA-48105][SS] Corrigir a condição de corrida entre o descarregamento do armazenamento de estado e o snapshot
- Atualizações de segurança do sistema operacional.
- 9 de maio de 2024
- [FAÍSCA-48018][SS] Corrigir groupId nulo causando erro de param ausente ao lançar KafkaException.couldNotReadOffsetRange
- [FAÍSCA-47973][CORE] Site de chamada de log em SparkContext.stop() e posterior em SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Definir anulável corretamente na chave de junção coalescida no full outer USING join
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2024
- Atualizações de segurança do sistema operacional.
- 11 de abril de 2024
- Atualizações de segurança do sistema operacional.
- 1 de abril de 2024
- [FAÍSCA-47135][SS] Implementar classes de erro para exceções de perda de dados Kafka
- [SPARK-44252][SS] Defina uma nova classe de erro e aplique para o caso em que o estado de carregamento do DFS falhar
- [FAÍSCA-47200][SS] Classe de erro para erro de função de usuário do coletor de lote Foreach
- Reverter "[SPARK-46861][CORE] Evitar impasse no DAGScheduler"
- Atualizações de segurança do sistema operacional.
- Março 14, 2024
- [FAÍSCA-47125][SQL] Retornar null se Univocity nunca acionar a análise
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Corrigido um problema em que a utilização de uma coleção local como origem num comando MERGE poderia resultar na métrica de operação numSourceRows indicando o dobro do número correto de linhas.
- [FAÍSCA-45582][SS] Certifique-se de que a instância de armazenamento não seja usada depois de chamar a confirmação na agregação de streaming no modo de saída
- Atualizações de segurança do sistema operacional.
- Fevereiro 13, 2024
- [FAÍSCA-46861] Evite o impasse no DAGScheduler.
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2024
- Atualizações de segurança do sistema operacional.
- 25 de dezembro de 2023
- Para evitar o aumento da latência ao se comunicar por TLSv1.3, esta versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
- [FAÍSCA-46058] Adicione sinalizador separado para privateKeyPassword.
-
[SPARK-46538] Corrigir o problema de referência de coluna ambígua no
ALSModel.transform
. - [FAÍSCA-39440] Adicione uma configuração para desativar a linha do tempo do evento.
- [FAÍSCA-46132] Senha de chave de suporte para chaves JKS para RPC SSL.
- 14 de dezembro de 2023
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Instalado um novo pacote
pyarrow-hotfix
para corrigir uma vulnerabilidade do PyArrow RCE. -
[FAÍSCA-45544] Suporte SSL integrado no
TransportContext
. -
[FAÍSCA-45859] Fez objetos UDF em
ml.functions
preguiçoso. -
[FAÍSCA-43718] Corrigida a anulabilidade para chaves em
USING
junções. -
[FAÍSCA-45730] Restrições de tempo melhoradas para
ReloadingX509TrustManagerSuite
o . - [FAÍSCA-42205] Removidos os acumuláveis de log nos eventos de início de Estágio e Tarefa.
-
[FAÍSCA-44846] Removidas expressões de agrupamento complexo após
RemoveRedundantAggregates
. - Atualizações de segurança do sistema operacional.
- Instalado um novo pacote
- 14 de novembro de 2023
-
[FAÍSCA-45541] Adicionado
SSLFactory
. -
[FAÍSCA-45545]
SparkTransportConf
herda após aSSLOptions
criação. -
[FAÍSCA-45427] Adicionadas configurações de SSL RPC para
SSLOptions
eSparkTransportConf
. - [FAÍSCA-45429] Adicionadas classes auxiliares para comunicação RPC SSL.
-
[FAÍSCA-45584] Corrigida a falha de execução da subconsulta com
TakeOrderedAndProjectExec
o . - Reverter [SPARK-33861].
- Atualizações de segurança do sistema operacional.
-
[FAÍSCA-45541] Adicionado
- 24 de outubro de 2023
-
[FAÍSCA-45426] Adicionado suporte para
ReloadingX509TrustManager
. - Atualizações de segurança do sistema operacional.
-
[FAÍSCA-45426] Adicionado suporte para
- 13 de outubro de 2023
-
[SPARK-45084]
StateOperatorProgress
usar um número de partição aleatório preciso e adequado. -
[FAÍSCA-45178] Fallback para executar um único lote para
Trigger.AvailableNow
com fontes não suportadas em vez de usar o wrapper. - Atualizações de segurança do sistema operacional.
-
[SPARK-45084]
- 10 de setembro de 2023
- Correções diversas.
- 30 de agosto de 2023
-
[FAÍSCA-44818] Corrida fixa para interrupção de tarefa pendente emitida antes
taskThread
de ser inicializada. - Atualizações de segurança do sistema operacional.
-
[FAÍSCA-44818] Corrida fixa para interrupção de tarefa pendente emitida antes
- 15 de agosto de 2023
- [SPARK-44504] Tarefa de manutenção limpa os fornecedores carregados em caso de erro de interrupção.
- [FAÍSCA-43973] A interface do usuário de streaming estruturada agora aparece com falhas nas consultas corretamente.
- Atualizações de segurança do sistema operacional.
- 23 de junho de 2023
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2023
- A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para resolver um problema de segurança.
- [FAÍSCA-43098] Corrigir o bug COUNT de correção quando a subconsulta escalar tem um grupo por cláusula
- [FAÍSCA-40862] Suporte a subconsultas não agregadas em RewriteCorrelatedScalarSubquery
-
[FAÍSCA-43156][FAÍSCA-43098] Teste de contagem de subconsulta escalar estendida com
decorrelateInnerQuery
desativado. - Atualizações de segurança do sistema operacional.
- 2 de junho de 2023
- O analisador JSON no
failOnUnknownFields
modo descarta um registro noDROPMALFORMED
modo e falha diretamente noFAILFAST
modo. - Corrigido um problema na análise de dados resgatados pelo JSON para evitar
UnknownFieldException
o . - Corrigido um problema no Auto Loader em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferida.
- [FAÍSCA-43404] Ignore a reutilização do arquivo sst para a mesma versão do armazenamento de estado RocksDB para evitar o erro de incompatibilidade de ID.
-
[FAÍSCA-43413] Corrigida
IN
a anulabilidade da subconsultaListQuery
. - Atualizações de segurança do sistema operacional.
- O analisador JSON no
- 17 de maio de 2023
- As varreduras de parquet agora são robustas contra OOMs ao examinar arquivos excepcionalmente estruturados, ajustando dinamicamente o tamanho do lote. Os metadados do arquivo são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente em novas tentativas de tarefas como uma rede de segurança final.
-
[FAÍSCA-41520] Dividir
AND_OR
padrão de árvore para separarAND
eOR
. -
[FAÍSCA-43190]
ListQuery.childOutput
é agora consistente com a produção secundária. - Atualizações de segurança do sistema operacional.
- 25 de abril de 2023
-
[FAÍSCA-42928] Faça
resolvePersistentFunction
sincronizado. - Atualizações de segurança do sistema operacional.
-
[FAÍSCA-42928] Faça
- 11 de abril de 2023
- Corrigido um problema em que a evolução do esquema do Auto Loader podia entrar em um loop de falha infinito quando uma nova coluna é detetada no esquema de um objeto JSON aninhado.
-
[FAÍSCA-42937]
PlanSubqueries
agora defineInSubqueryExec#shouldBroadcast
como true. - [FAÍSCA-42967] Corrija SparkListenerTaskStart.stageAttemptId quando uma tarefa é iniciada depois que o estágio é cancelado.
- 29 de março de 2023
- [FAÍSCA-42668] Exceção de captura ao tentar fechar o fluxo compactado em HDFSStateStoreProvider stop
- [FAÍSCA-42635] Corrigir o ...
- Atualizações de segurança do sistema operacional.
- 14 de março de 2023
- [SPARK-41162] Corrigir anti-junção e semi-junção para autojunção com agregações
- [FAÍSCA-33206] Corrigir cálculo de peso de cache de índice aleatório para arquivos de índice pequenos
-
[FAÍSCA-42484] Melhorada a mensagem de
UnsafeRowUtils
erro - Correções diversas.
- 28 de fevereiro de 2023
- Coluna gerada de suporte para formato de data aaaa-MM-dd. Essa alteração oferece suporte à remoção de partição para aaaa-MM-dd como um date_format nas colunas geradas.
- Os usuários agora podem ler e escrever tabelas Delta específicas que exigem o Reader versão 3 e o Writer versão 7, usando o Databricks Runtime 9.1 LTS ou posterior. Para serem bem-sucedidos, os recursos de tabela listados no protocolo das tabelas devem ser suportados pela versão atual do Databricks Runtime.
- Suporte para coluna gerada com o formato de data aaaa-MM-dd. Essa alteração suporta a podagem de partições para aaaa-MM-dd como formato de data nas colunas geradas.
- Atualizações de segurança do sistema operacional.
- 16 de fevereiro de 2023
- [FAÍSCA-30220] Habilitar o uso de subconsultas Exists/In fora do nó Filtro
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2023
- Os tipos de tabela de tabelas JDBC agora são EXTERNOS por padrão.
- 18 de janeiro de 2023
- O conector Sinapse do Azure retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres não válidos, como espaços em branco ou ponto-e-vírgula. Nesses casos, a seguinte mensagem será retornada:
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
. - [FAÍSCA-38277] Limpar lote de gravação após a confirmação do armazenamento de estado do RocksDB
- [FAÍSCA-41199] Corrigir problema de métricas quando a fonte de streaming DSv1 e a fonte de streaming DSv2 são cousadas
- [SPARK-41198] Corrigir métricas na consulta de streaming com fonte de streaming CTE e DSv1.
- [FAÍSCA-41339] Feche e recrie o lote de gravação do RocksDB em vez de apenas limpar.
- [FAÍSCA-41732] Aplique poda baseada em padrão de árvore para a regra SessionWindowing.
- Atualizações de segurança do sistema operacional.
- O conector Sinapse do Azure retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres não válidos, como espaços em branco ou ponto-e-vírgula. Nesses casos, a seguinte mensagem será retornada:
- 29 de novembro de 2022
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao gravar dados usando o conector Redshift. As seguintes opções foram adicionadas para controlar o manuseio de espaços em branco:
-
csvignoreleadingwhitespace
, quando configurado paratrue
, remove o espaço em branco à esquerda dos valores durante a escrita quandotempformat
está configurado paraCSV
ouCSV GZIP
. Os espaços em branco são retidos quando a configuração é definida comofalse
. Por predefinição, o valor étrue
. -
csvignoretrailingwhitespace
, quando definido comotrue
, remove o espaço em branco à direita dos valores durante as gravações quandotempformat
está definido comoCSV
ouCSV GZIP
. Os espaços em branco são retidos quando a configuração é definida comofalse
. Por predefinição, o valor étrue
.
-
- Corrigido um problema com a análise de JSON no Auto Loader quando todas as colunas eram deixadas como strings (
cloudFiles.inferColumnTypes
não foi definido ou estava definido comofalse
) e o JSON continha objetos aninhados. - Atualizações de segurança do sistema operacional.
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao gravar dados usando o conector Redshift. As seguintes opções foram adicionadas para controlar o manuseio de espaços em branco:
- 15 de novembro de 2022
- Apache commons-text atualizado para 1.10.0.
-
[SPARK-40646] A análise JSON para estruturas, mapas e arrays foi corrigida para que, quando uma parte de um registo não corresponder ao esquema, o restante do registo ainda possa ser analisado corretamente em vez de retornar nulos. Para optar pelo comportamento melhorado, defina
spark.sql.json.enablePartialResults
comotrue
. O sinalizador é desativado por padrão para preservar o comportamento original. -
[SPARK-40292] Corrigir nomes de colunas na função
arrays_zip
quando matrizes são referenciadas a partir de estruturas aninhadas - Atualizações de segurança do sistema operacional.
- 1 de novembro de 2022
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas de feed de dados Change estivesse desativada nessa tabela, os dados nessa coluna seriam preenchidos incorretamente com valores NULL ao executarMERGE
. - Corrigido um problema com o Auto Loader em que um arquivo pode ser duplicado no mesmo microlote quando
allowOverwrites
está ativado - [FAÍSCA-40697] Adicionar preenchimento de caracteres do lado de leitura para cobrir arquivos de dados externos
- [FAÍSCA-40596] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
- 18 de outubro de 2022
- Atualizações de segurança do sistema operacional.
- 5 de outubro de 2022
-
[SPARK-40468] Corrigir poda de colunas em CSV quando
_corrupt_record
estiver selecionado. - Atualizações de segurança do sistema operacional.
-
[SPARK-40468] Corrigir poda de colunas em CSV quando
- 22 de setembro de 2022
- Os usuários podem definir spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled
,true
) para reativar a listagem integrada do Auto Loader no ADLS Gen2. A listagem integrada foi desativada anteriormente devido a problemas de desempenho, mas pode ter levado ao aumento dos custos de armazenamento para os clientes. - [FAÍSCA-40315] Adicionar hashCode() para Literal de ArrayBasedMapData
- [FAÍSCA-40213] Suporta conversão de valor ASCII para caracteres latino-1
- [FAÍSCA-40380] Corrija a dobragem constante de InvokeLike para evitar literais não serializáveis incorporados no plano
- [FAÍSCA-38404] Melhorar a resolução de CTE quando uma CTE aninhada faz referência a uma CTE externa
- [FAÍSCA-40089] Corrigir a classificação para alguns tipos decimais
- [FAÍSCA-39887] RemoveRedundantAliases deve manter aliases que tornam a saída dos nós de projeção exclusiva
- Os usuários podem definir spark.conf.set(
- 6 de setembro de 2022
- [FAÍSCA-40235] Use o bloqueio interruptível em vez de sincronizado em Executor.updateDependencies().
- [SPARK-40218] CONJUNTOS DE AGRUPAMENTO devem preservar as colunas de agrupamento.
- [FAÍSCA-39976] ArrayIntersect deve manipular null na expressão esquerda corretamente.
-
[FAÍSCA-40053] Adicione
assume
a casos de cancelamento dinâmico que exigem o ambiente de tempo de execução do Python. - [SPARK-35542] Correção: Bucketizer criado para várias colunas com parâmetros splitsArray, inputCols e outputCols não pode ser carregado depois de salvá-lo.
- [FAÍSCA-40079] Adicione a validação inputCols do Imputer para caso de entrada vazio.
- 24 de agosto de 2022
- [FAÍSCA-39983] Não armazene em cache relações de transmissão não serializadas no driver.
- [SPARK-39775] Desative a validação de valores padrão ao analisar esquemas Avro.
- [FAÍSCA-39962] Aplicar projeção quando os atributos de grupo estiverem vazios
- [FAÍSCA-37643] quando charVarcharAsString é true, para consulta de predicado de tipo de dados char deve ignorar a regra rpadding .
- Atualizações de segurança do sistema operacional.
- 9 de agosto de 2022
- [FAÍSCA-39847] Corrija a condição de corrida em RocksDBLoader.loadLibrary() se o thread do chamador for interrompido
- [FAÍSCA-39731] Corrigir problema em fontes de dados CSV e JSON ao analisar datas no formato "yyyyMMdd" com a política do analisador de tempo CORRIGIDO
- Atualizações de segurança do sistema operacional.
- 27 de julho de 2022
- [FAÍSCA-39625] Adicione Dataset.as(StructType).
-
[FAÍSCA-39689]Suporte a 2 caracteres na fonte de
lineSep
dados CSV. - [FAÍSCA-39104] InMemoryRelation#isCachedColumnBuffersLoaded deve ser thread-safe.
- [SPARK-39570] tabela inline deveria permitir expressões com alias.
- [FAÍSCA-39702] Reduza a sobrecarga de memória de TransportCipher$EncryptedMessage usando um byteRawChannel compartilhado.
- [SPARK-39575] adicionar ByteBuffer#rewind após ByteBuffer#get no AvroDeserializer.
- [SPARK-39476] Desativar otimização de 'unwrap cast' ao converter de Long para Float, Double ou de Integer para Float.
- [FAÍSCA-38868] Não propague exceções do predicado de filtro ao otimizar junções externas.
- Atualizações de segurança do sistema operacional.
- 20 de julho de 2022
- Torne os resultados da operação Delta MERGE consistentes quando a origem não for determinística.
- [SPARK-39355] Coluna única usa aspas para construir UnresolvedAttribute.
- [SPARK-39548] Comando CreateView com uma consulta que usa cláusula de janela gerou um problema de definição de janela não encontrada.
- [FAÍSCA-39419] Corrija ArraySort para lançar uma exceção quando o comparador retornar null.
- Desativou o uso de APIs de nuvem internas do Auto Loader para listagem de diretórios no Azure.
- Atualizações de segurança do sistema operacional.
- 5 de julho de 2022
- [SPARK-39376] Ocultar colunas duplicadas na expansão em estrela do alias de uma subconsulta de NATURAL/USING JOIN
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2022
- [FAÍSCA-39283] Corrija o impasse entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator.
- [FAÍSCA-39285] O Spark não deve verificar nomes de campos ao ler arquivos.
- [SPARK-34096] Melhorar o desempenho para o nth_value ao ignorar nulos na janela de deslocamento.
-
[FAÍSCA-36718] Corrija o
isExtractOnly
check-in CollapseProject.
- 2 de junho de 2022
- [FAÍSCA-39093] Evite erros de compilação de codegen ao dividir intervalos de ano-mês ou intervalos de tempo de dia por uma integral.
- [FAÍSCA-38990] Evite NullPointerException ao avaliar o formato date_trunc/trunc como uma referência associada.
- Atualizações de segurança do sistema operacional.
- 18 de maio de 2022
- Corrige uma possível fuga de memória incorporada no Auto Loader.
- [SPARK-38918] A poda de colunas aninhadas deve remover atributos que não pertencem à relação atual.
- [FAÍSCA-37593] Reduza o tamanho da página padrão em LONG_ARRAY_OFFSET se G1GC e ON_HEAP forem usados.
- [FAÍSCA-39084] Corrija df.rdd.isEmpty() usando TaskContext para parar o iterador na conclusão da tarefa.
- [FAÍSCA-32268] Adicione ColumnPruning em injectBloomFilter.
- [SPARK-38974] Filtrar funções registadas com um determinado nome de base de dados em funções de lista.
- [FAÍSCA-38931] Crie o diretório dfs raiz para RocksDBFileManager com um número desconhecido de chaves no 1º ponto de verificação.
- Atualizações de segurança do sistema operacional.
- 19 de abril de 2022
- Java AWS SDK atualizado da versão 1.11.655 para 1.12.1899.
- Corrigido um problema com bibliotecas com escopo de bloco de anotações que não funcionavam em trabalhos de streaming em lote.
- [FAÍSCA-38616] Acompanhe o texto da consulta SQL no Catalyst TreeNode
- Atualizações de segurança do sistema operacional.
- 6 de abril de 2022
- As seguintes funções do Spark SQL estão agora disponíveis com esta versão:
-
timestampadd()
edateadd()
: Adicione uma duração de tempo em uma unidade especificada a uma expressão de carimbo de data/hora. -
timestampdiff()
e : Calculedatediff()
a diferença de tempo entre expressões de carimbo de data/hora em uma unidade especificada.
-
- Parquet-MR foi atualizado para 1.12.2
- Suporte melhorado para esquemas abrangentes em arquivos parquet
- [FAÍSCA-38631] Usa implementação baseada em Java para un-tarring em Utils.unpack.
-
[FAÍSCA-38509][FAÍSCA-38481] Escolha a dedo três
timestmapadd/diff
mudanças. - [SPARK-38523] Correção referente à coluna de registro corrompido do CSV.
-
[FAÍSCA-38237] Permitir
ClusteredDistribution
exigir chaves de cluster completas. - [FAÍSCA-38437] Serialização leniente de datetime da fonte de dados.
- [FAÍSCA-38180] Permitir expressões seguras em predicados de igualdade correlacionados.
- [FAÍSCA-38155] Não permitir agregados distintos em subconsultas laterais com predicados não suportados.
- Atualizações de segurança do sistema operacional.
- As seguintes funções do Spark SQL estão agora disponíveis com esta versão:
Tempo de execução do Databricks 9.1 LTS
Consulte Databricks Runtime 9.1 LTS.
- 10 de dezembro de 2024
- Atualizações de segurança do sistema operacional.
- 26 de novembro de 2024
- Atualizações de segurança do sistema operacional.
- 5 de novembro de 2024
- Atualizações de segurança do sistema operacional.
- Outubro 22, 2024
- Atualizações de segurança do sistema operacional.
- 10 de outubro de 2024
- Atualizações de segurança do sistema operacional.
- 25 de setembro de 2024
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- Atualizações de segurança do sistema operacional.
- 6 de setembro de 2024
- Atualizações de segurança do sistema operacional.
- 29 de agosto de 2024
- [FAÍSCA-49065][SQL] A rebase em formatters/analisadores herdados deve suportar fusos horários não padrão da JVM
- 14 de agosto de 2024
- 1 de agosto de 2024
- Atualizações de segurança do sistema operacional.
- Julho 11, 2024
- Atualizações de segurança do sistema operacional.
- 17 de junho de 2024
- Atualizações de segurança do sistema operacional.
- 21 de maio de 2024
- [FAÍSCA-48105][SS] Corrigir a condição de corrida entre o descarregamento do armazenamento de estado e o snapshot
- Atualizações de segurança do sistema operacional.
- 9 de maio de 2024
- [FAÍSCA-47973][CORE] Site de chamada de log em SparkContext.stop() e posterior em SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Definir corretamente o estado de anulável na chave de junção coalescida na junção externa completa USING
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2024
- Correções de bugs diversos.
- 11 de abril de 2024
- Atualizações de segurança do sistema operacional.
- 1 de abril de 2024
- Reverter "[SPARK-46861][CORE] Evitar impasse no DAGScheduler"
- Atualizações de segurança do sistema operacional.
- Março 14, 2024
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Foi corrigido um problema em que o uso de uma coleção local como fonte em um comando de MERGE poderia resultar na métrica de operação numSourceRows informando o dobro do número correto de linhas.
- Atualizações de segurança do sistema operacional.
- Fevereiro 13, 2024
- [FAÍSCA-46861] Evite o impasse no DAGScheduler.
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2024
- Atualizações de segurança do sistema operacional.
- 25 de dezembro de 2023
- Para evitar o aumento da latência ao se comunicar por TLSv1.3, esta versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
- [FAÍSCA-46058] Adicione sinalizador separado para privateKeyPassword.
- [FAÍSCA-39440] Adicione uma configuração para desativar a linha do tempo do evento.
- [FAÍSCA-46132] Senha de chave de suporte para chaves JKS para RPC SSL.
- 14 de dezembro de 2023
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Instalado um novo pacote
pyarrow-hotfix
para corrigir uma vulnerabilidade do PyArrow RCE. -
[FAÍSCA-45859] Fez objetos UDF em
ml.functions
preguiçoso. -
[FAÍSCA-45544] Suporte SSL integrado no
TransportContext
. -
[FAÍSCA-45730] Restrições de tempo melhoradas para
ReloadingX509TrustManagerSuite
o . - Atualizações de segurança do sistema operacional.
- Instalado um novo pacote
- 14 de novembro de 2023
-
[FAÍSCA-45545]
SparkTransportConf
herda após aSSLOptions
criação. - [FAÍSCA-45429] Adicionadas classes auxiliares para comunicação RPC SSL.
-
[FAÍSCA-45427] Adicionadas configurações de SSL RPC para
SSLOptions
eSparkTransportConf
. -
[FAÍSCA-45584] Corrigida a falha de execução da subconsulta com
TakeOrderedAndProjectExec
o . -
[FAÍSCA-45541] Adicionado
SSLFactory
. - [FAÍSCA-42205] Removidos os acumuláveis de log nos eventos de início de Estágio e Tarefa.
- Atualizações de segurança do sistema operacional.
-
[FAÍSCA-45545]
- 24 de outubro de 2023
-
[FAÍSCA-45426] Adicionado suporte para
ReloadingX509TrustManager
. - Atualizações de segurança do sistema operacional.
-
[FAÍSCA-45426] Adicionado suporte para
- 13 de outubro de 2023
- Atualizações de segurança do sistema operacional.
- 10 de setembro de 2023
- Correções diversas.
- 30 de agosto de 2023
- Atualizações de segurança do sistema operacional.
- 15 de agosto de 2023
- Atualizações de segurança do sistema operacional.
- 23 de junho de 2023
- A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para resolver um problema de segurança.
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2023
- [FAÍSCA-43098] Corrija o bug COUNT de correção quando a subconsulta escalar tem um grupo por cláusula.
-
[FAÍSCA-43156][FAÍSCA-43098] Estenda o teste de bug da contagem de subconsultas escalares com
decorrelateInnerQuery
desativado. - [FAÍSCA-40862] Ofereça suporte a subconsultas não agregadas em RewriteCorrelatedScalarSubquery.
- Atualizações de segurança do sistema operacional.
- 2 de junho de 2023
- O analisador JSON no
failOnUnknownFields
modo descarta um registro noDROPMALFORMED
modo e falha diretamente noFAILFAST
modo. - Corrigido um problema na análise de dados resgatados pelo JSON para evitar
UnknownFieldException
o . - Corrigido um problema no Auto Loader em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferida.
-
[FAÍSCA-37520] Adicionar as
startswith()
funções eendswith()
string -
[FAÍSCA-43413] Corrigida
IN
a anulabilidade da subconsultaListQuery
. - Atualizações de segurança do sistema operacional.
- O analisador JSON no
- 17 de maio de 2023
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2023
- Atualizações de segurança do sistema operacional.
- 11 de abril de 2023
- Corrigido um problema em que a evolução do esquema do Auto Loader podia entrar em um loop de falha infinito quando uma nova coluna é detetada no esquema de um objeto JSON aninhado.
- [FAÍSCA-42967] Corrija SparkListenerTaskStart.stageAttemptId quando uma tarefa é iniciada depois que o estágio é cancelado.
- 29 de março de 2023
- Atualizações de segurança do sistema operacional.
- 14 de março de 2023
-
[FAÍSCA-42484] Mensagem de erro melhorada para
UnsafeRowUtils
. - Correções diversas.
-
[FAÍSCA-42484] Mensagem de erro melhorada para
- 28 de fevereiro de 2023
- Os usuários agora podem ler e escrever tabelas Delta específicas que exigem o Reader versão 3 e o Writer versão 7, usando o Databricks Runtime 9.1 LTS ou posterior. Para serem bem-sucedidos, os recursos de tabela listados no protocolo das tabelas devem ser suportados pela versão atual do Databricks Runtime.
- Atualizações de segurança do sistema operacional.
- 16 de fevereiro de 2023
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2023
- Os tipos de tabela de tabelas JDBC agora são EXTERNOS por padrão.
- 18 de janeiro de 2023
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2022
- Corrigido um problema com a análise JSON no Auto Loader quando todas as colunas eram deixadas como strings (
cloudFiles.inferColumnTypes
não estava configurado ou configurado comofalse
) e o JSON continha objetos aninhados. - Atualizações de segurança do sistema operacional.
- Corrigido um problema com a análise JSON no Auto Loader quando todas as colunas eram deixadas como strings (
- 15 de novembro de 2022
- Apache commons-text atualizado para 1.10.0.
- Atualizações de segurança do sistema operacional.
- Correções diversas.
- 1 de novembro de 2022
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas de feed de dados Change estivesse desativada nessa tabela, os dados nessa coluna seriam preenchidos incorretamente com valores NULL ao executarMERGE
. - Corrigido um problema com o Auto Loader em que um arquivo pode ser duplicado no mesmo microlote quando
allowOverwrites
está ativado - [FAÍSCA-40596] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
- 18 de outubro de 2022
- Atualizações de segurança do sistema operacional.
- 5 de outubro de 2022
- Correções diversas.
- Atualizações de segurança do sistema operacional.
- 22 de setembro de 2022
- Os usuários podem definir spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") para reativar a listagem interna do Auto Loader no ADLS Gen2. A listagem integrada foi desativada anteriormente devido a problemas de desempenho, mas pode ter levado ao aumento dos custos de armazenamento para os clientes.
- [FAÍSCA-40315] Adicionar hashCode() para Literal de ArrayBasedMapData
- [FAÍSCA-40089] Corrigir a classificação para alguns tipos decimais
- [FAÍSCA-39887] RemoveRedundantAliases deve manter aliases que tornam a saída dos nós de projeção exclusiva
- 6 de setembro de 2022
- [FAÍSCA-40235] Use o bloqueio interruptível em vez de sincronizado em Executor.updateDependencies()
- [SPARK-35542] Correção: Bucketizer criado para várias colunas com parâmetros splitsArray, inputCols e outputCols não pode ser carregado depois de salvá-lo
- [FAÍSCA-40079] Adicionar validação de inputCols do Imputer para caso de entrada vazio
- 24 de agosto de 2022
-
[FAÍSCA-39666] Use UnsafeProjection.create para respeitar
spark.sql.codegen.factoryMode
em ExpressionEncoder - [FAÍSCA-39962] Aplicar projeção quando os atributos de grupo estiverem vazios
- Atualizações de segurança do sistema operacional.
-
[FAÍSCA-39666] Use UnsafeProjection.create para respeitar
- 9 de agosto de 2022
- Atualizações de segurança do sistema operacional.
- 27 de julho de 2022
- Torne os resultados da operação Delta MERGE consistentes quando a origem não for determinística.
-
[FAÍSCA-39689] Suporte para 2 caracteres na fonte de
lineSep
dados CSV -
[FAÍSCA-39575] Adicionado
ByteBuffer#rewind
depoisByteBuffer#get
emAvroDeserializer
. - [FAÍSCA-37392] Corrigido o erro de desempenho do otimizador de catalisador.
- Atualizações de segurança do sistema operacional.
- 13 de julho de 2022
-
[FAÍSCA-39419]
ArraySort
lança uma exceção quando o comparador retorna null. - Desativou o uso de APIs de nuvem internas do Auto Loader para listagem de diretórios no Azure.
- Atualizações de segurança do sistema operacional.
-
[FAÍSCA-39419]
- 5 de julho de 2022
- Atualizações de segurança do sistema operacional.
- Correções diversas.
- 15 de junho de 2022
-
[FAÍSCA-39283] Corrigir o impasse entre
TaskMemoryManager
eUnsafeExternalSorter.SpillableIterator
.
-
[FAÍSCA-39283] Corrigir o impasse entre
- 2 de junho de 2022
-
[FAÍSCA-34554] Implemente o
copy()
método emColumnarMap
. - Atualizações de segurança do sistema operacional.
-
[FAÍSCA-34554] Implemente o
- 18 de maio de 2022
- Corrigido um potencial vazamento de memória embutido no Auto Loader.
- Atualize a versão do AWS SDK de 1.11.655 para 1.11.678.
- [SPARK-38918] A remoção de coluna aninhada deve filtrar atributos que não pertencem à relação atual
-
[FAÍSCA-39084] Corrigir
df.rdd.isEmpty()
usandoTaskContext
para parar o iterador na conclusão da tarefa - Atualizações de segurança do sistema operacional.
- 19 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Correções diversas.
- 6 de abril de 2022
- [FAÍSCA-38631] Usa implementação baseada em Java para un-tarring em Utils.unpack.
- Atualizações de segurança do sistema operacional.
- 22 de março de 2022
- Alterado o diretório de trabalho atual de notebooks em clusters de alta simultaneidade com controlo de acesso a tabelas ou encaminhamento de credenciais ativado para o diretório inicial do utilizador. Anteriormente, o diretório ativo era
/databricks/driver
. - [FAÍSCA-38437] Serialização leniente de datetime a partir da fonte de dados
- [FAÍSCA-38180] Permitir expressões upcast seguras em predicados de igualdade correlacionados
- [FAÍSCA-38155] Não permitir agregados distintos em subconsultas laterais com predicados sem suporte
- [FAÍSCA-27442] Removido um campo de verificação ao ler ou gravar dados em um parquet.
- Alterado o diretório de trabalho atual de notebooks em clusters de alta simultaneidade com controlo de acesso a tabelas ou encaminhamento de credenciais ativado para o diretório inicial do utilizador. Anteriormente, o diretório ativo era
- 14 de março de 2022
- [SPARK-38236] Os caminhos de arquivo absolutos especificados na tabela create/alter são tratados como relativos
-
[SPARK-34069] Interromper a thread da tarefa se a propriedade local
SPARK_JOB_INTERRUPT_ON_CANCEL
estiver definida como verdadeira.
- 23 de fevereiro de 2022
- [SPARK-37859] tabelas SQL criadas com JDBC com Spark 3.1 não são legíveis com o Spark 3.2.
- 8 de fevereiro de 2022
- [FAÍSCA-27442] Removido um campo de verificação ao ler ou gravar dados em um parquet.
- Atualizações de segurança do sistema operacional.
- 1 de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
- 26 de janeiro de 2022
- Corrigido um problema nas quais transações simultâneas em tabelas Delta podiam ser confirmadas numa ordem não serializável em determinadas condições raras.
- Corrigido um problema em que o comando
OPTIMIZE
podia falhar quando o dialeto ANSI SQL estava habilitado.
- 19 de janeiro de 2022
- Pequenas correções e melhorias de segurança.
- Atualizações de segurança do sistema operacional.
- 4 de novembro de 2021
- Corrigido um problema que podia fazer com que os fluxos de Streaming Estruturado falhassem com um
ArrayIndexOutOfBoundsException
arquivo . - Corrigida uma condição de corrida que poderia causar uma falha de consulta com um IOException como
java.io.IOException: No FileSystem for scheme
ou que poderia fazer com que as modificaçõessparkContext.hadoopConfiguration
não tivessem efeito nas consultas. - O Apache Spark Connector for Delta Sharing foi atualizado para 0.2.0.
- Corrigido um problema que podia fazer com que os fluxos de Streaming Estruturado falhassem com um
- 20 de outubro de 2021
- Conector BigQuery atualizado de 0.18.1 para 0.22.2. Isso adiciona suporte para o tipo BigNumeric.