Обновления Databricks Runtime в рамках обслуживания
В этой статье перечислены обновления обслуживания для поддерживаемых версий среды выполнения Databricks. Чтобы добавить техническое обслуживание update в существующий кластер, перезапустите кластер. Обновления обслуживания для неподдерживаемых версий среды выполнения Databricks см. в разделе "Обновления обслуживания" для Databricks Runtime (архивно).
Примечание.
Выпуски являются поэтапными. Учетная запись Azure Databricks может не update через несколько дней после начальной даты выпуска.
Заметки о выпуске Databricks Runtime
Обновления обслуживания по выпуску:
- Databricks Runtime 16.1
- Databricks Runtime 16.0
- Databricks Runtime 15.4
- Databricks Runtime 14.3
- Databricks Runtime 14.1
- Databricks Runtime 13.3 LTS
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS
- Databricks Runtime 9.1 LTS
Databricks Runtime 16.1
- 27 ноября 2024 г.
- Этот выпуск включает исправление проблемы, которая может привести к тому, что первичный ключ на Delta table будет удален в определенных крайних случаях, связанных с автоматической фоновой компакцией.
- В этом выпуске размер кэша, используемый в SSD на вычислительном узле Databricks, динамически расширяется до начального размера SSD и сокращается при необходимости, вплоть до
spark.databricks.io.cache.maxDiskUsage
limit. Смотрите производительность Optimize с кэшированием в Azure Databricks. - [SPARK-50338][CORE] Сделать исключения LazyTry менее подробными
- Обновления системы безопасности операционной системы.
Databricks Runtime 16.0
- 4 декабря 2024 г.
- Оператор
USE CATALOG
теперь поддерживает предложениеIDENTIFIER
. С помощью этой поддержки можно параметризировать текущую catalog на основе строковой переменной или маркера параметров. - Этот выпуск включает исправление проблемы, которая может привести к удалению первичного ключа на Delta table в некоторых крайних случаях, связанных с фоновым автоматическим сжатием.
- В этом выпуске размер кэша, используемый SSD в вычислительном узле Databricks, динамически расширяется до начального размера самого SSD и сокращается при необходимости, до
spark.databricks.io.cache.maxDiskUsage
limit. См. Optimize производительность с кэшированием в Azure Databricks. - [SPARK-50322][SQL] Исправить параметризованный identifier во вложенном запросе
-
[SPARK-50034][CORE] Исправление неверного представления фатальных ошибок как необработанных исключений в
SparkUncaughtExceptionHandler
- [SPARK-47435][SQL] Исправлена проблема переполнения MySQL UNSIGNED TINYINT
- [SPARK-49757][SQL] Поддержка выражения IDENTIFIER в инструкции SETCATALOG
- [SPARK-50426][PYTHON] Не выполняйте поиск статических источников данных Python при использовании встроенных или Java источников данных
- [SPARK-50338][CORE] Сделать исключения LazyTry менее подробными
- Обновления системы безопасности операционной системы.
- Оператор
- 10 декабря 2024 г.
- (Критические изменения) В Databricks Runtime 15.4 и более поздних версиях обработка регулярных выражений в Photon обновляется, чтобы соответствовать поведению обработки регулярных выражений Apache Spark. Ранее функции регулярного выражения, выполняемые Photon, такие как
split()
иregexp_extract()
, приняли некоторые регулярные выражения, отклоненные средством синтаксического анализа Spark. Чтобы обеспечить согласованность с Apache Spark, запросы Photon теперь завершаются ошибкой для регулярных выражений, которые Spark считает недопустимыми. Из-за этого изменения могут возникнуть ошибки, если код Spark содержит недопустимые регулярные выражения. Например, выражениеsplit(str_col, '{')
, содержащее несоответствующую фигурную скобку и ранее принятую Фотоном, теперь завершается с ошибкой. Чтобы исправить это выражение, можно экранировать символ фигурной скобки:split(str_col, '\\{')
. Поведение фотона и Spark также отличается для некоторых регулярных выражений, соответствующих символам, отличным от ASCII. Это также обновляется так, чтобы Фотон соответствовал поведению Apache Spark. - В этом выпуске теперь можно запросить функцию
vector_search
с помощьюquery_text
для ввода текста илиquery_vector
для внедрения входных данных. - Теперь можно set время ожидания запросов Spark Connect с помощью свойства конфигурации Spark
spark.databricks.execution.timeout
. Для записных книжек, работающих на бессерверных вычислениях, значение по умолчанию —9000
(секунды). Задания, выполняемые на бессерверных вычислениях и общих кластерах, не имеют тайм-аута, если свойство конфигурации не установлено как set. Выполнение, которое длится дольше указанного времени ожидания, приводит к ошибкеQUERY_EXECUTION_TIMEOUT_EXCEEDED
. - [SPARK-49843][SQL] Исправление изменения комментария для char/varchar columns
-
[SPARK-49924][SQL] Сохранить
containsNull
после заменыArrayCompact
- [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
- [SPARK-48780][SQL] Сделать ошибки в NamedParametersSupport обобщенными для обработки функций и процедур
- [SPARK-49876][CONNECT] Get избавиться от глобальных блокировок в службе Spark Connect
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
- [SPARK-49615] исправление ошибки: проверка columnschema машинного обучения соответствует конфигурации Spark spark.sql.caseSensitive
- [SPARK-48782][SQL] Добавьте поддержку выполнения процедур в catalogs
- [SPARK-49863][SQL] Исправление нормализации значенийNumbers для сохранения допустимости значений NULL вложенных структур
- [SPARK-49829] Пересмотреть оптимизацию при добавлении входных данных в хранилище состояний в поток-поток join (исправление для повышения точности)
- Возврат "[SPARK-49002][SQL] Последовательно обрабатывают недопустимые расположения в WAREHOUSE/SCHEMA/TABLE/PARTITION/DIRECTORY
- [SPARK-50028][CONNECT] Заменить глобальные блокировки в прослушивателе сервера Spark Connect мелкозернистыми блокировками
- [SPARK-49615] [ML] Сделайте набор данных всех преобразователей функций машинного обучения schema проверки, соответствующий конфигурации spark.sql.caseSensitive.
- [SPARK-50124][SQL] LIMIT/OFFSET должны сохранять порядок данных
- Обновления системы безопасности операционной системы.
- (Критические изменения) В Databricks Runtime 15.4 и более поздних версиях обработка регулярных выражений в Photon обновляется, чтобы соответствовать поведению обработки регулярных выражений Apache Spark. Ранее функции регулярного выражения, выполняемые Photon, такие как
Databricks Runtime 15.4
См. раздел Databricks Runtime 15.4 LTS.
- 10 декабря 2024 г.
- Оператор
USE CATALOG
теперь поддерживает конструкциюIDENTIFIER
. С помощью этой поддержки можно параметризировать текущую catalog на основе строковой переменной или маркера параметров. - Этот выпуск включает исправление проблемы, которая может привести к тому, что первичный ключ в Delta table будет удален при определенных крайних случаях, связанных с фоновым автоматическим уплотнением.
- В этом выпуске размер кэша, используемый SSD в вычислительном узле Databricks, динамически расширяется до исходного размера SSD и сокращается до
spark.databricks.io.cache.maxDiskUsage
limit. См. Optimize производительность с кэшированием в Azure Databricks. - Пакет pyodbc обновляется с версии 4.0.38 до версии 4.0.39. Это изменение необходимо, так как ошибка была обнаружена в версии 4.0.38 и была удалена из PyPI.
- [SPARK-50329][SQL] исправление InSet$toString
- [SPARK-47435][SQL] Исправлена проблема переполнения MySQL UNSIGNED TINYINT
- [SPARK-49757][SQL] Поддержка выражения IDENTIFIER в инструкции SETCATALOG
- [SPARK-50426][PYTHON] Избегайте поиска статических источников данных Python при использовании встроенных или источников данных Java
- [SPARK-48863][SQL] Исправление ClassCastException при анализе JSON с включенным параметром "spark.sql.json.enablePartialResults"
- [SPARK-50310][PYTHON] Добавьте флаг для отключения DataFrameQueryContext для PySpark
- [15.3-15.4][[SPARK-50034]]https://issues.apache.org/jira/browse/SPARK-50034)[CORE] Исправлено неправильное отображение фатальных ошибок как необработанных исключений в
SparkUncaughtExceptionHandler
- Обновления системы безопасности операционной системы.
- Оператор
- 26 ноября 2024 г.
- В этом выпуске теперь можно запросить функцию
vector_search
с помощьюquery_text
для ввода текста илиquery_vector
для внедрения входных данных. - Теперь можно set время ожидания запросов Spark Connect с помощью свойства конфигурации Spark
spark.databricks.execution.timeout
. Для записных книжек, работающих на бессерверных вычислениях, значение по умолчанию —9000
(секунды). Задания, выполняемые на бессерверных вычислениях и общих кластерах, не имеют тайм-аута, если свойство конфигурации не установлено как set. Выполнение, которое длится дольше указанного времени ожидания, приводит к ошибкеQUERY_EXECUTION_TIMEOUT_EXCEEDED
. - [SPARK-50322][SQL] Исправить параметризованный identifier во вложенном запросе
- [SPARK-49615] [ML] Сделайте набор данных всех преобразователей функций машинного обучения schema проверки, соответствующий конфигурации spark.sql.caseSensitive.
- [SPARK-50124][SQL] LIMIT/OFFSET должны сохранять порядок данных
- Обновления системы безопасности операционной системы.
- В этом выпуске теперь можно запросить функцию
- 5 ноября 2024 г.
- (Критические изменения) В Databricks Runtime 15.4 и более поздних версиях обработка регулярных выражений в Photon обновляется, чтобы соответствовать поведению обработки регулярных выражений Apache Spark. Ранее функции регулярного выражения, выполняемые Photon, такие как
split()
иregexp_extract()
, приняли некоторые регулярные выражения, отклоненные средством синтаксического анализа Spark. Чтобы обеспечить согласованность с Apache Spark, запросы Photon теперь завершаются ошибкой для регулярных выражений, которые Spark считает недопустимыми. Из-за этого изменения могут возникнуть ошибки, если код Spark содержит недопустимые регулярные выражения. Например, выражениеsplit(str_col, '{')
, содержащее несоответствующую фигурную скобку и ранее принятую Фотоном, теперь завершается с ошибкой. Чтобы исправить это выражение, можно экранировать символ фигурной скобки:split(str_col, '\\{')
. Поведение фотона и Spark также отличается для некоторых регулярных выражений, соответствующих символам, отличным от ASCII. Это также обновляется так, чтобы Фотон соответствовал поведению Apache Spark. - [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
- [SPARK-49867][SQL] Улучшение сообщения об ошибке при выходе индекса из пределов при вызове GetColumnByOrdinal
- [SPARK-49863][SQL] Исправление нормализации значенийNumbers для сохранения допустимости значений NULL вложенных структур
- [SPARK-49829] Пересмотреть оптимизацию при добавлении входных данных в хранилище состояний в поток-поток join (исправление для повышения точности)
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
- [SPARK-46632][SQL] Исправлена ликвидация вложенных выражений, если эквивалентные тернарные выражения имеют разные дочерние элементы
- [SPARK-49443][SQL][PYTHON] Реализация выражения to_variant_object и создание выражений schema_of_variant печати OBJECT для объектов Variant
-
[SPARK-49615] Исправление ошибки: валидация columnschema для машинного обучения соответствует конфигурации Spark
spark.sql.caseSensitive
.
- (Критические изменения) В Databricks Runtime 15.4 и более поздних версиях обработка регулярных выражений в Photon обновляется, чтобы соответствовать поведению обработки регулярных выражений Apache Spark. Ранее функции регулярного выражения, выполняемые Photon, такие как
- 22 октября 2024 г.
- [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
- [SPARK-49867][SQL] Улучшение сообщения об ошибке при выходе индекса из пределов при вызове GetColumnByOrdinal
- [SPARK-49863][SQL] Исправление нормализации значенийNumbers для сохранения допустимости значений NULL вложенных структур
- [SPARK-49829] Пересмотреть оптимизацию при добавлении входных данных в хранилище состояний в поток-поток join (исправление для повышения точности)
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
- [SPARK-46632][SQL] Исправлена ликвидация вложенных выражений, если эквивалентные тернарные выражения имеют разные дочерние элементы
- [SPARK-49443][SQL][PYTHON] Реализация выражения to_variant_object и создание выражений schema_of_variant печати OBJECT для объектов Variant
-
[SPARK-49615] Исправление ошибки: валидация columnschema для машинного обучения соответствует конфигурации Spark
spark.sql.caseSensitive
.
- 10 октября 2024 г.
- [SPARK-49743][SQL] OptimizeCsvJsonExpr не должен изменять поля schema при обрезке GetArrayStructFields
- [SPARK-496888][CONNECT] Исправлена гонка данных между прерыванием и планом выполнения
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Классify Error class for FlatMapGroupsWithState user function error
- [SPARK-49460][SQL] Дальнейшие действия. Исправление потенциального риска NPE
- 25 сентября 2024 г.
- [SPARK-49628][SQL] ConstantFolding должен копировать выражение с отслеживанием состояния перед вычислением
- [SPARK-49000][SQL] Исправление "select count(distinct 1) from t" where t пустой table путем расширения RewriteDistinctAggregates
- [SPARK-49492][CONNECT] Повторная попытка выполнить попытку неактивного заполнителя
- [SPARK-49458][CONNECT][PYTHON] Укажите идентификатор сеанса на стороне сервера с помощью ReattachExecute
- [SPARK-49017]оператор Insert завершается сбоем при использовании нескольких parameters
- [SPARK-49451] Разрешить повторяющиеся ключи в parse_json.
- Прочие исправления ошибок.
- 17 сентября 2024 г.
- [SPARK-48463][ML] Сделать так, чтобы Binarizer, Bucketizer, Vector Сборщик, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer и Interactor поддерживали вложенные входные данные columns
- [SPARK-49409][CONNECT] Настройка значения по умолчанию CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-49526][CONNECT][HOTFIX-15.4.2] Поддержка путей в стиле Windows в ArtifactManager
- Повторное изменение "[SPARK-48482][PYTHON] dropDuplicates и dropDuplicatesWIthinWatermark должно принимать args переменной длины".
- [SPARK-43242][CORE] Исправление вызов "Непредвиденный тип BlockId" при диагностике повреждения смешения
- [SPARK-49366][CONNECT] Рассматривать узел объединения как лист в разрешении column DataFrame
- [SPARK-49018][SQL] Исправление approx_count_distinct неправильной работы с параметрами сортировки
-
[SPARK-49460][SQL] Remove
cleanupResource()
из EmptyRelationExec - [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
- [SPARK-49336][CONNECT] Limit уровень вложенности при усечении сообщения protobuf
- 29 августа 2024 г.
- Выходные данные из инструкции
SHOW CREATE TABLE
теперь включают любые фильтры строк или маски column, определенные в материализованном представлении или потоковой передаче table. См. SHOW CREATE TABLE. Дополнительные сведения о фильтрах строк и масках column см. статью «Фильтрация конфиденциальных table данных с помощью фильтров строк и масок column». - При вычислении, настроенном в режиме общего доступа, пакет Kafka считывает и записывает теперь те же ограничения, что и для структурированной потоковой передачи. См. ограничения потоковой передачи и требования к режиму общего доступа Unity Catalog.
- [SPARK-48941][SPARK-48970] Исправление средства записи машинного обучения и средства чтения
-
[SPARK-49074][SQL] Исправление варианта с помощью
df.cache()
- [SPARK-49263][CONNECT] Клиент Python Spark Connect: согласованно обрабатывать логические параметры чтения с кадрами данных
- [SPARK-48955][SQL] Включение изменений ArrayCompact в версии 15.4
- [SPARK-48937][SQL] Добавление поддержки сортировки для строковых выражений StringToMap
- [SPARK-48929] Исправление внутренней ошибки и очистка контекста исключения средства синтаксического анализа
- [SPARK-49125][SQL] Разрешить повторяющиеся имена column при записи CSV
- [SPARK-48934][SS] Типы даты и времени Python преобразуются неправильно для настройки времени ожидания в applyInPandasWithState
- [SPARK-48843] Предотвращение бесконечного цикла с помощью BindParameters
- [SPARK-48981] Исправление метода simpleString StringType в pyspark для параметров сортировки
- [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
- [SPARK-48896][SPARK-48909][SPARK-48883] Исправления средства записи машинного обучения backport spark
- [SPARK-48725][SQL] Интеграция CollationAwareUTF8String.lowerCaseCodePoints в строковые выражения
- [SPARK-48978][SQL] Реализация быстрого пути ASCII в поддержке сортировки для UTF8_LCASE
- [SPARK-49047][PYTHON][CONNECT] Усечение сообщения для ведения журнала
- [SPARK-49146][SS] Переместить ошибки утверждения, связанные с отсутствием watermark в потоковых запросах в режиме добавления, в систему обработки ошибок
- [SPARK-48977][SQL] Optimize строковый поиск под сопоставлением UTF8_LCASE
- [SPARK-48889][SS] testStream для выгрузки хранилищ состояний перед завершением
- [SPARK-48463] Реализовать поддержку вложенных входных данных в StringIndexer columns
- [SPARK-48954] try_mod() заменяет try_remainder()
- Обновления системы безопасности операционной системы.
- Выходные данные из инструкции
Databricks Runtime 14.3
См. раздел Databricks Runtime 14.3 LTS.
- 10 декабря 2024 г.
- Этот выпуск включает исправление проблемы, которая может привести к тому, что первичный ключ на разностном table будет удален под определенными пограничными случаями, связанными с автоматическим сжатием фона.
- [SPARK-50329][SQL] исправить InSet$toString
- Обновления системы безопасности операционной системы.
- 26 ноября 2024 г.
- [SPARK-49615] [ML] Сделайте набор данных всех преобразователей функций машинного обучения schema проверки, соответствующий конфигурации spark.sql.caseSensitive.
- Обновления системы безопасности операционной системы.
- 5 ноября 2024 г.
- [SPARK-48843] Предотвращение бесконечного цикла с помощью BindParameters
- [SPARK-49829] Пересмотреть оптимизацию при добавлении входных данных в хранилище состояний в поток-поток join (исправление для повышения точности)
- [SPARK-49863][SQL] Исправление нормализации значенийNumbers для сохранения допустимости значений NULL вложенных структур
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Класс классify Error для ошибки пользовательской функции приемника Foreach
- [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
- [SPARK-46632][SQL] Исправлена ликвидация вложенных выражений, если эквивалентные тернарные выражения имеют разные дочерние элементы
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
- Обновления системы безопасности операционной системы.
- 22 октября 2024 г.
- [SPARK-48843] Предотвращение бесконечного цикла с помощью BindParameters
- [SPARK-49863][SQL] Исправление нормализации значенийNumbers для сохранения допустимости значений NULL вложенных структур
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
- [SPARK-46632][SQL] Исправлена ликвидация вложенных выражений, если эквивалентные тернарные выражения имеют разные дочерние элементы
- [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Класс классify Error для ошибки пользовательской функции приемника Foreach
- [SPARK-49829] Пересмотреть оптимизацию при добавлении входных данных в хранилище состояний в поток-поток join (исправление для повышения точности)
- Обновления системы безопасности операционной системы.
- 10 октября 2024 г.
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Классify Error class for FlatMapGroupsWithState user function error
- [SPARK-49743][SQL] OptimizeCsvJsonExpr не должен изменять поля schema при обрезке GetArrayStructFields
- [SPARK-496888][CONNECT] Исправлена гонка данных между прерыванием и планом выполнения
- 25 сентября 2024 г.
- [SPARK-48810][CONNECT] API остановки сеанса () должен быть идемпотентным и не завершается ошибкой, если сеанс уже закрыт сервером
- [SPARK-48719][SQL] Исправлена ошибка вычисления regrS...
- [SPARK-49000][SQL] Исправление "select count(distinct 1) from t" where t пустой table путем расширения RewriteDistinctAggregates
- [SPARK-49628][SQL] ConstantFolding должен копировать выражение с отслеживанием состояния перед вычислением
- [SPARK-49492][CONNECT] Повторная попытка выполнить попытку неактивного заполнителя
- Обновления системы безопасности операционной системы.
- 17 сентября 2024 г.
- [SPARK-49336][CONNECT] Limit уровень вложенности при усечении сообщения protobuf
- [SPARK-43242][CORE] Исправление вызов "Непредвиденный тип BlockId" при диагностике повреждения смешения
- [SPARK-48463][ML] Сделать так, чтобы Binarizer, Bucketizer, Vector Сборщик, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer и Interactor поддерживали вложенные входные данные columns
- [SPARK-49526][CONNECT] Поддержка путей в стиле Windows в ArtifactManager
- [SPARK-49409][CONNECT] Настройка значения по умолчанию CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-49366][CONNECT] Рассматривать узел объединения как лист в разрешении column DataFrame
- 29 августа 2024 г.
- [SPARK-49146][SS] Переместить ошибки утверждения, связанные с отсутствием watermark в потоковых запросах в режиме добавления, в систему обработки ошибок
-
[SPARK-48862][PYTHON][CONNECT] Избегайте вызова
_proto_to_string
, если уровень INFO не включен - [SPARK-49263][CONNECT] Клиент Python Spark Connect: согласованно обрабатывать логические параметры чтения с кадрами данных
- 14 августа 2024 г.
- [SPARK-48941][SPARK-48970] Исправление средства записи машинного обучения и средства чтения
- [SPARK-48706][PYTHON] UDF Python в функциях более высокого порядка не должен вызывать внутреннюю ошибку
- [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
- [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
- [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
- [SPARK-48934][SS] Типы даты и времени Python преобразуются неправильно для настройки времени ожидания в applyInPandasWithState
- 1 августа 2024 г.
- Этот выпуск включает исправление ошибок для
ColumnVector
иColumnarArray
классов в интерфейсе Java Spark. До этого исправления мог возникнутьArrayIndexOutOfBoundsException
или могли возвращаться неверные данные, если экземпляр одного из этих классов содержалnull
values. - В бессерверных вычислительных ресурсах для записных книжек и заданий режим ANSI SQL включен по умолчанию. См. parametersподдерживаемые конфигурации Spark.
- При вычислении, настроенном в режиме общего доступа, пакет Kafka считывает и записывает теперь те же ограничения, что и для структурированной потоковой передачи. См. ограничения потоковой передачи и требования к режиму общего доступа Unity Catalog.
- Выходные данные из инструкции
SHOW CREATE TABLE
теперь включают любые фильтры строк или маски column, определенные в материализованном представлении или потоковой передаче table. См. SHOW CREATE TABLE. Дополнительные сведения о фильтрах строк и масках column см. статью «Фильтрация конфиденциальных table данных с помощью фильтров строк и масок column». - [SPARK-48896][SPARK-48909][SPARK-48883] Исправления средства записи машинного обучения backport spark
- [SPARK-48889][SS] testStream для выгрузки хранилищ состояний перед завершением
- [SPARK-48705][PYTHON] Явное использование worker_main при запуске с pyspark
- [SPARK-48047][SQL] Уменьшение нагрузки на память пустых тегов TreeNode
- [SPARK-48544][SQL] Уменьшение давления памяти пустых наборов BitSet в TreeNode
- [SPARK-46957][CORE] Перенос перенесенных файлов перетасовки должен иметь возможность очистки от исполнителя
- [SPARK-48463] Реализовать поддержку вложенных входных данных в StringIndexer columns
- [SPARK-47202][PYTHON] Исправление критических дат и времени ввода с помощью tzinfo
- [SPARK-47713][SQL][CONNECT] Исправлена ошибка самостоятельногоjoin
- Обновления системы безопасности операционной системы.
- Этот выпуск включает исправление ошибок для
- 11 июля 2024 г.
- (Изменение поведения) Фреймы данных, кэшированные для источников Delta table, теперь считаются недействительными, если исходный table перезаписывается. Это изменение означает, что все изменения состояния Delta tables теперь делают кэшированные результаты недействительными. Используйте
.checkpoint()
для сохранения состояния table в течение всего времени существования кадра данных. - Драйвер Snowflake JDBC обновлен до версии 3.16.1.
- Этот выпуск содержит исправление проблемы, которая не позволила правильно отображать вкладку среды пользовательского интерфейса Spark при запуске в службах контейнеров Databricks.
- В бессерверных вычислительных ресурсах для записных книжек и заданий режим ANSI SQL включен по умолчанию. См. parametersподдерживаемые конфигурации Spark.
- Чтобы игнорировать недопустимые секции при чтении данных, файловых источников данных, таких как Parquet, ORC, CSV или JSON, можно set параметру источника данных ignoreInvalidPartitionPaths значение true. Например: spark.read.format("parquet"). option("ignoreInvalidPartitionPaths", "true").load(...). Можно также использовать конфигурацию SQL spark.sql.files.ignoreInvalidPartitionPaths. Однако параметр источника данных имеет приоритет над конфигурацией SQL. Этот параметр имеет значение false по умолчанию.
- [SPARK-48648][PYTHON][CONNECT] Правильное определение потока SparkConnectClient.tags
- [SPARK-48445][SQL] Не встраивайте пользовательские функции с дорогими дочерними объектами
- [SPARK-48481][SQL][SS] Не применяйте OptimizeOneRowPlan к потоковому набору данных
- [SPARK-48383][SS] Создание более эффективной ошибки для несовпадений секций в параметре startOffset в Kafka
- [SPARK-48503][SQL] Исправлены недопустимые скалярные подзапросы с группированием по неэквивалентным columns, которые были неправильно разрешены.
- [SPARK-48100][SQL] Исправление проблем с пропуском вложенных полей структуры, не выбранных в schema
- [SPARK-48273][SQL] Исправление последней перезаписи PlanWithUnresolvedIdentifier
- [SPARK-48252][SQL] Update CommonExpressionRef при необходимости
- [SPARK-48475][PYTHON] Optimize _get_jvm_function в PySpark.
- [SPARK-48292][CORE] Возврат [SPARK-39195][SQL] OutputCommitCoordinator Spark должен прервать этап, когда зафиксированный файл не соответствует состоянию задачи
- Обновления системы безопасности операционной системы.
- (Изменение поведения) Фреймы данных, кэшированные для источников Delta table, теперь считаются недействительными, если исходный table перезаписывается. Это изменение означает, что все изменения состояния Delta tables теперь делают кэшированные результаты недействительными. Используйте
- 17 июня 2024 г.
-
applyInPandasWithState()
доступен в общих кластерах. - Исправлена ошибка, where оптимизации ранжированияwindow с помощью Photon TopK неправильно обработаны секции со структурами.
- [SPARK-48310][PYTHON][CONNECT] Кэшированные свойства должны возвращать копии
-
[SPARK-48276][PYTHON][CONNECT] Добавление отсутствующих
__repr__
методов дляSQLExpression
- [SPARK-48294][SQL] Обработка нижнего регистра в вложенныхTypeMissingElementTypeError
- Обновления системы безопасности операционной системы.
-
- 21 мая 2024 г.
- (изменение поведения)
dbutils.widgets.getAll()
теперь поддерживается для get всех мини-приложений values в записной книжке. - Исправлена ошибка в функции try_divide() во входных данных where, содержащих десятичные разряды, что приводило к неожиданным исключениям.
- [SPARK-48056][CONNECT][PYTHON] Повторный запуск плана, если возникает ошибка SESSION_NOT_FOUND, и не было получено частичного ответа
- [SPARK-48146][SQL] Исправлена агрегатная функция в дочернем утверждении выражения
- [SPARK-47986][CONNECT][PYTHON] Не удается создать новый сеанс при закрытии сеанса по умолчанию сервером
- [SPARK-48180][SQL] Улучшение сообщения об ошибке при вызове UDTF с аргументом TABLE при отсутствии круглых скобок вокруг нескольких выражений PARTITION/ORDER BY
- [SPARK-48016][SQL] Исправлена ошибка в функции try_divide при использовании десятичных разрядов
- [SPARK-48197][SQL] Избегайте ошибки утверждения для недопустимой лямбда-функции
- [SPARK-47994][SQL] Исправлена ошибка с помощью фильтра CASE WHEN column push down in SQLServer
- [SPARK-48173][SQL] CheckAnalysis должен видеть весь план запроса
- [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
- Обновления системы безопасности операционной системы.
- (изменение поведения)
- 9 мая 2024 г.
- (Изменение поведения)
applyInPandas
иmapInPandas
типы UDF теперь поддерживаются в вычислительном режиме общего доступа с databricks Runtime 14.3 и более поздних версий. - [SPARK-47739][SQL] Регистрация типа логического avro
- [SPARK-47941] [SS] [Подключение] Распространение ошибок инициализации рабочей роли ForeachBatch пользователям для PySpark
- [SPARK-48010][SQL] Избегайте повторных вызовов conf.resolver в resolveExpression
-
[SPARK-48044][PYTHON][CONNECT] Тайник
DataFrame.isStreaming
- [SPARK-47956][SQL] Проверка работоспособности для неразрешенной ссылки на LCA
- [SPARK-47543][CONNECT][PYTHON] Вывод дикта как Mapype из Кадра данных Pandas, чтобы разрешить создание кадра данных
- [SPARK-47819][CONNECT][Cherry-pick-14.3] Используйте асинхронный обратный вызов для очистки выполнения
- [SPARK-47764][CORE][SQL] Очистка зависимостей перетасовки на основе ShuffleCleanupMode
- [SPARK-48018][SS] Исправление null groupId, вызывающее ошибку param при вызове KafkaException.couldNotReadOffsetRange
- [SPARK-47839][SQL] Исправлена статистическая ошибка в RewriteWithExpression
- [SPARK-47371] [SQL] XML: игнорировать теги строк, найденные в CDATA
- [SPARK-47895]Группа [SQL] по всем должна быть идемпотентной
- [SPARK-47973][CORE] Сайт вызова журнала в SparkContext.stop() и более поздних версиях в SparkContext.assertNotStopped()
- Обновления системы безопасности операционной системы.
- (Изменение поведения)
- 25 апреля 2024 г.
-
[SPARK-47543][CONNECT][PYTHON]
dict
Вывод изMapType
кадра данных Pandas для разрешения создания кадра данных - [SPARK-47694][CONNECT] Настройка максимального размера сообщения на стороне клиента
- [SPARK-47664][PYTHON][CONNECT][Cherry-pick-14.3] Проверьте имя column с кэшированной schema
- [SPARK-47862][PYTHON][CONNECT]Исправление создания файлов proto
- Возврат "[SPARK-47543][CONNECT][PYTHON] Вывод
dict
изMapType
кадра данных Pandas, чтобы разрешить создание кадра данных" - [SPARK-47704][SQL] Синтаксический анализ JSON завершается ошибкой "java.lang.ClassCastException", если включен параметр spark.sql.json.enablePartialResults
- [SPARK-47812][CONNECT] Поддержка сериализации SparkSession для рабочей роли ForEachBatch
- [SPARK-47818][CONNECT][Cherry-pick-14.3] Введите кэш планов в SparkConnectPlanner для повышения производительности запросов анализа
-
[SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
сбой с недопустимым планом - Обновления системы безопасности операционной системы.
-
[SPARK-47543][CONNECT][PYTHON]
- 11 апреля 2024 г.
- (Изменение поведения) Чтобы обеспечить согласованное поведение в разных типах вычислений, определяемые пользователем PySpark в общих кластерах, теперь соответствуют поведению определяемых пользователем удостовериться в отсутствии изоляции и назначенных кластерах. Этот update включает следующие изменения, которые могут нарушить существующий код:
- Определяемые пользователем функции с типом возврата
string
больше не выполняют неявное преобразованиеstring
values вstring
values. Ранее определяемые пользователем элементы с возвращаемым типомstr
упаковывают возвращаемое значение сstr()
функцией независимо от фактического типа данных возвращаемого значения. - Определяемые пользователем функции с
timestamp
возвращаемыми типами больше неявно применяют преобразование кtimestamp
timezone
. - Конфигурации
spark.databricks.sql.externalUDF.*
кластера Spark больше не применяются к пользовательским файлам PySpark в общих кластерах. - Конфигурация
spark.databricks.safespark.externalUDF.plan.limit
кластера Spark больше не влияет на определяемые пользователем функции PySpark, удаляя ограничение общедоступной предварительной версии 5 определяемых пользователем пользователей для pySpark. - Конфигурация
spark.databricks.safespark.sandbox.size.default.mib
кластера Spark больше не применяется к определяемой пользователем функции PySpark в общих кластерах. Вместо этого используется доступная память в системе. Чтобы limit память пользовательских функций PySpark, используйтеspark.databricks.pyspark.udf.isolation.memoryLimit
с минимальным значением100m
.
- Определяемые пользователем функции с типом возврата
- Теперь тип данных
TimestampNTZ
поддерживается как кластеризация column с кластериванием жидкости. См. раздел Использование кластеризации жидкости для delta tables. - [SPARK-47511][SQL] Канонизация с помощью выражений путем повторного назначения идентификаторов
- [SPARK-47509][SQL] Блокировать выражения вложенных запросов в лямбда-функциях и функциях более высокого порядка
- [SPARK-46990][SQL] Исправлена загрузка пустых файлов Avro, создаваемых центрами событий
- [SPARK-47638][PS][CONNECT] Пропустить проверку имени column в PS
- Обновления системы безопасности операционной системы.
- (Изменение поведения) Чтобы обеспечить согласованное поведение в разных типах вычислений, определяемые пользователем PySpark в общих кластерах, теперь соответствуют поведению определяемых пользователем удостовериться в отсутствии изоляции и назначенных кластерах. Этот update включает следующие изменения, которые могут нарушить существующий код:
- 14 марта 2024 г.
- [SPARK-47135][SS] Реализация классов ошибок для исключений потери данных Kafka
- [SPARK-47176][SQL] Функция вспомогательного средства ResolveAllExpressionsUpWithPruning
- [SPARK-47145][SQL] Передайте tableidentifier в exec проверки источника данных строк для стратегии V2.
- [SPARK-47044][SQL] Добавление выполненного запроса для внешних источников данных JDBC в explain выходные данные
- [SPARK-47167][SQL] Добавление конкретного класса для анонимного отношения JDBC
- [SPARK-47070] Исправлена недопустимая агрегирование после перезаписи вложенных запросов
- [SPARK-47121][CORE] Избегайте отклоненийExecutionExceptions во время завершения работы StandaloneSchedulerBackend
- Возврат "[SPARK-46861][CORE] Избегайте взаимоблокировки в DAGScheduler"
- [SPARK-47125][SQL] Возвращает значение NULL, если Univocity никогда не активирует синтаксический анализ
- [SPARK-46999][SQL] ExpressionWithUnresolvedIdentifier должен содержать другие выражения в дереве выражений
-
[SPARK-47129][CONNECT][SQL] Правильное подключение
ResolveRelations
к кэшу - [SPARK-47241][SQL] Устранение проблем с порядком правил для ExtractGenerator
- [SPARK-47035][SS][CONNECT] Протокол для прослушивателя на стороне клиента
- Обновления системы безопасности операционной системы.
- 29 февраля 2024 г.
- Исправлена проблема, where использование локальной коллекции в качестве источника в команде MERGE может привести к тому, что метрика метрики numSourceRows сообщает о двойном правильном количестве строк.
- Для создания schema с определенным расположением теперь требуется, чтобы у пользователя были привилегии SELECT и МОДИФИКАЦИЯ на любой файл.
- [SPARK-47071][SQL] Встроенное выражение с выражением, если оно содержит специальное выражение
- [SPARK-47059][SQL] Присоединить контекст ошибки для команды ALTER COLUMN v1
- [SPARK-46993][SQL] Исправление свертывания констант для переменных сеанса
- Обновления системы безопасности операционной системы.
- 3 января 2024 г.
- [SPARK-46933] Добавьте метрику времени выполнения запроса в соединители, использующие JDBCRDD.
- [SPARK-46763] Исправлена ошибка утверждения в ReplaceDeduplicateWithAggregate для повторяющихся атрибутов.
- [SPARK-46954] XML: оболочка InputStreamReader с помощью bufferedReader.
-
[SPARK-46655] Пропустить перехват контекста запроса в
DataFrame
методах. - [SPARK-44815] Cache df.schema, чтобы избежать дополнительных RPC.
- [SPARK-46952] XML: Limit размер поврежденной записи.
- [SPARK-46794]Remove подзапросы из ограничений на LogicalRDD.
- [SPARK-46736] сохраните пустое поле сообщения в соединителе protobuf.
- [SPARK-45182] Игнорировать завершение задачи из старой стадии после повторного выполнения родительского этапа, определяемого контрольной суммой.
- [SPARK-46414] Используйте prependBaseUri для отрисовки импорта javascript.
-
[SPARK-46383] Сокращение использования кучи драйверов путем уменьшения срока существования
TaskInfo.accumulables()
. - [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
- [SPARK-46954] XML: Optimizeschema поиск индекса.
- [SPARK-46676] dropDuplicatesWithinWatermark не должен завершать ошибку канонизации плана.
- [SPARK-46644] Измените добавление и слияние в SQLMetric для использования isZero.
- [SPARK-46731] Управление экземпляром поставщика хранилища состояний по источнику данных состояния — читателю.
-
[SPARK-46677] Исправление
dataframe["*"]
разрешения. - [SPARK-46610] Создание table должно вызывать исключение, если значение для ключа в опциях отсутствует.
- [SPARK-46941] невозможно insertwindow группировать limit узел для вычисления "top-k", если он содержит SizeBasedWindowFunction.
- [SPARK-45433] исправление schema CSV/JSON, если метки времени не соответствуют заданной метке времени.
- [SPARK-46930] Добавьте поддержку настраиваемого префикса для полей типа Union в Avro.
- [SPARK-46227] Backport to 14.3.
- [SPARK-46822] Уважение spark.sql.legacy.charVarcharAsString при приведение типа jdbc к типу катализатора в jdbc.
- Обновления системы безопасности операционной системы.
Databricks Runtime 14.1
См. раздел Databricks Runtime 14.1.
- 10 декабря 2024 г.
- Обновления системы безопасности операционной системы.
- 26 ноября 2024 г.
- Обновления системы безопасности операционной системы.
- 5 ноября 2024 г.
- [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
- 22 октября 2024 г.
- [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
- 10 октября 2024 г.
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Классify Error class for FlatMapGroupsWithState user function error
- [SPARK-49743][SQL] OptimizeCsvJsonExpr не должен изменять поля schema при обрезке GetArrayStructFields
- Обновления системы безопасности операционной системы.
- 25 сентября 2024 г.
- [SPARK-49628][SQL] ConstantFolding должен копировать выражение с отслеживанием состояния перед вычислением
- [SPARK-43242][CORE] Исправление вызов "Непредвиденный тип BlockId" при диагностике повреждения смешения
- [SPARK-48719][SQL] Исправлена ошибка вычисления regrS...
- [SPARK-49000][SQL] Исправление "select count(distinct 1) from t" where t пустой table путем расширения RewriteDistinctAggregates
- [SPARK-46601] [CORE] Исправлена ошибка журнала в handleStatusMessage
- Обновления системы безопасности операционной системы.
- 17 сентября 2024 г.
- [SPARK-49526][CONNECT] Поддержка путей в стиле Windows в ArtifactManager
- Обновления системы безопасности операционной системы.
- 29 августа 2024 г.
- [SPARK-49263][CONNECT] Клиент Python Spark Connect: согласованно обрабатывать логические параметры чтения с кадрами данных
- [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
- 14 августа 2024 г.
- [SPARK-48706][PYTHON] UDF Python в функциях более высокого порядка не должен вызывать внутреннюю ошибку
- [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
- [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
- [SPARK-48050][SS] Логический план журнала при запуске запроса
- 1 августа 2024 г.
- Этот выпуск включает исправление ошибок для
ColumnVector
иColumnarArray
классов в интерфейсе Java Spark. До этого исправления мог возникнутьArrayIndexOutOfBoundsException
или могли возвращаться неверные данные, если экземпляр одного из этих классов содержалnull
values. - Выходные данные из инструкции
SHOW CREATE TABLE
теперь включают любые фильтры строк или маски column, определенные в материализованном представлении или потоковой передаче table. См. SHOW CREATE TABLE. Дополнительные сведения о фильтрах строк и масках column см. статью «Фильтрация конфиденциальных table данных с помощью фильтров строк и масок column». - [SPARK-48705][PYTHON] Явное использование worker_main при запуске с pyspark
- [SPARK-47202][PYTHON] Исправление критических дат и времени ввода с помощью tzinfo
- Обновления системы безопасности операционной системы.
- Этот выпуск включает исправление ошибок для
- 11 июля 2024 г.
- (Изменение поведения) Фреймы данных, кэшированные для источников Delta table, теперь считаются недействительными, если исходный table перезаписывается. Это изменение означает, что все изменения состояния Delta tables теперь делают кэшированные результаты недействительными. Используйте
.checkpoint()
для сохранения состояния table в течение всего времени существования кадра данных. - Этот выпуск содержит исправление проблемы, которая не позволила правильно отображать вкладку среды пользовательского интерфейса Spark при запуске в службах контейнеров Databricks.
- [SPARK-48475][PYTHON] Optimize _get_jvm_function в PySpark.
- [SPARK-48445][SQL] Не встраивайте пользовательские функции с дорогими дочерними объектами
- [SPARK-48481][SQL][SS] Не применяйте OptimizeOneRowPlan к потоковому набору данных
- [SPARK-48292][CORE] Возврат [SPARK-39195][SQL] OutputCommitCoordinator Spark должен прервать этап, когда зафиксированный файл не соответствует состоянию задачи
- [SPARK-48503][SQL] Исправлены недопустимые скалярные подзапросы с группированием по неэквивалентным columns, которые были неправильно разрешены.
- [SPARK-48273][SQL] Исправление последней перезаписи PlanWithUnresolvedIdentifier
- [SPARK-48100][SQL] Исправление проблем с пропуском вложенных полей структуры, не выбранных в schema
- [SPARK-48383][SS] Создание более эффективной ошибки для несовпадений секций в параметре startOffset в Kafka
- Обновления системы безопасности операционной системы.
- (Изменение поведения) Фреймы данных, кэшированные для источников Delta table, теперь считаются недействительными, если исходный table перезаписывается. Это изменение означает, что все изменения состояния Delta tables теперь делают кэшированные результаты недействительными. Используйте
- 17 июня 2024 г.
- Исправлена ошибка, where оптимизации ранжированияwindow с помощью Photon TopK неправильно обработаны секции со структурами.
-
[SPARK-48276][PYTHON][CONNECT] Добавление отсутствующих
__repr__
методов дляSQLExpression
- [SPARK-48277] Улучшение сообщения об ошибке для ErrorClassesJsonReader.getErrorMessage
- Обновления системы безопасности операционной системы.
- 21 мая 2024 г.
- (изменение поведения)
dbutils.widgets.getAll()
теперь поддерживается для get всех мини-приложений values в записной книжке. - [SPARK-47994][SQL] Исправлена ошибка с помощью фильтра CASE WHEN column push down in SQLServer
- [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
- [SPARK-48173][SQL] CheckAnalysis должен видеть весь план запроса
- Обновления системы безопасности операционной системы.
- (изменение поведения)
- 9 мая 2024 г.
- [SPARK-47371] [SQL] XML: игнорировать теги строк, найденные в CDATA
- [SPARK-47895]Группа [SQL] по всем должна быть идемпотентной
- [SPARK-47956][SQL] Проверка работоспособности для неразрешенной ссылки на LCA
-
[SPARK-48044][PYTHON][CONNECT] Тайник
DataFrame.isStreaming
- [SPARK-47973][CORE] Сайт вызова журнала в SparkContext.stop() и более поздних версиях в SparkContext.assertNotStopped()
- Обновления системы безопасности операционной системы.
- 25 апреля 2024 г.
- [SPARK-47704][SQL] Синтаксический анализ JSON завершается ошибкой "java.lang.ClassCastException", если включен параметр spark.sql.json.enablePartialResults
-
[SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
сбой с недопустимым планом - Обновления системы безопасности операционной системы.
- 11 апреля 2024 г.
- [SPARK-47638][PS][CONNECT] Пропустить проверку имени column в PS
- [SPARK-38708][SQL] Обновление клиента хранилища метаданных Hive до версии 3.1.3 для Hive 3.1
- [SPARK-47309][SQL][XML] Добавить модульные тесты для инференции schema
- [SPARK-47509][SQL] Блокировать выражения вложенных запросов в лямбда-функциях и функциях более высокого порядка
- [SPARK-46990][SQL] Исправлена загрузка пустых файлов Avro, создаваемых центрами событий
- Обновления системы безопасности операционной системы.
- 1 апреля 2024 г.
- [SPARK-47305][SQL] Исправление PruneFilters, чтобы пометить флаг isStreaming LocalRelation правильно, когда план содержит пакетную и потоковую передачу.
- [SPARK-47218][SQL] XML: игнорировать закомментированные теги строк в xml-токенизаторе
-
[SPARK-47300][SQL]
quoteIfNeeded
должен процитировать identifier начинается с цифр - [SPARK-47368][SQL] Remove проверка конфигурации inferTimestampNTZ в ParquetRowConverter
- [SPARK-47070] Исправлена недопустимая агрегирование после перезаписи вложенных запросов
-
[SPARK-47322][PYTHON][CONNECT] Сделать обработку дублирования имен
withColumnsRenamed
column согласованной сwithColumnRenamed
- [SPARK-47300] Исправление для DecomposerSuite
- [SPARK-47218] [SQL] XML: изменена схемаOfXml для сбоя в режиме DROPMALFORMED
- [SPARK-47385] Исправьте кодировщики кортежей с помощью входных данных Option.
- Обновления системы безопасности операционной системы.
- 14 марта 2024 г.
- [SPARK-47176][SQL] Функция вспомогательного средства ResolveAllExpressionsUpWithPruning
- [SPARK-47145][SQL] Передайте tableidentifier в exec проверки источника данных строк для стратегии V2.
- [SPARK-47167][SQL] Добавление конкретного класса для анонимного отношения JDBC
-
[SPARK-47129][CONNECT][SQL] Правильное подключение
ResolveRelations
к кэшу - Возврат "[SPARK-46861][CORE] Избегайте взаимоблокировки в DAGScheduler"
- [SPARK-47044][SQL] Добавление выполненного запроса для внешних источников данных JDBC в explain выходные данные
- Обновления системы безопасности операционной системы.
- 29 февраля 2024 г.
- Исправлена проблема, where использование локальной коллекции в качестве источника в команде MERGE может привести к тому, что метрика метрики numSourceRows сообщает о двойном правильном количестве строк.
- Для создания schema с определенным расположением теперь требуется, чтобы у пользователя были привилегии SELECT и МОДИФИКАЦИЯ на любой файл.
- Теперь вы можете получать XML-файлы с помощью автозагрузчика, read_files, COPY INTO, DLT и DBSQL. Поддержка XML-файлов может автоматически выводить и развивать schema, восстанавливать данные с несовпадениями типов, валидировать XML с использованием XSD, поддерживать SQL-выражения, такие как from_xml, schema_of_xml и to_xml. Дополнительные сведения см . в статье о поддержке XML-файла. Если вы ранее использовали внешний пакет spark-xml, ознакомьтесь с инструкциями по миграции.
- [SPARK-46248][SQL] XML: поддержка параметров ignoreCorruptFiles и ignoreMissingFiles
- [SPARK-47059][SQL] Присоединить контекст ошибки для команды ALTER COLUMN v1
- [SPARK-46954][SQL] XML: оболочка InputStreamReader с помощью bufferedReader
- [SPARK-46954][SQL] XML: поиск индекса Optimizeschema
- [SPARK-46630][SQL] XML: проверка имени XML-элемента при записи
- Обновления системы безопасности операционной системы.
- 8 февраля 2024 г.
- Запросы канала данных изменений (CDF) в Unity Catalog материализованных views не поддерживаются, и попытка запустить запрос CDF с Unity Catalog материализованным представлением возвращает ошибку. Unity Catalog потоковая передача поддерживает tables запросы CDF для не
APPLY CHANGES
tables в Databricks Runtime 14.1 и более поздних версиях. Запросы CDF не поддерживаются при потоковой трансляции Unity Catalogtables в Databricks Runtime 14.0 и более ранних версиях. - [SPARK-46952] XML: Limit размер поврежденной записи.
- [SPARK-45182] Игнорировать завершение задачи из старой стадии после повторного выполнения родительского этапа, определяемого контрольной суммой.
- [SPARK-46794]Remove подзапросы из ограничений на LogicalRDD.
- [SPARK-46933] Добавьте метрику времени выполнения запроса в соединители, использующие JDBCRDD.
- [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
- [SPARK-45582] Убедитесь, что экземпляр хранилища не используется после вызова фиксации в режиме потоковой передачи потоковой передачи.
- [SPARK-46930] Добавьте поддержку настраиваемого префикса для полей типа Union в Avro.
- [SPARK-46941] невозможно insertwindow группировать limit узел для вычисления "top-k", если он содержит SizeBasedWindowFunction.
- [SPARK-46396] Вывод метки времени не должен вызывать исключение.
- [SPARK-46822] Уважение spark.sql.legacy.charVarcharAsString при приведение типа jdbc к типу катализатора в jdbc.
- [SPARK-45957] Избегайте создания плана выполнения для не исполняемых команд.
- Обновления системы безопасности операционной системы.
- Запросы канала данных изменений (CDF) в Unity Catalog материализованных views не поддерживаются, и попытка запустить запрос CDF с Unity Catalog материализованным представлением возвращает ошибку. Unity Catalog потоковая передача поддерживает tables запросы CDF для не
- 31 января 2024 г.
- [SPARK-46684] Исправьте coGroup.applyInPandas/Arrow, чтобы правильно передать аргументы.
- [SPARK-46763] Исправлена ошибка утверждения в ReplaceDeduplicateWithAggregate для повторяющихся атрибутов.
- [SPARK-45498] Дальнейшие действия. Пропустить завершение задачи из старых попыток этапа.
-
[SPARK-46382] XML: Update документ для
ignoreSurroundingSpaces
. -
[SPARK-46383] Сокращение использования кучи драйверов путем уменьшения срока существования
TaskInfo.accumulables()
. - [SPARK-46382] XML: по умолчанию игнорируется Значение true ДляSurroundingSpaces.
-
[SPARK-46677] Исправление
dataframe["*"]
разрешения. - [SPARK-46676] dropDuplicatesWithinWatermark не должен завершать ошибку канонизации плана.
- [SPARK-46633] Исправление средства чтения Avro для обработки блоков нулевой длины.
- [SPARK-45912] Усовершенствование API XSDToSchema: переход на API HDFS для специальных возможностей облачного хранилища.
- [SPARK-46599] XML: используйте TypeCoercion.findTightestCommonType для проверки совместимости.
- [SPARK-46382] XML: запись values чередуется между элементами.
- [SPARK-46769] уточнить интерпретацию, связанную с метками времени schema.
- [SPARK-46610] Создание table должно вызывать исключение, если значение для ключа в опциях отсутствует.
- [SPARK-45964]Remove закрытый SQL-метод доступа в XML- и JSON-пакетах под пакетом Catalyst.
- Откат [SPARK-46769] уточнение вывода, связанного с меткой времени schema.
-
[SPARK-45962]Remove
treatEmptyValuesAsNulls
и используйте вместо этого параметрnullValue
в XML. - [SPARK-46541] Исправить неоднозначную ссылку column в self join.
- Обновления системы безопасности операционной системы.
- 17 января 2024 г.
- Узел
shuffle
плана explain, возвращаемого запросом Photon, обновляется, чтобы добавить флагcausedBroadcastJoinBuildOOM=true
при возникновении ошибки недостатка памяти во время перетасовки, которая является частью широковещательной операции join. - Чтобы избежать повышенной задержки при обмене данными по протоколу TLSv1.3, этот выпуск обслуживания включает исправление для установки JDK 8, чтобы устранить ошибку JDK-8293562.
-
[SPARK-46538] Исправлена неоднозначная проблема со ссылкой column в
ALSModel.transform
. - [SPARK-46417] Не завершайте ошибку при вызове hive.getTable и throwException имеет значение false.
-
[SPARK-46484] Чтобы
resolveOperators
вспомогательные функции сохраняли идентификатор плана. - [SPARK-46153] XML: добавление поддержки TimestampNTZType.
- [SPARK-46152] XML: Добавить поддержку DecimalType в интерпретацию XML-schema.
- [SPARK-46145] spark.catalog.listTables не вызывает исключение, если table или представление не найдено.
- [SPARK-46478] Вернуть SPARK-43049 для использования oracle varchar(255) для строки.
-
[SPARK-46394] Исправление spark.catalog.listDatabases() для устранения проблем с схемами, содержащими специальные символы, когда
spark.sql.legacy.keepCommandOutputSchema
set в true. -
[SPARK-46337] Сохраните
CTESubstitution
PLAN_ID_TAG
. - [SPARK-46466] Векторное средство чтения parquet никогда не должно делать перебазу для метки времени ntz.
- [SPARK-46587] XML: исправлено преобразование большого целочисленного числа XSD.
- [SPARK-45814] Сделайте стрелкуConverters.createEmptyArrowBatch вызов close(), чтобы избежать утечки памяти.
- [SPARK-46132] Поддержка пароля ключа для ключей JKS для ПРОТОКОЛА SSL RPC.
-
[SPARK-46602] распространять
allowExisting
при создании представления, когда представлениеtable не существует. - [SPARK-46173] Пропуск вызова trimAll во время синтаксического анализа даты.
- [SPARK-46355] XML: закройте InputStreamReader при завершении чтения.
- [SPARK-46600] Переместите общий код между SqlConf и SqlApiConf в SqlApiConfHelper.
-
[SPARK-46261]
DataFrame.withColumnsRenamed
должен хранить упорядочение диктовки или карты. - [SPARK-46056] Исправление векторного вектора Parquet чтения NPE с значением по умолчанию byteArrayDecimalType.
-
[SPARK-46260]
DataFrame.withColumnsRenamed
должен соблюдать порядок диктовки. - [SPARK-46250] Deflake test_parity_listener.
- [SPARK-46370] Исправлена ошибка при запросе из table после изменения параметров column по умолчанию.
- [SPARK-46609] Избегайте экспоненциального взрыва в PartitioningPreservingUnaryExecNode.
- [SPARK-46058] Добавьте отдельный флаг для privateKeyPassword.
- Узел
- 14 декабря 2023 г.
- Исправлена проблема, where экранированных символов подчеркивания в операциях getColumns, исходящих из клиентов JDBC или ODBC, обрабатывались неправильно и интерпретировались как подстановочные знаки.
- [SPARK-45509] исправление df column ссылочного поведения для Spark Connect.
- [SPARK-45844] Реализуйте нечувствительность регистра для XML.
- [SPARK-46141] Измените значение по умолчанию для spark.sql.legacy.ctePrecedencePolicy на CORRECTED.
-
[SPARK-46028] Сделать
Column.__getitem__
принимать входные данные column. - [SPARK-46255] Поддержка сложного типа —> преобразование строк.
- [SPARK-45655] Разрешить недетерминированные выражения внутри AggregateFunctions в CollectMetrics.
- [SPARK-45433] исправление schema CSV/JSON, если метки времени не соответствуют заданной метке времени.
-
[SPARK-45316] Добавить новые parameters
ignoreCorruptFiles
/ignoreMissingFiles
вHadoopRDD
иNewHadoopRDD
. - [SPARK-45852] Грациозно справиться с ошибкой рекурсии во время ведения журнала.
- [SPARK-45920] группа по порядковой номеру должна быть идемпотентной.
- Обновления системы безопасности операционной системы.
- 29 ноября 2023 г.
- Установите новый пакет,
pyarrow-hotfix
чтобы устранить уязвимость PyArrow RCE. - Исправлена проблема, where экранированных символов подчеркивания в операциях
getColumns
, исходящих от клиентов JDBC или ODBC, были неправильно интерпретированы как подстановочные знаки. - При приеме данных CSV с помощью автозагрузчика или потоковой передачи tablesбольшие CSV-файлы теперь могут быть разделены и обрабатываться параллельно как во время инференции schema, так и при обработке данных.
-
[SPARK-45892] Проверка плана оптимизатора рефакторинга для развязки
validateSchemaOutput
иvalidateExprIdUniqueness
. - [SPARK-45620] API, связанные с UDF Python, теперь используют верблюдьи Регистр.
-
[SPARK-44790] Добавлена
to_xml
реализация и привязки для Python, Spark Connect и SQL. -
[SPARK-45770] исправлена проблема с column при помощи
DataFrameDropColumns
дляDataframe.drop
. -
[SPARK-45859] Сделал объекты UDF ленивым
ml.functions
. -
[SPARK-45730] Улучшенные ограничения времени для
ReloadingX509TrustManagerSuite
. - [SPARK-44784] Сделал SBT тестирования герметично.
- Обновления системы безопасности операционной системы.
- Установите новый пакет,
- 10 ноября 2023 г.
-
[SPARK-45545]
SparkTransportConf
наследуетсяSSLOptions
при создании. - [SPARK-45250] Добавлена поддержка профиля ресурсов на уровне стадии для кластеров yarn при отключении динамического выделения.
- [SPARK-44753] Добавлен модуль чтения и записи XML-кадра данных для PySpark SQL.
-
[SPARK-45396] Добавлена запись документа для
PySpark.ml.connect
модуля. -
[SPARK-45584] Исправлен сбой выполнения вложенных запросов.
TakeOrderedAndProjectExec
- [SPARK-45541] Добавлен SSLFactory.
-
[SPARK-45577] исправлены
UserDefinedPythonTableFunctionAnalyzeRunner
для передачи сложенных values из именованных аргументов. - [SPARK-45562] Сделал "rowTag" обязательным параметром.
-
[SPARK-45427] Добавлены параметры SSL RPC в
SSLOptions
иSparkTransportConf
. - [SPARK-43380] Исправлено замедление чтения Avro.
-
[SPARK-45430]
FramelessOffsetWindowFunction
больше не завершается ошибкой, когдаIGNORE NULLS
иoffset > rowCount
. - [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
-
[SPARK-45386] Исправлена проблема, where
StorageLevel.NONE
неправильно возвращает значение 0. - [SPARK-44219] Добавлены проверки проверки на правило для перезаписи оптимизации.
-
[SPARK-45543] Исправлена проблема where
InferWindowGroupLimit
вызвала проблему, если другие функции window не имели того же window кадра, что и функции ранжирования. - Обновления системы безопасности операционной системы.
-
[SPARK-45545]
- 27 сентября 2023 г.
-
[SPARK-44823] Обновлено
black
до версии 23.9.1 и исправлена ошибка. - [SPARK-45339] PySpark теперь регистрирует ошибки, которые он повторяет.
- Возврат [SPARK-42946] Редактированные конфиденциальные данные, вложенные в подстановки переменных.
- [SPARK-44551] Измененные примечания для sync с OSS.
-
[SPARK-45360] Построитель сеансов Spark поддерживает инициализацию из
SPARK_REMOTE
. -
[SPARK-45279] Присоединено
plan_id
ко всем логическим планам. -
[SPARK-45425] Сопоставлено
TINYINT
сShortType
MsSqlServerDialect
. -
[SPARK-45419] Удалена запись карты версий файлов больших версий, чтобы избежать повторного использования
rocksdb
идентификаторов файлов sst. -
[SPARK-45488] Добавлена поддержка значения в
rowTag
элементе. -
[SPARK-42205] Удалено ведение журнала
Accumulables
событий запуска вTask/Stage
JsonProtocol
журналах событий. -
[SPARK-45426] Добавлена поддержка
ReloadingX509TrustManager
. -
[SPARK-45256]
DurationWriter
завершается ошибкой при записи больше values, чем начальная емкость. -
[SPARK-43380] Исправлены
Avro
проблемы с преобразованием типов данных без регрессии производительности. - [SPARK-45182] Добавлена поддержка отката этапа перетасовки карты, поэтому все задачи этапа можно получить, когда выходные данные этапа не определены.
-
[SPARK-45399] Добавлены параметры XML с помощью
newOption
. - Обновления системы безопасности операционной системы.
-
[SPARK-44823] Обновлено
Databricks Runtime 13.3 LTS
См. раздел Databricks Runtime 13.3 LTS.
- 10 декабря 2024 г.
- Обновления системы безопасности операционной системы.
- 26 ноября 2024 г.
- [SPARK-49615] [ML] Сделайте набор данных всех преобразователей функций машинного обучения schema проверки, соответствующий конфигурации spark.sql.caseSensitive.
- Обновления системы безопасности операционной системы.
- 5 ноября 2024 г.
- [SPARK-48843] Предотвращение бесконечного цикла с помощью BindParameters
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Класс классify Error для ошибки пользовательской функции приемника Foreach
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
- Обновления системы безопасности операционной системы.
- 22 октября 2024 г.
- [SPARK-48843] Предотвращение бесконечного цикла с помощью BindParameters
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Класс классify Error для ошибки пользовательской функции приемника Foreach
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
- Обновления системы безопасности операционной системы.
- 10 октября 2024 г.
- [SPARK-49743][SQL] OptimizeCsvJsonExpr не должен изменять поля schema при обрезке GetArrayStructFields
- 25 сентября 2024 г.
- [SPARK-46601] [CORE] Исправлена ошибка журнала в handleStatusMessage
- [SPARK-48719][SQL] Исправлена ошибка вычисления RegrSlope и RegrIntercept, когда первый параметр имеет значение NULL
- [SPARK-43242][CORE] Исправление вызов "Непредвиденный тип BlockId" при диагностике повреждения смешения
- [SPARK-49000][SQL] Исправление "select count(distinct 1) from t" where t пустой table путем расширения RewriteDistinctAggregates
- Обновления системы безопасности операционной системы.
- 17 сентября 2024 г.
- [SPARK-49526][CONNECT] Поддержка путей в стиле Windows в ArtifactManager
- [SPARK-48463][ML] Сделать так, чтобы Binarizer, Bucketizer, Vector Сборщик, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer и Interactor поддерживали вложенные входные данные columns
- Обновления системы безопасности операционной системы.
- 29 августа 2024 г.
- 14 августа 2024 г.
- [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
- [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
- [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
- 1 августа 2024 г.
- Этот выпуск включает исправление ошибок для
ColumnVector
иColumnarArray
классов в интерфейсе Java Spark. До этого исправления мог возникнутьArrayIndexOutOfBoundsException
или могли возвращаться неверные данные, если экземпляр одного из этих классов содержалnull
values. - [SPARK-47202][PYTHON] Исправление критических дат и времени ввода с помощью tzinfo
- [SPARK-48896][SPARK-48909][SPARK-48883] Исправления средства записи машинного обучения backport spark
- [SPARK-48463] Реализовать поддержку вложенных входных данных в StringIndexer columns
- Обновления системы безопасности операционной системы.
- Этот выпуск включает исправление ошибок для
- 11 июля 2024 г.
- (Изменение поведения) Фреймы данных, кэшированные для источников Delta table, теперь считаются недействительными, если исходный table перезаписывается. Это изменение означает, что все изменения состояния Delta tables теперь делают кэшированные результаты недействительными. Используйте
.checkpoint()
для сохранения состояния table в течение всего времени существования кадра данных. - Этот выпуск содержит исправление проблемы, которая не позволила правильно отображать вкладку среды пользовательского интерфейса Spark при запуске в службах контейнеров Databricks.
- [SPARK-48383][SS] Создание более эффективной ошибки для несовпадений секций в параметре startOffset в Kafka
- [SPARK-48292][CORE] Возврат [SPARK-39195][SQL] OutputCommitCoordinator Spark должен прервать этап, когда зафиксированный файл не соответствует состоянию задачи
- [SPARK-48503][SQL] Исправлены недопустимые скалярные подзапросы с группированием по неэквивалентным columns, которые были неправильно разрешены.
- [SPARK-48481][SQL][SS] Не применяйте OptimizeOneRowPlan к потоковому набору данных
- [SPARK-48475][PYTHON] Optimize _get_jvm_function в PySpark.
- [SPARK-48273][SQL] Исправление последней перезаписи PlanWithUnresolvedIdentifier
- [SPARK-48445][SQL] Не встраивайте пользовательские функции с дорогими дочерними объектами
- Обновления системы безопасности операционной системы.
- (Изменение поведения) Фреймы данных, кэшированные для источников Delta table, теперь считаются недействительными, если исходный table перезаписывается. Это изменение означает, что все изменения состояния Delta tables теперь делают кэшированные результаты недействительными. Используйте
- 17 июня 2024 г.
- [SPARK-48277] Улучшение сообщения об ошибке для ErrorClassesJsonReader.getErrorMessage
- Обновления системы безопасности операционной системы.
- 21 мая 2024 г.
- (изменение поведения)
dbutils.widgets.getAll()
теперь поддерживается для get всех мини-приложений values в записной книжке. - [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
- [SPARK-47994][SQL] Исправлена ошибка с помощью фильтра CASE WHEN column push down in SQLServer
- Обновления системы безопасности операционной системы.
- (изменение поведения)
- 9 мая 2024 г.
- [SPARK-47956][SQL] Проверка работоспособности для неразрешенной ссылки на LCA
- [SPARK-46822][SQL] Уважение spark.sql.legacy.charVarcharAsString при приведение типа jdbc к типу катализатора в jdbc
- [SPARK-47895]Группа [SQL] по всем должна быть идемпотентной
- [SPARK-48018][SS] Исправление null groupId, вызывающее ошибку param при вызове KafkaException.couldNotReadOffsetRange
- [SPARK-47973][CORE] Сайт вызова журнала в SparkContext.stop() и более поздних версиях в SparkContext.assertNotStopped()
- Обновления системы безопасности операционной системы.
- 25 апреля 2024 г.
- [SPARK-44653][SQL] Нетривиальные объединения кадра данных не должны прерывать кэширование
- Прочие исправления ошибок.
- 11 апреля 2024 г.
- [SPARK-47509][SQL] Блокировать выражения вложенных запросов в лямбда-функциях и функциях более высокого порядка
- Обновления системы безопасности операционной системы.
- 1 апреля 2024 г.
- [SPARK-47385] Исправьте кодировщики кортежей с помощью входных данных Option.
- [SPARK-38708][SQL] Обновление клиента хранилища метаданных Hive до версии 3.1.3 для Hive 3.1
- [SPARK-47200][SS] Класс ошибок для ошибки пользовательской функции приемника пакетной службы Foreach
- [SPARK-47368][SQL] Remove проверка конфигурации inferTimestampNTZ в ParquetRowConverter
- [SPARK-44252][SS] Определите новый класс ошибок и примените для случая where состояние загрузки из DFS завершается сбоем.
- [SPARK-47135][SS] Реализация классов ошибок для исключений потери данных Kafka
-
[SPARK-47300][SQL]
quoteIfNeeded
должен процитировать identifier начинается с цифр - [SPARK-47305][SQL] Исправление PruneFilters, чтобы пометить флаг isStreaming LocalRelation правильно, когда план содержит пакетную и потоковую передачу.
- [SPARK-47070] Исправлена недопустимая агрегирование после перезаписи вложенных запросов
- Обновления системы безопасности операционной системы.
- 14 марта 2024 г.
- [SPARK-47145][SQL] Передайте tableidentifier в exec проверки источника данных строк для стратегии V2.
- [SPARK-47167][SQL] Добавление конкретного класса для анонимного отношения JDBC
- [SPARK-47176][SQL] Функция вспомогательного средства ResolveAllExpressionsUpWithPruning
- [SPARK-47044][SQL] Добавление выполненного запроса для внешних источников данных JDBC в explain выходные данные
- [SPARK-47125][SQL] Возвращает значение NULL, если Univocity никогда не активирует синтаксический анализ
- Обновления системы безопасности операционной системы.
- 29 февраля 2024 г.
- Исправлена проблема, where использование локальной коллекции в качестве источника в команде MERGE может привести к тому, что метрика метрики numSourceRows сообщает о двойном правильном количестве строк.
- Для создания schema с определенным расположением теперь требуется, чтобы у пользователя были привилегии SELECT и МОДИФИКАЦИЯ на любой файл.
- Обновления системы безопасности операционной системы.
- 8 февраля 2024 г.
- Запросы канала данных изменений (CDF) в Unity Catalog материализованных views не поддерживаются, и попытка запустить запрос CDF с Unity Catalog материализованным представлением возвращает ошибку. Unity Catalog потоковая передача поддерживает tables запросы CDF для не
APPLY CHANGES
tables в Databricks Runtime 14.1 и более поздних версиях. Запросы CDF не поддерживаются при потоковой трансляции Unity Catalogtables в Databricks Runtime 14.0 и более ранних версиях. - [SPARK-46794]Remove подзапросы из ограничений на LogicalRDD.
- [SPARK-46933] Добавьте метрику времени выполнения запроса в соединители, использующие JDBCRDD.
- [SPARK-45582] Убедитесь, что экземпляр хранилища не используется после вызова фиксации в режиме потоковой передачи потоковой передачи.
- [SPARK-46396] Вывод метки времени не должен вызывать исключение.
- [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
- [SPARK-46941] невозможно insertwindow группировать limit узел для вычисления "top-k", если он содержит SizeBasedWindowFunction.
- Обновления системы безопасности операционной системы.
- Запросы канала данных изменений (CDF) в Unity Catalog материализованных views не поддерживаются, и попытка запустить запрос CDF с Unity Catalog материализованным представлением возвращает ошибку. Unity Catalog потоковая передача поддерживает tables запросы CDF для не
- 31 января 2024 г.
- [SPARK-46610] Создание table должно вызывать исключение, если значение для ключа в опциях отсутствует.
- [SPARK-46383] Сокращение использования кучи драйверов путем уменьшения срока действия taskInfo.accumulables().
- [SPARK-46600] Переместите общий код между SqlConf и SqlApiConf в SqlApiConfHelper.
- [SPARK-46676] dropDuplicatesWithinWatermark не должен завершать ошибку канонизации плана.
- [SPARK-46763] Исправлена ошибка утверждения в ReplaceDeduplicateWithAggregate для повторяющихся атрибутов.
- Обновления системы безопасности операционной системы.
- 17 января 2024 г.
- Узел
shuffle
плана explain, возвращаемого запросом Photon, обновляется, чтобы добавить флагcausedBroadcastJoinBuildOOM=true
при возникновении ошибки недостатка памяти во время перетасовки, которая является частью широковещательной операции join. - Чтобы избежать повышенной задержки при обмене данными по протоколу TLSv1.3, этот выпуск обслуживания включает исправление для установки JDK 8, чтобы устранить ошибку JDK-8293562.
- [SPARK-46058] Добавьте отдельный флаг для privateKeyPassword.
- [SPARK-46173] Пропуск вызова trimAll во время синтаксического анализа даты.
- [SPARK-46370] Исправлена ошибка при запросе из table после изменения параметров column по умолчанию.
- [SPARK-46370] Исправлена ошибка при запросе из table после изменения параметров column по умолчанию.
- [SPARK-46370] Исправлена ошибка при запросе из table после изменения параметров column по умолчанию.
- [SPARK-46609] Избегайте экспоненциального взрыва в PartitioningPreservingUnaryExecNode.
- [SPARK-46132] Поддержка пароля ключа для ключей JKS для ПРОТОКОЛА SSL RPC.
-
[SPARK-46602] распространять
allowExisting
при создании представления, когда представлениеtable не существует. - [SPARK-46249] Требовать блокировку экземпляра для получения метрик RocksDB, чтобы предотвратить гонку с фоновыми операциями.
- [SPARK-46417] Не завершайте ошибку при вызове hive.getTable и throwException имеет значение false.
-
[SPARK-46538] Исправлена неоднозначная проблема со ссылкой column в
ALSModel.transform
. - [SPARK-46478] Вернуть SPARK-43049 для использования oracle varchar(255) для строки.
- [SPARK-46250] Deflake test_parity_listener.
-
[SPARK-46394] Исправление spark.catalog.listDatabases() для устранения проблем с схемами, содержащими специальные символы, когда
spark.sql.legacy.keepCommandOutputSchema
set в true. - [SPARK-46056] Исправление векторного вектора Parquet чтения NPE с значением по умолчанию byteArrayDecimalType.
- [SPARK-46145] spark.catalog.listTables не вызывает исключение, если table или представление не найдено.
- [SPARK-46466] Векторное средство чтения parquet никогда не должно делать перебазу для метки времени ntz.
- Узел
- 14 декабря 2023 г.
- Исправлена проблема, where экранированных символов подчеркивания в операциях getColumns, исходящих из клиентов JDBC или ODBC, обрабатывались неправильно и интерпретировались как подстановочные знаки.
- [SPARK-45920] группа по порядковой номеру должна быть идемпотентной.
- [SPARK-44582] Пропустить итератор на SMJ, если он был очищен.
- [SPARK-45433] исправление schema CSV/JSON, если метки времени не соответствуют заданной метке времени.
- [SPARK-45655] Разрешить недетерминированные выражения внутри AggregateFunctions в CollectMetrics.
- Обновления системы безопасности операционной системы.
- 29 ноября 2023 г.
- Установите новый пакет,
pyarrow-hotfix
чтобы устранить уязвимость PyArrow RCE. - Соединитель Spark-snowflake обновляется до версии 2.12.0.
-
[SPARK-44846] Удалены сложные выражения группировки после
RemoveRedundantAggregates
. -
[SPARK-45544] Встроенная поддержка SSL в
TransportContext
. -
[SPARK-45892] Проверка плана оптимизатора рефакторинга для развязки
validateSchemaOutput
иvalidateExprIdUniqueness
. -
[SPARK-45730] Улучшенные ограничения времени для
ReloadingX509TrustManagerSuite
. -
[SPARK-45859] Сделал объекты UDF ленивым
ml.functions
. - Обновления системы безопасности операционной системы.
- Установите новый пакет,
- 10 ноября 2023 г.
- Partition фильтры в запросах потоковой передачи Delta Lake отправляются вниз до ограничения скорости, чтобы повысить эффективность использования.
- Измененные запросы веб-канала данных в Unity Catalog потоковой передачи tables и материализованные views для отображения сообщений об ошибках.
-
[SPARK-45545]
SparkTransportConf
наследуетсяSSLOptions
при создании. -
[SPARK-45584] Исправлен сбой выполнения вложенных запросов.
TakeOrderedAndProjectExec
-
[SPARK-45427] Добавлены параметры SSL RPC в
SSLOptions
иSparkTransportConf
. -
[SPARK-45541] Добавлен.
SSLFactory
-
[SPARK-45430]
FramelessOffsetWindowFunction
больше не завершается ошибкой, когдаIGNORE NULLS
иoffset > rowCount
. - [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
- [SPARK-44219] Добавлены дополнительные проверки для каждого правила для перезаписи оптимизации.
-
[SPARK-45543] Исправлена проблема where
InferWindowGroupLimit
вызвала проблему, если другие функции window не имели того же window кадра, что и функции ранжирования. - Обновления системы безопасности операционной системы.
- 23 октября 2023 г.
-
[SPARK-45256] Исправлена проблема, where
DurationWriter
не удалось выполнить при записи больше values, чем начальная емкость. -
[SPARK-45419] Избегайте повторного использования
rocksdb sst
файлов в другомrocksdb
экземпляре, удалив записи карты версий файлов более крупных версий. -
[SPARK-45426] Добавлена поддержка
ReloadingX509TrustManager
. - Прочие исправления.
-
[SPARK-45256] Исправлена проблема, where
- 13 октября 2023 г.
- Зависимость Snowflake-jdbc обновлена с 3.13.29 до 3.13.33.
- Функция
array_insert
основана на 1 для положительных и отрицательных индексов, в то время как раньше она была основана на 0 для отрицательных индексов. Теперь он вставляет новый элемент в конец входных массивов для индекса -1. Чтобы restore вернуть предыдущее поведение, используйте setspark.sql.legacy.negativeIndexInArrayInsert
сtrue
. - Исправлена проблема, которая мешала игнорированию поврежденных файлов при включенной настройке
ignoreCorruptFiles
во время обработки CSV с помощью автозагрузчика в режиме schema. - Возврат [SPARK-42946].
- [SPARK-42205] Обновлен протокол JSON для remove логирования аккумулейтивов в событиях начала задачи или этапа.
-
[SPARK-45178] Резервное выполнение одного пакета для
Trigger.AvailableNow
неподдерживаемых источников, а не с помощью оболочки. -
[SPARK-45316] Добавление новых parameters
ignoreCorruptFiles
иignoreMissingFiles
вHadoopRDD
иNewHadoopRDD
. - [SPARK-44740] исправленные метаданные values для артефактов.
-
[SPARK-45360] Инициализированная конфигурация построителя сеансов Spark из
SPARK_REMOTE
. - [SPARK-44551] Измененные примечания для sync с OSS.
- [SPARK-45346] В Parquet schema теперь учитывается чувствительность к регистру при объединении флагов schema.
-
[SPARK-44658]
ShuffleStatus.getMapStatus
теперь возвращаетсяNone
вместоSome(null)
. -
[SPARK-44840] Сделано
array_insert()
1 на основе отрицательных индексов.
- 14 сентября 2023 г.
-
[SPARK-44873] Добавлена поддержка
alter view
с вложенными columns в клиенте Hive. -
[SPARK-44878] Отключены строгие limit для
RocksDB
менеджера записи, чтобы избежать исключения вставки при завершении кеша.
-
[SPARK-44873] Добавлена поддержка
- 30 августа 2023 г.
- Команда dbutils
cp
(dbutils.fs.cp
) оптимизирована для ускорения копирования. Благодаря этому улучшению операции копирования могут занять до 100 меньше времени в зависимости от размера файла. Эта функция доступна во всех облаках и файловых системах, доступных в Databricks, в том числе для подключений Unity CatalogVolumes и DBFS. -
[SPARK-44455] Идентификаторы кавычек с обратными знаками в
SHOW CREATE TABLE
результате. - [SPARK-44763] Исправлена проблема, показывающая строку как двойную в двоичном арифметике с интервалом.
-
[SPARK-44871] Исправлено
percentile_disc
поведение. - [SPARK-44714] Упрощение ограничения разрешения LCA относительно запросов.
-
[SPARK-44818] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации
taskThread
. - [SPARK-44505] Добавлен переопределение для поддержки columnar в scan for DSv2.
- [SPARK-44479] Исправлено преобразование protobuf из пустого типа структуры.
-
[SPARK-44718] Сопоставление
ColumnVector
конфигурации в режиме памяти по умолчанию соOffHeapMemoryMode
значением конфигурации. -
[SPARK-42941] Добавлена поддержка
StreamingQueryListener
в Python. - [SPARK-44558] Экспорт уровня журнала Spark Connect PySpark.
-
[SPARK-44464] исправлено
applyInPandasWithStatePythonRunner
для вывода строк, имеющих NULL в качестве первого значения column. -
[SPARK-44643] Исправлено
Row.__repr__
, когда поле является пустой строкой. - Обновления системы безопасности операционной системы.
- Команда dbutils
Databricks Runtime 12.2 LTS
См. раздел Databricks Runtime 12.2 LTS.
- 10 декабря 2024 г.
- Обновления системы безопасности операционной системы.
- 26 ноября 2024 г.
- Прочие исправления ошибок.
- 10 октября 2024 г.
- [SPARK-49743][SQL] OptimizeCsvJsonExpr не должен изменять поля schema при обрезке GetArrayStructFields
- 25 сентября 2024 г.
- [SPARK-49000][SQL] Исправление "select count(distinct 1) from t" where t пустой table путем расширения RewriteDistinctAggregates
- [SPARK-46601] [CORE] Исправлена ошибка журнала в handleStatusMessage
- Прочие исправления ошибок.
- 17 сентября 2024 г.
- Обновления системы безопасности операционной системы.
- 29 августа 2024 г.
- Прочие исправления ошибок.
- 14 августа 2024 г.
- [SPARK-48941][SPARK-48970] Исправление средства записи машинного обучения и средства чтения
- [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
- [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
- [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
- [SPARK-48463][ML] Реализовать поддержку вложенных входных данных в StringIndexer columns
- Обновления системы безопасности операционной системы.
- 1 августа 2024 г.
- [SPARK-48896][SPARK-48909][SPARK-48883] Исправления средства записи машинного обучения backport spark
- 1 августа 2024 г.
- Чтобы применить необходимые исправления безопасности, версия Python в Databricks Runtime 12.2 LTS обновляется с 3.9.5 до 3.9.19.
- 11 июля 2024 г.
- (Изменение поведения) Фреймы данных, кэшированные для источников Delta table, теперь считаются недействительными, если исходный table перезаписывается. Это изменение означает, что все изменения состояния Delta tables теперь делают кэшированные результаты недействительными. Используйте
.checkpoint()
для сохранения состояния table в течение всего времени существования кадра данных. - [SPARK-48481][SQL][SS] Не применяйте OptimizeOneRowPlan к потоковому набору данных
- [SPARK-47070] Исправлена недопустимая агрегирование после перезаписи вложенных запросов
- [SPARK-42741][SQL] Не распаковывать приведение в двоичном сравнении, если литерал имеет значение NULL
- [SPARK-48445][SQL] Не встраивайте пользовательские функции с дорогими дочерними объектами
- [SPARK-48503][SQL] Исправлены недопустимые скалярные подзапросы с группированием по неэквивалентным columns, которые были неправильно разрешены.
- [SPARK-48383][SS] Создание более эффективной ошибки для несовпадений секций в параметре startOffset в Kafka
- Обновления системы безопасности операционной системы.
- (Изменение поведения) Фреймы данных, кэшированные для источников Delta table, теперь считаются недействительными, если исходный table перезаписывается. Это изменение означает, что все изменения состояния Delta tables теперь делают кэшированные результаты недействительными. Используйте
- 17 июня 2024 г.
- [SPARK-48277] Улучшение сообщения об ошибке для ErrorClassesJsonReader.getErrorMessage
- Прочие исправления ошибок.
- 21 мая 2024 г.
- [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
- Обновления системы безопасности операционной системы.
- 9 мая 2024 г.
- [SPARK-44251][SQL] Set nullable правильно обрабатывается на коалесцированных join ключах в полном внешнем объединении с использованием join
- [SPARK-47973][CORE] Сайт вызова журнала в SparkContext.stop() и более поздних версиях в SparkContext.assertNotStopped()
- [SPARK-47956][SQL] Проверка работоспособности для неразрешенной ссылки на LCA
- [SPARK-48018][SS] Исправление null groupId, вызывающее ошибку param при вызове KafkaException.couldNotReadOffsetRange
- Обновления системы безопасности операционной системы.
- 25 апреля 2024 г.
- Обновления системы безопасности операционной системы.
- 11 апреля 2024 г.
- Обновления системы безопасности операционной системы.
- 1 апреля 2024 г.
- [SPARK-47305][SQL] Исправление PruneFilters, чтобы пометить флаг isStreaming LocalRelation правильно, когда план содержит пакетную и потоковую передачу.
- [SPARK-44252][SS] Определите новый класс ошибок и примените для случая where состояние загрузки из DFS завершается сбоем.
- [SPARK-47135][SS] Реализация классов ошибок для исключений потери данных Kafka
- [SPARK-47200][SS] Класс ошибок для ошибки пользовательской функции приемника пакетной службы Foreach
- Обновления системы безопасности операционной системы.
- 14 марта 2024 г.
- [SPARK-47176][SQL] Функция вспомогательного средства ResolveAllExpressionsUpWithPruning
- Возврат "[SPARK-46861][CORE] Избегайте взаимоблокировки в DAGScheduler"
- [SPARK-47125][SQL] Возвращает значение NULL, если Univocity никогда не активирует синтаксический анализ
- [SPARK-47167][SQL] Добавление конкретного класса для анонимного отношения JDBC
- Обновления системы безопасности операционной системы.
- 29 февраля 2024 г.
- Исправлена проблема, where использование локальной коллекции в качестве источника в команде MERGE может привести к тому, что метрика метрики numSourceRows сообщает о двойном правильном количестве строк.
- Для создания schema с определенным расположением теперь требуется, чтобы у пользователя были привилегии SELECT и МОДИФИКАЦИЯ на любой файл.
- [SPARK-45582][SS] Убедитесь, что экземпляр хранилища не используется после вызова фиксации в режиме потоковой передачи потоковой передачи
- Обновления системы безопасности операционной системы.
- 13 февраля 2024 г.
- [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
- [SPARK-46794]Remove подзапросы из ограничений на LogicalRDD.
- Обновления системы безопасности операционной системы.
- 31 января 2024 г.
- [SPARK-46763] Исправлена ошибка утверждения в ReplaceDeduplicateWithAggregate для повторяющихся атрибутов.
- Обновления системы безопасности операционной системы.
- 25 декабря 2023 г.
- Чтобы избежать повышенной задержки при обмене данными по протоколу TLSv1.3, этот выпуск обслуживания включает исправление для установки JDK 8, чтобы устранить ошибку JDK-8293562.
- [SPARK-39440] Добавьте конфигурацию для отключения временной шкалы событий.
- [SPARK-46132] Поддержка пароля ключа для ключей JKS для ПРОТОКОЛА SSL RPC.
-
[SPARK-46394] Исправление spark.catalog.listDatabases() для устранения проблем с схемами, содержащими специальные символы, когда
spark.sql.legacy.keepCommandOutputSchema
set в true. - [SPARK-46417] Не завершайте ошибку при вызове hive.getTable и throwException имеет значение false.
- [SPARK-43067] Исправьте расположение файла ресурсов класса ошибок в соединителе Kafka.
- [SPARK-46249] Требовать блокировку экземпляра для получения метрик RocksDB, чтобы предотвратить гонку с фоновыми операциями.
-
[SPARK-46602] распространять
allowExisting
при создании представления, когда представлениеtable не существует. - [SPARK-46058] Добавьте отдельный флаг для privateKeyPassword.
- [SPARK-46145] spark.catalog.listTables не вызывает исключение, если table или представление не найдено.
-
[SPARK-46538] Исправлена неоднозначная проблема со ссылкой column в
ALSModel.transform
. - [SPARK-42852] Повторное изменение именованного имениLambdaVariable из ЭквивалентаExpressions.
- 14 декабря 2023 г.
- Исправлена проблема, where экранированных символов подчеркивания в операциях getColumns, исходящих из клиентов JDBC или ODBC, обрабатывались неправильно и интерпретировались как подстановочные знаки.
- [SPARK-44582] Пропустить итератор на SMJ, если он был очищен.
- [SPARK-45920] группа по порядковой номеру должна быть идемпотентной.
- [SPARK-45655] Разрешить недетерминированные выражения внутри AggregateFunctions в CollectMetrics.
- Обновления системы безопасности операционной системы.
- 29 ноября 2023 г.
- Установите новый пакет,
pyarrow-hotfix
чтобы устранить уязвимость PyArrow RCE. - Исправлена проблема, where экранированных символов подчеркивания в операциях
getColumns
, исходящих от клиентов JDBC или ODBC, были неправильно интерпретированы как подстановочные знаки. -
[SPARK-42205] Удалены журналы, доступные для ведения журнала, в
Stage
событиях запуска иTask
запуска. -
[SPARK-44846] Удалены сложные выражения группировки после
RemoveRedundantAggregates
. -
[SPARK-43718] Исправлена возможность null для ключей в
USING
соединениях. -
[SPARK-45544] Встроенная поддержка SSL в
TransportContext
. - [SPARK-43973] Структурированный пользовательский интерфейс потоковой передачи теперь отображает неудачные запросы.
-
[SPARK-45730] Улучшенные ограничения времени для
ReloadingX509TrustManagerSuite
. -
[SPARK-45859] Сделал объекты UDF ленивым
ml.functions
. - Обновления системы безопасности операционной системы.
- Установите новый пакет,
- 14 ноября 2023 г.
- Partition фильтры в запросах потоковой передачи Delta Lake отправляются вниз до ограничения скорости, чтобы повысить эффективность использования.
-
[SPARK-45545]
SparkTransportConf
наследуетсяSSLOptions
при создании. -
[SPARK-45427] Добавлены параметры SSL RPC в
SSLOptions
иSparkTransportConf
. -
[SPARK-45584] Исправлен сбой выполнения вложенных запросов.
TakeOrderedAndProjectExec
-
[SPARK-45541] Добавлен.
SSLFactory
-
[SPARK-45430]
FramelessOffsetWindowFunction
больше не завершается ошибкой, когдаIGNORE NULLS
иoffset > rowCount
. - [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
- Обновления системы безопасности операционной системы.
- 24 октября 2023 г.
-
[SPARK-45426] Добавлена поддержка
ReloadingX509TrustManager
. - Прочие исправления.
-
[SPARK-45426] Добавлена поддержка
- 13 октября 2023 г.
- Зависимость Snowflake-jdbc обновлена с 3.13.29 до 3.13.33.
- [SPARK-42553] Убедитесь, что по крайней мере один единица времени после интервала.
- [SPARK-45346] Parquet schema вывод учитывает флаг конфиденциальности регистра при слиянии schema.
-
[SPARK-45178] Резервное выполнение одного пакета для
Trigger.AvailableNow
неподдерживаемых источников, а не с помощью оболочки. -
[SPARK-45084]
StateOperatorProgress
для использования точного, подходящего количества перестановок partition.
- 12 сентября 2023 г.
-
[SPARK-44873] Добавлена поддержка
alter view
с вложенными columns в клиенте Hive. -
[SPARK-44718] Сопоставление
ColumnVector
конфигурации в режиме памяти по умолчанию соOffHeapMemoryMode
значением конфигурации. -
[SPARK-43799] Добавлен двоичный параметр дескриптора в API PySpark
Protobuf
. - Прочие исправления.
-
[SPARK-44873] Добавлена поддержка
- 30 августа 2023 г.
-
[SPARK-44485] Оптимизировано
TreeNode.generateTreeString
. -
[SPARK-44818] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации
taskThread
. -
[SPARK-44871][11.3-13.0] Исправлено
percentile_disc
поведение. - [SPARK-44714] Упрощенное ограничение разрешения LCA относительно запросов.
- Обновления системы безопасности операционной системы.
-
[SPARK-44485] Оптимизировано
- 15 августа 2023 г.
- [SPARK-44504] задача обслуживания очищает загруженные providers при ошибке остановки.
-
[SPARK-44464] Исправлено
applyInPandasWithStatePythonRunner
, чтобы выводить строки, которые имеютNull
в качестве первого значения column. - Обновления системы безопасности операционной системы.
- 29 июля 2023 г.
- Исправлена проблема, where
dbutils.fs.ls()
возвращаласьINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
при вызове пути расположения хранилища, который столкнулся с другим внешним или управляемым расположением хранилища. -
[SPARK-44199]
CacheManager
больше не обновляет ненужныеfileIndex
. - Обновления системы безопасности операционной системы.
- Исправлена проблема, where
- 24 июля 2023 г.
-
[SPARK-44337] Исправлена проблема where любой set поля для
Any.getDefaultInstance
вызвали ошибки синтаксического анализа. -
[SPARK-44136] Исправлена проблема, where
StateManager
get материализована в исполнителе вместо драйвера вFlatMapGroupsWithStateExec
. - Обновления системы безопасности операционной системы.
-
[SPARK-44337] Исправлена проблема where любой set поля для
- 23 июня 2023 г.
- Обновления системы безопасности операционной системы.
- 15 июня 2023 г.
- Фотонализовано
approx_count_distinct
. - Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
-
[SPARK-43779]
ParseToDate
теперь загружаетсяEvalMode
в основной поток. -
[SPARK-43156][SPARK-43098] Проверка ошибки расширенного скалярного подзаверждения с
decorrelateInnerQuery
отключенным. - Обновления системы безопасности операционной системы.
- Фотонализовано
- 2 июня 2023 г.
- Средство синтаксического анализа JSON в
failOnUnknownFields
режиме удаляет запись вDROPMALFORMED
режиме и завершается сбоем непосредственно в режимеFAILFAST
. - Повышение производительности добавочных обновлений с помощью
SHALLOW CLONE
Айсберга и Parquet. - Исправлена проблема в автозагрузчике where: различные форматы исходных файлов были несогласованы, когда предоставленные schema не включали выведенные разделы. Эта проблема может привести к непредвиденным сбоям при чтении файлов, у которых отсутствует columns в предполагаемом partitionschema.
- [SPARK-43404] Пропустите повторное использовать SST-файл для той же версии хранилища состояний RocksDB, чтобы избежать ошибки несоответствия идентификаторов.
-
[SPARK-43413][11.3-13.0] Исправлена
IN
возможность nullqueryListQuery
. - [SPARK-43522] Исправлено создание имени структуры column с индексом массива.
-
[SPARK-43541] распространять все
Project
теги при разрешении выражений и при наличии отсутствующих columns. -
[SPARK-43527] Исправлено
catalog.listCatalogs
в PySpark. - [SPARK-43123] метаданные внутреннего поля больше не просачиваются в catalogs.
- [SPARK-43340] Исправлено отсутствие поля трассировки стека в журналах событий.
-
[SPARK-42444]
DataFrame.drop
теперь обрабатывает повторяющиеся columns правильно. -
[SPARK-42937]
PlanSubqueries
теперь задаетInSubqueryExec#shouldBroadcast
значение true. -
[SPARK-43286] обновленный режим
aes_encrypt
CBC до generate случайных IV. -
[SPARK-43378] Правильно закрывайте объекты потока в
deserializeFromChunkedBuffer
.
- Средство синтаксического анализа JSON в
- 17 мая 2023 г.
- Теперь сканирование Parquet обеспечивает надежную защиту от OOM при сканировании исключительно структурированных файлов путем динамической настройки размера пакета. Метаданные файлов анализируются для предварительного уменьшения размера пакета и снова снижаются при повторных попытках задачи в качестве окончательной сетки безопасности.
- Если файл Avro считывался только с параметром
failOnUnknownFields
или с автозагрузчиком в режиме эволюцииfailOnNewColumns
schema, columns с различными типами данных будут считываться какnull
вместо того, чтобы вызвать ошибку, указывающую, что файл не может быть прочитан. Теперь эти операции чтения завершаются ошибкой и рекомендуют пользователям использовать этотrescuedDataColumn
параметр. - Автозагрузчик теперь выполняет следующие действия.
-
- Правильно считывает и больше не спасает
Integer
Short
, иByte
типы, если предоставлен один из этих типов данных, но файл Avro предлагает один из других двух типов.
- Правильно считывает и больше не спасает
-
- Запрещает чтение типов интервалов в виде типов меток даты или времени, чтобы избежать повреждения дат.
-
- Запрещает
Decimal
чтение типов с более низкой точностью.
- Запрещает
- [SPARK-43172] Предоставляет узел и маркер из клиента Spark connect.
-
[SPARK-43293]
__qualified_access_only
игнорируется в обычной columns. -
[SPARK-43098] Исправлена ошибка правильности
COUNT
при группировке скалярных вложенных запросов по предложению. -
[SPARK-43085] поддержка назначения column
DEFAULT
для имен table нескольких частей. -
[SPARK-43190]
ListQuery.childOutput
теперь согласуется со вторичными выходными данными. - [SPARK-43192] Удалена проверка charset агента пользователя.
- Обновления системы безопасности операционной системы.
- 25 апреля 2023 г.
- Если файл Parquet считывался только с параметром
failOnUnknownFields
или с автозагрузчиком в режиме эволюцииfailOnNewColumns
schema, columns, которые имели разные типы данных, будут считываться какnull
вместо того, чтобы вызвать ошибку, указывающую, что файл не может быть прочитан. Теперь эти операции чтения завершаются ошибкой и рекомендуют пользователям использовать этотrescuedDataColumn
параметр. - Автоматический загрузчик теперь правильно считывает и больше не спасает
Integer
Short
, иByte
типы, если предоставлен один из этих типов данных. Файл Parquet предлагает один из двух других типов. Когда ранее были включены спасенные данные column, несоответствие типа данных привело к тому, что columns сохранялись, даже несмотря на то, что они были доступны для чтения. -
[SPARK-43009] Параметризованный
sql()
сAny
константами - [SPARK-42406] Завершение рекурсивных полей Protobuf путем удаления поля
-
[SPARK-43038] Поддержка режима CBC по
aes_encrypt()
/aes_decrypt()
-
[SPARK-42971] Изменение на печать
workdir
, еслиappDirs
значение NULL при событии рабочего дескриптораWorkDirCleanup
- [SPARK-43018] Исправлена ошибка для команд INSERT с литералом метки времени
- Обновления системы безопасности операционной системы.
- Если файл Parquet считывался только с параметром
- 11 апреля 2023 г.
- Поддержка устаревших форматов источников данных в команде
SYNC
. - Исправлена проблема в поведении %autoreload в записных книжках за пределами репозитория.
- Исправлена проблема where: автозагрузчик schema может войти в бесконечный цикл ошибок при обнаружении нового column в schema вложенного объекта JSON.
-
[SPARK-42928] Выполняет
resolvePersistentFunction
синхронизацию. - [SPARK-42936] Устраняет проблему LCan, когда предложение может быть разрешено непосредственно его дочерним агрегатом.
-
[SPARK-42967] Исправления
SparkListenerTaskStart.stageAttemptId
при запуске задачи после отмены этапа. - Обновления системы безопасности операционной системы.
- Поддержка устаревших форматов источников данных в команде
- 29 марта 2023 г.
Databricks SQL теперь поддерживает указание values по умолчанию для columns Delta Lake tablesлибо во время создания table, либо после этого. Последующие команды
INSERT
,UPDATE
,DELETE
иMERGE
могут ссылаться на любое значение columnпо умолчанию с помощью явного ключевого словаDEFAULT
. Кроме того, если какое-либо назначениеINSERT
имеет явный list меньше columns, чем целевой table, соответствующие column по умолчанию values заменяются остальными columns (или NULL, если значение по умолчанию не указано).Например:
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; > 0, 2023-03-28 1, 2023-03-28z
Автозагрузчик теперь инициирует по крайней мере одну синхронную очистку журнала RocksDB для потоков
Trigger.AvailableNow
, чтобы проверить, что контрольная точка может get регулярно очищается для быстрых потоков автозагрузчика. Это может привести к тому, что некоторые потоки будут занять больше времени до завершения работы, но это позволит сэкономить затраты на хранение и улучшить возможности автозагрузчика в будущих запусках.Теперь можно изменить Дельта table, чтобы добавить поддержку функций table с помощью
DeltaTable.addFeatureSupport(feature_name)
.[SPARK-42794] Увеличьте блокировкуAcquireTimeoutMs до 2 минут для получения хранилища состояний RocksDB в службе "Потоковая передача структуры"
[SPARK-42521] Добавить NULL для INSERT-операций с пользовательскими списками, содержащими меньше элементов columns, чем в целевых table
[SPARK-42702][SPARK-42623] Поддержка параметризованного запроса в вложенных запросах и CTE
[SPARK-42668] Перехват исключения при попытке закрыть сжатый поток в HDFSStateStoreProvider
[SPARK-42403] JsonProtocol должен обрабатывать строки JSON NULL
- 8 марта 2023 г.
- Сообщение об ошибке "Сбой инициализации конфигурации" улучшено, чтобы обеспечить больше контекста для клиента.
- Изменена терминология добавления функций в Delta table с помощью свойства table. Предпочтительный синтаксис теперь
'delta.feature.featureName'='supported'
вместо'delta.feature.featureName'='enabled'
. Для обеспечения обратной совместимости использование'delta.feature.featureName'='enabled'
по-прежнему работает и продолжит работать. - Начиная с этого выпуска, можно заменить table дополнительным свойством table
delta.ignoreProtocolDefaults
, чтобы игнорировать конфигурации Spark, связанные с протоколом, которые включают версии чтения и записи по умолчанию и функции table, поддерживаемые по умолчанию. - [SPARK-42070] Изменение значения по умолчанию аргумента функции Mask с -1 на NULL
- [SPARK-41793] Неверный результат для кадров window, определенных условием диапазона для значительных десятичных разрядов
- [SPARK-42484] Лучшее сообщение об ошибке unsafeRowUtils
- [SPARK-42516] всегда записывайте настройки часового пояса сеанса при создании views
- [SPARK-42635] Исправлено выражение TimestampAdd.
- [SPARK-42622] Отключена подстановка в values
- [SPARK-42534] исправление предложения DB2Dialect Limit
- [SPARK-42121] Добавить встроенные функции для значений tableposexplode, posexplode_outer, json_tuple и stack
- [SPARK-42045] Режим SQL ANSI: Round/Bround должен возвращать ошибку при крошечном/маленьком или значительном переполнении целых чисел
- Обновления системы безопасности операционной системы.
Databricks Runtime 11.3 LTS
См. раздел Databricks Runtime 11.3 LTS.
- 10 декабря 2024 г.
- Обновления системы безопасности операционной системы.
- 26 ноября 2024 г.
- Прочие исправления ошибок.
- 10 октября 2024 г.
- Прочие исправления ошибок.
- 25 сентября 2024 г.
- [SPARK-46601] [CORE] Исправлена ошибка журнала в handleStatusMessage
- [SPARK-49000][SQL] Исправление "select count(distinct 1) from t" where t пустой table путем расширения RewriteDistinctAggregates
- Прочие исправления ошибок.
- 17 сентября 2024 г.
- Обновления системы безопасности операционной системы.
- 29 августа 2024 г.
- 14 августа 2024 г.
- [SPARK-48941][SPARK-48970] Исправление средства записи машинного обучения и средства чтения
- [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
- [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
- [SPARK-48463][ML] Реализовать поддержку вложенных входных данных в StringIndexer columns
- Обновления системы безопасности операционной системы.
- 1 августа 2024 г.
- [SPARK-48896][SPARK-48909][SPARK-48883] Исправления средства записи машинного обучения backport spark
- 1 августа 2024 г.
- Чтобы применить необходимые исправления безопасности, версия Python в Databricks Runtime 11.3 LTS обновляется с 3.9.5 до 3.9.19.
- 11 июля 2024 г.
- [SPARK-48383][SS] Создание более эффективной ошибки для несовпадений секций в параметре startOffset в Kafka
- [SPARK-47070] Исправлена недопустимая агрегирование после перезаписи вложенных запросов
- Обновления системы безопасности операционной системы.
- 17 июня 2024 г.
- Обновления системы безопасности операционной системы.
- 21 мая 2024 г.
- [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
- Обновления системы безопасности операционной системы.
- 9 мая 2024 г.
- [SPARK-48018][SS] Исправление null groupId, вызывающее ошибку param при вызове KafkaException.couldNotReadOffsetRange
- [SPARK-47973][CORE] Сайт вызова журнала в SparkContext.stop() и более поздних версиях в SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Set nullable правильно обрабатывается на коалесцированных join ключах в полном внешнем объединении с использованием join
- Обновления системы безопасности операционной системы.
- 25 апреля 2024 г.
- Обновления системы безопасности операционной системы.
- 11 апреля 2024 г.
- Обновления системы безопасности операционной системы.
- 1 апреля 2024 г.
- [SPARK-44252][SS] Определите новый класс ошибок и примените для случая where состояние загрузки из DFS завершается сбоем.
- [SPARK-47135][SS] Реализация классов ошибок для исключений потери данных Kafka
- Возврат "[SPARK-46861][CORE] Избегайте взаимоблокировки в DAGScheduler"
- [SPARK-47200][SS] Класс ошибок для ошибки пользовательской функции приемника пакетной службы Foreach
- Обновления системы безопасности операционной системы.
- 14 марта 2024 г.
- [SPARK-47167][SQL] Добавление конкретного класса для анонимного отношения JDBC
- [SPARK-47125][SQL] Возвращает значение NULL, если Univocity никогда не активирует синтаксический анализ
- Обновления системы безопасности операционной системы.
- 29 февраля 2024 г.
- Исправлена проблема, where использование локальной коллекции в качестве источника в команде MERGE может привести к тому, что метрика метрики numSourceRows сообщает о двойном правильном количестве строк.
- [SPARK-45582][SS] Убедитесь, что экземпляр хранилища не используется после вызова фиксации в режиме потоковой передачи потоковой передачи
- 13 февраля 2024 г.
- [SPARK-46794]Remove подзапросы из ограничений на LogicalRDD.
- [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
- Обновления системы безопасности операционной системы.
- 31 января 2024 г.
- Обновления системы безопасности операционной системы.
- 25 декабря 2023 г.
- Чтобы избежать повышенной задержки при обмене данными по протоколу TLSv1.3, этот выпуск обслуживания включает исправление для установки JDK 8, чтобы устранить ошибку JDK-8293562.
- [SPARK-46058] Добавьте отдельный флаг для privateKeyPassword.
-
[SPARK-46602] распространять
allowExisting
при создании представления, когда представлениеtable не существует. -
[SPARK-46394] Исправление spark.catalog.listDatabases() для устранения проблем с схемами, содержащими специальные символы, когда
spark.sql.legacy.keepCommandOutputSchema
set в true. -
[SPARK-46538] Исправлена неоднозначная проблема со ссылкой column в
ALSModel.transform
. - [SPARK-39440] Добавьте конфигурацию для отключения временной шкалы событий.
- [SPARK-46249] Требовать блокировку экземпляра для получения метрик RocksDB, чтобы предотвратить гонку с фоновыми операциями.
- [SPARK-46132] Поддержка пароля ключа для ключей JKS для ПРОТОКОЛА SSL RPC.
- 14 декабря 2023 г.
- Исправлена проблема, where экранированных символов подчеркивания в операциях getColumns, исходящих из клиентов JDBC или ODBC, обрабатывались неправильно и интерпретировались как подстановочные знаки.
- Обновления системы безопасности операционной системы.
- 29 ноября 2023 г.
- Установите новый пакет,
pyarrow-hotfix
чтобы устранить уязвимость PyArrow RCE. - Исправлена проблема, where экранированных символов подчеркивания в операциях
getColumns
, исходящих от клиентов JDBC или ODBC, были неправильно интерпретированы как подстановочные знаки. - [SPARK-43973] Структурированный пользовательский интерфейс потоковой передачи теперь отображает неудачные запросы.
-
[SPARK-45730] Улучшенные ограничения времени для
ReloadingX509TrustManagerSuite
. -
[SPARK-45544] Встроенная поддержка SSL в
TransportContext
. -
[SPARK-45859] Сделал объекты UDF ленивым
ml.functions
. -
[SPARK-43718] Исправлена возможность null для ключей в
USING
соединениях. -
[SPARK-44846] Удалены сложные выражения группировки после
RemoveRedundantAggregates
. - Обновления системы безопасности операционной системы.
- Установите новый пакет,
- 14 ноября 2023 г.
- Partition фильтры в запросах потоковой передачи Delta Lake отправляются вниз до ограничения скорости, чтобы повысить эффективность использования.
- [SPARK-42205] Удалены сведения о ведении журнала в событиях запуска этапов и задач.
-
[SPARK-45545]
SparkTransportConf
наследуетсяSSLOptions
при создании. - Возврат [SPARK-33861].
-
[SPARK-45541] Добавлен.
SSLFactory
- [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
-
[SPARK-45584] Исправлен сбой выполнения вложенных запросов.
TakeOrderedAndProjectExec
-
[SPARK-45430]
FramelessOffsetWindowFunction
больше не завершается ошибкой, когдаIGNORE NULLS
иoffset > rowCount
. -
[SPARK-45427] Добавлены параметры SSL RPC в
SSLOptions
иSparkTransportConf
. - Обновления системы безопасности операционной системы.
- 24 октября 2023 г.
-
[SPARK-45426] Добавлена поддержка
ReloadingX509TrustManager
. - Прочие исправления.
-
[SPARK-45426] Добавлена поддержка
- 13 октября 2023 г.
- Зависимость Snowflake-jdbc обновлена с 3.13.29 до 3.13.33.
-
[SPARK-45178] Резервное выполнение одного пакета для
Trigger.AvailableNow
неподдерживаемых источников, а не с помощью оболочки. -
[SPARK-45084]
StateOperatorProgress
для использования точного, подходящего количества перестановок partition. - [SPARK-45346] Parquet schema вывод теперь учитывает флаг с учетом регистра при слиянии schema.
- Обновления системы безопасности операционной системы.
- 10 сентября 2023 г.
- Прочие исправления.
- 30 августа 2023 г.
-
[SPARK-44818] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации
taskThread
. -
[SPARK-44871][11.3-13.0] Исправлено
percentile_disc
поведение. - Обновления системы безопасности операционной системы.
-
[SPARK-44818] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации
- 15 августа 2023 г.
-
[SPARK-44485] Оптимизировано
TreeNode.generateTreeString
. - [SPARK-44504] задача обслуживания очищает загруженные providers при ошибке остановки.
-
[SPARK-44464] Исправлено
applyInPandasWithStatePythonRunner
, чтобы выводить строки, которые имеютNull
в качестве первого значения column. - Обновления системы безопасности операционной системы.
-
[SPARK-44485] Оптимизировано
- 27 июля 2023 г.
- Исправлена проблема, where
dbutils.fs.ls()
возвращаласьINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
при вызове пути расположения хранилища, который столкнулся с другим внешним или управляемым расположением хранилища. -
[SPARK-44199]
CacheManager
больше не обновляет ненужныеfileIndex
. - Обновления системы безопасности операционной системы.
- Исправлена проблема, where
- 24 июля 2023 г.
- [SPARK-44136] Исправлена проблема, из-за которой StateManager может get материализованным в исполнителе, а не драйвером в FlatMapGroupsWithStateExec.
- Обновления системы безопасности операционной системы.
- 23 июня 2023 г.
- Обновления системы безопасности операционной системы.
- 15 июня 2023 г.
- Фотонализовано
approx_count_distinct
. - Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
-
[SPARK-43779]
ParseToDate
теперь загружаетсяEvalMode
в основной поток. - [SPARK-40862] Поддержка не агрегированных вложенных запросов в RewriteCorrelatedScalarSubquery
-
[SPARK-43156][SPARK-43098] Расширенный скалярный тест количества
decorrelateInnerQuery
ошибок с отключенным. - [SPARK-43098] Исправлена ошибка COUNT правильности, если скалярный вложенный запрос содержит группу по предложению
- Обновления системы безопасности операционной системы.
- Фотонализовано
- 2 июня 2023 г.
- Средство синтаксического анализа JSON в
failOnUnknownFields
режиме удаляет запись вDROPMALFORMED
режиме и завершается сбоем непосредственно в режимеFAILFAST
. - Повышение производительности добавочных обновлений с помощью
SHALLOW CLONE
Айсберга и Parquet. - Исправлена проблема в автозагрузчике where: различные форматы исходных файлов были несогласованы, когда предоставленные schema не включали выведенные разделы. Эта проблема может привести к непредвиденным сбоям при чтении файлов, у которых отсутствует columns в предполагаемом partitionschema.
- [SPARK-43404]Пропустите повторное использовать SST-файл для той же версии хранилища состояний RocksDB, чтобы избежать ошибки несоответствия идентификаторов.
-
[SPARK-43527] Исправлено
catalog.listCatalogs
в PySpark. -
[SPARK-43413][11.3-13.0] Исправлена
IN
возможность nullqueryListQuery
. - [SPARK-43340] Исправлено отсутствие поля трассировки стека в журналах событий.
- Средство синтаксического анализа JSON в
Databricks Runtime 10.4 LTS
См. Databricks Runtime 10.4 LTS.
- 10 декабря 2024 г.
- Обновления системы безопасности операционной системы.
- 26 ноября 2024 г.
- Обновления системы безопасности операционной системы.
- 5 ноября 2024 г.
- Обновления системы безопасности операционной системы.
- 22 октября 2024 г.
- Обновления системы безопасности операционной системы.
- 10 октября 2024 г.
- Обновления системы безопасности операционной системы.
- 25 сентября 2024 г.
- [SPARK-46601] [CORE] Исправлена ошибка журнала в handleStatusMessage
- [SPARK-49000][SQL] Исправление "select count(distinct 1) from t" where t пустой table путем расширения RewriteDistinctAggregates
- Обновления системы безопасности операционной системы.
- 17 сентября 2024 г.
- Обновления системы безопасности операционной системы.
- 29 августа 2024 г.
- [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
- 14 августа 2024 г.
- [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
- [SPARK-48941][SPARK-48970] Исправление средства записи машинного обучения и средства чтения
- [SPARK-48463][ML] Реализовать поддержку вложенных входных данных в StringIndexer columns
- 1 августа 2024 г.
- [SPARK-48896][SPARK-48909][SPARK-48883] Исправления средства записи машинного обучения backport spark
- Обновления системы безопасности операционной системы.
- 11 июля 2024 г.
- [SPARK-48383][SS] Создание более эффективной ошибки для несовпадений секций в параметре startOffset в Kafka
- Обновления системы безопасности операционной системы.
- 17 июня 2024 г.
- Обновления системы безопасности операционной системы.
- 21 мая 2024 г.
- [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
- Обновления системы безопасности операционной системы.
- 9 мая 2024 г.
- [SPARK-48018][SS] Исправление null groupId, вызывающее ошибку param при вызове KafkaException.couldNotReadOffsetRange
- [SPARK-47973][CORE] Сайт вызова журнала в SparkContext.stop() и более поздних версиях в SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Set nullable правильно обрабатывается на коалесцированных join ключах в полном внешнем объединении с использованием join
- Обновления системы безопасности операционной системы.
- 25 апреля 2024 г.
- Обновления системы безопасности операционной системы.
- 11 апреля 2024 г.
- Обновления системы безопасности операционной системы.
- 1 апреля 2024 г.
- [SPARK-47135][SS] Реализация классов ошибок для исключений потери данных Kafka
- [SPARK-44252][SS] Определите новый класс ошибок и примените для случая where состояние загрузки из DFS завершается сбоем.
- [SPARK-47200][SS] Класс ошибок для ошибки пользовательской функции приемника пакетной службы Foreach
- Возврат "[SPARK-46861][CORE] Избегайте взаимоблокировки в DAGScheduler"
- Обновления системы безопасности операционной системы.
- 14 марта 2024 г.
- [SPARK-47125][SQL] Возвращает значение NULL, если Univocity никогда не активирует синтаксический анализ
- Обновления системы безопасности операционной системы.
- 29 февраля 2024 г.
- Исправлена проблема, where использование локальной коллекции в качестве источника в команде MERGE может привести к тому, что метрика метрики numSourceRows сообщает о двойном правильном количестве строк.
- [SPARK-45582][SS] Убедитесь, что экземпляр хранилища не используется после вызова фиксации в режиме потоковой передачи потоковой передачи
- Обновления системы безопасности операционной системы.
- 13 февраля 2024 г.
- [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
- Обновления системы безопасности операционной системы.
- 31 января 2024 г.
- Обновления системы безопасности операционной системы.
- 25 декабря 2023 г.
- Чтобы избежать повышенной задержки при обмене данными по протоколу TLSv1.3, этот выпуск обслуживания включает исправление для установки JDK 8, чтобы устранить ошибку JDK-8293562.
- [SPARK-46058] Добавьте отдельный флаг для privateKeyPassword.
-
[SPARK-46538] Исправлена неоднозначная проблема со ссылкой column в
ALSModel.transform
. - [SPARK-39440] Добавьте конфигурацию для отключения временной шкалы событий.
- [SPARK-46132] Поддержка пароля ключа для ключей JKS для ПРОТОКОЛА SSL RPC.
- 14 декабря 2023 г.
- Обновления системы безопасности операционной системы.
- 29 ноября 2023 г.
- Установите новый пакет,
pyarrow-hotfix
чтобы устранить уязвимость PyArrow RCE. -
[SPARK-45544] Встроенная поддержка SSL в
TransportContext
. -
[SPARK-45859] Сделал объекты UDF ленивым
ml.functions
. -
[SPARK-43718] Исправлена возможность null для ключей в
USING
соединениях. -
[SPARK-45730] Улучшенные ограничения времени для
ReloadingX509TrustManagerSuite
. - [SPARK-42205] Удалены сведения о ведении журнала в событиях запуска этапов и задач.
-
[SPARK-44846] Удалены сложные выражения группировки после
RemoveRedundantAggregates
. - Обновления системы безопасности операционной системы.
- Установите новый пакет,
- 14 ноября 2023 г.
-
[SPARK-45541] Добавлен.
SSLFactory
-
[SPARK-45545]
SparkTransportConf
наследуетсяSSLOptions
при создании. -
[SPARK-45427] Добавлены параметры SSL RPC в
SSLOptions
иSparkTransportConf
. - [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
-
[SPARK-45584] Исправлен сбой выполнения вложенных запросов.
TakeOrderedAndProjectExec
- Возврат [SPARK-33861].
- Обновления системы безопасности операционной системы.
-
[SPARK-45541] Добавлен.
- 24 октября 2023 г.
-
[SPARK-45426] Добавлена поддержка
ReloadingX509TrustManager
. - Обновления системы безопасности операционной системы.
-
[SPARK-45426] Добавлена поддержка
- 13 октября 2023 г.
-
[SPARK-45084]
StateOperatorProgress
для использования точного, подходящего количества перестановок partition. -
[SPARK-45178] Резервное выполнение одного пакета для
Trigger.AvailableNow
неподдерживаемых источников, а не с помощью оболочки. - Обновления системы безопасности операционной системы.
-
[SPARK-45084]
- 10 сентября 2023 г.
- Прочие исправления.
- 30 августа 2023 г.
-
[SPARK-44818] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации
taskThread
. - Обновления системы безопасности операционной системы.
-
[SPARK-44818] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации
- 15 августа 2023 г.
- [SPARK-44504] задача обслуживания очищает загруженные providers при ошибке остановки.
- [SPARK-43973] Структурированный пользовательский интерфейс потоковой передачи теперь отображается неправильно.
- Обновления системы безопасности операционной системы.
- 23 июня 2023 г.
- Обновления системы безопасности операционной системы.
- 15 июня 2023 г.
- Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
- [SPARK-43098] Исправлена ошибка COUNT правильности, если скалярный вложенный запрос содержит группу по предложению
- [SPARK-40862] Поддержка не агрегированных вложенных запросов в RewriteCorrelatedScalarSubquery
-
[SPARK-43156][SPARK-43098] Расширенный тест скалярного подзапроса с
decorrelateInnerQuery
отключенным. - Обновления системы безопасности операционной системы.
- 2 июня 2023 г.
- Средство синтаксического анализа JSON в
failOnUnknownFields
режиме удаляет запись вDROPMALFORMED
режиме и завершается сбоем непосредственно в режимеFAILFAST
. - Исправлена проблема в синтаксическом анализе данных JSON, чтобы предотвратить
UnknownFieldException
. - Исправлена проблема в автозагрузчике where: различные форматы исходных файлов были несогласованы, когда предоставленные schema не включали выведенные разделы. Эта проблема может привести к непредвиденным сбоям при чтении файлов, у которых отсутствует columns в предполагаемом partitionschema.
- [SPARK-43404] Пропустите повторное использовать SST-файл для той же версии хранилища состояний RocksDB, чтобы избежать ошибки несоответствия идентификаторов.
-
[SPARK-43413] Исправлена
IN
возможность nullqueryListQuery
. - Обновления системы безопасности операционной системы.
- Средство синтаксического анализа JSON в
- 17 мая 2023 г.
- Теперь сканирование Parquet обеспечивает надежную защиту от OOM при сканировании исключительно структурированных файлов путем динамической настройки размера пакета. Метаданные файлов анализируются для предварительного уменьшения размера пакета и снова снижаются при повторных попытках задачи в качестве окончательной сетки безопасности.
-
[SPARK-41520] Разделение
AND_OR
шаблона дерева для разделения иAND
разделенияOR
. -
[SPARK-43190]
ListQuery.childOutput
теперь согласуется со вторичными выходными данными. - Обновления системы безопасности операционной системы.
- 25 апреля 2023 г.
-
[SPARK-42928] Сделайте
resolvePersistentFunction
синхронизированным. - Обновления системы безопасности операционной системы.
-
[SPARK-42928] Сделайте
- 11 апреля 2023 г.
- Исправлена проблема where: автозагрузчик schema может войти в бесконечный цикл ошибок при обнаружении нового column в schema вложенного объекта JSON.
-
[SPARK-42937]
PlanSubqueries
теперь задаетInSubqueryExec#shouldBroadcast
значение true. - [SPARK-42967] Исправление SparkListenerTaskStart.stageAttemptId при запуске задачи после отмены этапа.
- 29 марта 2023 г.
- [SPARK-42668] Перехват исключения при попытке закрыть сжатый поток в HDFSStateStoreProvider
- [SPARK-42635] Исправление ...
- Обновления системы безопасности операционной системы.
- 14 марта 2023 г.
- [SPARK-41162] Исправление анти- и полуцепиjoin для само-join с агрегациями
- [SPARK-33206] Исправление вычисления веса кэша кэша индексов с перетасовками для небольших файлов индексов
-
[SPARK-42484] Улучшено сообщение об ошибке
UnsafeRowUtils
- Прочие исправления.
- 28 февраля 2023 г.
- Создана поддержка column для формата даты гггг-ММ-дд. Это изменение поддерживает partition обрезку для гггг-ММ-дд в виде date_format в созданных columns.
- Теперь пользователи могут читать и записывать Delta tables, требуя Reader версии 3 и Writer версии 7, используя Databricks Runtime 9.1 LTS или более поздней версии. Для достижения успеха, возможности table, перечисленные в протоколе tables, должны поддерживаться текущей версией Databricks Runtime.
- Создана поддержка column для формата даты гггг-ММ-дд. Это изменение поддерживает partition обрезку для гггг-ММ-дд в виде date_format в созданных columns.
- Обновления системы безопасности операционной системы.
- 16 февраля 2023 г.
- [SPARK-30220] Включение вложенных запросов "Существует" или "В" за пределами узла фильтра
- Обновления системы безопасности операционной системы.
- 31 января 2023 г.
- Table типы JDBC tables теперь внешние по умолчанию.
- 18 января 2023 г.
- Соединитель Azure Synapse возвращает более описательное сообщение об ошибке, если имя column содержит недопустимые символы, такие как пробелы или точки с запятой. В таких случаях будет возвращено следующее сообщение:
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
- [SPARK-38277] Очистка пакета записи после фиксации хранилища состояний RocksDB
- [SPARK-41199] Исправлена проблема с метриками при совместном использовании источника потоковой передачи DSv1 и источника потоковой передачи DSv2.
- [SPARK-41198] Исправление метрик в потоковом запросе having источник потоковой передачи CTE и DSv1.
- [SPARK-41339] Закройте и повторно создайте пакет записи RocksDB вместо простой очистки.
- [SPARK-41732] Применение обрезки на основе дерева для правила SessionWindowing.
- Обновления системы безопасности операционной системы.
- Соединитель Azure Synapse возвращает более описательное сообщение об ошибке, если имя column содержит недопустимые символы, такие как пробелы или точки с запятой. В таких случаях будет возвращено следующее сообщение:
- 29 ноября 2022 г.
- Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пробелов:
-
csvignoreleadingwhitespace
, когда set доtrue
, удаляется начальный пробел из values при записи, когдаtempformat
находится в set доCSV
илиCSV GZIP
. Пробелы сохраняются, когда конфигурация от set доfalse
. Значение по умолчанию —true
. -
csvignoretrailingwhitespace
, когда set равноtrue
, удаляет конечный пробел из values во время записи, еслиtempformat
соответствует set илиCSV
либоCSV GZIP
. Пробелы сохраняются, когда конфигурация от set доfalse
. Значение по умолчанию —true
.
-
- Исправлена проблема с синтаксическим разбором JSON в Автозагрузчике, когда все columns оставались в виде строк (
cloudFiles.inferColumnTypes
не были set или set дляfalse
), и JSON содержал вложенные объекты. - Обновления системы безопасности операционной системы.
- Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пробелов:
- 15 ноября 2022 г.
- Обновление Apache commons-text до версии 1.10.0.
-
[SPARK-40646] синтаксический анализ JSON для структур, карт и массивов был исправлен, поэтому, если часть записи не соответствует schema, остальная часть записи по-прежнему может быть правильно проанализирована, а не возвращать значения NULL. Чтобы выбрать улучшенное поведение, set
spark.sql.json.enablePartialResults
true
. Флаг отключен по умолчанию, чтобы сохранить исходное поведение. -
[SPARK-40292] Исправить имена column в функции
arrays_zip
при обращении к массивам из вложенных структур - Обновления системы безопасности операционной системы.
- 1 ноября 2022 г.
- Исправлена проблема, where, если table Delta column с именем
_change_type
, но веб-канал изменений отключен в этом table, данные в этом column неправильно заполняют значение NULL values при запускеMERGE
. - Исправлена проблема с автозагрузчиком where: этот файл можно дублировать в одном микро-пакете, когда включен
allowOverwrites
. - [SPARK-40697] Добавление заполнения на стороне чтения для покрытия внешних файлов данных
- [SPARK-40596] Заполнение объекта ExecutorDecommission сообщениями в ExecutorDecommissionInfo
- Обновления системы безопасности операционной системы.
- Исправлена проблема, where, если table Delta column с именем
- 18 октября 2022 г.
- Обновления системы безопасности операционной системы.
- 5 октября 2022 г.
-
[SPARK-40468] исправить обрезку column в CSV, когда выбрано
_corrupt_record
. - Обновления системы безопасности операционной системы.
-
[SPARK-40468] исправить обрезку column в CSV, когда выбрано
- 22 сентября 2022 г.
- Пользователи могут использовать set spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled
,true
) для повторной активации встроенного списка для Auto Loader на ADLS Gen2. Встроенное описание было ранее отключено из-за проблем с производительностью, но может быть вызвано увеличением затрат на хранение для клиентов. - [SPARK-40315] Добавление hashCode() для литерала ArrayBasedMapData
- [SPARK-40213] Поддержка преобразования значений ASCII для символов Latin-1
- [SPARK-40380] Исправление константного свертывания InvokeLike, чтобы избежать несериализируемых литерала, внедренных в план
- [SPARK-38404] Улучшение разрешения CTE, когда вложенный CTE ссылается на внешний CTE
- [SPARK-40089] Исправление сортировки для некоторых десятичных типов
- [SPARK-39887] RemoveRedundantAliases должен сохранять псевдонимы, которые делают выходные данные узлов проекции уникальными
- Пользователи могут использовать set spark.conf.set(
- 6 сентября 2022 г.
- [SPARK-40235] Используйте прерванную блокировку вместо синхронизированной в Executor.updateDependencies().
- [SPARK-40218] GROUPING SETS должен сохранять структуру columnsгруппировки.
- [SPARK-39976] ArrayIntersect должен правильно обрабатывать значение NULL в левом выражении.
-
[SPARK-40053] Добавление в динамические случаи отмены, для которых требуется
assume
среда выполнения Python. - [SPARK-35542] Исправление: Контейнеризатор создан для нескольких columns с разделением parameters SplitsArray, inputCols и outputCols нельзя загрузить после сохранения.
- [SPARK-40079] Добавьте проверку ввода Imputer InputCols для пустого регистра ввода.
- 24 августа 2022 г.
- [SPARK-39983] Не кэшируйте несериализированные отношения вещания на драйвере.
- [SPARK-39775] Отключить проверку values по умолчанию при анализе схем Avro.
- [SPARK-39962] Применение проекции при пустых атрибутах группы
- [SPARK-37643] Если charVarcharAsString имеет значение true, для запроса предиката типа char следует пропустить правило rpadding.
- Обновления системы безопасности операционной системы.
- 9 августа 2022 г.
- [SPARK-39847] Исправьте состояние гонки в RocksDBLoader.loadLibrary(), если вызывающий поток прерван
- [SPARK-39731] Исправлена проблема в источниках данных CSV и JSON при синтаксическом анализе дат в формате yyMMddd с политикой синтаксического анализа времени CORRECTED.
- Обновления системы безопасности операционной системы.
- 27 июля 2022 г.
- [SPARK-39625] Добавьте Dataset.as(StructType).
-
[SPARK-39689]Поддержка 2-chars
lineSep
в источнике данных CSV. - [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded должно быть потокобезопасно.
- [SPARK-39570] Встроенный table должен поддерживать выражения с псевдонимом.
- [SPARK-39702] Уменьшите затраты на память TransportCipher$EncryptedMessage с помощью общей байтеRawChannel.
- [SPARK-39575] добавить ByteBuffer#rewind послеget ByteBuffer# в AvroDeserializer.
- [SPARK-39476] Отключить Unwrap cast optimize при приведении из Long в Float/Double или из Integer в Float.
- [SPARK-38868] Не распространяйте исключения из предиката фильтра при оптимизации внешних соединений.
- Обновления системы безопасности операционной системы.
- 20 июля 2022 г.
- Результаты операции Delta MERGE согласованы, если источник не детерминирован.
- [SPARK-39355] Single column использует кавычки для создания НеразрешенногоАтрибута.
- [SPARK-39548] CreateView Command с запросом предложения window нажмите неправильную проблему window определения.
- [SPARK-39419] Исправление ArraySort для создания исключения при возврате значения NULL.
- Отключено использование встроенных облачных API-интерфейсов автозагрузчика для перечисления каталогов в Azure.
- Обновления системы безопасности операционной системы.
- 5 июля 2022 г.
- [SPARK-39376] Скрытие повторяющихся columns в расширении подзадач из NATURAL/USING JOIN
- Обновления системы безопасности операционной системы.
- 15 июня 2022 г.
- [SPARK-39283] Исправлена взаимоблокировка между TaskMemoryManager и UnsafeExternalSorter.SpillableIterator.
- [SPARK-39285] Spark не должен проверять имена полей при чтении файлов.
- [SPARK-34096] улучшить производительность для nth_value с пропуском значений NULL над offsetwindow.
-
[SPARK-36718] Исправлена
isExtractOnly
проверка в CollapseProject.
- 2 июня 2022 г.
- [SPARK-39093] Избегайте ошибки компиляции кодегена при делении интервалов в месяц или интервалов в день по целочисленным.
- [SPARK-38990] Избегайте nullPointerException при оценке формата date_trunc/усечения в качестве привязанной ссылки.
- Обновления системы безопасности операционной системы.
- 18 мая 2022 г.
- Устраняет потенциальную утечку встроенной памяти в автозагрузчике.
- [SPARK-38918] Вложенное column обрезание должно отфильтровать атрибуты, которые не относятся к текущему отношения.
- [SPARK-37593] Уменьшите размер страницы по умолчанию, LONG_ARRAY_OFFSET, если используется G1GC и ON_HEAP.
- [SPARK-39084] Исправление df.rdd.isEmpty() с помощью TaskContext для остановки итератора при завершении задачи.
- [SPARK-32268] Добавьте ColumnPruning в injectBloomFilter.
- [SPARK-38974] Фильтр зарегистрированных функций с заданным именем базы данных в функциях list.
- [SPARK-38931] Создайте корневой каталог dfs для RocksDBFileManager с неизвестным количеством ключей на 1-й контрольной точке.
- Обновления системы безопасности операционной системы.
- 19 апреля 2022 г.
- Пакет SDK AWS для Java обновлен с версии 1.11.655 до версии 1.12.1899.
- Исправлена проблема, из-за которой библиотеки с областью записной книжки не работали в заданиях пакетной потоковой передачи.
- [SPARK-38616] Отслеживание текста sql-запроса в Приложении Catalyst TreeNode
- Обновления системы безопасности операционной системы.
- 6 апреля 2022 г.
- Следующие функции SQL Spark теперь доступны в этом выпуске:
-
timestampadd()
иdateadd()
: добавьте длительность времени в указанное единицу в выражение метки времени. -
timestampdiff()
иdatediff()
: вычислите разницу времени между двумя выражениями меток в заданной единице.
-
- Parquet-MR обновлен до версии 1.12.2.
- Улучшена поддержка комплексных схем в файлах Parquet
- [SPARK-38631] Использует реализацию на основе Java для отмены таринга в Utils.unpack.
-
[SPARK-38509][SPARK-38481] Вишни выбрать три
timestmapadd/diff
изменения. - [SPARK-38523] Исправление, ссылающееся на поврежденную запись column из CSV.
-
[SPARK-38237] Разрешить
ClusteredDistribution
требовать полные ключи кластеризации. - [SPARK-38437] Сериализация даты и времени из источника данных.
- [SPARK-38180] Разрешить безопасные выражения приведения в коррелированных предикатых равенства.
- [SPARK-38155] Запретить отдельные агрегаты в боковом вложенных запросах с неподдерживаемые предикаты.
- Обновления системы безопасности операционной системы.
- Следующие функции SQL Spark теперь доступны в этом выпуске:
Databricks Runtime 9.1 LTS
См. Databricks Runtime 9.1 LTS.
- 10 декабря 2024 г.
- Обновления системы безопасности операционной системы.
- 26 ноября 2024 г.
- Обновления системы безопасности операционной системы.
- 5 ноября 2024 г.
- Обновления системы безопасности операционной системы.
- 22 октября 2024 г.
- Обновления системы безопасности операционной системы.
- 10 октября 2024 г.
- Обновления системы безопасности операционной системы.
- 25 сентября 2024 г.
- [SPARK-49000][SQL] Исправление "select count(distinct 1) from t" where t пустой table путем расширения RewriteDistinctAggregates
- Обновления системы безопасности операционной системы.
- 6 сентября 2024 г.
- Обновления системы безопасности операционной системы.
- 29 августа 2024 г.
- [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
- 14 августа 2024 г.
- 1 августа 2024 г.
- Обновления системы безопасности операционной системы.
- 11 июля 2024 г.
- Обновления системы безопасности операционной системы.
- 17 июня 2024 г.
- Обновления системы безопасности операционной системы.
- 21 мая 2024 г.
- [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
- Обновления системы безопасности операционной системы.
- 9 мая 2024 г.
- [SPARK-47973][CORE] Сайт вызова журнала в SparkContext.stop() и более поздних версиях в SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Set nullable правильно обрабатывается на коалесцированных join ключах в полном внешнем объединении с использованием join
- Обновления системы безопасности операционной системы.
- 25 апреля 2024 г.
- Прочие исправления ошибок.
- 11 апреля 2024 г.
- Обновления системы безопасности операционной системы.
- 1 апреля 2024 г.
- Возврат "[SPARK-46861][CORE] Избегайте взаимоблокировки в DAGScheduler"
- Обновления системы безопасности операционной системы.
- 14 марта 2024 г.
- Обновления системы безопасности операционной системы.
- 29 февраля 2024 г.
- Исправлена проблема, where использование локальной коллекции в качестве источника в команде MERGE может привести к тому, что метрика метрики numSourceRows сообщает о двойном правильном количестве строк.
- Обновления системы безопасности операционной системы.
- 13 февраля 2024 г.
- [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
- Обновления системы безопасности операционной системы.
- 31 января 2024 г.
- Обновления системы безопасности операционной системы.
- 25 декабря 2023 г.
- Чтобы избежать повышенной задержки при обмене данными по протоколу TLSv1.3, этот выпуск обслуживания включает исправление для установки JDK 8, чтобы устранить ошибку JDK-8293562.
- [SPARK-46058] Добавьте отдельный флаг для privateKeyPassword.
- [SPARK-39440] Добавьте конфигурацию для отключения временной шкалы событий.
- [SPARK-46132] Поддержка пароля ключа для ключей JKS для ПРОТОКОЛА SSL RPC.
- 14 декабря 2023 г.
- Обновления системы безопасности операционной системы.
- 29 ноября 2023 г.
- Установите новый пакет,
pyarrow-hotfix
чтобы устранить уязвимость PyArrow RCE. -
[SPARK-45859] Сделал объекты UDF ленивым
ml.functions
. -
[SPARK-45544] Встроенная поддержка SSL в
TransportContext
. -
[SPARK-45730] Улучшенные ограничения времени для
ReloadingX509TrustManagerSuite
. - Обновления системы безопасности операционной системы.
- Установите новый пакет,
- 14 ноября 2023 г.
-
[SPARK-45545]
SparkTransportConf
наследуетсяSSLOptions
при создании. - [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
-
[SPARK-45427] Добавлены параметры SSL RPC в
SSLOptions
иSparkTransportConf
. -
[SPARK-45584] Исправлен сбой выполнения вложенных запросов.
TakeOrderedAndProjectExec
-
[SPARK-45541] Добавлен.
SSLFactory
- [SPARK-42205] Удалены сведения о ведении журнала в событиях запуска этапов и задач.
- Обновления системы безопасности операционной системы.
-
[SPARK-45545]
- 24 октября 2023 г.
-
[SPARK-45426] Добавлена поддержка
ReloadingX509TrustManager
. - Обновления системы безопасности операционной системы.
-
[SPARK-45426] Добавлена поддержка
- 13 октября 2023 г.
- Обновления системы безопасности операционной системы.
- 10 сентября 2023 г.
- Прочие исправления.
- 30 августа 2023 г.
- Обновления системы безопасности операционной системы.
- 15 августа 2023 г.
- Обновления системы безопасности операционной системы.
- 23 июня 2023 г.
- Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
- Обновления системы безопасности операционной системы.
- 15 июня 2023 г.
- [SPARK-43098] Исправьте ошибку COUNT правильности, если скалярный вложенный запрос содержит группу по предложению.
-
[SPARK-43156][SPARK-43098] Расширение скалярного теста количества ошибок счетчика ошибок с
decorrelateInnerQuery
отключенным. - [SPARK-40862] Поддержка не агрегированных вложенных запросов в RewriteCorrelatedScalarSubquery.
- Обновления системы безопасности операционной системы.
- 2 июня 2023 г.
- Средство синтаксического анализа JSON в
failOnUnknownFields
режиме удаляет запись вDROPMALFORMED
режиме и завершается сбоем непосредственно в режимеFAILFAST
. - Исправлена проблема в синтаксическом анализе данных JSON, чтобы предотвратить
UnknownFieldException
. - Исправлена проблема в автозагрузчике where: различные форматы исходных файлов были несогласованы, когда предоставленные schema не включали выведенные разделы. Эта проблема может привести к непредвиденным сбоям при чтении файлов, у которых отсутствует columns в предполагаемом partitionschema.
-
[SPARK-37520]
startswith()
Добавление функций иendswith()
строковых функций -
[SPARK-43413] Исправлена
IN
возможность nullqueryListQuery
. - Обновления системы безопасности операционной системы.
- Средство синтаксического анализа JSON в
- 17 мая 2023 г.
- Обновления системы безопасности операционной системы.
- 25 апреля 2023 г.
- Обновления системы безопасности операционной системы.
- 11 апреля 2023 г.
- Исправлена проблема where: автозагрузчик schema может войти в бесконечный цикл ошибок при обнаружении нового column в schema вложенного объекта JSON.
- [SPARK-42967] Исправление SparkListenerTaskStart.stageAttemptId при запуске задачи после отмены этапа.
- 29 марта 2023 г.
- Обновления системы безопасности операционной системы.
- 14 марта 2023 г.
-
[SPARK-42484] Улучшено сообщение об ошибке для
UnsafeRowUtils
. - Прочие исправления.
-
[SPARK-42484] Улучшено сообщение об ошибке для
- 28 февраля 2023 г.
- Теперь пользователи могут читать и записывать Delta tables, требуя Reader версии 3 и Writer версии 7, используя Databricks Runtime 9.1 LTS или более поздней версии. Для достижения успеха, возможности table, перечисленные в протоколе tables, должны поддерживаться текущей версией Databricks Runtime.
- Обновления системы безопасности операционной системы.
- 16 февраля 2023 г.
- Обновления системы безопасности операционной системы.
- 31 января 2023 г.
- Table типы JDBC tables теперь внешние по умолчанию.
- 18 января 2023 г.
- Обновления системы безопасности операционной системы.
- 29 ноября 2022 г.
- Исправлена проблема с синтаксическим разбором JSON в Автозагрузчике, когда все columns оставались в виде строк (
cloudFiles.inferColumnTypes
не были set или set дляfalse
), и JSON содержал вложенные объекты. - Обновления системы безопасности операционной системы.
- Исправлена проблема с синтаксическим разбором JSON в Автозагрузчике, когда все columns оставались в виде строк (
- 15 ноября 2022 г.
- Обновление Apache commons-text до версии 1.10.0.
- Обновления системы безопасности операционной системы.
- Прочие исправления.
- 1 ноября 2022 г.
- Исправлена проблема, where, если table Delta column с именем
_change_type
, но веб-канал изменений отключен в этом table, данные в этом column неправильно заполняют значение NULL values при запускеMERGE
. - Исправлена проблема с автозагрузчиком where: этот файл можно дублировать в одном микро-пакете, когда включен
allowOverwrites
. - [SPARK-40596] Заполнение объекта ExecutorDecommission сообщениями в ExecutorDecommissionInfo
- Обновления системы безопасности операционной системы.
- Исправлена проблема, where, если table Delta column с именем
- 18 октября 2022 г.
- Обновления системы безопасности операционной системы.
- 5 октября 2022 г.
- Прочие исправления.
- Обновления системы безопасности операционной системы.
- 22 сентября 2022 г.
- Пользователи могут set spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") для повторного включения встроенного перечисления для автозагрузчика на ADLS Gen2. Встроенное описание было ранее отключено из-за проблем с производительностью, но может быть вызвано увеличением затрат на хранение для клиентов.
- [SPARK-40315] Добавление hashCode() для литерала ArrayBasedMapData
- [SPARK-40089] Исправление сортировки для некоторых десятичных типов
- [SPARK-39887] RemoveRedundantAliases должен сохранять псевдонимы, которые делают выходные данные узлов проекции уникальными
- 6 сентября 2022 г.
- [SPARK-40235] Используйте прерванную блокировку вместо синхронизированной в Executor.updateDependencies()
- [SPARK-35542] Исправление: контейнеризатор, созданный для нескольких columns с разделением parameters SplitsArray, inputCols и outputCols невозможно загрузить после сохранения.
- [SPARK-40079] Добавление проверки ввода Imputer InputCols для пустого регистра ввода
- 24 августа 2022 г.
-
[SPARK-39666] Использование unsafeProjection.create для уважения
spark.sql.codegen.factoryMode
в ExpressionEncoder - [SPARK-39962] Применение проекции при пустых атрибутах группы
- Обновления системы безопасности операционной системы.
-
[SPARK-39666] Использование unsafeProjection.create для уважения
- 9 августа 2022 г.
- Обновления системы безопасности операционной системы.
- 27 июля 2022 г.
- Результаты операции Delta MERGE согласованы, если источник не детерминирован.
-
[SPARK-39689] Поддержка 2-chars в источнике
lineSep
данных CSV -
[SPARK-39575] Добавлено
ByteBuffer#rewind
послеByteBuffer#get
этого вAvroDeserializer
. - [SPARK-37392] Исправлена ошибка производительности для оптимизатора катализатора.
- Обновления системы безопасности операционной системы.
- 13 июля 2022 г.
-
[SPARK-39419]
ArraySort
создает исключение, когда средство сравнения возвращает значение NULL. - Отключено использование встроенных облачных API-интерфейсов автозагрузчика для перечисления каталогов в Azure.
- Обновления системы безопасности операционной системы.
-
[SPARK-39419]
- 5 июля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления.
- 15 июня 2022 г.
-
[SPARK-39283] Исправлена взаимоблокировка между
TaskMemoryManager
иUnsafeExternalSorter.SpillableIterator
.
-
[SPARK-39283] Исправлена взаимоблокировка между
- 2 июня 2022 г.
-
[SPARK-34554]
copy()
Реализуйте метод вColumnarMap
. - Обновления системы безопасности операционной системы.
-
[SPARK-34554]
- 18 мая 2022 г.
- Исправлена потенциальная утечка встроенной памяти в автозагрузчике.
- Версия пакета SDK AWS обновлена с 1.11.655 до 1.11.678.
- [SPARK-38918] Вложенное column устранение должно отфильтровывать атрибуты, которые не относятся к текущему соотношению
-
[SPARK-39084] Исправление
df.rdd.isEmpty()
с помощьюTaskContext
итератора при завершении задачи - Обновления системы безопасности операционной системы.
- 19 апреля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления.
- 6 апреля 2022 г.
- [SPARK-38631] Использует реализацию на основе Java для отмены таринга в Utils.unpack.
- Обновления системы безопасности операционной системы.
- 22 марта 2022 г.
- Изменен текущий рабочий каталог записных книжек в кластерах высокой параллельности с включенным управлением доступом table или сквозной передачей учетных данных на домашний каталог пользователя. Ранее active directory был
/databricks/driver
. - [SPARK-38437] Сериализация даты и времени из источника данных
- [SPARK-38180] Разрешить безопасные выражения приведения в коррелированных предикатах равенства
- [SPARK-38155] Запретить отдельный агрегат в боковом вложенных запросах с неподдерживаемые предикаты
- [SPARK-27442] Удалено поле проверки при чтении или записи данных в паркете.
- Изменен текущий рабочий каталог записных книжек в кластерах высокой параллельности с включенным управлением доступом table или сквозной передачей учетных данных на домашний каталог пользователя. Ранее active directory был
- 14 марта 2022 г.
- [SPARK-38236] Абсолютные пути к файлам, указанным в table создания и изменения, рассматриваются как относительные
-
[SPARK-34069] поток задач прерывания, если локальное свойство
SPARK_JOB_INTERRUPT_ON_CANCEL
set значение true.
- 23 февраля 2022 г.
- [SPARK-37859] SQL tables, созданных с помощью JDBC с Spark 3.1, недоступны для чтения с помощью Spark 3.2.
- 8 февраля 2022 г.
- [SPARK-27442] Удалено поле проверки при чтении или записи данных в паркете.
- Обновления системы безопасности операционной системы.
- 1 февраля 2022 г.
- Обновления системы безопасности операционной системы.
- 26 января 2022 г.
- Исправлена проблема, при которой where параллельных транзакций в Delta tables могли фиксироваться в несериализуемом порядке при определенных редких условиях.
- Исправлена проблема, where команда
OPTIMIZE
может завершиться ошибкой при включении диалекта SQL ANSI.
- 19 января 2022 г.
- Незначительные исправления и улучшения безопасности.
- Обновления системы безопасности операционной системы.
- 4 ноября 2021 г.
- Исправлена проблема, из-за которой структурированные потоки потоковой передачи завершаются ошибкой
ArrayIndexOutOfBoundsException
. - Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: No FileSystem for scheme
, или привести к тому, что изменения вsparkContext.hadoopConfiguration
не вступят в силу в запросах. - Соединитель Apache Spark для разностного доступа был обновлен до 0.2.0.
- Исправлена проблема, из-за которой структурированные потоки потоковой передачи завершаются ошибкой
- 20 октября 2021 г.
- Обновлен соединитель BigQuery с версии 0.18.1 до версии 0.22.2. Это добавляет поддержку типа BigNumeric.