Обновления Databricks Runtime для технического обслуживания
В этой статье перечислены обновления обслуживания для поддерживаемых версий среды выполнения Databricks. Чтобы добавить обновление обслуживания в существующий кластер, перезапустите кластер. Обновления обслуживания для неподдерживаемых версий среды выполнения Databricks см. в разделе "Обновления обслуживания" для Databricks Runtime (архивно).
Примечание.
Выпуски являются поэтапными. Учетная запись Azure Databricks может не обновляться через несколько дней после начальной даты выпуска.
Выпуски Databricks Runtime
Обновления обслуживания по версиям:
- Databricks Runtime 16.2
- Databricks Runtime 16.1
- Databricks Runtime 16.0
- Databricks Runtime 15.4
- Databricks Runtime 14.3
- Databricks Runtime 14.1
- Databricks Runtime 13.3 LTS
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS
- Databricks Runtime 9.1 LTS
Databricks Runtime 16.2
- 5 февраля 2025 г.
- Этот выпуск включает исправление проблемы, влияющей на преобразование определенных типов данных при сериализации спасенных столбцов XML-данных. Затронутые типы данных — даты, метки времени, отличные от NTZ, и десятичные знаки при включении
prefersDecimal
. Дополнительные сведения о спасаемом столбце данных см. в статье Что такое столбец спасенных данных?. - [SPARK-50770][SS] Удаление области пакета для API-интерфейсов операторов transformWithState
- Обновления системы безопасности операционной системы.
- Этот выпуск включает исправление проблемы, влияющей на преобразование определенных типов данных при сериализации спасенных столбцов XML-данных. Затронутые типы данных — даты, метки времени, отличные от NTZ, и десятичные знаки при включении
Databricks Runtime 16.1
- 11 февраля 2025 г.
- Этот выпуск включает исправление проблемы, влияющей на преобразование определенных типов данных при сериализации спасенных столбцов XML-данных. Затронутые типы данных — даты, метки времени, отличные от NTZ, и десятичные знаки при включении
prefersDecimal
. Дополнительные сведения о спасаемом столбце данных см. в статье Что такое столбец спасенных данных?. - [SPARK-50492][SS] Исправление java.util.NoSuchElementException при удалении столбца времени события после использования функции *dropDuplicatesWithinWatermark*
- Обновления системы безопасности операционной системы.
- Этот выпуск включает исправление проблемы, влияющей на преобразование определенных типов данных при сериализации спасенных столбцов XML-данных. Затронутые типы данных — даты, метки времени, отличные от NTZ, и десятичные знаки при включении
- 27 ноября 2024 г.
- Этот выпуск включает исправление проблемы, которая может привести к тому, что первичный ключ в таблице Delta будет удален при определенных крайних случаях, связанных с фоновым автоматическим сжатием.
- Этот выпуск включает исправление проблемы, влияющей на преобразование определенных типов данных при сериализации спасенных столбцов XML-данных. Затронутые типы данных — даты, метки времени, отличные от NTZ, и десятичные знаки при включении
prefersDecimal
. Дополнительные сведения о спасаемом столбце данных см. в статье Что такое столбец спасенных данных?. - В этом выпуске размер кэша, используемый SSD в вычислительном узле Databricks, динамически расширяется до начального размера SSD и уменьшается при необходимости до предела
spark.databricks.io.cache.maxDiskUsage
. См. раздел Оптимизация производительности с кэшированием в Azure Databricks. - [SPARK-50338][CORE] Сделать исключения LazyTry менее подробными
- Обновления системы безопасности операционной системы.
Databricks Runtime 16.0
- 11 февраля 2025 г.
- Этот выпуск включает исправление проблемы, влияющей на преобразование определенных типов данных при сериализации спасенных столбцов XML-данных. Затронутые типы данных — даты, метки времени, отличные от NTZ, и десятичные знаки при включении
prefersDecimal
. Дополнительные сведения о спасаемом столбце данных см. в статье Что такое столбец спасенных данных?. -
[SPARK-50705][SQL] Сделать
QueryPlan
без блокировки - [SPARK-50492][SS] Исправление java.util.NoSuchElementException при удалении столбца времени события после применения функции dropDuplicatesWithinWatermark
- Обновления системы безопасности операционной системы.
- Этот выпуск включает исправление проблемы, влияющей на преобразование определенных типов данных при сериализации спасенных столбцов XML-данных. Затронутые типы данных — даты, метки времени, отличные от NTZ, и десятичные знаки при включении
- 4 декабря 2024 г.
- Оператор
USE CATALOG
теперь поддерживает клаузуIDENTIFIER
. С помощью этой поддержки можно параметризовать текущий каталог на основе строковой переменной или маркера параметров. - Этот выпуск включает исправление проблемы, которая может привести к тому, что первичный ключ в таблице Delta будет удален при определенных крайних случаях, связанных с фоновым автоматическим сжатием.
- В этом выпуске размер кэша, используемый SSD в вычислительном узле Databricks, динамически расширяется до начального размера SSD и уменьшается при необходимости до предела
spark.databricks.io.cache.maxDiskUsage
. См. раздел Оптимизация производительности с кэшированием в Azure Databricks. - [SPARK-50322][SQL] Исправлен параметризованный идентификатор в подзапросе
-
[SPARK-50034][CORE] Исправление неверного представления фатальных ошибок как необработанных исключений в
SparkUncaughtExceptionHandler
- [SPARK-47435][SQL] Исправлена проблема переполнения MySQL UNSIGNED TINYINT
- [SPARK-49757][SQL] Поддержка выражения IDENTIFIER в инструкции SETCATALOG
- [SPARK-50426][PYTHON] Не выполняйте поиск статических источников данных Python при использовании встроенных или Java источников данных
- [SPARK-50338][CORE] Сделать исключения LazyTry менее подробными
- Обновления системы безопасности операционной системы.
- Оператор
- 10 декабря 2024 г.
- (Критические изменения) В Databricks Runtime 15.4 и более поздних версиях обработка регулярных выражений в Photon обновляется, чтобы соответствовать поведению обработки регулярных выражений Apache Spark. Ранее функции регулярного выражения, выполняемые Photon, такие как
split()
иregexp_extract()
, приняли некоторые регулярные выражения, отклоненные средством синтаксического анализа Spark. Чтобы обеспечить согласованность с Apache Spark, запросы Photon теперь завершаются ошибкой для регулярных выражений, которые Spark считает недопустимыми. Из-за этого изменения могут возникнуть ошибки, если код Spark содержит недопустимые регулярные выражения. Например, выражениеsplit(str_col, '{')
, содержащее несоответствующую фигурную скобку и ранее принимавшееся Фотоном, теперь вызывает ошибку. Чтобы исправить это выражение, можно экранировать символ фигурной скобки:split(str_col, '\\{')
. Поведение фотона и Spark также отличается для некоторых регулярных выражений, соответствующих символам, отличным от ASCII. Это также обновляется так, чтобы Фотон соответствовал поведению Apache Spark. - В этом выпуске теперь можно запросить функцию
vector_search
с помощьюquery_text
для ввода текста илиquery_vector
для внедрения входных данных. - Теперь можно задать время ожидания для запросов Spark Connect с помощью свойства конфигурации Spark
spark.databricks.execution.timeout
. Для записных книжек, работающих на бессерверных вычислениях, значение по умолчанию —9000
(секунды). Задания, выполняемые на бессерверных вычислениях и вычислениях с стандартным режимом доступа, не имеют времени ожидания, если это свойство конфигурации не задано. Выполнение, которое длится дольше указанного времени ожидания, приводит к ошибкеQUERY_EXECUTION_TIMEOUT_EXCEEDED
. - [SPARK-49843][SQL] Исправление изменений в комментариях столбцов char/varchar
-
[SPARK-49924][SQL] Сохранить
containsNull
после заменыArrayCompact
- [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенный атрибут с выводом дочерних элементов
- [SPARK-48780][SQL] Сделать ошибки в NamedParametersSupport обобщенными для обработки функций и процедур
- [SPARK-49876][CONNECT] Избавиться от глобальных блокировок из службы Spark Connect
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с состоянием, чтобы предотвратить изменение перераспределения данных из AQE
- [SPARK-49615] Исправление ошибки: проверка схемы столбца в машинном обучении теперь соответствует конфигурации Spark для чувствительности к регистру (spark.sql.caseSensitive)
- [SPARK-48782][SQL] Добавление поддержки выполнения процедур в каталогах
- [SPARK-49863][SQL] Исправление нормализации плавающих чисел для сохранения null-значения во вложенных структурах
- [SPARK-49829] Пересмотреть оптимизацию добавления входных данных в хранилище состояний в потоковом соединении для исправления правильности.
- Возврат "[SPARK-49002][SQL] Последовательно обрабатывают недопустимые расположения в WAREHOUSE/SCHEMA/TABLE/PARTITION/DIRECTORY
- [SPARK-50028][CONNECT] Заменить глобальные блокировки в прослушивателе сервера Spark Connect мелкозернистыми блокировками
- [SPARK-49615] [ML] Сделать так, чтобы все преобразователи признаков ML соответствовали валидации схемы набора данных, согласно конфигурации spark.sql.caseSensitive.
- [SPARK-50124][SQL] LIMIT/OFFSET должны сохранять порядок данных
- Обновления системы безопасности операционной системы.
- (Критические изменения) В Databricks Runtime 15.4 и более поздних версиях обработка регулярных выражений в Photon обновляется, чтобы соответствовать поведению обработки регулярных выражений Apache Spark. Ранее функции регулярного выражения, выполняемые Photon, такие как
Databricks Runtime 15.4
См. раздел Databricks Runtime 15.4 LTS.
- 11 февраля 2025 г.
- Этот выпуск включает исправление проблемы, влияющей на преобразование определенных типов данных при сериализации спасенных столбцов XML-данных. Затронутые типы данных — даты, метки времени, отличные от NTZ, и десятичные знаки при включении
prefersDecimal
. Дополнительные сведения о спасаемом столбце данных см. в статье Что такое столбец спасенных данных?. - [SPARK-50492][SS] Исправление java.util.NoSuchElementException при удалении столбца времени события после вызова dropDuplicatesWithinWatermark
- Обновления системы безопасности операционной системы.
- Этот выпуск включает исправление проблемы, влияющей на преобразование определенных типов данных при сериализации спасенных столбцов XML-данных. Затронутые типы данных — даты, метки времени, отличные от NTZ, и десятичные знаки при включении
- 10 декабря 2024 г.
- Оператор
USE CATALOG
теперь поддерживает конструкциюIDENTIFIER
. С помощью этой поддержки можно параметризовать текущий каталог на основе строковой переменной или маркера параметров. - Этот релиз включает исправление проблемы, которая может привести к тому, что первичный ключ в таблице Delta будет удален в некоторых пограничных случаях, связанных с фоновым автоматическим объединением.
- В этом выпуске размер кэша, используемый SSD в вычислительном узле Databricks, динамически расширяется до начального размера SSD и уменьшается при необходимости до предела
spark.databricks.io.cache.maxDiskUsage
. См. раздел Оптимизация производительности с кэшированием в Azure Databricks. - Пакет pyodbc обновляется с версии 4.0.38 до версии 4.0.39. Это изменение необходимо, так как ошибка была обнаружена в версии 4.0.38 и была удалена из PyPI.
- [SPARK-50329][SQL] исправить метод InSet$toString
- [SPARK-47435][SQL] Исправлена проблема переполнения MySQL UNSIGNED TINYINT
- [SPARK-49757][SQL] Поддержка выражения IDENTIFIER в инструкции SETCATALOG
- [SPARK-50426][PYTHON] Не выполняйте поиск статических источников данных Python при использовании встроенных или Java источников данных
- [SPARK-48863][SQL] Исправление ClassCastException при анализе JSON с включенным параметром "spark.sql.json.enablePartialResults"
- [SPARK-50310][PYTHON] Добавьте флаг для отключения DataFrameQueryContext для PySpark
- [15.3-15.4] [SPARK-50034][CORE] Исправьте неправильное отображение неустранимых ошибок в
SparkUncaughtExceptionHandler
- Обновления системы безопасности операционной системы.
- Оператор
- 26 ноября 2024 г.
- В этом выпуске теперь можно запросить функцию
vector_search
с помощьюquery_text
для ввода текста илиquery_vector
для внедрения входных данных. - Теперь можно задать время ожидания для запросов Spark Connect с помощью свойства конфигурации Spark
spark.databricks.execution.timeout
. Для записных книжек, работающих на бессерверных вычислениях, значение по умолчанию —9000
(секунды). Задания, выполняемые на бессерверных вычислениях и вычислениях с стандартным режимом доступа, не имеют времени ожидания, если это свойство конфигурации не задано. Выполнение, которое длится дольше указанного времени ожидания, приводит к ошибкеQUERY_EXECUTION_TIMEOUT_EXCEEDED
. - [SPARK-50322][SQL] Исправлен параметризованный идентификатор в подзапросе
- [SPARK-49615] [ML] Сделать так, чтобы валидация схемы набора данных для всех преобразователей признаков в ML соответствовала настройке "spark.sql.caseSensitive".
- [SPARK-50124][SQL] LIMIT/OFFSET должны сохранять порядок данных
- Обновления системы безопасности операционной системы.
- В этом выпуске теперь можно запросить функцию
- 5 ноября 2024 г.
- (Критические изменения) В Databricks Runtime 15.4 и более поздних версиях обработка регулярных выражений в Photon обновляется, чтобы соответствовать поведению обработки регулярных выражений Apache Spark. Ранее функции регулярного выражения, выполняемые Photon, такие как
split()
иregexp_extract()
, приняли некоторые регулярные выражения, отклоненные средством синтаксического анализа Spark. Чтобы обеспечить согласованность с Apache Spark, запросы Photon теперь завершаются ошибкой для регулярных выражений, которые Spark считает недопустимыми. Из-за этого изменения могут возникнуть ошибки, если код Spark содержит недопустимые регулярные выражения. Например, выражениеsplit(str_col, '{')
, содержащее несогласованную скобку и ранее принимавшееся Фотоном, теперь не проходит. Чтобы исправить это выражение, можно экранировать символ фигурной скобки:split(str_col, '\\{')
. Поведение фотона и Spark также отличается для некоторых регулярных выражений, соответствующих символам, отличным от ASCII. Это также обновляется так, чтобы Фотон соответствовал поведению Apache Spark. - [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенный атрибут с дочерним выходом
- [SPARK-49867][SQL] Улучшить сообщение об ошибке при выходе индекса за пределы при вызове GetColumnByOrdinal
- [SPARK-49863][SQL] Исправление функции NormalizeFloatingNumbers для сохранения нулевой допустимости вложенных структур
- [SPARK-49829] Пересмотреть оптимизацию добавления данных в хранилище состояний в потоковом соединении для исправления ошибок.
- [SPARK-49905] Используйте выделенный ShuffleOrigin для состояния оператора, чтобы предотвратить изменения перетасовки в результате AQE
- [SPARK-46632][SQL] Исправлено устранение подвыражений, когда эквивалентные тернарные выражения имеют различные дочерние.
- [SPARK-49443][SQL][PYTHON] Реализация выражения to_variant_object и модификация выражений schema_of_variant для отображения "OBJECT" для объектов типа Variant.
-
[SPARK-49615] Исправление ошибки: проверка схемы столбца машинного обучения должна быть обеспечена в соответствии с конфигурацией Spark
spark.sql.caseSensitive
.
- (Критические изменения) В Databricks Runtime 15.4 и более поздних версиях обработка регулярных выражений в Photon обновляется, чтобы соответствовать поведению обработки регулярных выражений Apache Spark. Ранее функции регулярного выражения, выполняемые Photon, такие как
- 22 октября 2024 г.
- [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешённый атрибут с выходом дочернего элемента.
- [SPARK-49867][SQL] Улучшить ошибку, когда индекс выходит за границы при вызове GetColumnByOrdinal
- [SPARK-49863][SQL] Исправление нормализации числовых значений для сохранения свойств nullability вложенных структур.
- [SPARK-49829] Пересмотреть подход к оптимизации добавления входных данных в хранилище состояний в потоковом соединении для исправления ошибок.
- [SPARK-49905] Используйте специальный ShuffleOrigin для оператора с состоянием, чтобы предотвратить изменение перемешивания в рамках AQE.
- [SPARK-46632][SQL] Исправлено устранение подвыражений, когда эквивалентные тернарные выражения имеют разные дочерние элементы.
- [SPARK-49443][SQL][PYTHON] Реализация выражения to_variant_object и настройка выражений schema_of_variant для вывода OBJECT для объектов Variant.
-
[SPARK-49615] Исправление ошибки: проверка схемы столбца машинного обучения должна соответствовать
spark.sql.caseSensitive
конфигурации Spark.
- 10 октября 2024 г.
- [SPARK-49743][SQL] OptimizeCsvJsonExpr не должно изменять поля схемы при выполнении очистки GetArrayStructFields
- [SPARK-496888][CONNECT] Исправлена гонка данных между прерыванием и планом выполнения
- [BACKPORT] [SPARK-49474][SS] Классифицировать класс ошибки для ошибки функции пользователя в FlatMapGroupsWithState
- [SPARK-49460][SQL] Дальнейшие действия. Исправление потенциального риска NPE
- 25 сентября 2024 г.
- [SPARK-49628][SQL] ConstantFolding должен копировать изменяющееся выражение перед вычислением
- [SPARK-49000][SQL] Исправить "select count(distinct 1) from t", где t пустая таблица, с помощью расширения RewriteDistinctAggregates
- [SPARK-49492][CONNECT] Повторная попытка переподключения на неактивный ExecutionHolder
- [SPARK-49458][CONNECT][PYTHON] Укажите идентификатор сеанса на стороне сервера с помощью ReattachExecute
- [SPARK-49017][SQL] Оператор Insert вызывает ошибку при использовании нескольких параметров
- [SPARK-49451] Разрешить повторяющиеся ключи в parse_json.
- Прочие исправления ошибок.
- 17 сентября 2024 г.
- [SPARK-48463][ML] Сделать Binarizer, Bucketizer, Vector Assembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor поддерживающими вложенные входные столбцы
- [SPARK-49409][CONNECT] Корректировка значения по умолчанию CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-49526][CONNECT][HOTFIX-15.4.2] Поддержка путей в стиле Windows в ArtifactManager
- Отменить изменения "[SPARK-48482][PYTHON] dropDuplicates и dropDuplicatesWIthinWatermark должны принимать аргументы переменной длины".
- [SPARK-43242][CORE] Исправление выдачи "Непредвиденный тип BlockId" при диагностике повреждения при перемешивании
- [SPARK-49366][CONNECT] Рассматривать узел Union как листовой в разрешении столбцов датафрейма
- [SPARK-49018][SQL] Исправление некорректной работы approx_count_distinct с параметрами сортировки
-
[SPARK-49460][SQL] Удалить
cleanupResource()
из EmptyRelationExec - [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
- [SPARK-49336][CONNECT] Ограничить уровень вложения при усечении сообщения Protobuf
- 29 августа 2024 г.
- Выходные данные из инструкции
SHOW CREATE TABLE
теперь включают любые фильтры строк или маски столбцов, определенные в материализованном представлении или потоковой таблице. См. SHOW CREATE TABLE. Дополнительные сведения о фильтрах строк и масках столбцов см. в статье Фильтрация конфиденциальных данных таблицы с помощью фильтров строк и маски столбцов. - При вычислительных процессах, настроенных в режиме общего доступа, пакетное чтение и запись в Kafka теперь имеют такие же ограничения, как и задокументированные для структурированной потоковой передачи. См. ограничения потоковой передачи и требования к стандартному режиму доступа каталога Unity.
- [SPARK-48941][SPARK-48970] Исправления средств записи и чтения для машинного обучения
-
[SPARK-49074][SQL] Исправление варианта с помощью
df.cache()
- [SPARK-49263][CONNECT] Клиент Python Spark Connect: последовательно обрабатывать логические опции чтения DataFrame
- [SPARK-48955][SQL] Включение изменений ArrayCompact в версии 15.4
- [SPARK-48937][SQL] Добавление поддержки сортировки для строковых выражений StringToMap
- [SPARK-48929] Исправление внутренней ошибки представления и очистка контекста исключения парсера
- [SPARK-49125][SQL] Разрешить повторяющиеся имена столбцов в csv-записи
- [SPARK-48934][SS] Типы даты и времени Python преобразуются неправильно для настройки времени ожидания в applyInPandasWithState
- [SPARK-48843] Предотвращение бесконечного цикла с помощью BindParameters
- [SPARK-48981] Исправить метод simpleString StringType в pyspark для коллаций
- [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
- [SPARK-48896][SPARK-48909][SPARK-48883] Обратный перенос исправлений в записи машинного обучения в spark.
- [SPARK-48725][SQL] Интегрировать CollationAwareUTF8String.lowerCaseCodePoints в строковые выражения
- [SPARK-48978][SQL] Реализация быстрого пути ASCII в поддержке сортировки для UTF8_LCASE
- [SPARK-49047][PYTHON][CONNECT] Усечение сообщения для логирования
- [SPARK-49146][SS] Перенос ошибок утверждения, связанных с отсутствием водяного знака в запросах потоковой передачи в режиме добавления, в инфраструктуру обработки ошибок
- [SPARK-48977][SQL] Оптимизация поиска строк с использованием сопоставления UTF8_LCASE
- [SPARK-48889][SS] testStream для выгрузки хранилищ состояний перед завершением
- [SPARK-48463] Сделать StringIndexer, позволяющим работать с вложенными входными столбцами
- [SPARK-48954] try_mod() заменяет try_remainder()
- Обновления системы безопасности операционной системы.
- Выходные данные из инструкции
Databricks Runtime 14.3
См. раздел Databricks Runtime 14.3 LTS.
- 11 февраля 2025 г.
- Этот выпуск включает исправление проблемы, влияющей на преобразование определенных типов данных при сериализации спасенных столбцов XML-данных. Затронутые типы данных — даты, метки времени, отличные от NTZ, и десятичные знаки при включении
prefersDecimal
. Дополнительные сведения о спасаемом столбце данных см. в статье Что такое столбец спасенных данных?. - [SPARK-50492][SS] Исправление java.util.NoSuchElementException при удалении столбца времени события после использования функции dropDuplicatesWithinWatermark.
- [SPARK-51084][SQL] Присвойте соответствующий класс ошибок для negativeScaleNotAllowedError
- Обновления системы безопасности операционной системы.
- Этот выпуск включает исправление проблемы, влияющей на преобразование определенных типов данных при сериализации спасенных столбцов XML-данных. Затронутые типы данных — даты, метки времени, отличные от NTZ, и десятичные знаки при включении
- 10 декабря 2024 г.
- Этот выпуск включает исправление проблемы, которая может привести к тому, что первичный ключ в таблице Delta будет удален при определенных крайних случаях, связанных с фоновым автоматическим сжатием.
- [SPARK-50329][SQL] исправить InSet$toString
- Обновления системы безопасности операционной системы.
- 26 ноября 2024 г.
- [SPARK-49615] [ML] Сделать валидацию схемы набора данных всех преобразователей признаков в ML соответствующей конфигурации spark.sql.caseSensitive.
- Обновления системы безопасности операционной системы.
- 5 ноября 2024 г.
- [SPARK-48843] Предотвращение бесконечного цикла с помощью BindParameters
- [SPARK-49829] Пересмотреть оптимизацию добавления входных данных в хранилище состояний в операции соединения потоков для исправления корректности.
- [SPARK-49863][SQL] Исправление нормализации чисел для сохранения нулевой допустимости вложенных структур
- [BACKPORT] [SPARK-49326][SS] Классифицировать класс ошибок для ошибки пользовательской функции заполнения foreach
- [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
- [SPARK-46632][SQL] Исправлено устранение подвыражений, когда эквивалентные тернарные выражения имеют разные дочерние элементы.
- [SPARK-49905] Используйте выделенный механизм ShuffleOrigin для операторов с учетом состояния, чтобы предотвратить изменение процесса перетасовки из AQE.
- Обновления системы безопасности операционной системы.
- 22 октября 2024 г.
- [SPARK-48843] Предотвращение бесконечного цикла с помощью BindParameters
- [SPARK-49863][SQL] Исправление нормализации плавающих чисел для сохранения наличия значений NULL вложенных структур
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с сохранением состояния, чтобы предотвратить возможность изменения перемешивания из AQE.
- [SPARK-46632][SQL] Исправлено устранение подвыражений, если эквивалентные тернарные выражения имеют разные дочерние элементы
- [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешённый атрибут вместе с выходными данными дочерних элементов.
- [BACKPORT] [SPARK-49326][SS] Классифицировать класс ошибок для ошибки пользовательской функции приемника foreach
- [SPARK-49829] Пересмотреть оптимизацию добавления входных данных в хранилище состояний в потоковом соединении для исправления правильности.
- Обновления системы безопасности операционной системы.
- 10 октября 2024 г.
- [BACKPORT] [SPARK-49474][SS] Классифицировать класс ошибок для пользовательской функции FlatMapGroupsWithState
- [SPARK-49743][SQL] OptimizeCsvJsonExpr не должно изменять поля схемы при выполнении очистки GetArrayStructFields
- [SPARK-496888][CONNECT] Исправлена гонка данных между прерыванием и планом выполнения
- 25 сентября 2024 г.
- [SPARK-48810][CONNECT] API остановки сеанса должен быть идемпотентным и не должен завершаться ошибкой, если сеанс уже закрыт сервером
- [SPARK-48719][SQL] Исправлена ошибка вычисления regrS...
- [SPARK-49000][SQL] Исправить "select count(distinct 1) from t", где t пустая таблица, с помощью расширения RewriteDistinctAggregates
- [SPARK-49628][SQL] ConstantFolding должен копировать состояние выражения перед вычислением
- [SPARK-49492][CONNECT] Попытка повторного подключения к неактивному ExecutionHolder
- Обновления системы безопасности операционной системы.
- 17 сентября 2024 г.
- [SPARK-49336][CONNECT] Ограничить уровень вложенности при транкатировании сообщения 'protobuf'
- [SPARK-43242][CORE] Исправление ошибки "Непредвиденный тип BlockId" при диагностике повреждения при перемешивании данных
- [SPARK-48463][ML] Сделать Binarizer, Bucketizer, VectorAssembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor поддерживающими вложенные входные столбцы
- [SPARK-49526][CONNECT] Поддержка путей в стиле Windows в ArtifactManager
- [SPARK-49409][CONNECT] Изменить значение по умолчанию для CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-49366][CONNECT] Рассматривать узел Union как листовой в разрешении столбцов датафрейма
- 29 августа 2024 г.
- [SPARK-49146][SS] Перенос ошибок утверждения, связанных с отсутствием водяного знака в запросах потоковой передачи в режиме добавления, в инфраструктуру обработки ошибок
-
[SPARK-48862][PYTHON][CONNECT] Избегайте вызова
_proto_to_string
, если уровень INFO не включен - [SPARK-49263][CONNECT] Клиент Python Spark Connect: согласованно обрабатывать логические параметры чтения с DataFrame
- 14 августа 2024 г.
- [SPARK-48941][SPARK-48970] Назадпортирование исправлений средств записи и чтения для машинного обучения
- [SPARK-48706][PYTHON] UDF Python в функциях более высокого порядка не должен вызывать внутреннюю ошибку
- [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
- [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
- [SPARK-49065][SQL] Перебазирование в старых форматировщиках/парсерах должно поддерживать часовые пояса, отличные от часов по умолчанию в JVM.
- [SPARK-48934][SS] Типы даты и времени Python преобразуются неправильно для настройки времени ожидания в applyInPandasWithState
- 1 августа 2024 г.
- Этот выпуск включает исправление ошибок для
ColumnVector
иColumnarArray
классов в интерфейсе Java Spark. До этого исправления могла возникать ошибкаArrayIndexOutOfBoundsException
или возвращаться неверные данные, если экземпляр одного из этих классов содержал значенияnull
. - В бессерверных вычислительных ресурсах для записных книжек и заданий режим ANSI SQL включен по умолчанию. См. раздел Поддерживаемые параметры конфигурации Spark.
- На вычислительном устройстве, настроенном в режиме общего доступа, пакетное чтение и запись в Kafka теперь подчиняются тем же ограничениям, что и для структурированной потоковой передачи. См. ограничения потоковой передачи и требования к стандартному режиму доступа каталога Unity.
- Выходные данные из инструкции
SHOW CREATE TABLE
теперь включают любые фильтры строк или маски столбцов, определенные в материализованном представлении или потоковой таблице. См. SHOW CREATE TABLE. Дополнительные сведения о фильтрах строк и масках столбцов см. в статье Фильтрация конфиденциальных данных таблицы с помощью фильтров строк и маски столбцов. - [SPARK-48896][SPARK-48909][SPARK-48883] Обратная портировка исправлений записи ML для Spark.
- [SPARK-48889][SS] testStream для выгрузки хранилищ состояний перед завершением
- [SPARK-48705][PYTHON] Явное использование worker_main при запуске с использованием pyspark
- [SPARK-48047][SQL] Уменьшение нагрузки на память пустых тегов TreeNode
- [SPARK-48544][SQL] Уменьшение давления памяти пустых наборов BitSet в TreeNode
- [SPARK-46957][CORE] Деактивация перемещенных файлов shuffle должна обеспечивать возможность их очистки на исполнителе.
- [SPARK-48463] Сделать StringIndexer, позволяющим работать с вложенными входными столбцами
- [SPARK-47202][PYTHON] Исправление опечатки, нарушающей даты и время с tzinfo
- [SPARK-47713][SQL][CONNECT] Исправлена ошибка самостоятельного присоединения
- Обновления системы безопасности операционной системы.
- Этот выпуск включает исправление ошибок для
- 11 июля 2024 г.
- (Изменение поведения) DataFrames, кэшированные в источниках таблиц Delta, теперь становятся недействительными, если исходная таблица перезаписывается. Это изменение означает, что все изменения состояния в таблицах Delta теперь делают кэшированные результаты недействительными. Используйте
.checkpoint()
для сохранения состояния таблицы на протяжении всего времени жизни фрейма данных. - Драйвер Snowflake JDBC обновлен до версии 3.16.1.
- Этот выпуск содержит исправление проблемы, которая не позволяла правильно отображать вкладку "Среда" в пользовательском интерфейсе Spark при запуске в службах контейнеров Databricks.
- В бессерверных вычислительных ресурсах для записных книжек и заданий режим ANSI SQL включен по умолчанию. См. раздел Поддерживаемые параметры конфигурации Spark.
- Чтобы игнорировать недопустимые секции при чтении данных, файловые источники данных, такие как Parquet, ORC, CSV или JSON, могут задать параметру источника данных ignoreInvalidPartitionPaths значение true. Например: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...). Можно также использовать конфигурацию SQL spark.sql.files.ignoreInvalidPartitionPaths. Однако параметр источника данных имеет приоритет над конфигурацией SQL. Этот параметр имеет значение false по умолчанию.
- [SPARK-48648][PYTHON][CONNECT] Сделать SparkConnectClient.tags корректно привязанными к потоку
- [SPARK-48445][SQL] Не встраивайте UDF с ресурсоемкими дочерними объектами
- [SPARK-48481][SQL][SS] Не применяйте OptimizeOneRowPlan к потоковому набору данных
- [SPARK-48383][SS] Генерация более информативной ошибки для несоответствия разделов в параметре startOffset в Kafka
- [SPARK-48503][SQL] Исправлены недопустимые скалярные подзапросы с группировкой по неэквивалентным столбцам, которые были неправильно разрешены
- [SPARK-48100][SQL] Устранение проблем при пропуске вложенных полей структуры, не выбранных в схеме
- [SPARK-48273][SQL] Исправление последней перезаписи PlanWithUnresolvedIdentifier
- [SPARK-48252][SQL] При необходимости обновите CommonExpressionRef
- [SPARK-48475][PYTHON] Оптимизация _get_jvm_function в PySpark.
- [SPARK-48292][CORE] Возврат [SPARK-39195][SQL] OutputCommitCoordinator Spark должен прервать этап, когда зафиксированный файл не соответствует состоянию задачи
- Обновления системы безопасности операционной системы.
- (Изменение поведения) DataFrames, кэшированные в источниках таблиц Delta, теперь становятся недействительными, если исходная таблица перезаписывается. Это изменение означает, что все изменения состояния в таблицах Delta теперь делают кэшированные результаты недействительными. Используйте
- 17 июня 2024 г.
-
applyInPandasWithState()
доступен на вычислительных ресурсах с стандартным режимом доступа. - Исправлена ошибка, из-за которой оптимизация рангового окна с помощью Photon TopK неправильно обрабатывала секции со структурами.
- [SPARK-48310][PYTHON][CONNECT] Кэшированные свойства должны возвращать копии
-
[SPARK-48276][PYTHON][CONNECT] Добавление отсутствующего
__repr__
метода дляSQLExpression
- [SPARK-48294][SQL] Обработка строчных букв в nestedTypeMissingElementTypeError
- Обновления системы безопасности операционной системы.
-
- 21 мая 2024 г.
- (изменение функциональности)
dbutils.widgets.getAll()
теперь поддерживается чтобы получить все значения виджетов в ноутбуке. - Исправлена ошибка в функции try_divide(), в которой входные данные, содержащие десятичные разряды, привели к непредвиденным исключениям.
- [SPARK-48056][CONNECT][PYTHON] Повторно выполнить план, если возникла ошибка SESSION_NOT_FOUND и не был получен частичный ответ
- [SPARK-48146][SQL] Исправление агрегатной функции в выражении With в дочернем выражении.
- [SPARK-47986][CONNECT][PYTHON] Не удается создать новый сеанс при закрытии сеанса по умолчанию сервером
- [SPARK-48180][SQL] Улучшение сообщения об ошибке, вызываемого при вызове UDTF с аргументом TABLE, если забыты круглые скобки вокруг нескольких выражений PARTITION/ORDER BY.
- [SPARK-48016][SQL] Исправлена ошибка в функции try_divide при использовании десятичных разрядов
- [SPARK-48197][SQL] Избегать ошибки assert для недопустимой лямбда-функции
- [SPARK-47994][SQL] Исправлена ошибка, связанная с выносом фильтрации столбца CASE WHEN в SQLServer.
- [SPARK-48173][SQL] CheckAnalysis должен видеть весь план запроса
- [SPARK-48105][SS] Исправление условия гонки между выгрузкой и созданием моментальных снимков хранилища состояний.
- Обновления системы безопасности операционной системы.
- (изменение функциональности)
- 9 мая 2024 г.
- (Изменение поведения)
applyInPandas
иmapInPandas
типы UDF теперь поддерживаются в вычислительном режиме совместного использования начиная с версии Databricks Runtime 14.3 и более поздних версий. - [SPARK-47739][SQL] Регистрация логического типа Avro
- [SPARK-47941] [SS] [Подключение] Распространение ошибок инициализации рабочей роли ForeachBatch пользователям для PySpark
- [SPARK-48010][SQL] Избегайте повторных вызовов conf.resolver в resolveExpression
-
[SPARK-48044][PYTHON][CONNECT] Кэш
DataFrame.isStreaming
- [SPARK-47956][SQL] Проверка корректности для неразрешенной ссылки на LCA
- [SPARK-47543][CONNECT][PYTHON] Вывод дикта как Mapype из Кадра данных Pandas, чтобы разрешить создание кадра данных
- [SPARK-47819][CONNECT][Cherry-pick-14.3] Использование асинхронного обратного вызова для очистки после выполнения
- [SPARK-47764][CORE][SQL] Очистка зависимостей shuffle на основе ShuffleCleanupMode
- [SPARK-48018][SS] Исправление null groupId, вызывающее ошибку param при вызове KafkaException.couldNotReadOffsetRange
- [SPARK-47839][SQL] Исправлена статистическая ошибка в RewriteWithExpression
- [SPARK-47371] [SQL] XML: игнорировать теги строк, найденные в CDATA
- [SPARK-47895]Группа [SQL] по всем должна быть идемпотентной
- [SPARK-47973][CORE] Запись места вызова в SparkContext.stop() и затем в SparkContext.assertNotStopped()
- Обновления системы безопасности операционной системы.
- (Изменение поведения)
- 25 апреля 2024 г.
-
[SPARK-47543][CONNECT][PYTHON] Определение
dict
какMapType
из DataFrame Pandas для создания DataFrame - [SPARK-47694][CONNECT] Настройка максимального размера сообщения на стороне клиента
- [SPARK-47664][PYTHON][CONNECT][Cherry-pick-14.3] Проверка имени столбца с кэшированной схемой
- [SPARK-47862][PYTHON][CONNECT]Исправление создания файлов proto
- "Отмена «[SPARK-47543][CONNECT][PYTHON] Определение
dict
какMapType
из DataFrame Pandas, чтобы разрешить создание DataFrame»" - [SPARK-47704][SQL] Синтаксический анализ JSON завершается ошибкой "java.lang.ClassCastException", если включен параметр spark.sql.json.enablePartialResults
- [SPARK-47812][CONNECT] Поддержка сериализации SparkSession для исполнителя ForEachBatch
- [SPARK-47818][CONNECT][Cherry-pick-14.3] Введите кэш планов в SparkConnectPlanner для повышения производительности запросов анализа
-
[SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
вызывает ошибку из-за недопустимого плана - Обновления системы безопасности операционной системы.
-
[SPARK-47543][CONNECT][PYTHON] Определение
- 11 апреля 2024 г.
- (изменение поведения) Чтобы обеспечить согласованное поведение во всех типах вычислений, функции PySpark, определяемые пользователем, на вычислительных ресурсах со стандартным режимом доступа теперь соответствуют поведению UDFs в условиях отсутствия изоляции и на назначенных кластерах. Это обновление включает следующие изменения, которые могут нарушить существующий код:
- Определяемые пользователем функции с типом возврата
string
больше не преобразовывают значения, отличные отstring
, неявным образом в значенияstring
. Ранее функции, определяемые пользователем, с возвращаемым типомstr
оборачивали возвращаемое значение функциейstr()
независимо от фактического типа данных возвращаемого значения. - Определяемые пользователем функции с
timestamp
возвращаемыми типами больше не применяют неявное преобразование кtimestamp
timezone
. - Конфигурации кластера Spark
spark.databricks.sql.externalUDF.*
больше не применяются к UDF PySpark на вычислительных ресурсах со стандартным режимом доступа. - Конфигурация кластера Spark
spark.databricks.safespark.externalUDF.plan.limit
больше не влияет на ППФ PySpark, устраняя ограничение общедоступной предварительной версии на 5 ППФ на запрос для PySpark. - Конфигурация кластера Spark
spark.databricks.safespark.sandbox.size.default.mib
больше не применяется к PySpark UDF на вычислительных ресурсах со стандартным режимом доступа. Вместо этого используется доступная память в системе. Чтобы ограничить объем памяти пользовательских функций PySpark, используйтеspark.databricks.pyspark.udf.isolation.memoryLimit
с минимальным значением100m
.
- Определяемые пользователем функции с типом возврата
- Тип данных
TimestampNTZ
теперь поддерживается как столбец кластеризации с использованием технологии liquid clustering. См. Использование кластеризации жидкости для таблиц Delta. - [SPARK-47511][SQL] Канонизация с помощью выражений путем повторного назначения идентификаторов
- [SPARK-47509][SQL] Блокировать выражения вложенных запросов в лямбда-функциях и функциях более высокого порядка
- [SPARK-46990][SQL] Исправлена загрузка пустых файлов Avro, создаваемых центрами событий
- [SPARK-47638][PS][CONNECT] Пропустить проверку имени столбца в PS
- Обновления системы безопасности операционной системы.
- (изменение поведения) Чтобы обеспечить согласованное поведение во всех типах вычислений, функции PySpark, определяемые пользователем, на вычислительных ресурсах со стандартным режимом доступа теперь соответствуют поведению UDFs в условиях отсутствия изоляции и на назначенных кластерах. Это обновление включает следующие изменения, которые могут нарушить существующий код:
- 14 марта 2024 г.
- [SPARK-47135][SS] Реализация классов ошибок для исключений потери данных Kafka
- [SPARK-47176][SQL] Вспомогательная функция ResolveAllExpressionsUpWithPruning
- [SPARK-47145][SQL] Передайте идентификатор таблицы для выполнения сканирования источника данных строк в стратегии V2.
- [SPARK-47044][SQL] Добавление выполненного запроса для внешних источников данных JDBC для объяснения выходных данных
- [SPARK-47167][SQL] Добавление конкретного класса для анонимного отношения JDBC
- [SPARK-47070] Исправлена недопустимая агрегация после переписывания подзапросов
- [SPARK-47121][CORE] Избегать RejectedExecutionExceptions при остановке StandaloneSchedulerBackend
- Возврат "[SPARK-46861][CORE] Избегайте взаимоблокировки в DAGScheduler"
- [SPARK-47125][SQL] Возвращает значение NULL, если Univocity никогда не активирует синтаксический анализ
- [SPARK-46999][SQL] ExpressionWithUnresolvedIdentifier должен содержать другие выражения в дереве выражений
- [SPARK-47129][CONNECT][SQL] Правильная организация плана подключения к кэшу
- [SPARK-47241][SQL] Устранение проблем с порядком правил для ExtractGenerator
- [SPARK-47035][SS][CONNECT] Протокол для прослушивателя на стороне клиента
- Обновления системы безопасности операционной системы.
- 29 февраля 2024 г.
- Исправлена проблема, из-за которой использование локальной коллекции в качестве источника в команде MERGE могло привести к тому, что метрика numSourceRows сообщает о вдвое большем количестве строк, чем следует.
- Создание схемы с определенным расположением теперь требует, чтобы у пользователя были привилегии SELECT и MODIFY на любой файл.
- [SPARK-47071][SQL] Встроить выражение, если оно содержит специальное выражение
- [SPARK-47059][SQL] Присоединить контекст ошибки для команды ALTER COLUMN v1
- [SPARK-46993][SQL] Корректировка упрощения констант для переменных сеанса
- Обновления системы безопасности операционной системы.
- 3 января 2024 г.
- [SPARK-46933] Добавьте метрику времени выполнения запроса в соединители, использующие JDBCRDD.
- [SPARK-46763] Исправлена ошибка утверждения в ReplaceDeduplicateWithAggregate для повторяющихся атрибутов.
- [SPARK-46954] XML: обернуть InputStreamReader с помощью BufferedReader.
-
[SPARK-46655] Пропустить перехват контекста запроса в
DataFrame
методах. - [SPARK-44815] Кэширование схемы df, чтобы избежать дополнительных вызовов RPC.
- [SPARK-46952] XML: ограничение размера поврежденной записи.
- [SPARK-46794] Удалить вложенные запросы из ограничений LogicalRDD.
- [SPARK-46736] сохраняет пустое поле сообщения в соединителе protobuf.
- [SPARK-45182] Игнорировать завершение задачи из старой стадии после повторной попытки стадии с неопределённым родителем, определённой по контрольной сумме.
- [SPARK-46414] Используйте prependBaseUri для загрузки импорта JavaScript.
-
[SPARK-46383] Сокращение использования кучи драйверов путем уменьшения срока существования
TaskInfo.accumulables()
. - [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
- [SPARK-46954] XML: оптимизация поиска индекса схемы.
- [SPARK-46676] dropDuplicatesWithinWatermark не должен вызывать ошибку при канонизации плана.
- [SPARK-46644] Измените операции добавления и объединения в SQLMetric для использования isZero.
- [SPARK-46731] Управление экземпляром провайдера хранилища состояний через источник данных состояния — читателем.
-
[SPARK-46677] Исправление проблемы
dataframe["*"]
. - [SPARK-46610] Создание таблицы должно вызывать исключение, если значение ключа в параметрах отсутствует.
- [SPARK-46941] Невозможно вставить узел ограничения группового окна для выполнения вычисления top-k, если используется функция SizeBasedWindowFunction.
- [SPARK-45433] Исправить вывод схемы CSV/JSON, если метки времени не соответствуют заданному формату метки времени.
- [SPARK-46930] Добавьте поддержку настраиваемого префикса для полей типа Union в Avro.
- [SPARK-46227] Обратная портировка для 14.3.
- [SPARK-46822] Уважение spark.sql.legacy.charVarcharAsString при приведение типа jdbc к типу катализатора в jdbc.
- Обновления системы безопасности операционной системы.
Databricks Runtime 14.1
См. раздел Databricks Runtime 14.1.
- 10 декабря 2024 г.
- Обновления системы безопасности операционной системы.
- 26 ноября 2024 г.
- Обновления системы безопасности операционной системы.
- 5 ноября 2024 г.
- [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенный атрибут с выходными данными потомка
- [SPARK-49905] Используйте выделенный ShuffleOrigin для состояния оператора, чтобы предотвратить изменение перемешивания из AQE.
- 22 октября 2024 г.
- [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенный атрибут с выводом дочернего элемента
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с управлением состоянием, чтобы предотвратить модификацию shuffle со стороны AQE
- 10 октября 2024 г.
- [BACKPORT] [SPARK-49474][SS] Классифицировать класс ошибки для ошибки пользователя FlatMapGroupsWithState
- [SPARK-49743][SQL] OptimizeCsvJsonExpr не должно изменять поля схемы при выполнении очистки GetArrayStructFields
- Обновления системы безопасности операционной системы.
- 25 сентября 2024 г.
- [SPARK-49628][SQL] ConstantFolding должен копировать состояние выражения перед вычислением
- [SPARK-43242][CORE] Исправление вызов "Непредвиденный тип BlockId" при диагностике повреждения смешения
- [SPARK-48719][SQL] Исправлена ошибка вычисления regrS...
- [SPARK-49000][SQL] Исправить "select count(distinct 1) from t", где t пустая таблица, с помощью расширения RewriteDistinctAggregates
- [SPARK-46601] [CORE] Исправлена ошибка журнала в handleStatusMessage
- Обновления системы безопасности операционной системы.
- 17 сентября 2024 г.
- [SPARK-49526][CONNECT] Поддержка путей в стиле Windows в ArtifactManager
- Обновления системы безопасности операционной системы.
- 29 августа 2024 г.
- [SPARK-49263][CONNECT] Клиент Python для Spark Connect: последовательно обрабатывать булевые параметры чтения DataFrame.
- [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
- 14 августа 2024 г.
- [SPARK-48706][PYTHON] UDF Python в функциях более высокого порядка не должен вызывать внутреннюю ошибку
- [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
- [SPARK-49065][SQL] Ребазирование в устаревших форматерах/парсерах должно поддерживать часовые пояса, отличные от стандартных по умолчанию для JVM.
- [SPARK-48050][SS] Записать логический план при запуске запроса
- 1 августа 2024 г.
- Этот выпуск включает исправление ошибок для
ColumnVector
иColumnarArray
классов в интерфейсе Java Spark. До этого исправления могла возникать ошибкаArrayIndexOutOfBoundsException
или возвращаться неверные данные, если экземпляр одного из этих классов содержал значенияnull
. - Выходные данные из инструкции
SHOW CREATE TABLE
теперь включают любые фильтры строк или маски столбцов, определенные в материализованном представлении или потоковой таблице. См. SHOW CREATE TABLE. Дополнительные сведения о фильтрах строк и масках столбцов см. в статье Фильтрация конфиденциальных данных таблицы с помощью фильтров строк и маски столбцов. - [SPARK-48705][PYTHON] Явное использование worker_main при запуске с pyspark
- [SPARK-47202][PYTHON] Исправлена опечатка, из-за которой даты и время с tzinfo работали неправильно
- Обновления системы безопасности операционной системы.
- Этот выпуск включает исправление ошибок для
- 11 июля 2024 г.
- (изменение поведения) DataFrame, кэшированные против источников таблиц Delta, теперь становятся недействительными, если исходная таблица перезаписывается. Это изменение означает, что все изменения состояния в таблицах Delta теперь делают кэшированные результаты недействительными. Используйте
.checkpoint()
для сохранения состояния таблицы на протяжении всего времени жизни фрейма данных. - Этот выпуск включает исправление проблемы, которая мешала правильному отображению вкладки "Среда" в пользовательском интерфейсе Spark при запуске в Databricks Container Services.
- [SPARK-48475][PYTHON] Оптимизация _get_jvm_function в PySpark.
- [SPARK-48445][SQL] Не встраивайте пользовательские функции с ресурсоемкими дочерними объектами
- [SPARK-48481][SQL][SS] Не применяйте OptimizeOneRowPlan к потоковому набору данных
- [SPARK-48292][CORE] Откатить [SPARK-39195][SQL] Spark OutputCommitCoordinator должен прервать этап, если зафиксированный файл не соответствует состоянию задачи
- [SPARK-48503][SQL] Исправлены недопустимые скалярные подзапросы с группировкой по неэквивалентным столбцам, которые были неправильно разрешены
- [SPARK-48273][SQL] Исправление запоздалой перезаписи PlanWithUnresolvedIdentifier
- [SPARK-48100][SQL] Устранение проблем при пропуске вложенных полей структуры, не выбранных в схеме
- [SPARK-48383][SS] Выдать более информативное сообщение об ошибке для несовпадения разделов в опции startOffset в Kafka
- Обновления системы безопасности операционной системы.
- (изменение поведения) DataFrame, кэшированные против источников таблиц Delta, теперь становятся недействительными, если исходная таблица перезаписывается. Это изменение означает, что все изменения состояния в таблицах Delta теперь делают кэшированные результаты недействительными. Используйте
- 17 июня 2024 г.
- Исправлена ошибка, из-за которой оптимизация рангового окна с помощью Photon TopK неправильно обрабатывала секции со структурами.
-
[SPARK-48276][PYTHON][CONNECT] Добавить недостающий метод
__repr__
дляSQLExpression
- [SPARK-48277] Улучшение сообщения об ошибке для ErrorClassesJsonReader.getErrorMessage
- Обновления системы безопасности операционной системы.
- 21 мая 2024 г.
- (изменение функциональности)
dbutils.widgets.getAll()
теперь поддерживается чтобы получить все значения виджетов в ноутбуке. - [SPARK-47994][SQL] Исправлена ошибка при проталкивании фильтра столбца CASE WHEN в SQL Server
- [SPARK-48105][SS] Исправление ситуации гонки между выгрузкой и созданием моментальных снимков хранилища состояний.
- [SPARK-48173][SQL] CheckAnalysis должен видеть весь план запроса
- Обновления системы безопасности операционной системы.
- (изменение функциональности)
- 9 мая 2024 г.
- [SPARK-47371] [SQL] XML: игнорировать теги строк, найденные в CDATA
- [SPARK-47895]Группа [SQL] по всем должна быть идемпотентной
- [SPARK-47956][SQL] Проверка корректности для неразрешенной ссылки на LCA
-
[SPARK-48044][PYTHON][CONNECT] Кэш
DataFrame.isStreaming
- [SPARK-47973][CORE] Логирование местоположения вызова в SparkContext.stop() и позже в SparkContext.assertNotStopped()
- Обновления системы безопасности операционной системы.
- 25 апреля 2024 г.
- [SPARK-47704][SQL] Синтаксический анализ JSON завершается ошибкой "java.lang.ClassCastException", если включен параметр spark.sql.json.enablePartialResults
-
[SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
сбой из-за недопустимого плана - Обновления системы безопасности операционной системы.
- 11 апреля 2024 г.
- [SPARK-47638][PS][CONNECT] Пропустить проверку имени столбца в PS
- [SPARK-38708][SQL] Обновление клиента хранилища метаданных Hive до версии 3.1.3 для Hive 3.1
- [SPARK-47309][SQL][XML] Добавление модульных тестов вывода схемы
- [SPARK-47509][SQL] Блокировать выражения вложенных запросов в лямбда-функциях и функциях более высокого порядка
- [SPARK-46990][SQL] Исправлена загрузка пустых файлов Avro, создаваемых центрами событий
- Обновления системы безопасности операционной системы.
- 1 апреля 2024 г.
- [SPARK-47305][SQL] Исправить PruneFilters, чтобы правильно пометить флаг isStreaming для LocalRelation, когда план включает как пакетную обработку, так и потоковую передачу.
- [SPARK-47218][SQL] XML: игнорировать закомментированные теги строк в xml-токенизаторе
-
[SPARK-47300][SQL]
quoteIfNeeded
должен заключать в кавычки идентификатор, начинающийся с цифр - [SPARK-47368][SQL] Удалить проверку конфигурации inferTimestampNTZ в ParquetRowConverter
- [SPARK-47070] Исправлена недопустимая агрегация после перезаписи вложенных запросов.
-
[SPARK-47322][PYTHON][CONNECT] Приведение обработки дублирования имен столбцов
withColumnsRenamed
в соответствие сwithColumnRenamed
- [SPARK-47300] Исправление для DecomposerSuite
- [SPARK-47218] [SQL] XML: изменена схемаOfXml для сбоя в режиме DROPMALFORMED
- [SPARK-47385] Исправьте кодировщики кортежей с помощью входных данных Option.
- Обновления системы безопасности операционной системы.
- 14 марта 2024 г.
- [SPARK-47176][SQL] Вспомогательная функция ResolveAllExpressionsUpWithPruning
- [SPARK-47145][SQL] Передайте идентификатор таблицы в исполнитель сканирования источника строковых данных для стратегии V2.
- [SPARK-47167][SQL] Добавление конкретного класса для анонимного отношения JDBC
-
[SPARK-47129][CONNECT][SQL] Правильное кэширование плана подключения
ResolveRelations
- Возврат "[SPARK-46861][CORE] Избегайте взаимоблокировки в DAGScheduler"
- [SPARK-47044][SQL] Добавление выполненного запроса для внешних источников данных JDBC для объяснения выходных данных
- Обновления системы безопасности операционной системы.
- 29 февраля 2024 г.
- Исправлена проблема, из-за которой использование локальной коллекции в качестве источника в команде MERGE могло привести к тому, что метрика numSourceRows сообщает о вдвое большем количестве строк, чем следует.
- Создание схемы с заданным расположением теперь требует, чтобы у пользователя были привилегии SELECT и привилегия ИЗМЕНЕНИЕ на ЛЮБОЙ ФАЙЛ.
- Теперь вы можете получать XML-файлы с помощью автозагрузчика, read_files, COPY INTO, DLT и DBSQL. Поддержка XML-файла может автоматически выводить и развивать схему, спасать данные с несоответствиями типов, проверять XML с помощью XSD, поддерживать выражения SQL, такие как from_xml, schema_of_xml и to_xml. Смотрите статью о поддержке XML-файлов для получения более подробной информации. Если вы ранее использовали внешний пакет spark-xml, ознакомьтесь с инструкциями по миграции.
- [SPARK-46248][SQL] XML: поддержка параметров ignoreCorruptFiles и ignoreMissingFiles
- [SPARK-47059][SQL] Присоединить контекст ошибки для команды ALTER COLUMN v1
- [SPARK-46954][SQL] XML: обернуть InputStreamReader с помощью BufferedReader
- [SPARK-46954][SQL] XML: оптимизация поиска индекса схемы
- [SPARK-46630][SQL] XML: проверка имени XML-элемента при записи
- Обновления системы безопасности операционной системы.
- 8 февраля 2024 г.
- Запросы канала изменения данных (CDF) в материализованных представлениях каталога Unity не поддерживаются, и если попытаться запустить запрос CDF с материализованным представлением каталога Unity, это приведет к ошибке. Таблицы потоковой передачи каталога Unity поддерживают запросы CDF для таблиц, отличных от
APPLY CHANGES
в Databricks Runtime 14.1 и более поздних версиях. Запросы CDF не поддерживаются в потоковых таблицах каталога Unity в Databricks Runtime 14.0 и более ранних версиях. - [SPARK-46952] XML: ограничение размера поврежденной записи.
- [SPARK-45182] Игнорировать завершение задачи из старой стадии после повторного выполнения родительского этапа, определяемого контрольной суммой.
- [SPARK-46794] Удалить вложенные запросы из ограничений LogicalRDD.
- [SPARK-46933] Добавьте метрику времени выполнения запроса в соединители, использующие JDBCRDD.
- [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
- [SPARK-45582] Убедитесь, что экземпляр хранилища не используется после вызова фиксации в режиме потоковой агрегации.
- [SPARK-46930] Добавьте поддержку настраиваемого префикса для полей типа Union в Avro.
- [SPARK-46941] Невозможно вставить узел ограничения группового окна для выполнения вычисления top-k, если используется функция SizeBasedWindowFunction.
- [SPARK-46396] Определение метки времени не должно вызывать исключение.
- [SPARK-46822] Уважение spark.sql.legacy.charVarcharAsString при приведение типа jdbc к типу катализатора в jdbc.
- [SPARK-45957] Избегайте создания плана выполнения для не исполняемых команд.
- Обновления системы безопасности операционной системы.
- Запросы канала изменения данных (CDF) в материализованных представлениях каталога Unity не поддерживаются, и если попытаться запустить запрос CDF с материализованным представлением каталога Unity, это приведет к ошибке. Таблицы потоковой передачи каталога Unity поддерживают запросы CDF для таблиц, отличных от
- 31 января 2024 г.
- [SPARK-46684] Исправьте coGroup.applyInPandas/Arrow, чтобы правильно передать аргументы.
- [SPARK-46763] Исправлена ошибка утверждения в ReplaceDeduplicateWithAggregate для повторяющихся атрибутов.
- [SPARK-45498] Продолжение: Игнорировать завершение задач из предыдущих попыток этапа.
-
[SPARK-46382] XML: обновление документации для
ignoreSurroundingSpaces
. -
[SPARK-46383] Сокращение использования кучи драйверов путем уменьшения срока существования
TaskInfo.accumulables()
. - [SPARK-46382] XML: по умолчанию для SurroundingSpaces значение устанавливается в true.
-
[SPARK-46677] Исправить
dataframe["*"]
разрешение. - [SPARK-46676] dropDuplicatesWithinWatermark не должен приводить к сбою в канонизации плана.
- [SPARK-46633] Исправление средства чтения Avro для обработки блоков нулевой длины.
- [SPARK-45912] Усовершенствование API XSDToSchema: переход на API HDFS для специальных возможностей облачного хранилища.
- [SPARK-46599] XML: используйте TypeCoercion.findTightestCommonType для проверки совместимости.
- [SPARK-46382] XML: извлечение значений, вкрапленных между элементами.
- [SPARK-46769] Уточнить выведение схем, связанных с временными метками.
- [SPARK-46610] Создание таблицы должно вызывать исключение, если значение ключа в параметрах отсутствует.
- [SPARK-45964] Удалить приватный SQL-аксессор в пакетах XML и JSON под пакетом catalyst.
- Возврат [SPARK-46769] Уточнение определения схем, связанных с метками времени.
-
[SPARK-45962] Удалить
treatEmptyValuesAsNulls
и использовать вместо этого параметрnullValue
в XML. - [SPARK-46541] Исправлена неоднозначная ссылка на столбец при самостоятельном соединении.
- Обновления системы безопасности операционной системы.
- 17 января 2024 г.
- Узел
shuffle
в плане объяснения, возвращаемым запросом Photon, обновляется, чтобы добавить флагcausedBroadcastJoinBuildOOM=true
, если во время перетасовки, являющейся частью стримингового соединения, происходит ошибка нехватки памяти. - Чтобы избежать повышенной задержки при обмене данными по протоколу TLSv1.3, этот выпуск обслуживания включает исправление для установки JDK 8, чтобы устранить ошибку JDK-8293562.
-
[SPARK-46538] Исправлена проблема с неоднозначной ссылкой на столбец в
ALSModel.transform
. - [SPARK-46417] Не завершайте выполнение с ошибкой при вызове hive.getTable и значении false параметра throwException.
-
[SPARK-46484] Сделать так, чтобы
resolveOperators
вспомогательные функции сохраняли идентификатор плана. - [SPARK-46153] XML: добавление поддержки TimestampNTZType.
- [SPARK-46152] XML: добавлена поддержка DecimalType в выводе схемы XML.
- [SPARK-46145] spark.catalog.listTables не вызывает исключения, если таблица или представление не найдены.
- [SPARK-46478] Вернуть SPARK-43049 для использования oracle varchar(255) для строки.
-
[SPARK-46394] Исправлены проблемы spark.catalog.listDatabases() со схемами, содержащими специальные символы, когда
spark.sql.legacy.keepCommandOutputSchema
установлено значение true. -
[SPARK-46337] Заставьте
CTESubstitution
удерживатьPLAN_ID_TAG
. - [SPARK-46466] Векторный считыватель Parquet никогда не должен делать пересчет для метки времени ntz.
- [SPARK-46587] XML: исправлено преобразование XSD большого целого числа.
- [SPARK-45814] Убедитесь, что ArrowConverters.createEmptyArrowBatch вызывает метод close(), чтобы избежать утечки памяти.
- [SPARK-46132] Поддержка пароля для ключей JKS в RPC SSL.
-
[SPARK-46602] Распространить
allowExisting
при создании представления, если представление или таблица не существует. - [SPARK-46173] Пропуск вызова trimAll во время синтаксического анализа даты.
- [SPARK-46355] XML: закройте InputStreamReader при завершении чтения.
- [SPARK-46600] Переместите общий код между SqlConf и SqlApiConf в SqlApiConfHelper.
-
[SPARK-46261]
DataFrame.withColumnsRenamed
должен сохранять порядок словаря и/или мапы. - [SPARK-46056] Исправить сбой чтения NPE векторного Parquet со значением по умолчанию для byteArrayDecimalType.
-
[SPARK-46260]
DataFrame.withColumnsRenamed
должен соблюдать порядок диктовки. - [SPARK-46250] Deflake test_parity_listener.
- [SPARK-46370] Исправить ошибку при запросе из таблицы после изменения значений по умолчанию столбца.
- [SPARK-46609] Избегайте экспоненциального взрыва в PartitioningPreservingUnaryExecNode.
- [SPARK-46058] Добавьте отдельный флаг для privateKeyPassword.
- Узел
- 14 декабря 2023 г.
- Исправлена проблема, из-за которой экранированные подчеркивания в операциях getColumns, исходящих от клиентов JDBC или ODBC, обрабатывались неправильно и интерпретировались как подстановочные знаки.
- [SPARK-45509] Исправление ссылочного поведения столбца df для Spark Connect.
- [SPARK-45844] Реализуйте нечувствительность регистра для XML.
- [SPARK-46141] Измените значение по умолчанию для spark.sql.legacy.ctePrecedencePolicy на CORRECTED.
-
[SPARK-46028] Сделать так, чтобы
Column.__getitem__
принимал входной столбец. - [SPARK-46255] Поддержка сложного типа и его преобразования в строку.
- [SPARK-45655] Разрешить недетерминированные выражения внутри AggregateFunctions в CollectMetrics.
- [SPARK-45433] Исправить определение схемы CSV/JSON, если метки времени не соответствуют указанному формату.
-
[SPARK-45316] Добавление новых параметров
ignoreCorruptFiles
/ignoreMissingFiles
вHadoopRDD
иNewHadoopRDD
. - [SPARK-45852] Корректно справляться с ошибкой рекурсии при логировании.
- [SPARK-45920] группа по порядковой номеру должна быть идемпотентной.
- Обновления системы безопасности операционной системы.
- 29 ноября 2023 г.
- Был установлен новый пакет,
pyarrow-hotfix
, чтобы устранить уязвимость PyArrow RCE. - Исправлена проблема, из-за которой экранированные подчеркивания в операциях
getColumns
, исходящих из клиентов JDBC или ODBC, были неправильно интерпретированы как подстановочные знаки. - При приеме данных CSV с помощью автозагрузчика или потоковой передачи большие CSV-файлы теперь разделены и могут обрабатываться параллельно во время вывода схемы и обработки данных.
-
[SPARK-45892] Проверка плана оптимизатора рефакторинга для развязки
validateSchemaOutput
иvalidateExprIdUniqueness
. - [SPARK-45620] API, связанные с Python UDF, теперь используют camelCase.
-
[SPARK-44790] Добавлена
to_xml
реализация и привязки для Python, Spark Connect и SQL. -
[SPARK-45770] исправлена проблема разрешения столбцов с
DataFrameDropColumns
дляDataframe.drop
. -
[SPARK-45859] Сделал объекты UDF ленивым
ml.functions
. -
[SPARK-45730] Улучшенные ограничения времени для
ReloadingX509TrustManagerSuite
. - [SPARK-44784] Сделано тестирование SBT автономным.
- Обновления системы безопасности операционной системы.
- Был установлен новый пакет,
- 10 ноября 2023 г.
-
[SPARK-45545]
SparkTransportConf
наследуетсяSSLOptions
при создании. - [SPARK-45250] Добавлена поддержка профиля ресурсов задач на уровне стадии для кластеров YARN при отключенном динамическом распределении.
- [SPARK-44753] Добавлен модуль чтения и записи XML-кадра данных для PySpark SQL.
-
[SPARK-45396] Добавлена документация для
PySpark.ml.connect
модуля. -
[SPARK-45584] Исправлен сбой выполнения вложенных запросов с
TakeOrderedAndProjectExec
. - [SPARK-45541] Добавлен SSLFactory.
-
[SPARK-45577] исправлено
UserDefinedPythonTableFunctionAnalyzeRunner
для обеспечения передачи сложенных значений из именованных аргументов. - [SPARK-45562] Сделал "rowTag" обязательным параметром.
-
[SPARK-45427] Добавлены параметры SSL RPC в
SSLOptions
иSparkTransportConf
. - [SPARK-43380] Устранено замедление при чтении Avro.
-
[SPARK-45430]
FramelessOffsetWindowFunction
больше не завершается ошибкой, когдаIGNORE NULLS
иoffset > rowCount
. - [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
-
[SPARK-45386] Исправлена проблема, из-за которой
StorageLevel.NONE
неправильно возвращали 0. - [SPARK-44219] Добавлены проверки по правилам для валидации перезаписей оптимизации.
-
[SPARK-45543] Исправлена проблема, из-за которой
InferWindowGroupLimit
вызвала проблему, если другие функции окна не имели той же рамки окна, что и функции ранжирования. - Обновления системы безопасности операционной системы.
-
[SPARK-45545]
- 27 сентября 2023 г.
-
[SPARK-44823] Обновлено
black
до версии 23.9.1 и исправлена ошибка. - [SPARK-45339] PySpark теперь регистрирует ошибки, которые он повторно обрабатывает.
- Возврат [SPARK-42946] Редактированные конфиденциальные данные, вложенные в подстановки переменных.
- [SPARK-44551] Редактирование комментариев для синхронизации с OSS.
-
[SPARK-45360] Построитель сеансов Spark поддерживает инициализацию из
SPARK_REMOTE
. -
[SPARK-45279] Присоединено
plan_id
ко всем логическим планам. -
[SPARK-45425] Сопоставлено
TINYINT
сShortType
MsSqlServerDialect
. -
[SPARK-45419] Удалена запись карты версий более крупных файлов, чтобы избежать повторного использования
rocksdb
идентификаторов файлов sst. -
[SPARK-45488] Добавлена поддержка значения в
rowTag
элементе. -
[SPARK-42205] Удалено ведение журнала
Accumulables
событий запуска вTask/Stage
JsonProtocol
журналах событий. -
[SPARK-45426] Добавлена поддержка
ReloadingX509TrustManager
. -
[SPARK-45256]
DurationWriter
завершается ошибкой при записи значения, превышающего первоначальную емкость. -
[SPARK-43380] Исправлены
Avro
проблемы с преобразованием типов данных без регрессии производительности. - [SPARK-45182] Добавлена поддержка отката этапа перетасовки карты, так что все задачи этого этапа могут быть повторно выполнены, если выходные данные этапа не определены.
-
[SPARK-45399] Добавлены параметры XML с помощью
newOption
. - Обновления системы безопасности операционной системы.
-
[SPARK-44823] Обновлено
Databricks Runtime 13.3 LTS
См. раздел Databricks Runtime 13.3 LTS.
- 11 февраля 2025 г.
- [SPARK-50492][SS] Исправление java.util.NoSuchElementException при удалении столбца времени события после dropDuplicatesWithinWatermark
- [SPARK-45915][SQL] Обрабатывать десятичное (x, 0) то же, что и Целочисленный тип в PromoteStrings
- Обновления системы безопасности операционной системы.
- 10 декабря 2024 г.
- Обновления системы безопасности операционной системы.
- 26 ноября 2024 г.
- [SPARK-49615] [ML] Сделать так, чтобы все преобразователи признаков машинного обучения проверяли схему набора данных на соответствие конфигурации spark.sql.caseSensitive.
- Обновления системы безопасности операционной системы.
- 5 ноября 2024 г.
- [SPARK-48843] Предотвращение бесконечного цикла с помощью BindParameters
- [BACKPORT] [SPARK-49326][SS] Классифицировать класс error для ошибки пользовательской функции приемника foreach
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
- Обновления системы безопасности операционной системы.
- 22 октября 2024 г.
- [SPARK-48843] Предотвращение бесконечного цикла с помощью BindParameters
- [BACKPORT] [SPARK-49326][SS] Классифицировать класс ошибки для ошибки пользовательской функции приемника 'foreach'.
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с состоянием, чтобы перетасовка не изменялась из AQE.
- Обновления системы безопасности операционной системы.
- 10 октября 2024 г.
- [SPARK-49743][SQL] OptimizeCsvJsonExpr не должно изменять поля схемы при выполнении очистки GetArrayStructFields
- 25 сентября 2024 г.
- [SPARK-46601] [CORE] Исправлена ошибка журнала в handleStatusMessage
- [SPARK-48719][SQL] Исправлена ошибка вычисления RegrSlope и RegrIntercept, когда первый параметр имеет значение NULL
- [SPARK-43242][CORE] Исправление ошибки "Непредвиденный тип BlockId" при диагностике повреждения данных при перемешивании
- [SPARK-49000][SQL] Исправить "select count(distinct 1) from t", где t пустая таблица, с помощью расширения RewriteDistinctAggregates
- Обновления системы безопасности операционной системы.
- 17 сентября 2024 г.
- [SPARK-49526][CONNECT] Поддержка путей в стиле Windows в ArtifactManager
- [SPARK-48463][ML] Сделать Binarizer, Bucketizer, VectorAssembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor поддерживающими вложенные входные столбцы
- Обновления системы безопасности операционной системы.
- 29 августа 2024 г.
- 14 августа 2024 г.
- [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
- [SPARK-49065][SQL] Перебазирование в устаревших модулях форматирования и парсерах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
- [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
- 1 августа 2024 г.
- Этот выпуск включает исправление ошибок для
ColumnVector
иColumnarArray
классов в интерфейсе Java Spark. До этого исправления могла возникать ошибкаArrayIndexOutOfBoundsException
или возвращаться неверные данные, если экземпляр одного из этих классов содержал значенияnull
. - [SPARK-47202][PYTHON] Исправление опечатки, нарушающей обработку дат и времени с tzinfo
- [SPARK-48896][SPARK-48909][SPARK-48883] Обратная портировка исправлений средства записи для Spark ML.
- [SPARK-48463] Сделать StringIndexer, позволяющим работать с вложенными входными столбцами
- Обновления системы безопасности операционной системы.
- Этот выпуск включает исправление ошибок для
- 11 июля 2024 г.
- (изменение поведения) Кадры данных, кэшированные в источниках таблиц Delta, теперь недействительны, если исходная таблица перезаписана. Это изменение означает, что все изменения состояния в таблицах Delta теперь делают кэшированные результаты недействительными. Используйте
.checkpoint()
для сохранения состояния таблицы на протяжении всего времени жизни фрейма данных. - Этот выпуск содержит исправление ошибки, которое мешало правильному отображению вкладки 'Среда' пользовательского интерфейса Spark во время работы в службах контейнеров Databricks.
- [SPARK-48383][SS] Создание более эффективной ошибки для несовпадений секций в параметре startOffset в Kafka
- [SPARK-48292][CORE] Возврат [SPARK-39195][SQL] OutputCommitCoordinator Spark должен прервать этап, когда зафиксированный файл не соответствует состоянию задачи
- [SPARK-48503][SQL] Исправлены недопустимые скалярные подзапросы с группировкой по неэквивалентным столбцам, которые были неправильно разрешены
- [SPARK-48481][SQL][SS] Не применяйте OptimizeOneRowPlan к потоковому набору данных
- [SPARK-48475][PYTHON] Оптимизация _get_jvm_function в PySpark.
- [SPARK-48273][SQL] Исправление запоздалой перезаписи PlanWithUnresolvedIdentifier
- [SPARK-48445][SQL] Не встраивайте пользовательские функции с ресурсоемкими дочерними объектами
- Обновления системы безопасности операционной системы.
- (изменение поведения) Кадры данных, кэшированные в источниках таблиц Delta, теперь недействительны, если исходная таблица перезаписана. Это изменение означает, что все изменения состояния в таблицах Delta теперь делают кэшированные результаты недействительными. Используйте
- 17 июня 2024 г.
- [SPARK-48277] Улучшение сообщения об ошибке для ErrorClassesJsonReader.getErrorMessage
- Обновления системы безопасности операционной системы.
- 21 мая 2024 г.
- (изменение функциональности)
dbutils.widgets.getAll()
теперь поддерживается чтобы получить все значения виджетов в ноутбуке. - [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
- [SPARK-47994][SQL] Исправлена ошибка с проталкиванием фильтра столбца CASE WHEN в SQLServer
- Обновления системы безопасности операционной системы.
- (изменение функциональности)
- 9 мая 2024 г.
- [SPARK-47956][SQL] Проверка корректности для неразрешенной ссылки на LCA
- [SPARK-46822][SQL] Уважение spark.sql.legacy.charVarcharAsString при приведение типа jdbc к типу катализатора в jdbc
- [SPARK-47895]Группа [SQL] по всем должна быть идемпотентной
- [SPARK-48018][SS] Исправление ошибки отсутствия параметра, вызванной null значением groupId, при вызове KafkaException.couldNotReadOffsetRange.
- [SPARK-47973][CORE] Логировать место вызова в SparkContext.stop(), а затем в SparkContext.assertNotStopped()
- Обновления системы безопасности операционной системы.
- 25 апреля 2024 г.
- [SPARK-44653][SQL] Нетривиальные объединения DataFrame не должны прерывать кэширование
- Прочие исправления ошибок.
- 11 апреля 2024 г.
- [SPARK-47509][SQL] Блокировать выражения вложенных запросов в лямбда-функциях и функциях более высокого порядка
- Обновления системы безопасности операционной системы.
- 1 апреля 2024 г.
- [SPARK-47385] Исправьте кодировщики кортежей с помощью входных данных Option.
- [SPARK-38708][SQL] Обновление клиента хранилища метаданных Hive до версии 3.1.3 для Hive 3.1
- [SPARK-47200][SS] Класс ошибок для ошибки пользовательской функции приемника пакетной службы Foreach
- [SPARK-47368][SQL] Удалить проверку конфигурации inferTimestampNTZ в ParquetRowConverter
- [SPARK-44252][SS] Определите новый класс ошибок и примените в случае ошибки загрузки из DFS
- [SPARK-47135][SS] Реализация классов ошибок для исключений потери данных Kafka
-
[SPARK-47300][SQL]
quoteIfNeeded
должен заключать в кавычки идентификатор, начинающийся с цифр - [SPARK-47305][SQL] Исправить PruneFilters, чтобы правильно пометить флаг isStreaming у LocalRelation, когда план имеет и пакетную, и потоковую передачу.
- [SPARK-47070] Исправлена недопустимая агрегация после переписывания подзапросов
- Обновления системы безопасности операционной системы.
- 14 марта 2024 г.
- [SPARK-47145][SQL] Передайте идентификатор таблицы в exec проверки источника данных строк для стратегии V2.
- [SPARK-47167][SQL] Добавление конкретного класса для анонимного отношения JDBC
- [SPARK-47176][SQL] Вспомогательная функция ResolveAllExpressionsUpWithPruning
- [SPARK-47044][SQL] Добавление выполненного запроса для внешних источников данных JDBC для объяснения выходных данных
- [SPARK-47125][SQL] Возвращает значение NULL, если Univocity никогда не активирует синтаксический анализ
- Обновления системы безопасности операционной системы.
- 29 февраля 2024 г.
- Исправлена проблема, из-за которой использование локальной коллекции в качестве источника в команде MERGE могло привести к тому, что метрика numSourceRows сообщает о вдвое большем количестве строк, чем следует.
- Создание схемы с определенным расположением теперь требует, чтобы у пользователя были привилегии SELECT и привилегии на изменение на любой файл.
- Обновления системы безопасности операционной системы.
- 8 февраля 2024 г.
- Запросы канала изменения данных (CDF) в материализованных представлениях каталога Unity не поддерживаются, и если попытаться запустить запрос CDF с материализованным представлением каталога Unity, это приведет к ошибке. Таблицы потоковой передачи каталога Unity поддерживают запросы CDF для таблиц, отличных от
APPLY CHANGES
в Databricks Runtime 14.1 и более поздних версиях. Запросы CDF не поддерживаются со стриминговыми таблицами Unity Catalog в Databricks Runtime 14.0 и более ранних версиях. - [SPARK-46794] Удалить вложенные запросы из ограничений LogicalRDD.
- [SPARK-46933] Добавьте метрику времени выполнения запроса в соединители, использующие JDBCRDD.
- [SPARK-45582] Убедитесь, что экземпляр хранилища не используется после вызова фиксации в режиме потоковой агрегации.
- [SPARK-46396] Определение метки времени не должно вызывать исключение.
- [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
- [SPARK-46941] Невозможно вставить узел ограничения группового окна для выполнения вычисления top-k, если используется функция SizeBasedWindowFunction.
- Обновления системы безопасности операционной системы.
- Запросы канала изменения данных (CDF) в материализованных представлениях каталога Unity не поддерживаются, и если попытаться запустить запрос CDF с материализованным представлением каталога Unity, это приведет к ошибке. Таблицы потоковой передачи каталога Unity поддерживают запросы CDF для таблиц, отличных от
- 31 января 2024 г.
- [SPARK-46610] Создание таблицы должно вызывать исключение, если значение ключа в параметрах отсутствует.
- [SPARK-46383] Сокращение использования кучи драйверов путем уменьшения срока действия taskInfo.accumulables().
- [SPARK-46600] Переместите общий код между SqlConf и SqlApiConf в SqlApiConfHelper.
- [SPARK-46676] dropDuplicatesWithinWatermark не должен приводить к ошибке при канонизации плана.
- [SPARK-46763] Исправлена ошибка утверждения в ReplaceDeduplicateWithAggregate для повторяющихся атрибутов.
- Обновления системы безопасности операционной системы.
- 17 января 2024 г.
- Узел
shuffle
плана выполнения, возвращаемого запросом Photon, обновляется, чтобы добавить флагcausedBroadcastJoinBuildOOM=true
в случае возникновения ошибки нехватки памяти во время перетасовки, являющейся частью трансляционного объединения. - Чтобы избежать повышенной задержки при обмене данными по протоколу TLSv1.3, этот выпуск обслуживания включает исправление для установки JDK 8, чтобы устранить ошибку JDK-8293562.
- [SPARK-46058] Добавьте отдельный флаг для privateKeyPassword.
- [SPARK-46173] Пропуск вызова trimAll во время синтаксического анализа даты.
- [SPARK-46370] Исправить ошибку при запросе из таблицы после изменения значений по умолчанию столбца.
- [SPARK-46370] Исправить ошибку при запросе из таблицы после изменения значений по умолчанию столбца.
- [SPARK-46370] Исправить ошибку при запросе из таблицы после изменения значений по умолчанию столбца.
- [SPARK-46609] Избегайте экспоненциального взрыва в PartitioningPreservingUnaryExecNode.
- [SPARK-46132] Поддержка пароля для ключей JKS в SSL RPC.
-
[SPARK-46602] Распространить
allowExisting
при создании представления, если представление или таблица не существует. - [SPARK-46249] Необходима блокировка экземпляра для получения метрик RocksDB, чтобы предотвратить гонку с фоновыми операциями.
- [SPARK-46417] Не допускайте ошибки при вызове hive.getTable, если throwException имеет значение false.
-
[SPARK-46538] Исправлена проблема с неоднозначной ссылкой на столбец в
ALSModel.transform
. - [SPARK-46478] Вернуть SPARK-43049 для использования oracle varchar(255) для строки.
- [SPARK-46250] Deflake test_parity_listener.
-
[SPARK-46394] Исправлены проблемы spark.catalog.listDatabases() со схемами, содержащими специальные символы, когда
spark.sql.legacy.keepCommandOutputSchema
установлено значение true. - [SPARK-46056] Исправить ошибку Null Pointer Exception при векторизованном чтении Parquet с использованием значения по умолчанию byteArrayDecimalType.
- [SPARK-46145] spark.catalog.listTables не вызывает исключения, если таблица или представление не найдены.
- [SPARK-46466] Векторный читатель parquet никогда не должен выполнять пересчет для метки времени ntz.
- Узел
- 14 декабря 2023 г.
- Исправлена проблема, из-за которой экранированные подчеркивания в операциях getColumns, исходящих от клиентов JDBC или ODBC, обрабатывались неправильно и интерпретировались как подстановочные знаки.
- [SPARK-45920] группировка по порядковому номеру должна быть идемпотентной.
- [SPARK-44582] Пропустить итератор на SMJ, если он был очищен.
- [SPARK-45433] Исправить определение схемы CSV/JSON, если метки времени не соответствуют заданному формату временной метки.
- [SPARK-45655] Разрешить недетерминированные выражения внутри AggregateFunctions в CollectMetrics.
- Обновления системы безопасности операционной системы.
- 29 ноября 2023 г.
- Установлен новый пакет,
pyarrow-hotfix
, чтобы устранить уязвимость PyArrow RCE. - Соединитель Spark-snowflake обновляется до версии 2.12.0.
-
[SPARK-44846] Удалены сложные выражения группировки после
RemoveRedundantAggregates
. -
[SPARK-45544] Встроенная поддержка SSL в
TransportContext
. -
[SPARK-45892] Рефакторинг проверки плана оптимизатора для разделения
validateSchemaOutput
иvalidateExprIdUniqueness
. -
[SPARK-45730] Улучшенные ограничения времени для
ReloadingX509TrustManagerSuite
. -
[SPARK-45859] Сделал объекты UDF ленивым
ml.functions
. - Обновления системы безопасности операционной системы.
- Установлен новый пакет,
- 10 ноября 2023 г.
- Фильтры секций в запросах потоковой передачи Delta Lake отправляются вниз до ограничения скорости, чтобы повысить эффективность использования.
- Изменены запросы поставки данных для потоковых таблиц и материализованных представлений в Unity Catalog, чтобы отображать сообщения об ошибках.
-
[SPARK-45545]
SparkTransportConf
наследуетсяSSLOptions
при создании. -
[SPARK-45584] Исправлен сбой выполнения подзапроса с
TakeOrderedAndProjectExec
. -
[SPARK-45427] Добавлены параметры SSL RPC в
SSLOptions
иSparkTransportConf
. -
[SPARK-45541] Добавлен.
SSLFactory
-
[SPARK-45430]
FramelessOffsetWindowFunction
больше не завершается ошибкой, когдаIGNORE NULLS
иoffset > rowCount
. - [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
- [SPARK-44219] Добавлены дополнительные проверки для каждого правила для перезаписи оптимизации.
-
[SPARK-45543] Исправлена проблема, из-за которой
InferWindowGroupLimit
вызвала проблему, если другие функции окна не имели той же рамки окна, что и функции ранжирования. - Обновления системы безопасности операционной системы.
- 23 октября 2023 г.
-
[SPARK-45256] Исправлена проблема, из-за которой
DurationWriter
произошел сбой при написании больше значений, чем начальная емкость. -
[SPARK-45419] Избегайте повторного использования
rocksdb sst
файлов в другомrocksdb
экземпляре, удалив записи из карты версий для более крупных версий. -
[SPARK-45426] Добавлена поддержка
ReloadingX509TrustManager
. - Прочие исправления.
-
[SPARK-45256] Исправлена проблема, из-за которой
- 13 октября 2023 г.
- Зависимость Snowflake-jdbc обновлена с 3.13.29 до 3.13.33.
- Функция
array_insert
основана на 1 для положительных и отрицательных индексов, в то время как раньше она была основана на 0 для отрицательных индексов. Теперь он вставляет новый элемент в конец входных массивов для индекса -1. Чтобы восстановить предыдущее поведение, задайте дляspark.sql.legacy.negativeIndexInArrayInsert
значениеtrue
. - Исправлена проблема, из-за которой при включении
ignoreCorruptFiles
во время определения схемы CSV с Auto Loader не игнорировались поврежденные файлы. - Возврат [SPARK-42946].
- [SPARK-42205] Обновлен протокол JSON для удаления логирования Accumulables при запуске задачи или этапа.
-
[SPARK-45178] Резервное выполнение одного пакета для
Trigger.AvailableNow
неподдерживаемых источников, а не с помощью оболочки. -
[SPARK-45316] Добавление новых параметров
ignoreCorruptFiles
иignoreMissingFiles
вHadoopRDD
иNewHadoopRDD
. - [SPARK-44740] Исправлены значения метаданных для артефактов.
-
[SPARK-45360] Инициализированная конфигурация построителя сеансов Spark из
SPARK_REMOTE
. - [SPARK-44551] Редактирование комментариев для синхронизации с OSS.
- [SPARK-45346] определение схемы Parquet теперь учитывает флаги чувствительности к регистру при слиянии схем.
-
[SPARK-44658]
ShuffleStatus.getMapStatus
теперь возвращаетсяNone
вместоSome(null)
. - [SPARK-44840] Переработка отрицательных индексов на использование 1-базисной системы.
- 14 сентября 2023 г.
-
[SPARK-44873] Добавлена поддержка
alter view
с вложенными столбцами в клиенте Hive. -
[SPARK-44878] Отключен строгий предел для менеджера записи
RocksDB
, чтобы избежать исключения вставки при завершении кэширования.
-
[SPARK-44873] Добавлена поддержка
- 30 августа 2023 г.
- Команда dbutils
cp
(dbutils.fs.cp
) оптимизирована для ускорения копирования. Благодаря этому улучшению операции копирования могут занять до 100 меньше времени в зависимости от размера файла. Эта функция доступна во всех облаках и файловых системах, доступных в Databricks, в том числе для томов каталога Unity и подключений DBFS. -
[SPARK-44455] Помечать идентификаторы обратными кавычками в
SHOW CREATE TABLE
результате. - [SPARK-44763] Исправлена проблема, показывающая строку как двойную в двоичном арифметике с интервалом.
-
[SPARK-44871] Исправлено
percentile_disc
поведение. - [SPARK-44714] Ослабление ограничений разрешения LCA в отношении запросов.
-
[SPARK-44818] Исправлено состояние гонки для происходящих прерываний задания, произведённых до инициализации
taskThread
. - [SPARK-44505] Добавлены переопределения для поддержки колонной в сканировании для DSv2.
- [SPARK-44479] Исправлено преобразование protobuf из пустого типа структуры.
-
[SPARK-44718] Сопоставление
ColumnVector
конфигурации в режиме памяти по умолчанию соOffHeapMemoryMode
значением конфигурации. -
[SPARK-42941] Добавлена поддержка
StreamingQueryListener
в Python. - [SPARK-44558] Экспорт уровня журнала PySpark для Spark Connect.
-
[SPARK-44464] исправлено
applyInPandasWithStatePythonRunner
для вывода строк, имеющих значение null в качестве первого значения столбца. -
[SPARK-44643] Исправлено
Row.__repr__
, когда поле является пустой строкой. - Обновления системы безопасности операционной системы.
- Команда dbutils
Databricks Runtime 12.2 LTS
См. раздел Databricks Runtime 12.2 LTS.
- 11 февраля 2025 г.
- Отсутствует
10 декабря 2024 г.
- Обновления системы безопасности операционной системы.
26 ноября 2024 г.
- Прочие исправления ошибок.
10 октября 2024 г.
- [SPARK-49743][SQL] OptimizeCsvJsonExpr не должно изменять поля схемы при выполнении очистки GetArrayStructFields
25 сентября 2024 г.
- [SPARK-49000][SQL] Исправить "select count(distinct 1) from t", где t пустая таблица, с помощью расширения RewriteDistinctAggregates
- [SPARK-46601] [CORE] Исправлена ошибка журнала в handleStatusMessage
- Прочие исправления ошибок.
17 сентября 2024 г.
- Обновления системы безопасности операционной системы.
29 августа 2024 г.
- Прочие исправления ошибок.
14 августа 2024 г.
- [SPARK-48941][SPARK-48970] Обратный порт исправлений записи и чтения для машинного обучения.
- [SPARK-49065][SQL] Перенастройка в устаревших форматтерах/парсерах должна обеспечивать поддержку часовых поясов, отличных от времени по умолчанию в JVM.
- [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
- [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
- [SPARK-48463][ML] Сделать StringIndexer, поддерживающим вложенные входные столбцы
- Обновления системы безопасности операционной системы.
1 августа 2024 г.
- [SPARK-48896][SPARK-48909][SPARK-48883] Бэкпортирование исправлений в модуле записи Spark ML (машинного обучения)
1 августа 2024 г.
- Чтобы применить необходимые исправления безопасности, версия Python в Databricks Runtime 12.2 LTS обновляется с 3.9.5 до 3.9.19.
11 июля 2024 г.
- (Изменение поведения) DataFrame, кэшированные относительно источников таблицы Delta, теперь аннулируются в случае перезаписи исходной таблицы. Это изменение означает, что все изменения состояния в таблицах Delta теперь делают кэшированные результаты недействительными. Используйте
.checkpoint()
для сохранения состояния таблицы на протяжении всего времени жизни фрейма данных. - [SPARK-48481][SQL][SS] Не применяйте OptimizeOneRowPlan к потоковому набору данных
- [SPARK-47070] Исправлена недопустимая агрегация после перезаписи подзапросов
- [SPARK-42741][SQL] Не разворачивать приведение типов в бинарном сравнении, если литерал равен NULL
- [SPARK-48445][SQL] Не встраивайте пользовательские функции с дорогими дочерними объектами
- [SPARK-48503][SQL] Исправлены недопустимые скалярные подзапросы с группировкой по неэквивалентным столбцам, которые были неправильно разрешены
- [SPARK-48383][SS] Создание более эффективной ошибки для несовпадений секций в параметре startOffset в Kafka
- Обновления системы безопасности операционной системы.
- (Изменение поведения) DataFrame, кэшированные относительно источников таблицы Delta, теперь аннулируются в случае перезаписи исходной таблицы. Это изменение означает, что все изменения состояния в таблицах Delta теперь делают кэшированные результаты недействительными. Используйте
17 июня 2024 г.
- [SPARK-48277] Улучшение сообщения об ошибке для ErrorClassesJsonReader.getErrorMessage
- Прочие исправления ошибок.
21 мая 2024 г.
- [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
- Обновления системы безопасности операционной системы.
9 мая 2024 г.
- [SPARK-44251][SQL] Правильно задать атрибут NULL для объединенного ключа соединения в полном внешнем соединении USING
- [SPARK-47973][CORE] Определите место вызова в SparkContext.stop() и потом в SparkContext.assertNotStopped().
- [SPARK-47956][SQL] Проверка корректности для неразрешенной ссылки на LCA
- [SPARK-48018][SS] Исправление ошибки отсутствующего параметра, вызванной null значением groupId, при возникновении KafkaException.couldNotReadOffsetRange.
- Обновления системы безопасности операционной системы.
25 апреля 2024 г.
- Обновления системы безопасности операционной системы.
11 апреля 2024 г.
- Обновления системы безопасности операционной системы.
1 апреля 2024 г.
- [SPARK-47305][SQL] В PruneFilters исправлено правильное определение флага isStreaming для LocalRelation, когда план содержит и пакетную, и потоковую обработку.
- [SPARK-44252][SS] Определите новый класс ошибок и примените в случае ошибки загрузки из DFS
- [SPARK-47135][SS] Реализация классов ошибок для исключений потери данных Kafka
- [SPARK-47200][SS] Класс ошибок для ошибки пользовательской функции приемника пакетной службы Foreach
- Обновления системы безопасности операционной системы.
14 марта 2024 г.
- [SPARK-47176][SQL] Вспомогательная функция ResolveAllExpressionsUpWithPruning
- Возврат "[SPARK-46861][CORE] Избегайте взаимоблокировки в DAGScheduler"
- [SPARK-47125][SQL] Возвращает значение NULL, если Univocity никогда не активирует синтаксический анализ
- [SPARK-47167][SQL] Добавление конкретного класса для анонимного отношения JDBC
- Обновления системы безопасности операционной системы.
29 февраля 2024 г.
- Исправлена проблема, из-за которой использование локальной коллекции в качестве источника в команде MERGE могло привести к тому, что метрика numSourceRows сообщает о вдвое большем количестве строк, чем следует.
- Создание схемы с определенным расположением теперь требует, чтобы у пользователя были привилегии SELECT и привилегии ИЗМЕНЕНИЕ на любой файл.
- [SPARK-45582][SS] Убедитесь, что экземпляр хранилища не используется после вызова фиксации в режиме потоковой передачи агрегации
- Обновления системы безопасности операционной системы.
13 февраля 2024 г.
- [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
- [SPARK-46794] Удалить вложенные запросы из ограничений LogicalRDD.
- Обновления системы безопасности операционной системы.
31 января 2024 г.
- [SPARK-46763] Исправлена ошибка утверждения в ReplaceDeduplicateWithAggregate для повторяющихся атрибутов.
- Обновления системы безопасности операционной системы.
25 декабря 2023 г.
- Чтобы избежать повышенной задержки при обмене данными по протоколу TLSv1.3, этот выпуск обслуживания включает исправление для установки JDK 8, чтобы устранить ошибку JDK-8293562.
- [SPARK-39440] Добавьте конфигурацию для отключения временной шкалы событий.
- [SPARK-46132] Поддержка пароля для ключей JKS для RPC SSL.
-
[SPARK-46394] Исправлены проблемы spark.catalog.listDatabases() со схемами, содержащими специальные символы, когда
spark.sql.legacy.keepCommandOutputSchema
установлено значение true. - [SPARK-46417] Не завершайте выполнение с ошибкой при вызове hive.getTable, если throwException имеет значение false.
- [SPARK-43067] Исправьте расположение файла ресурсов класса ошибок в соединителе Kafka.
- [SPARK-46249] Требовать блокировку экземпляра для получения метрик RocksDB, чтобы предотвратить конфликты с фоновыми операциями.
-
[SPARK-46602] Распространить
allowExisting
при создании представления, если представление или таблица не существует. - [SPARK-46058] Добавьте отдельный флаг для privateKeyPassword.
- [SPARK-46145] spark.catalog.listTables не вызывает исключения, если таблица или представление не найдены.
-
[SPARK-46538] Исправлена проблема с неоднозначной ссылкой на столбец в
ALSModel.transform
. - [SPARK-42852] Отмена изменений, связанных с NamedLambdaVariable в EquivalentExpressions.
14 декабря 2023 г.
- Исправлена проблема, из-за которой экранированные подчеркивания в операциях getColumns, выполняемых клиентами JDBC или ODBC, обрабатывались неправильно и интерпретировались как подстановочные знаки.
- [SPARK-44582] Пропустить итератор в SMJ, если его очистили.
- [SPARK-45920] группировка по порядковому номеру должна быть идемпотентной.
- [SPARK-45655] Разрешить недетерминированные выражения внутри AggregateFunctions в CollectMetrics.
- Обновления системы безопасности операционной системы.
29 ноября 2023 г.
- Установлен новый пакет
pyarrow-hotfix
, чтобы устранить уязвимость PyArrow RCE. - Исправлена проблема, из-за которой экранированные подчеркивания в SQL-операциях
getColumns
, исходящих от JDBC или ODBC клиентов, неправильно интерпретировались как подстановочные знаки. -
[SPARK-42205] Удалены накопленные данные для ведения журнала в начальных событиях
Stage
иTask
. -
[SPARK-44846] Удалены сложные выражения группировки после
RemoveRedundantAggregates
. -
[SPARK-43718] Исправлена возможность null для ключей в
USING
соединениях. -
[SPARK-45544] Встроенная поддержка SSL в
TransportContext
. - [SPARK-43973] Теперь в интерфейсе Structured Streaming правильно отображаются неудачные запросы.
-
[SPARK-45730] Улучшенные ограничения времени для
ReloadingX509TrustManagerSuite
. -
[SPARK-45859] Сделал объекты UDF ленивым
ml.functions
. - Обновления системы безопасности операционной системы.
- Установлен новый пакет
14 ноября 2023 г.
- Фильтры секций в потоковых запросах Delta Lake опускаются вниз до ограничения скорости, чтобы повысить эффективность использования ресурсов.
-
[SPARK-45545]
SparkTransportConf
наследуетSSLOptions
при создании. -
[SPARK-45427] Добавлены параметры SSL RPC в
SSLOptions
иSparkTransportConf
. -
[SPARK-45584] Исправлен сбой выполнения вложенных запросов с использованием
TakeOrderedAndProjectExec
. -
[SPARK-45541] Добавлен.
SSLFactory
-
[SPARK-45430]
FramelessOffsetWindowFunction
больше не завершается ошибкой, когдаIGNORE NULLS
иoffset > rowCount
. - [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
- Обновления системы безопасности операционной системы.
24 октября 2023 г.
-
[SPARK-45426] Добавлена поддержка
ReloadingX509TrustManager
. - Прочие исправления.
-
[SPARK-45426] Добавлена поддержка
13 октября 2023 г.
- Зависимость Snowflake-jdbc обновлена с 3.13.29 до 3.13.33.
- [SPARK-42553] Убедитесь, что после интервала есть хотя бы одна единица времени.
- [SPARK-45346] определение схемы Parquet учитывает флаг учета регистра при слиянии схем.
-
[SPARK-45178] Переход на выполнение одного пакета для
Trigger.AvailableNow
, имеющего неподдерживаемые источники, вместо того чтобы использовать оболочку. -
[SPARK-45084]
StateOperatorProgress
использовать точное, адекватное число разделов для перетасовки.
12 сентября 2023 г.
-
[SPARK-44873] Добавлена поддержка
alter view
с вложенными столбцами в клиенте Hive. -
[SPARK-44718] Сопоставление
ColumnVector
конфигурации в режиме памяти по умолчанию соOffHeapMemoryMode
значением конфигурации. -
[SPARK-43799] Добавлен двоичный параметр дескриптора в API PySpark
Protobuf
. - Прочие исправления.
-
[SPARK-44873] Добавлена поддержка
30 августа 2023 г.
-
[SPARK-44485] Оптимизировано
TreeNode.generateTreeString
. -
[SPARK-44818] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации
taskThread
. -
[SPARK-44871][11.3-13.0] Исправлено
percentile_disc
поведение. - [SPARK-44714] Упрощенное ограничение разрешения LCA относительно запросов.
- Обновления системы безопасности операционной системы.
-
[SPARK-44485] Оптимизировано
15 августа 2023 г.
- [SPARK-44504] Задача обслуживания освобождает загруженные поставщики в случае ошибки остановки.
-
[SPARK-44464] Исправлено
applyInPandasWithStatePythonRunner
для вывода строк, в которыхNull
является первым значением в столбце. - Обновления системы безопасности операционной системы.
29 июля 2023 г.
- Исправлена проблема, из-за которой
dbutils.fs.ls()
возвращалINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
при вызове для пути к хранилищу, который конфликтовал с другим внешним или управляемым местом хранения. -
[SPARK-44199]
CacheManager
больше не обновляетfileIndex
без необходимости. - Обновления системы безопасности операционной системы.
- Исправлена проблема, из-за которой
24 июля 2023 г.
-
[SPARK-44337] Исправлена проблема, из-за которой любое поле, установленное в
Any.getDefaultInstance
, вызвало ошибки синтаксического анализа. -
[SPARK-44136] Исправлена проблема, из-за которой
StateManager
материализовалось в исполнителе вместо драйвера вFlatMapGroupsWithStateExec
. - Обновления системы безопасности операционной системы.
-
[SPARK-44337] Исправлена проблема, из-за которой любое поле, установленное в
23 июня 2023 г.
- Обновления системы безопасности операционной системы.
15 июня 2023 г.
- Фотонизировано
approx_count_distinct
. - Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
-
[SPARK-43779]
ParseToDate
теперь загружаетсяEvalMode
в основной поток. -
[SPARK-43156][SPARK-43098] Проверка подсчета ошибок расширенного скалярного подзапроса при отключенном
decorrelateInnerQuery
. - Обновления системы безопасности операционной системы.
- Фотонизировано
2 июня 2023 г.
- Средство синтаксического анализа JSON в
failOnUnknownFields
режиме удаляет запись вDROPMALFORMED
режиме и завершается сбоем непосредственно в режимеFAILFAST
. - Улучшение производительности инкрементных обновлений с помощью
SHALLOW CLONE
Iceberg и Parquet. - Исправлена проблема в Auto Loader, из-за которой разные форматы исходных файлов были несовместимыми, если предоставленная схема не включала выведенные разделы. Эта проблема может привести к непредвиденным сбоям при чтении файлов с отсутствующими столбцами в схеме выводимой секции.
- [SPARK-43404] Не используйте повторно SST-файл для той же версии хранилища состояний RocksDB, чтобы избежать ошибки несоответствия идентификаторов.
-
[SPARK-43413][11.3-13.0] Исправлена
IN
допустимостьListQuery
null в подзапросах. - [SPARK-43522] Исправлено создание имени столбца структуры с индексом массива.
-
[SPARK-43541] распространять все теги
Project
при разрешении выражений и отсутствующих столбцов. -
[SPARK-43527] Исправлено
catalog.listCatalogs
в PySpark. - [SPARK-43123] метаданные внутреннего поля больше не просачиваются в каталоги.
- [SPARK-43340] Исправлено отсутствие поля трассировки стека в журналах событий.
-
[SPARK-42444]
DataFrame.drop
теперь правильно обрабатывает повторяющиеся столбцы. -
[SPARK-42937]
PlanSubqueries
теперь задаетInSubqueryExec#shouldBroadcast
значение true. -
[SPARK-43286] Режим
aes_encrypt
CBC был обновлен для создания случайных IV. -
[SPARK-43378] Правильно закрывайте объекты потока в
deserializeFromChunkedBuffer
.
- Средство синтаксического анализа JSON в
17 мая 2023 г.
- Теперь сканирование Parquet обеспечивает надежную защиту от OOM при сканировании исключительно структурированных файлов путем динамической настройки размера пакета. Метаданные файлов анализируются для предотвращающего уменьшения размера пакета и уменьшаются снова при повторных попытках задачи в качестве дополнительной меры безопасности.
- Если файл Avro считывался только с параметром
failOnUnknownFields
или автозагрузчиком в режиме эволюции схемыfailOnNewColumns
, столбцы с различными типами данных будут считываться какnull
вместо того, чтобы вызвать ошибку, указывающую, что файл не может быть прочитан. Теперь эти операции чтения завершаются ошибкой и рекомендуют пользователям использовать этотrescuedDataColumn
параметр. - Автозагрузчик теперь выполняет следующие действия.
-
- Правильно считывает и больше не учитывает типы
Integer
,Short
иByte
, если предоставлен один из этих типов данных, но файл Avro предполагает один из других двух типов.
- Правильно считывает и больше не учитывает типы
-
- Предотвращает интерпретацию типов интервалов как типы меток даты или времени, чтобы избежать искажения дат.
-
- Предотвращает чтение типов
Decimal
с более низкой точностью.
- Предотвращает чтение типов
- [SPARK-43172] Делает доступными узел и маркер из клиента Spark connect.
-
[SPARK-43293]
__qualified_access_only
игнорируется в обычных столбцах. -
[SPARK-43098] Исправлена ошибка корректности
COUNT
при группировке скалярного вложенного запроса по условию. - [SPARK-43085] поддержка присваивания столбцов для имен таблиц с несколькими частями.
-
[SPARK-43190]
ListQuery.childOutput
теперь согласуется со вторичными выходными данными. - [SPARK-43192] Удалена проверка charset агента пользователя.
- Обновления системы безопасности операционной системы.
25 апреля 2023 г.
- Если файл Parquet был прочитан только с параметром
failOnUnknownFields
или с автозагрузчиком в режиме эволюции схемыfailOnNewColumns
, столбцы с различными типами данных будут считываться какnull
вместо того, чтобы вызвать ошибку, указывающую, что файл не может быть прочитан. Теперь эти операции чтения завершаются ошибкой и рекомендуют пользователям использовать этотrescuedDataColumn
параметр. - Автоматический загрузчик теперь правильно считывает и больше не спасает типы
Integer
,Short
иByte
, если предоставлен один из этих типов. Файл Parquet указывает на один из двух других типов. Когда ранее был включен столбец данных после восстановления, несоответствие типа данных приводило к сохранению столбцов, даже если они поддавались чтению. -
[SPARK-43009] Параметризованный
sql()
сAny
константами - [SPARK-42406] Завершение рекурсивных полей Protobuf путем удаления поля
-
[SPARK-43038] Поддержка режима CBC по
aes_encrypt()
/aes_decrypt()
-
[SPARK-42971] Изменить, чтобы печатать
workdir
, если значениеappDirs
равно NULL при обработке событияWorkDirCleanup
рабочим дескриптором. - [SPARK-43018] Исправлена ошибка для команд INSERT с литеральной меткой времени
- Обновления системы безопасности операционной системы.
- Если файл Parquet был прочитан только с параметром
11 апреля 2023 г.
- Поддержка устаревших форматов источников данных в команде
SYNC
. - Исправлена проблема в поведении %autoreload в записных книжках за пределами репозитория.
- Исправлена проблема, из-за которой эволюция схемы автозагрузчика может перейти в бесконечный цикл сбоя при обнаружении нового столбца в схеме вложенного объекта JSON.
-
[SPARK-42928] Выполняет
resolvePersistentFunction
синхронизацию. - [SPARK-42936] Устраняет ошибку LCan, если предложение может быть разрешено непосредственно его дочерним агрегатом.
-
[SPARK-42967] Исправление
SparkListenerTaskStart.stageAttemptId
при запуске задачи после отмены этапа. - Обновления системы безопасности операционной системы.
- Поддержка устаревших форматов источников данных в команде
29 марта 2023 г.
Databricks SQL теперь поддерживает указание значений по умолчанию для столбцов таблиц Delta Lake либо во время создания таблицы, либо после этого. Последующие команды
INSERT
,UPDATE
,DELETE
иMERGE
могут ссылаться на значение по умолчанию любого столбца с помощью явного ключевого словаDEFAULT
. Кроме того, если в любом присваиванииINSERT
явно указано меньше столбцов, чем в целевой таблице, для оставшихся столбцов используются соответствующие значения по умолчанию (или NULL, если значение по умолчанию не указано).Например:
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; > 0, 2023-03-28 1, 2023-03-28z
Автозагрузчик теперь запускает по крайней мере одну синхронную очистку журнала RocksDB для потоков
Trigger.AvailableNow
, чтобы убедиться, что контрольная точка может регулярно очищаться для быстро работающих потоков автозагрузчика. Это может привести к тому, что некоторые потоки будут занимать больше времени до завершения работы, но это позволит сэкономить на затратах на хранение и улучшить опыт использования автозагрузчика в будущих запусках.Теперь можно изменить таблицу Delta, чтобы добавить поддержку для функций таблицы с помощью
DeltaTable.addFeatureSupport(feature_name)
.[SPARK-42794] Увеличьте значение lockAcquireTimeoutMs до 2 минут для захвата хранилища состояний RocksDB в Strukturirovannom Strimingе
[SPARK-42521] Добавление NULL для INSERT с пользовательскими списками, содержащими меньшее количество столбцов, чем в целевой таблице
[SPARK-42702][SPARK-42623] Поддержка параметризованного запроса в вложенных запросах и CTE
[SPARK-42668] Перехват исключения при попытке закрыть сжатый поток в HDFSStateStoreProvider stop
[SPARK-42403] JsonProtocol должен обрабатывать строки JSON NULL
8 марта 2023 г.
- Сообщение об ошибке "Сбой инициализации конфигурации" улучшено, чтобы обеспечить больше контекста для клиента.
- Существует изменение терминологии для добавления функций в таблицу Delta с помощью свойства таблицы. Предпочтительный синтаксис теперь
'delta.feature.featureName'='supported'
вместо'delta.feature.featureName'='enabled'
. Для обеспечения обратной совместимости использование'delta.feature.featureName'='enabled'
по-прежнему работает и продолжит работать. - Начиная с этого выпуска, можно создать или заменить таблицу, используя дополнительное свойство таблицы
delta.ignoreProtocolDefaults
, чтобы игнорировать конфигурации Spark, связанные с протоколом, которые включают версии чтения и записи по умолчанию, а также функции таблицы, поддерживаемые по умолчанию. - [SPARK-42070] Изменение значения по умолчанию аргумента функции Mask с -1 на NULL
- [SPARK-41793] Неверный результат для оконных рамок, определенных предложением диапазона для дробей с значительными значениями.
- [SPARK-42484] Более подробное сообщение об ошибке в UnsafeRowUtils
- [SPARK-42516] Всегда записывать конфигурацию часового пояса сеанса при создании представлений
- [SPARK-42635] Исправлено выражение TimestampAdd.
- [SPARK-42622] Отключена подстановка значений
- [SPARK-42534] исправление условия LIMIT для DB2Dialect
- [SPARK-42121] Добавление встроенных функций табличных значений posexplode, posexplode_outer, json_tuple и stack
- [SPARK-42045] Режим SQL ANSI: Round/Bround должен возвращать ошибку при крошечном/маленьком или значительном переполнении целых чисел
- Обновления системы безопасности операционной системы.
Databricks Runtime 11.3 LTS
См. раздел Databricks Runtime 11.3 LTS.
- 11 февраля 2025 г.
- Этот выпуск содержит исправление для краевого случая, когда инкрементальная
CLONE
может повторно копировать файлы, уже скопированные из исходной таблицы в целевую таблицу. См. Клонируйте таблицу в Azure Databricks.
- Этот выпуск содержит исправление для краевого случая, когда инкрементальная
- 10 декабря 2024 г.
- Обновления системы безопасности операционной системы.
- 26 ноября 2024 г.
- Прочие исправления ошибок.
- 10 октября 2024 г.
- Прочие исправления ошибок.
- 25 сентября 2024 г.
- [SPARK-46601] [CORE] Исправлена ошибка журнала в handleStatusMessage
- [SPARK-49000][SQL] Исправить "select count(distinct 1) from t", где t пустая таблица, с помощью расширения RewriteDistinctAggregates
- Прочие исправления ошибок.
- 17 сентября 2024 г.
- Обновления системы безопасности операционной системы.
- 29 августа 2024 г.
- 14 августа 2024 г.
- [SPARK-48941][SPARK-48970] Обратная портировка исправлений для средств записи и чтения в машинном обучении
- [SPARK-49065][SQL] Перепривязка в устаревших форматерах/синтаксических анализаторах должна поддерживать нестандартные часовые пояса, отличные от JVM по умолчанию.
- [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
- [SPARK-48463][ML] Сделать StringIndexer, поддерживающим вложенные входные столбцы
- Обновления системы безопасности операционной системы.
- 1 августа 2024 г.
- [SPARK-48896][SPARK-48909][SPARK-48883] Исправления средства записи машинного обучения backport spark
- 1 августа 2024 г.
- Чтобы применить необходимые исправления безопасности, версия Python в Databricks Runtime 11.3 LTS обновляется с 3.9.5 до 3.9.19.
- 11 июля 2024 г.
- [SPARK-48383][SS] Выдать более понятное сообщение об ошибке для несовпадений разделов в параметре startOffset в Kafka
- [SPARK-47070] Исправлена недопустимая агрегация после переписывания подзапросов.
- Обновления системы безопасности операционной системы.
- 17 июня 2024 г.
- Обновления системы безопасности операционной системы.
- 21 мая 2024 г.
- [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
- Обновления системы безопасности операционной системы.
- 9 мая 2024 г.
- [SPARK-48018][SS] Исправление пустого идентификатора groupId, приводящего к отсутствию параметра при вызове KafkaException.couldNotReadOffsetRange
- [SPARK-47973][CORE] Ведение журнала места вызова в SparkContext.stop() и в дальнейшем в SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Правильно задать атрибут NULL для объединенного ключа соединения в полном внешнем соединении USING
- Обновления системы безопасности операционной системы.
- 25 апреля 2024 г.
- Обновления системы безопасности операционной системы.
- 11 апреля 2024 г.
- Обновления системы безопасности операционной системы.
- 1 апреля 2024 г.
- [SPARK-44252][SS] Определите новый класс ошибок и примените в случае ошибки загрузки из DFS
- [SPARK-47135][SS] Реализация классов ошибок для исключений потери данных Kafka
- Возврат "[SPARK-46861][CORE] Избегайте взаимоблокировки в DAGScheduler"
- [SPARK-47200][SS] Класс ошибок для ошибки пользовательской функции в приемнике пакетов Foreach
- Обновления системы безопасности операционной системы.
- 14 марта 2024 г.
- [SPARK-47167][SQL] Добавление конкретного класса для анонимного отношения JDBC
- [SPARK-47125][SQL] Возвращает значение NULL, если Univocity никогда не активирует синтаксический анализ
- Обновления системы безопасности операционной системы.
- 29 февраля 2024 г.
- Исправлена проблема, из-за которой использование локальной коллекции в качестве источника в команде MERGE могло привести к тому, что метрика numSourceRows сообщает о вдвое большем количестве строк, чем следует.
- [SPARK-45582][SS] Не используйте экземпляр хранилища после вызова фиксации в режиме вывода потоковой агрегации
- 13 февраля 2024 г.
- [SPARK-46794] Удалить вложенные запросы из ограничений LogicalRDD.
- [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
- Обновления системы безопасности операционной системы.
- 31 января 2024 г.
- Обновления системы безопасности операционной системы.
- 25 декабря 2023 г.
- Чтобы избежать повышенной задержки при обмене данными по протоколу TLSv1.3, этот выпуск обслуживания включает исправление для установки JDK 8, чтобы устранить ошибку JDK-8293562.
- [SPARK-46058] Добавьте отдельный флаг для privateKeyPassword.
-
[SPARK-46602] Распространить
allowExisting
при создании представления, если представление или таблица не существует. -
[SPARK-46394] Исправлены проблемы spark.catalog.listDatabases() со схемами, содержащими специальные символы, когда
spark.sql.legacy.keepCommandOutputSchema
установлено значение true. -
[SPARK-46538] Исправлена проблема с неоднозначной ссылкой на столбец в
ALSModel.transform
. - [SPARK-39440] Добавьте конфигурацию для отключения временной шкалы событий.
- [SPARK-46249] Необходимо применить блокировку экземпляра для получения метрик RocksDB, чтобы предотвратить гонку с фоновыми операциями.
- [SPARK-46132] Поддержка пароля для JKS для RPC SSL.
- 14 декабря 2023 г.
- Исправлена проблема, из-за которой экранированные подчеркивания в операциях getColumns, выполняемых клиентами JDBC или ODBC, обрабатывались некорректно и интерпретировались как подстановочные знаки.
- Обновления системы безопасности операционной системы.
- 29 ноября 2023 г.
- Был установлен новый пакет,
pyarrow-hotfix
, чтобы ликвидировать уязвимость PyArrow RCE. - Исправлена проблема, из-за которой экранированные подчеркивания в операциях
getColumns
, исходящих из клиентов JDBC или ODBC, были неправильно интерпретированы как подстановочные знаки. - [SPARK-43973] Теперь в интерфейсе структурированной потоковой передачи правильно отображаются ошибочные запросы.
-
[SPARK-45730] Улучшенные ограничения времени для
ReloadingX509TrustManagerSuite
. -
[SPARK-45544] Встроенная поддержка SSL в
TransportContext
. -
[SPARK-45859] Сделал объекты UDF ленивым
ml.functions
. -
[SPARK-43718] Исправлена возможность null для ключей в
USING
соединениях. -
[SPARK-44846] Удалены сложные выражения группировки после
RemoveRedundantAggregates
. - Обновления системы безопасности операционной системы.
- Был установлен новый пакет,
- 14 ноября 2023 г.
- Фильтры секций в запросах потоковой передачи Delta Lake отправляются вниз до ограничения скорости, чтобы повысить эффективность использования.
- [SPARK-42205] Удалены аккумулируемые элементы, связанные с ведением журнала, в событиях запуска этапов и задач.
-
[SPARK-45545]
SparkTransportConf
наследуетSSLOptions
при создании. - Возврат [SPARK-33861].
-
[SPARK-45541] Добавлен.
SSLFactory
- [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
-
[SPARK-45584] Исправлен сбой выполнения подзапросов.
TakeOrderedAndProjectExec
-
[SPARK-45430]
FramelessOffsetWindowFunction
больше не завершается ошибкой, когдаIGNORE NULLS
иoffset > rowCount
. -
[SPARK-45427] Добавлены параметры SSL RPC в
SSLOptions
иSparkTransportConf
. - Обновления системы безопасности операционной системы.
- 24 октября 2023 г.
-
[SPARK-45426] Добавлена поддержка
ReloadingX509TrustManager
. - Прочие исправления.
-
[SPARK-45426] Добавлена поддержка
- 13 октября 2023 г.
- Зависимость Snowflake-jdbc обновлена с 3.13.29 до 3.13.33.
-
[SPARK-45178] Используйте резервное выполнение с одним пакетом для
Trigger.AvailableNow
неподдерживаемых источников, вместо использования оболочки. -
[SPARK-45084]
StateOperatorProgress
использовать оптимальное число секций перемешивания. - [SPARK-45346] вывод схемы Parquet теперь учитывает чувствительность к регистру при слиянии схем.
- Обновления системы безопасности операционной системы.
- 10 сентября 2023 г.
- Прочие исправления.
- 30 августа 2023 г.
-
[SPARK-44818] Исправлено состояние гонки для ожидающего прерывания задачи, выданного до инициализации
taskThread
. -
[SPARK-44871][11.3-13.0] Исправлено
percentile_disc
поведение. - Обновления системы безопасности операционной системы.
-
[SPARK-44818] Исправлено состояние гонки для ожидающего прерывания задачи, выданного до инициализации
- 15 августа 2023 г.
-
[SPARK-44485] Оптимизировано
TreeNode.generateTreeString
. - [SPARK-44504] Задача обслуживания при ошибке остановки выполняет очистку загруженных провайдеров.
-
[SPARK-44464] Исправлено
applyInPandasWithStatePythonRunner
для вывода строк, в которыхNull
является первым значением в столбце. - Обновления системы безопасности операционной системы.
-
[SPARK-44485] Оптимизировано
- 27 июля 2023 г.
- Исправлена проблема, из-за которой
dbutils.fs.ls()
возвращалINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
при вызове для пути расположения хранилища, который конфликтовал с другим внешним или управляемым расположением хранилища. -
[SPARK-44199]
CacheManager
больше не обновляетfileIndex
без необходимости. - Обновления системы безопасности операционной системы.
- Исправлена проблема, из-за которой
- 24 июля 2023 г.
- [SPARK-44136] Исправлена проблема, из-за которой StateManager материализуется в исполнительном процессе, а не в драйвере в FlatMapGroupsWithStateExec.
- Обновления системы безопасности операционной системы.
- 23 июня 2023 г.
- Обновления системы безопасности операционной системы.
- 15 июня 2023 г.
- Фотонализовано
approx_count_distinct
. - Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
-
[SPARK-43779]
ParseToDate
теперь загружаетсяEvalMode
в основной поток. - [SPARK-40862] Поддержка неагрегированных вложенных запросов в RewriteCorrelatedScalarSubquery
-
[SPARK-43156][SPARK-43098] Расширенный тест на количество ошибок скалярных подзапросов при отключённом
decorrelateInnerQuery
. - [SPARK-43098] Исправлена ошибка корректности COUNT, когда скалярный подзапрос содержит предложение GROUP BY
- Обновления системы безопасности операционной системы.
- Фотонализовано
- 2 июня 2023 г.
- Средство синтаксического анализа JSON в режиме
failOnUnknownFields
отбрасывает запись в режимеDROPMALFORMED
и завершается сбоем непосредственно в режимеFAILFAST
. - Улучшите производительность инкрементных обновлений с помощью
SHALLOW CLONE
Iceberg и Parquet. - Исправлена проблема в Auto Loader, из-за которой разные форматы исходных файлов были несовместимыми, если предоставленная схема не включала выведенные разделы. Эта проблема может привести к непредвиденным сбоям при чтении файлов с отсутствующими столбцами в схеме выводимой секции.
- [SPARK-43404]Пропустите повторное использование SST-файла для той же версии хранилища состояния RocksDB, чтобы избежать ошибки несоответствия идентификаторов.
-
[SPARK-43527] Исправлено
catalog.listCatalogs
в PySpark. -
[SPARK-43413][11.3-13.0] Исправлена ошибка определения nullability
IN
подзапросаListQuery
. - [SPARK-43340] Исправлено отсутствие поля трассировки стека в журналах событий.
- Средство синтаксического анализа JSON в режиме
Databricks Runtime 10.4 LTS
См. Databricks Runtime 10.4 LTS.
- 11 февраля 2025 г.
- Этот выпуск содержит исправление для крайнего случая, когда добавочный
CLONE
может повторно копировать файлы, уже скопированные из исходной таблицы в целевую таблицу. См. Клонируйте таблицу в Azure Databricks. - Обновления системы безопасности операционной системы.
- Этот выпуск содержит исправление для крайнего случая, когда добавочный
- 10 декабря 2024 г.
- Обновления системы безопасности операционной системы.
- 26 ноября 2024 г.
- Обновления системы безопасности операционной системы.
- 5 ноября 2024 г.
- Обновления системы безопасности операционной системы.
- 22 октября 2024 г.
- Обновления системы безопасности операционной системы.
- 10 октября 2024 г.
- Обновления системы безопасности операционной системы.
- 25 сентября 2024 г.
- [SPARK-46601] [CORE] Исправлена ошибка журнала в handleStatusMessage
- [SPARK-49000][SQL] Исправить "select count(distinct 1) from t", где t пустая таблица, с помощью расширения RewriteDistinctAggregates
- Обновления системы безопасности операционной системы.
- 17 сентября 2024 г.
- Обновления системы безопасности операционной системы.
- 29 августа 2024 г.
- [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
- 14 августа 2024 г.
- [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
- [SPARK-48941][SPARK-48970] Обратная портировка исправлений в модулях записи и чтения машинного обучения
- [SPARK-48463][ML] Сделать StringIndexer, поддерживающим вложенные входные столбцы
- 1 августа 2024 г.
- [SPARK-48896][SPARK-48909][SPARK-48883] Обратный порт исправлений для средства записи Spark ML
- Обновления системы безопасности операционной системы.
- 11 июля 2024 г.
- [SPARK-48383][SS] Улучшение обработки ошибок при несовпадении партиций в параметре startOffset в Kafka
- Обновления системы безопасности операционной системы.
- 17 июня 2024 г.
- Обновления системы безопасности операционной системы.
- 21 мая 2024 г.
- [SPARK-48105][SS] Исправление состояния состязания между выгрузкой и снятием моментальных снимков состояния хранилища
- Обновления системы безопасности операционной системы.
- 9 мая 2024 г.
- [SPARK-48018][SS] Исправление groupId со значением null, вызывающего ошибку отсутствия параметра при выбрасывании KafkaException.couldNotReadOffsetRange.
- [SPARK-47973][CORE] Запись места вызова в журналах в SparkContext.stop() и затем в SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Правильно задать значение NULL для объединенного ключа соединения в полном внешнем соединении USING
- Обновления системы безопасности операционной системы.
- 25 апреля 2024 г.
- Обновления системы безопасности операционной системы.
- 11 апреля 2024 г.
- Обновления системы безопасности операционной системы.
- 1 апреля 2024 г.
- [SPARK-47135][SS] Реализация классов ошибок для исключений потери данных Kafka
- [SPARK-44252][SS] Определите новый класс ошибок и примените в случае ошибки загрузки из DFS
- [SPARK-47200][SS] Класс ошибок для ошибки пользовательской функции приемника пакетов Foreach
- Возврат "[SPARK-46861][CORE] Избегайте взаимоблокировки в DAGScheduler"
- Обновления системы безопасности операционной системы.
- 14 марта 2024 г.
- [SPARK-47125][SQL] Возвращает значение NULL, если Univocity никогда не активирует синтаксический анализ
- Обновления системы безопасности операционной системы.
- 29 февраля 2024 г.
- Исправлена проблема, из-за которой использование локальной коллекции в качестве источника в команде MERGE могло привести к тому, что метрика numSourceRows сообщает о вдвое большем количестве строк, чем следует.
- [SPARK-45582][SS] Убедитесь, что экземпляр хранилища не используется после вызова commit в режиме потоковой агрегации.
- Обновления системы безопасности операционной системы.
- 13 февраля 2024 г.
- [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
- Обновления системы безопасности операционной системы.
- 31 января 2024 г.
- Обновления системы безопасности операционной системы.
- 25 декабря 2023 г.
- Чтобы избежать повышенной задержки при обмене данными по протоколу TLSv1.3, этот выпуск обслуживания включает исправление для установки JDK 8, чтобы устранить ошибку JDK-8293562.
- [SPARK-46058] Добавьте отдельный флаг для privateKeyPassword.
-
[SPARK-46538] Исправлена проблема с неоднозначной ссылкой на столбец в
ALSModel.transform
. - [SPARK-39440] Добавьте конфигурацию для отключения временной шкалы событий.
- [SPARK-46132] Поддержка пароля для ключей JKS для SSL RPC.
- 14 декабря 2023 г.
- Обновления системы безопасности операционной системы.
- 29 ноября 2023 г.
- Был установлен новый пакет
pyarrow-hotfix
, чтобы устранить уязвимость PyArrow RCE. -
[SPARK-45544] Встроенная поддержка SSL в
TransportContext
. -
[SPARK-45859] Сделал объекты UDF ленивым
ml.functions
. -
[SPARK-43718] Исправлена нулевость ключей в
USING
соединениях. -
[SPARK-45730] Улучшенные ограничения времени для
ReloadingX509TrustManagerSuite
. - [SPARK-42205] Удалены сведения о ведении журнала в событиях запуска этапов и задач.
-
[SPARK-44846] Удалены сложные выражения группировки после
RemoveRedundantAggregates
. - Обновления системы безопасности операционной системы.
- Был установлен новый пакет
- 14 ноября 2023 г.
-
[SPARK-45541] Добавлен.
SSLFactory
-
[SPARK-45545]
SparkTransportConf
наследуетSSLOptions
при создании. -
[SPARK-45427] Добавлены параметры SSL RPC в
SSLOptions
иSparkTransportConf
. - [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
-
[SPARK-45584] Исправлен сбой выполнения вложенных запросов.
TakeOrderedAndProjectExec
- Возврат [SPARK-33861].
- Обновления системы безопасности операционной системы.
-
[SPARK-45541] Добавлен.
- 24 октября 2023 г.
-
[SPARK-45426] Добавлена поддержка
ReloadingX509TrustManager
. - Обновления системы безопасности операционной системы.
-
[SPARK-45426] Добавлена поддержка
- 13 октября 2023 г.
-
[SPARK-45084]
StateOperatorProgress
использовать точное, адекватное число секций перетасовки. -
[SPARK-45178] Резервное выполнение одного пакета для
Trigger.AvailableNow
неподдерживаемых источников, а не с помощью оболочки. - Обновления системы безопасности операционной системы.
-
[SPARK-45084]
- 10 сентября 2023 г.
- Прочие исправления.
- 30 августа 2023 г.
-
[SPARK-44818] Исправлено состояние гонки для ожидающего прерывания задачи, выданного до инициализации
taskThread
. - Обновления системы безопасности операционной системы.
-
[SPARK-44818] Исправлено состояние гонки для ожидающего прерывания задачи, выданного до инициализации
- 15 августа 2023 г.
- [SPARK-44504] Задача обслуживания освобождает загруженные поставщики в случае ошибки остановки.
- [SPARK-43973] В интерфейсе Structured Streaming теперь правильно отображаются завершённые с ошибкой запросы.
- Обновления системы безопасности операционной системы.
- 23 июня 2023 г.
- Обновления системы безопасности операционной системы.
- 15 июня 2023 г.
- Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
- [SPARK-43098] Исправлена ошибка правильности COUNT при использовании оператора GROUP BY в скалярном подзапросе.
- [SPARK-40862] Поддержка не агрегированных вложенных запросов в RewriteCorrelatedScalarSubquery
-
[SPARK-43156][SPARK-43098] Проведен расширенный тест для подсчета скалярного подзапроса с отключенной настройкой
decorrelateInnerQuery
. - Обновления системы безопасности операционной системы.
- 2 июня 2023 г.
- Средство синтаксического анализа JSON в
failOnUnknownFields
режиме удаляет запись вDROPMALFORMED
режиме и завершается сбоем непосредственно вFAILFAST
режиме. - Исправлена проблема в синтаксическом анализе восстановленных данных JSON, чтобы предотвратить
UnknownFieldException
. - Исправлена проблема в Auto Loader, из-за которой разные форматы исходных файлов были несовместимыми, если предоставленная схема не включала выведенные разделы. Эта проблема может привести к непредвиденным сбоям при чтении файлов с отсутствующими столбцами в схеме выводимой секции.
- [SPARK-43404] Пропуск повторного использования SST-файла для той же версии хранилища состояния RocksDB, чтобы избежать ошибки несоответствия идентификаторов.
-
[SPARK-43413] Исправлена
IN
нулевое состояние подзапросаListQuery
. - Обновления системы безопасности операционной системы.
- Средство синтаксического анализа JSON в
- 17 мая 2023 г.
- Теперь сканирование Parquet обеспечивает надежную защиту от OOM при сканировании исключительно структурированных файлов путем динамической настройки размера пакета. Метаданные файлов анализируются для предварительного уменьшения размера пакета, который затем снова снижается при повторных попытках выполнения задач в качестве окончательной меры безопасности.
-
[SPARK-41520] Разделить
AND_OR
шаблон дерева, чтобы отделитьAND
иOR
. -
[SPARK-43190]
ListQuery.childOutput
теперь согласуется со вторичными выходными данными. - Обновления системы безопасности операционной системы.
- 25 апреля 2023 г.
-
[SPARK-42928] Сделайте
resolvePersistentFunction
синхронизированным. - Обновления системы безопасности операционной системы.
-
[SPARK-42928] Сделайте
- 11 апреля 2023 г.
- Исправлена проблема, из-за которой эволюция схемы автозагрузчика может перейти в бесконечный цикл сбоя при обнаружении нового столбца в схеме вложенного объекта JSON.
-
[SPARK-42937]
PlanSubqueries
теперь задаетInSubqueryExec#shouldBroadcast
значение true. - [SPARK-42967] Исправление SparkListenerTaskStart.stageAttemptId при запуске задачи после отмены этапа.
- 29 марта 2023 г.
- [SPARK-42668] Перехват исключения при попытке закрыть сжатый поток в HDFSStateStoreProvider
- [SPARK-42635] Исправление ...
- Обновления системы безопасности операционной системы.
- 14 марта 2023 г.
- [SPARK-41162] Исправление анти-соединения и полусоединения для самосоединения с агрегациями
- [SPARK-33206] Исправление вычисления веса кэша индексов с перетасовкой для небольших файлов индексов
-
[SPARK-42484] Улучшено сообщение об ошибке
UnsafeRowUtils
- Прочие исправления.
- 28 февраля 2023 г.
- Поддержка сгенерированного столбца для формата даты гггг-ММ-дд. Это изменение поддерживает очистку секций для гггг-ММ-дд в виде date_format в созданных столбцах.
- Теперь пользователи могут читать и записывать определенные таблицы Delta, требующие чтения версии 3 и записи версии 7, с помощью Databricks Runtime 9.1 LTS или более поздней версии. Для успешного выполнения функции таблиц, перечисленные в протоколе таблиц, должны поддерживаться текущей версией Databricks Runtime.
- Поддержка сгенерированного столбца для формата даты гггг-ММ-дд. Это изменение поддерживает очистку секций для гггг-ММ-дд в виде date_format в созданных столбцах.
- Обновления системы безопасности операционной системы.
- 16 февраля 2023 г.
- [SPARK-30220] Включить использование подзапросов "Exists"/"In" вне узла фильтрации
- Обновления системы безопасности операционной системы.
- 31 января 2023 г.
- По умолчанию типы таблиц JDBC являются внешними.
- 18 января 2023 г.
- Соединитель Azure Synapse возвращает более описательное сообщение об ошибке, если имя столбца содержит недопустимые символы, такие как пробелы или точки с запятой. В таких случаях будет возвращено следующее сообщение:
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
- [SPARK-38277] Очистка пакета записи после коммита хранилища состояния в RocksDB
- [SPARK-41199] Исправлена проблема с метриками при совместном использовании источника потоковой передачи DSv1 и источника потоковой передачи DSv2.
- [SPARK-41198] Исправить метрики в потоковом запросе, содержащем CTE и источник потоковой передачи DSv1.
- [SPARK-41339] Закройте и повторно создайте сессию записи RocksDB вместо простой очистки.
- [SPARK-41732] Применить отсечение на основе шаблонов дерева для правила SessionWindowing.
- Обновления системы безопасности операционной системы.
- Соединитель Azure Synapse возвращает более описательное сообщение об ошибке, если имя столбца содержит недопустимые символы, такие как пробелы или точки с запятой. В таких случаях будет возвращено следующее сообщение:
- 29 ноября 2022 г.
- Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пустого пространства:
-
csvignoreleadingwhitespace
, когда задано значениеtrue
, удаляет начальные пробелы из значений во время записи, еслиtempformat
задано какCSV
илиCSV GZIP
. Пробелы сохраняются, если для конфигурации задано значениеfalse
. Значение по умолчанию —true
. -
csvignoretrailingwhitespace
, если установлено наtrue
, удаляет конечные пробелы из значений при записи, когдаtempformat
установлено наCSV
илиCSV GZIP
. Пробелы сохраняются, если для конфигурации задано значениеfalse
. Значение по умолчанию —true
.
-
- Исправлена проблема с синтаксическим анализом JSON в Auto Loader, когда все столбцы оставались в виде строк (не были установлены
cloudFiles.inferColumnTypes
или установленыfalse
), и JSON содержал вложенные объекты. - Обновления системы безопасности операционной системы.
- Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пустого пространства:
- 15 ноября 2022 г.
- Обновление Apache commons-text до версии 1.10.0.
-
[SPARK-40646] синтаксический анализ JSON для структур, карт и массивов был исправлен, поэтому, если часть записи не соответствует схеме, остальная часть записи по-прежнему может быть правильно проанализирована, а не возвращать значения NULL. Чтобы включить улучшенное поведение, задайте для
spark.sql.json.enablePartialResults
значениеtrue
. Флаг отключен по умолчанию, чтобы сохранить исходное поведение. -
[SPARK-40292] Исправление имен столбцов в функции
arrays_zip
при обращении к массивам из вложенных структур - Обновления системы безопасности операционной системы.
- 1 ноября 2022 г.
- Исправлена проблема, из-за которой в таблице Delta существовал определяемый пользователем столбец с именем
_change_type
, но веб-канал изменений данных был отключен в этой таблице, данные в этом столбце неправильно заполнялись значениями NULL при выполненииMERGE
. - Исправлена проблема с автозагрузчиком, из-за которой файл можно дублировать в одном микропакете при включении
allowOverwrites
- [SPARK-40697] Добавить заполнение символами при чтении для охвата внешних файлов с данными
- [SPARK-40596] Заполнение объекта ExecutorDecommission сообщениями в ExecutorDecommissionInfo
- Обновления системы безопасности операционной системы.
- Исправлена проблема, из-за которой в таблице Delta существовал определяемый пользователем столбец с именем
- 18 октября 2022 г.
- Обновления системы безопасности операционной системы.
- 5 октября 2022 г.
-
[SPARK-40468] Исправить обрезку столбцов в CSV при выборе
_corrupt_record
. - Обновления системы безопасности операционной системы.
-
[SPARK-40468] Исправить обрезку столбцов в CSV при выборе
- 22 сентября 2022 г.
- Пользователи могут задать spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled
,true
) для повторного включения встроенного списка для автозагрузчика в ADLS 2-го поколения. Встроенный список ранее был отключен из-за проблем с производительностью, что могло привести к увеличению затрат на хранение для клиентов. - [SPARK-40315] Добавить hashCode() для литерального значения ArrayBasedMapData
- [SPARK-40213] Поддержка преобразования значений ASCII для символов Latin-1
- [SPARK-40380] Исправление константного свёртывания InvokeLike, чтобы избежать несериализуемых литералов, внедренных в план
- [SPARK-38404] Улучшить разрешение CTE, когда вложенный CTE ссылается на внешний CTE
- [SPARK-40089] Исправление сортировки для некоторых десятичных типов
- [SPARK-39887] RemoveRedundantAliases должен сохранять псевдонимы, которые делают выходные данные узлов проекции уникальными
- Пользователи могут задать spark.conf.set(
- 6 сентября 2022 г.
- [SPARK-40235] Используйте прерываемую блокировку вместо синхронизации в Executor.updateDependencies().
- [SPARK-40218] GROUPING SETS должны сохранять столбцы группирования.
- [SPARK-39976] ArrayIntersect должен правильно обрабатывать значение NULL в левом выражении.
-
[SPARK-40053] Добавление в динамические случаи отмены, для которых требуется
assume
среда выполнения Python. - [SPARK-35542] Исправление: Bucketizer, созданный для нескольких столбцов с параметрами splitsArray, inputCols и outputCols, невозможно загрузить после сохранения.
- [SPARK-40079] Добавьте проверку Imputer inputCols для случая пустого ввода.
- 24 августа 2022 г.
- [SPARK-39983] Не кэшируйте несериализированные отношения вещания на драйвере.
- [SPARK-39775] Отключить проверку значений по умолчанию при анализе схем Avro.
- [SPARK-39962] Применение проекции при пустых атрибутах группы
- [SPARK-37643] Если charVarcharAsString имеет значение true, для запроса предиката типа char следует пропустить правило rpadding.
- Обновления системы безопасности операционной системы.
- 9 августа 2022 г.
- [SPARK-39847] Исправьте состояние гонки в RocksDBLoader.loadLibrary(), если вызывающий поток прерван
- [SPARK-39731] Исправлена проблема в источниках данных CSV и JSON при синтаксическом анализе дат в формате yyMMddd с политикой синтаксического анализа времени CORRECTED.
- Обновления системы безопасности операционной системы.
- 27 июля 2022 г.
- [SPARK-39625] Добавление функции Dataset.as(StructType).
- [SPARK-39689]Поддержка 2-символьных данных в источнике данных CSV.
- [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded должен быть потокобезопасным.
- [SPARK-39570] встроенная таблица должна разрешать использование выражений с псевдонимом.
- [SPARK-39702] Уменьшение памяти, используемой TransportCipher$EncryptedMessage, за счет использования общего байтового канала.
- [SPARK-39575] добавить ByteBuffer#rewind после ByteBuffer#get в AvroDeserializer.
- [SPARK-39476] Отключить оптимизацию снятия обёртки при приведении типов из Long в Float/Double или из Integer в Float.
- [SPARK-38868] Не распространяйте исключения из предиката фильтра при оптимизации внешних соединений.
- Обновления системы безопасности операционной системы.
- 20 июля 2022 г.
- Сделайте результаты операции Delta MERGE согласованными, когда источник является недетерминированным.
- [SPARK-39355] Один столбец использует кавычки для построения UnresolvedAttribute.
- [SPARK-39548] Команда CreateView с запросом, содержащим оконное предложение, вызывает проблему, связанную с не найденным неверно определённым окном.
- [SPARK-39419] Исправить ArraySort для выброса исключения, если компаратор возвращает значение NULL.
- Отключено использование автозагрузчиком встроенных облачных API для перечисления каталогов в Azure.
- Обновления системы безопасности операционной системы.
- 5 июля 2022 г.
- [SPARK-39376] Скрыть повторяющиеся столбцы при звездном развёртывании псевдонима подзапроса с NATURAL/USING JOIN
- Обновления системы безопасности операционной системы.
- 15 июня 2022 г.
- [SPARK-39283] Исправлена взаимоблокировка между TaskMemoryManager и UnsafeExternalSorter.SpillableIterator.
- [SPARK-39285] Spark не должен проверять имена полей при чтении файлов.
- [SPARK-34096] Повысить производительность nth_value с игнорированием значений NULL в окне смещения.
-
[SPARK-36718] Исправлена
isExtractOnly
проверка в CollapseProject.
- 2 июня 2022 г.
- [SPARK-39093] Избегать ошибки компиляции кодегена при делении годо-месячных или день-время интервалов на целое число.
- [SPARK-38990] Избегайте NullPointerException при оценке формата date_trunc/trunc как связанной ссылки.
- Обновления системы безопасности операционной системы.
- 18 мая 2022 г.
- Устраняет потенциальную утечку встроенной памяти в автозагрузчике.
- [SPARK-38918] очистка вложенных столбцов должна отфильтровать атрибуты, которые не относятся к текущему отношению.
- [SPARK-37593] Уменьшить размер страницы по умолчанию на величину LONG_ARRAY_OFFSET, если используется G1GC и ON_HEAP.
- [SPARK-39084] Исправление df.rdd.isEmpty() с помощью TaskContext для остановки итератора при завершении задачи.
- [SPARK-32268] Добавьте ColumnPruning в injectBloomFilter.
- [SPARK-38974] Отфильтровать зарегистрированные функции по заданному имени базы данных в списке функций.
- [SPARK-38931] Создайте корневой каталог dfs для RocksDBFileManager с неизвестным количеством ключей на 1-й контрольной точке.
- Обновления системы безопасности операционной системы.
- 19 апреля 2022 г.
- Пакет SDK AWS для Java обновлен с версии 1.11.655 до версии 1.12.1899.
- Исправлена проблема, из-за которой библиотеки, ограниченные записной книжкой, не работали в пакетных потоковых заданиях.
- [SPARK-38616] Отслеживание текста SQL-запроса в Catalyst TreeNode
- Обновления системы безопасности операционной системы.
- 6 апреля 2022 г.
- Следующие функции SQL Spark теперь доступны в этом выпуске:
-
timestampadd()
иdateadd()
: добавить длительность времени в указанной единице к выражению метки времени. -
timestampdiff()
иdatediff()
: определите разницу во времени между двумя временными метками в заданной единице измерения.
-
- Parquet-MR обновлен до версии 1.12.2.
- Поддержка комплексных схем в файлах Parquet улучшена.
- [SPARK-38631] Использует реализацию на основе Java для отмены таринга в Utils.unpack.
- [SPARK-38509][SPARK-38481] Избранно выбрать три изменения.
- [SPARK-38523] Исправление ошибки, связанной со столбцом с поврежденными записями из CSV.
-
[SPARK-38237] Разрешить
ClusteredDistribution
требовать полные ключи кластеризации. - [SPARK-38437] Лояльная сериализация даты и времени из источника данных.
- [SPARK-38180] Разрешить безопасные выражения приведения типа в коррелированных предикатах равенства.
- [SPARK-38155] Запретить distinct агрегаты в боковых вложенных запросах с неподдерживаемыми предикатами.
- Обновления системы безопасности операционной системы.
- Следующие функции SQL Spark теперь доступны в этом выпуске:
Databricks Runtime 9.1 LTS
См. Databricks Runtime 9.1 LTS.
- 11 февраля 2025 г.
- Обновления системы безопасности операционной системы.
- 10 декабря 2024 г.
- Обновления системы безопасности операционной системы.
- 26 ноября 2024 г.
- Обновления системы безопасности операционной системы.
- 5 ноября 2024 г.
- Обновления системы безопасности операционной системы.
- 22 октября 2024 г.
- Обновления системы безопасности операционной системы.
- 10 октября 2024 г.
- Обновления системы безопасности операционной системы.
- 25 сентября 2024 г.
- [SPARK-49000][SQL] Исправить "select count(distinct 1) from t", где t пустая таблица, с помощью расширения RewriteDistinctAggregates
- Обновления системы безопасности операционной системы.
- 6 сентября 2024 г.
- Обновления системы безопасности операционной системы.
- 29 августа 2024 г.
- [SPARK-49065][SQL] Перебазирование в устаревших форматтерах/парсерах должно поддерживать часовые пояса, не совпадающие с часовыми поясами JVM по умолчанию.
- 14 августа 2024 г.
- 1 августа 2024 г.
- Обновления системы безопасности операционной системы.
- 11 июля 2024 г.
- Обновления системы безопасности операционной системы.
- 17 июня 2024 г.
- Обновления системы безопасности операционной системы.
- 21 мая 2024 г.
- [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
- Обновления системы безопасности операционной системы.
- 9 мая 2024 г.
- [SPARK-47973][CORE] Зарегистрировать точку вызова в SparkContext.stop() и затем в SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Правильно задать атрибут NULL для объединенного ключа соединения в полном внешнем соединении USING
- Обновления системы безопасности операционной системы.
- 25 апреля 2024 г.
- Прочие исправления ошибок.
- 11 апреля 2024 г.
- Обновления системы безопасности операционной системы.
- 1 апреля 2024 г.
- Возврат "[SPARK-46861][CORE] Избегайте взаимоблокировки в DAGScheduler"
- Обновления системы безопасности операционной системы.
- 14 марта 2024 г.
- Обновления системы безопасности операционной системы.
- 29 февраля 2024 г.
- Исправлена проблема, из-за которой использование локальной коллекции в качестве источника в команде MERGE могло привести к тому, что метрика numSourceRows сообщает о вдвое большем количестве строк, чем следует.
- Обновления системы безопасности операционной системы.
- 13 февраля 2024 г.
- [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
- Обновления системы безопасности операционной системы.
- 31 января 2024 г.
- Обновления системы безопасности операционной системы.
- 25 декабря 2023 г.
- Чтобы избежать повышенной задержки при обмене данными по протоколу TLSv1.3, этот выпуск обслуживания включает исправление для установки JDK 8, чтобы устранить ошибку JDK-8293562.
- [SPARK-46058] Добавьте отдельный флаг для privateKeyPassword.
- [SPARK-39440] Добавьте конфигурацию для отключения временной шкалы событий.
- [SPARK-46132] Поддержка пароля для ключей JKS при использовании SSL для RPC.
- 14 декабря 2023 г.
- Обновления системы безопасности операционной системы.
- 29 ноября 2023 г.
- Был установлен новый пакет
pyarrow-hotfix
, чтобы устранить уязвимость удаленного выполнения кода в PyArrow. -
[SPARK-45859] Сделал объекты UDF ленивым
ml.functions
. -
[SPARK-45544] Встроенная поддержка SSL в
TransportContext
. -
[SPARK-45730] Улучшенные ограничения времени для
ReloadingX509TrustManagerSuite
. - Обновления системы безопасности операционной системы.
- Был установлен новый пакет
- 14 ноября 2023 г.
-
[SPARK-45545]
SparkTransportConf
получает наследуемые свойстваSSLOptions
при создании. - [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
-
[SPARK-45427] Добавлены параметры SSL RPC в
SSLOptions
иSparkTransportConf
. -
[SPARK-45584] Исправлен сбой выполнения вложенных запросов с
TakeOrderedAndProjectExec
. -
[SPARK-45541] Добавлен.
SSLFactory
- [SPARK-42205] Удалены аккумуляторы для ведения журнала в событиях начала этапов и задач.
- Обновления системы безопасности операционной системы.
-
[SPARK-45545]
- 24 октября 2023 г.
-
[SPARK-45426] Добавлена поддержка
ReloadingX509TrustManager
. - Обновления системы безопасности операционной системы.
-
[SPARK-45426] Добавлена поддержка
- 13 октября 2023 г.
- Обновления системы безопасности операционной системы.
- 10 сентября 2023 г.
- Прочие исправления.
- 30 августа 2023 г.
- Обновления системы безопасности операционной системы.
- 15 августа 2023 г.
- Обновления системы безопасности операционной системы.
- 23 июня 2023 г.
- Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
- Обновления системы безопасности операционной системы.
- 15 июня 2023 г.
- [SPARK-43098] Исправление ошибки корректности COUNT, когда скалярный подзапрос содержит предложение GROUP BY.
-
[SPARK-43156][SPARK-43098] Расширить тест на количество ошибок в скалярном подзапросе при выключенной
decorrelateInnerQuery
. - [SPARK-40862] Поддержка неагрегированных вложенных запросов в RewriteCorrelatedScalarSubquery.
- Обновления системы безопасности операционной системы.
- 2 июня 2023 г.
- Средство синтаксического анализа JSON в
failOnUnknownFields
режиме удаляет запись вDROPMALFORMED
режиме и завершается сбоем непосредственно в режимеFAILFAST
. - Исправлена проблема в синтаксическом анализе данных JSON, предотвращающая
UnknownFieldException
. - Исправлена проблема в Auto Loader, из-за которой разные форматы исходных файлов были несовместимыми, если предоставленная схема не включала выведенные разделы. Эта проблема может привести к непредвиденным сбоям при чтении файлов с отсутствующими столбцами в схеме выводимой секции.
-
[SPARK-37520] Добавить строковые функции
startswith()
иendswith()
-
[SPARK-43413] Исправлена
IN
необходимость проверки отсутствия значений в подзапросеListQuery
. - Обновления системы безопасности операционной системы.
- Средство синтаксического анализа JSON в
- 17 мая 2023 г.
- Обновления системы безопасности операционной системы.
- 25 апреля 2023 г.
- Обновления системы безопасности операционной системы.
- 11 апреля 2023 г.
- Исправлена проблема, из-за которой эволюция схемы автозагрузчика может перейти в бесконечный цикл сбоя при обнаружении нового столбца в схеме вложенного объекта JSON.
- [SPARK-42967] Исправление SparkListenerTaskStart.stageAttemptId при запуске задачи после отмены этапа.
- 29 марта 2023 г.
- Обновления системы безопасности операционной системы.
- 14 марта 2023 г.
-
[SPARK-42484] Улучшено сообщение об ошибке для
UnsafeRowUtils
. - Прочие исправления.
-
[SPARK-42484] Улучшено сообщение об ошибке для
- 28 февраля 2023 г.
- Теперь пользователи могут читать и записывать определенные таблицы Delta, требующие чтения версии 3 и записи версии 7, с помощью Databricks Runtime 9.1 LTS или более поздней версии. Для успешного выполнения функции таблиц, перечисленные в протоколе таблиц, должны поддерживаться текущей версией Databricks Runtime.
- Обновления системы безопасности операционной системы.
- 16 февраля 2023 г.
- Обновления системы безопасности операционной системы.
- 31 января 2023 г.
- По умолчанию типы таблиц JDBC являются внешними.
- 18 января 2023 г.
- Обновления системы безопасности операционной системы.
- 29 ноября 2022 г.
- Исправлена проблема с синтаксическим анализом JSON в Auto Loader, когда все столбцы сохранялись в виде строк (значение не задано
cloudFiles.inferColumnTypes
или заданоfalse
), и JSON содержал вложенные объекты. - Обновления системы безопасности операционной системы.
- Исправлена проблема с синтаксическим анализом JSON в Auto Loader, когда все столбцы сохранялись в виде строк (значение не задано
- 15 ноября 2022 г.
- Обновление Apache commons-text до версии 1.10.0.
- Обновления системы безопасности операционной системы.
- Прочие исправления.
- 1 ноября 2022 г.
- Исправлена проблема, из-за которой в таблице Delta существовал определяемый пользователем столбец с именем
_change_type
, но если в этой таблице был отключен поток изменений данных, данные в этом столбце неправильно заполнялись значениями NULL при выполненииMERGE
. - Исправлена проблема с автозагрузчиком, из-за которой файл можно дублировать в одном микропакете при включении
allowOverwrites
- [SPARK-40596] Заполнение объекта ExecutorDecommission сообщениями в ExecutorDecommissionInfo
- Обновления системы безопасности операционной системы.
- Исправлена проблема, из-за которой в таблице Delta существовал определяемый пользователем столбец с именем
- 18 октября 2022 г.
- Обновления системы безопасности операционной системы.
- 5 октября 2022 г.
- Прочие исправления.
- Обновления системы безопасности операционной системы.
- 22 сентября 2022 г.
- Пользователи могут задать spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") для повторного включения встроенного списка для автозагрузчика в ADLS 2-го поколения. Встроенное описание раньше было отключено из-за проблем с производительностью, но это могло привести к увеличению затрат на хранение для клиентов.
- [SPARK-40315] Добавить hashCode() для литерала в ArrayBasedMapData
- [SPARK-40089] Исправление сортировки для некоторых десятичных типов
- [SPARK-39887] RemoveRedundantAliases должен сохранять псевдонимы, которые делают выходные данные узлов проекции уникальными
- 6 сентября 2022 г.
- [SPARK-40235] Использование прерываемой блокировки вместо синхронизированной в Executor.updateDependencies()
- [SPARK-35542] Исправление: Бакетайзер, созданный для нескольких столбцов с параметрами splitsArray, inputCols и outputCols, не может быть загружен после сохранения.
- [SPARK-40079] Добавление проверки Imputer inputCols для случая отсутствия данных
- 24 августа 2022 г.
-
[SPARK-39666] Используйте UnsafeProjection.create для соблюдения
spark.sql.codegen.factoryMode
в ExpressionEncoder - [SPARK-39962] Применение проекции при пустых атрибутах группы
- Обновления системы безопасности операционной системы.
-
[SPARK-39666] Используйте UnsafeProjection.create для соблюдения
- 9 августа 2022 г.
- Обновления системы безопасности операционной системы.
- 27 июля 2022 г.
- Сделать результаты операции Delta MERGE согласованными, когда источник является недетерминированным.
- [SPARK-39689] Поддержка 2-символьных данных в источнике CSV
-
[SPARK-39575] Добавлено
ByteBuffer#rewind
послеByteBuffer#get
вAvroDeserializer
. - [SPARK-37392] Исправлена ошибка производительности для оптимизатора катализатора.
- Обновления системы безопасности операционной системы.
- 13 июля 2022 г.
-
[SPARK-39419]
ArraySort
создает исключение, когда средство сравнения возвращает значение NULL. - Отключено использование автозагрузчика с встроенными облачными API для перечисления каталогов в Azure.
- Обновления системы безопасности операционной системы.
-
[SPARK-39419]
- 5 июля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления.
- 15 июня 2022 г.
-
[SPARK-39283] Исправлена взаимоблокировка между
TaskMemoryManager
иUnsafeExternalSorter.SpillableIterator
.
-
[SPARK-39283] Исправлена взаимоблокировка между
- 2 июня 2022 г.
-
[SPARK-34554]
copy()
Реализуйте метод вColumnarMap
. - Обновления системы безопасности операционной системы.
-
[SPARK-34554]
- 18 мая 2022 г.
- Исправлена потенциальная утечка встроенной памяти в автозагрузчике.
- Версия пакета SDK AWS обновлена с 1.11.655 до 1.11.678.
- [SPARK-38918] очистка вложенных столбцов должна отфильтровать атрибуты, которые не относятся к текущему реляционному отношению.
-
[SPARK-39084] Исправить
df.rdd.isEmpty()
с помощьюTaskContext
, чтобы остановить итератор при завершении задачи - Обновления системы безопасности операционной системы.
- 19 апреля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления.
- 6 апреля 2022 г.
- [SPARK-38631] Использует реализацию на основе Java для распаковки tar-архива с использованием Utils.unpack.
- Обновления системы безопасности операционной системы.
- 22 марта 2022 г.
- Изменен текущий рабочий каталог записных книжек в кластерах с высокой степенью параллелизма с табличным контролем доступа или передачей учетных данных в домашний каталог пользователя. Ранее Active Directory был
/databricks/driver
. - [SPARK-38437] Гибкая сериализация даты и времени из источника данных
- [SPARK-38180] Разрешить безопасные выражения приведения типов вверх в коррелированных предикатах равенства
- [SPARK-38155] Запретить DISTINCT агрегат в боковых подзапросах с неподдерживаемыми предикатами
- [SPARK-27442] Удалено поле проверки при чтении или записи данных в паркете.
- Изменен текущий рабочий каталог записных книжек в кластерах с высокой степенью параллелизма с табличным контролем доступа или передачей учетных данных в домашний каталог пользователя. Ранее Active Directory был
- 14 марта 2022 г.
- [SPARK-38236] Абсолютные пути к файлам, указанным в таблице create/alter, рассматриваются как относительные
-
[SPARK-34069] Прерывать поток задачи, если локальное свойство
SPARK_JOB_INTERRUPT_ON_CANCEL
установлено в true.
- 23 февраля 2022 г.
- [SPARK-37859] таблицы SQL, созданные с помощью JDBC с Spark 3.1, недоступны для чтения с помощью Spark 3.2.
- 8 февраля 2022 г.
- [SPARK-27442] Удалено поле проверки при чтении или записи данных в паркете.
- Обновления системы безопасности операционной системы.
- 1 февраля 2022 г.
- Обновления системы безопасности операционной системы.
- 26 января 2022 г.
- Исправлена проблема, из-за которой параллельные транзакции в таблицах Delta могли фиксироваться не в сериализуемом порядке при определенных редких условиях.
- Исправлена проблема, из-за которой команда
OPTIMIZE
могла завершиться ошибкой при включении диалекта ANSI SQL.
- 19 января 2022 г.
- Незначительные исправления и улучшения безопасности.
- Обновления системы безопасности операционной системы.
- 4 ноября 2021 г.
- Исправлена проблема, из-за которой структурированные стримы могли завершаться ошибкой
ArrayIndexOutOfBoundsException
. - Исправлено условие гонки, которое могло привести к сбою запроса с ошибкой IOException, подобной
java.io.IOException: No FileSystem for scheme
, или могло привести к тому, что изменения вsparkContext.hadoopConfiguration
не вступят в силу в запросах. - Соединитель Apache Spark для Delta Sharing был обновлен до версии 0.2.0.
- Исправлена проблема, из-за которой структурированные стримы могли завершаться ошибкой
- 20 октября 2021 г.
- Обновлен соединитель BigQuery с версии 0.18.1 до версии 0.22.2. Это добавляет поддержку типа BigNumeric.