Обновления обслуживания для Databricks Runtime (архивированные)
На этой архивной странице перечислены обновления обслуживания, выданные для выпусков среды выполнения Databricks, которые больше не поддерживаются. Чтобы добавить обновление обслуживания в существующий кластер, перезапустите кластер.
Внимание
Поддержка этой документации прекращена, она может больше не обновляться. Продукты, услуги или технологии, упомянутые в этом контенте, достигли конца поддержки. См . заметки о выпуске Databricks Runtime и версии совместимости.
Примечание.
Эта статья содержит упоминания термина whitelist (список разрешений), который больше не используется в Azure Databricks. Когда термин удаляется из программного обеспечения, мы удалим его из этой статьи.
Заметки о выпуске Databricks Runtime
Обновления обслуживания по выпуску:
- Databricks Runtime 15.3
- Databricks Runtime 15.2
- Databricks Runtime 15.1
- Databricks Runtime 15.0
- Databricks Runtime 14.2
- Databricks Runtime 14.0
- Databricks Runtime 13.1
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS
- Databricks Runtime 9.1 LTS
- Databricks Runtime 13.0 (EoS)
- Databricks Runtime 12.1 (EoS)
- Databricks Runtime 12.0 (EoS)
- Databricks Runtime 11.2 (EoS)
- Databricks Runtime 11.1 (EoS)
- Databricks Runtime 11.0 (EoS)
- Databricks Runtime 10.5 (EoS)
- Databricks Runtime 10.3 (EoS)
- Databricks Runtime 10.2 (EoS)
- Databricks Runtime 10.1 (EoS)
- Databricks Runtime 10.0 (EoS)
- Databricks Runtime 9.0 (EoS)
- Databricks Runtime 8.4 (EoS)
- Databricks Runtime 8.3 (EoS)
- Databricks Runtime 8.2 (EoS)
- Databricks Runtime 8.1 (EoS)
- Databricks Runtime 8.0 (EoS)
- Databricks Runtime 7.6 (EoS)
- Databricks Runtime 7.5 (EoS)
- Databricks Runtime 7.3 LTS (EoS)
- Расширенная поддержка Databricks Runtime 6.4 (EoS)
- Databricks Runtime 5.5 LTS (EoS)
- Расширенная поддержка Databricks Light 2.4
- Databricks Runtime 7.4 (EoS)
- Databricks Runtime 7.2 (EoS)
- Databricks Runtime 7.1 (EoS)
- Databricks Runtime 7.0 (EoS)
- Databricks Runtime 6.6 (EoS)
- Databricks Runtime 6.5 (EoS)
- Databricks Runtime 6.3 (EoS)
- Databricks Runtime 6.2 (EoS)
- Databricks Runtime 6.1 (EoS)
- Databricks Runtime 6.0 (EoS)
- Databricks Runtime 5.4 ML (EoS)
- Databricks Runtime 5.4 (EoS)
- Databricks Runtime 5.3 (EoS)
- Databricks Runtime 5.2 (EoS)
- Databricks Runtime 5.1 (EoS)
- Databricks Runtime 5.0 (EoS)
- Databricks Runtime 4.3 (EoS)
- Databricks Runtime 4.2 (EoS)
- Databricks Runtime 4.1 ML (EoS)
- Databricks Runtime 4.1 (EoS)
- Databricks Runtime 4.0 (EoS)
- Databricks Runtime 3.5 LTS (EoS)
- Databricks Runtime 3.4 (EoS)
Обновления обслуживания для поддерживаемых версий среды выполнения Databricks см. в разделе Обновления обслуживания Databricks Runtime.
Databricks Runtime 15.3
См. Databricks Runtime 15.3 (EoS).
- 26 ноября 2024 г.
- В этом выпуске теперь можно запросить функцию
vector_search
с помощьюquery_text
для ввода текста илиquery_vector
для внедрения входных данных. - Обновления системы безопасности операционной системы.
- В этом выпуске теперь можно запросить функцию
- 5 ноября 2024 г.
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
- [SPARK-49867][SQL] Улучшение сообщения об ошибке, возникающей при вызове GetColumnByOrdinal, когда индекс выходит за пределы.
- [SPARK-48843][15.3,15.2] Предотвращение бесконечного цикла с помощью BindParameters
- [SPARK-49829] Пересмотреть оптимизацию при добавлении входных данных в хранилище состояний в соединении потокового потока (исправление правильности)
- [SPARK-49863][SQL] Исправление нормализации значенийNumbers для сохранения допустимости значений NULL вложенных структур
- [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
- [SPARK-46632][SQL] Исправлена ликвидация вложенных выражений, если эквивалентные тернарные выражения имеют разные дочерние элементы
- Обновления системы безопасности операционной системы.
- 22 октября 2024 г.
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
- [SPARK-49867][SQL] Улучшение сообщения об ошибке, возникающей при вызове GetColumnByOrdinal, когда индекс выходит за пределы.
- [SPARK-48843][15.3,15.2] Предотвращение бесконечного цикла с помощью BindParameters
- [SPARK-49829] Пересмотреть оптимизацию при добавлении входных данных в хранилище состояний в объединении потоков (исправление корректности)
- [SPARK-49863][SQL] Исправление нормализации значенийNumbers для сохранения допустимости значений NULL вложенных структур
- [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
- [SPARK-46632][SQL] Исправлена ликвидация вложенных выражений, если эквивалентные тернарные выражения имеют разные дочерние элементы
- Обновления системы безопасности операционной системы.
- 10 октября 2024 г.
- [SPARK-496888][CONNECT] Исправлена гонка данных между прерыванием и планом выполнения
- [SPARK-49743][SQL] OptimizeCsvJsonExpr не должно изменять поля схемы при выполнении очистки GetArrayStructFields
- [BACKPORT] [[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Классифицировать класс ошибок для ошибки функции пользователя FlatMapGroupsWithState
- Обновления системы безопасности операционной системы.
- 25 сентября 2024 г.
- [SPARK-49492][CONNECT] Повторная попытка выполнить попытку неактивного заполнителя
- [SPARK-49628][SQL] ConstantFolding должен копировать выражение с отслеживанием состояния перед вычислением
- [SPARK-49000][SQL] Исправление "select count(distinct 1) from t", где t — это пустая таблица, посредством улучшения RewriteDistinctAggregates.
- [SPARK-49458][CONNECT][PYTHON] Укажите идентификатор сеанса на стороне сервера с помощью ReattachExecute
-
[SPARK-48719][SQL] Исправлена ошибка вычисления
RegrSlope
&RegrIntercept
, если первый параметр имеет значение NULL - Обновления системы безопасности операционной системы.
- 17 сентября 2024 г.
- [SPARK-49336][CONNECT] Ограничить уровень вложенности при усечении protobuf сообщения
- [SPARK-49526][CONNECT][15.3.5] Поддержка путей в формате Windows в ArtifactManager
- [SPARK-49366][CONNECT] Рассматривать узел Union как лист при разрешении столбцов датафрейма.
- [SPARK-43242][CORE] Исправление вызов "Непредвиденный тип BlockId" при диагностике повреждения смешения
- [SPARK-49409][CONNECT] Настройка значения по умолчанию CONNECT_SESSION_PLAN_CACHE_SIZE
- Обновления системы безопасности операционной системы.
- 29 августа 2024 г.
- [SPARK-49263][CONNECT] Клиент Python Spark Connect: согласованно обрабатывать логические параметры чтения с кадрами данных
- [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
-
[SPARK-48862][PYTHON][CONNECT] Избегайте вызова
_proto_to_string
, если уровень INFO не включен - [SPARK-49146][SS] Перенести ошибки утверждения, связанные с отсутствием водяного знака в запросах потоковой передачи в режиме добавления, в структуру обработки ошибок.
- 14 августа 2024 г.
- [SPARK-48941][SPARK-48970] Исправление средства записи машинного обучения и средства чтения
- [SPARK-48706][PYTHON] UDF Python в функциях более высокого порядка не должен вызывать внутреннюю ошибку
- [SPARK-48954] try_mod() заменяет try_remainder()
- [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
- [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
- [SPARK-49047][PYTHON][CONNECT] Усечение сообщения для ведения журнала
- [SPARK-48740][SQL] Раннее обнаружение ошибки отсутствующей спецификации окна
- 1 августа 2024 г.
- [Критическое изменение] В Databricks Runtime 15.3 и более поздних версиях вызов любой пользовательской функции (UDF), агрегатной функции (UDAF) или табличной функции (UDTF), которые используют тип
VARIANT
в качестве аргумента или возвращаемого значения, приведет к исключению. Это изменение делается для предотвращения проблем, которые могут возникнуть из-за недопустимого значения, возвращаемого одним из этих функций. Дополнительные сведения о типеVARIANT
см. в статье использование VARIANTs для хранения полуструктурированных данных. - В бессерверных вычислительных ресурсах для записных книжек и заданий режим ANSI SQL включен по умолчанию. См. раздел Поддерживаемые параметры конфигурации Spark.
- При вычислении, настроенном в режиме общего доступа, пакет Kafka считывает и записывает теперь те же ограничения, что и для структурированной потоковой передачи. См. ограничения потоковой передачи и требования к режиму общего доступа каталога Unity.
- Выходные данные из инструкции
SHOW CREATE TABLE
теперь включают любые фильтры строк или маски столбцов, определенные в материализованном представлении или потоковой таблице. См. SHOW CREATE TABLE. Дополнительные сведения о фильтрах строк и масках столбцов см. в статье Фильтрация конфиденциальных данных таблицы с помощью фильтров строк и маски столбцов. - [SPARK-46957][CORE] Перенос перенесенных файлов перетасовки должен иметь возможность очистки от исполнителя
- [SPARK-48648][PYTHON][CONNECT] Правильное определение потока SparkConnectClient.tags
- [SPARK-48896][SPARK-48909][SPARK-48883] Исправления средства записи машинного обучения backport spark
- [SPARK-48713][SQL] Добавление проверки диапазона индекса для unsafeRow.pointTo, если baseObject является массивом байтов
- [SPARK-48834][SQL] Отключить вариативный ввод/вывод для скалярных UDF, UDTF, UDAF на языке Python во время компиляции запросов
- [SPARK-48934][SS] Типы даты и времени Python преобразуются неправильно для настройки времени ожидания в applyInPandasWithState
- [SPARK-48705][PYTHON] Явное использование worker_main при запуске с pyspark
- [SPARK-48544][SQL] Уменьшение давления памяти пустых наборов BitSet в TreeNode
- [SPARK-48889][SS] testStream для выгрузки хранилищ состояний перед завершением
- [SPARK-49054][SQL] Значение по умолчанию столбца должно поддерживать функции current_*
- [SPARK-48653][PYTHON] Исправлены недопустимые ссылки на класс ошибок источника данных Python
- [SPARK-48463] Сделать StringIndexer поддерживающим вложенные входные столбцы
- [SPARK-48810][CONNECT] API остановки сеанса () должен быть идемпотентным и не завершается ошибкой, если сеанс уже закрыт сервером
- [SPARK-48873][SQL] Используйте unsafeRow в средство синтаксического анализа JSON.
- Обновления системы безопасности операционной системы.
- [Критическое изменение] В Databricks Runtime 15.3 и более поздних версиях вызов любой пользовательской функции (UDF), агрегатной функции (UDAF) или табличной функции (UDTF), которые используют тип
- 11 июля 2024 г.
- (изменение поведения) Кадры данных, кэшированные в источниках таблиц Delta, теперь недействительны, если исходная таблица перезаписана. Это изменение означает, что все изменения состояния в таблицах Delta теперь аннулируют кэшированные результаты. Используйте
.checkpoint()
для сохранения состояния таблицы в течение всего жизненного цикла DataFrame. - Драйвер Snowflake JDBC обновлен до версии 3.16.1.
- Этот выпуск содержит исправление проблемы, которая не позволила правильно отображать вкладку среды пользовательского интерфейса Spark при запуске в службах контейнеров Databricks.
- Чтобы игнорировать недопустимые секции при чтении данных, файловые источники данных, такие как Parquet, ORC, CSV или JSON, могут использовать опцию ignoreInvalidPartitionPaths со значением true. Например: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...)`. Можно также использовать конфигурацию SQL spark.sql.files.ignoreInvalidPartitionPaths. Однако параметр источника данных имеет приоритет над конфигурацией SQL. Этот параметр имеет значение false по умолчанию.
- [SPARK-48100][SQL] Устранение проблем с пропуском полей вложенной структуры, не выбранных в схеме
- [SPARK-47463][SQL] Использование версии 2Predicate для упаковки выражения с типом возвращаемого логического значения
- [SPARK-48292][CORE] Возврат [SPARK-39195][SQL] OutputCommitCoordinator Spark должен прервать этап, когда зафиксированный файл не соответствует состоянию задачи
- [SPARK-48475][PYTHON] Оптимизация _get_jvm_function в PySpark.
- [SPARK-48286] Исправление анализа столбца с существующим выражением по умолчанию. Добавление ошибки, информирующей пользователя.
- [SPARK-48481][SQL][SS] Не применяйте OptimizeOneRowPlan к потоковому набору данных
- Возврат "[SPARK-47406][SQL] Обработка TIMESTAMP и DATETIME в MYSQLDialect"
- [SPARK-48383][SS] Создание более эффективной ошибки для несовпадений секций в параметре startOffset в Kafka
- [SPARK-48503][14.3-15.3][SQL] Исправление недопустимых скалярных подзапросов с группировкой по неэквивалентным столбцам, которые были неправильно разрешены
- [SPARK-48445][SQL] Не встраивайте пользовательские функции с дорогими дочерними объектами
- [SPARK-48252][SQL] При необходимости обновите CommonExpressionRef
- [SPARK-48273][master][SQL] Исправление поздней перезаписи PlanWithUnresolvedIdentifier
- [SPARK-48566][PYTHON] Исправлена ошибка, из-за которой индексы разделов неверны при анализе UDTF, когда используются и select, и partitionColumns.
- [SPARK-48556][SQL] Исправлено неверное сообщение об ошибке, указывающее на UNSUPPORTED_GROUPING_EXPRESSION
- Обновления системы безопасности операционной системы.
- (изменение поведения) Кадры данных, кэшированные в источниках таблиц Delta, теперь недействительны, если исходная таблица перезаписана. Это изменение означает, что все изменения состояния в таблицах Delta теперь аннулируют кэшированные результаты. Используйте
Среда выполнения Databricks 15.2
См. Databricks Runtime 15.2 (EoS).
- 26 ноября 2024 г.
- Обновления системы безопасности операционной системы.
- 5 ноября 2024 г.
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
- [SPARK-48843][15.3,15.2] Предотвращение бесконечного цикла с помощью BindParameters
- [SPARK-49829] Пересмотреть оптимизацию при добавлении входных данных в хранилище состояний в соединении потоков (исправление корректности)
- [SPARK-49863][SQL] Исправление нормализации значенийNumbers для сохранения допустимости значений NULL вложенных структур
- [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
- [SPARK-46632][SQL] Исправлена ликвидация вложенных выражений, если эквивалентные тернарные выражения имеют разные дочерние элементы
- Обновления системы безопасности операционной системы.
- 22 октября 2024 г.
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
- [SPARK-48843][15.3,15.2] Предотвращение бесконечного цикла с помощью BindParameters
- [SPARK-49829] Пересмотреть оптимизацию при добавлении входных данных в хранилище состояний в соединении потоков (исправление корректности)
- [SPARK-49863][SQL] Исправление нормализации значенийNumbers для сохранения допустимости значений NULL вложенных структур
- [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
- [SPARK-46632][SQL] Исправлена ликвидация вложенных выражений, если эквивалентные тернарные выражения имеют разные дочерние элементы
- Обновления системы безопасности операционной системы.
- 10 октября 2024 г.
- [BACKPORT] [[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Классифицировать класс ошибок для ошибок в пользовательской функции FlatMapGroupsWithState
- [SPARK-49743][SQL] OptimizeCsvJsonExpr не должно изменять поля схемы при выполнении очистки GetArrayStructFields
- [SPARK-496888][CONNECT] Исправлена гонка данных между прерыванием и планом выполнения
- Обновления системы безопасности операционной системы.
- 25 сентября 2024 г.
- [SPARK-49000][SQL] Исправить "select count(distinct 1) from t", где t — пустая таблица, путем расширения RewriteDistinctAggregates
- [SPARK-48719][SQL] Исправлена ошибка вычисления RegrSlope и RegrIntercept, когда первый параметр имеет значение NULL
- [SPARK-49458][CONNECT][PYTHON] Укажите идентификатор сеанса на стороне сервера с помощью ReattachExecute
- [SPARK-49628][SQL] ConstantFolding должен копировать выражение с отслеживанием состояния перед вычислением
- [SPARK-49492][CONNECT] Повторная попытка выполнить попытку неактивного заполнителя
- Обновления системы безопасности операционной системы.
- 17 сентября 2024 г.
- [SPARK-49336][CONNECT] Ограничить уровень вложения при усечении сообщения protobuf
- [SPARK-49526][CONNECT] Поддержка путей в стиле Windows в ArtifactManager
- [SPARK-49366][CONNECT] Рассматривать узел Union как лист в разрешении столбцов кадра данных
- [SPARK-43242][CORE] Исправление вызов "Непредвиденный тип BlockId" при диагностике повреждения смешения
- [SPARK-49409][CONNECT] Настройка значения по умолчанию CONNECT_SESSION_PLAN_CACHE_SIZE
- Обновления системы безопасности операционной системы.
- 29 августа 2024 г.
- [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
- [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
-
[SPARK-48862][PYTHON][CONNECT] Избегайте вызова
_proto_to_string
, если уровень INFO не включен - [SPARK-49263][CONNECT] Клиент Python Spark Connect: согласованно обрабатывать логические параметры чтения с кадрами данных
- [SPARK-49146][SS] Перенос ошибок утверждения, связанных с отсутствием водяного знака в запросах потоковой передачи в режиме добавления, в систему обработки ошибок.
- 14 августа 2024 г.
- [SPARK-48941][SPARK-48970] Исправление средства записи машинного обучения и средства чтения
- [SPARK-48050][SS] Логический план журнала при запуске запроса
- [SPARK-48706][PYTHON] UDF Python в функциях более высокого порядка не должен вызывать внутреннюю ошибку
- [SPARK-48740][SQL] Раннее обнаружение ошибки отсутствующей спецификации окна
- [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
- [SPARK-49047][PYTHON][CONNECT] Усечение сообщения для ведения журнала
- 1 августа 2024 г.
- В бессерверных вычислительных ресурсах для записных книжек и заданий режим ANSI SQL включен по умолчанию. См. раздел Поддерживаемые параметры конфигурации Spark.
- При вычислении, настроенном в режиме общего доступа, пакет Kafka считывает и записывает теперь те же ограничения, что и для структурированной потоковой передачи. См. ограничения потоковой передачи и требования к режиму общего доступа каталога Unity.
- Выходные данные из инструкции
SHOW CREATE TABLE
теперь включают любые фильтры строк или маски столбцов, определенные в материализованном представлении или потоковой таблице. См. SHOW CREATE TABLE. Дополнительные сведения о фильтрах строк и масках столбцов см. в статье Фильтрация конфиденциальных данных таблицы с помощью фильтров строк и маски столбцов. - [SPARK-48705][PYTHON] Явное использование worker_main при запуске с pyspark
- [SPARK-48047][SQL] Уменьшение нагрузки на память пустых тегов TreeNode
- [SPARK-48810][CONNECT] API остановки сеанса () должен быть идемпотентным и не завершается ошибкой, если сеанс уже закрыт сервером
- [SPARK-48873][SQL] Используйте unsafeRow в средство синтаксического анализа JSON.
- [SPARK-46957][CORE] Перенос перенесенных файлов перетасовки должен иметь возможность очистки от исполнителя
- [SPARK-48889][SS] testStream для выгрузки хранилищ состояний перед завершением
- [SPARK-48713][SQL] Добавление проверки диапазона индекса для unsafeRow.pointTo, если baseObject является массивом байтов
- [SPARK-48896][SPARK-48909][SPARK-48883] Исправления средства записи машинного обучения backport spark
- [SPARK-48544][SQL] Уменьшение давления памяти пустых наборов BitSet в TreeNode
- [SPARK-48934][SS] Типы даты и времени Python преобразуются неправильно для настройки времени ожидания в applyInPandasWithState
- [SPARK-48463] Сделать StringIndexer поддерживающим вложенные входные столбцы
- Обновления системы безопасности операционной системы.
- 11 июля 2024 г.
- (изменение поведения) DataFrame, кэшированные для источников таблиц Delta, теперь аннулируются, если исходная таблица перезаписана. Это изменение означает, что все изменения состояния в таблицах Delta теперь аннулируют кэшированные результаты. Используйте
.checkpoint()
для сохранения состояния таблицы на протяжении всего жизненного цикла DataFrame. - Драйвер Snowflake JDBC обновлен до версии 3.16.1.
- Этот выпуск содержит исправление проблемы, которая не позволила правильно отображать вкладку среды пользовательского интерфейса Spark при запуске в службах контейнеров Databricks.
- В бессерверных записных книжках и заданиях режим SQL ANSI будет включен по умолчанию и поддерживает короткие имена.
- Чтобы игнорировать недопустимые секции при чтении данных, можно задать для источников данных на основе файлов, таких как Parquet, ORC, CSV или JSON, параметр источника данных ignoreInvalidPartitionPaths в значение true. Например: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...)`. Можно также использовать конфигурацию SQL spark.sql.files.ignoreInvalidPartitionPaths. Однако параметр источника данных имеет приоритет над конфигурацией SQL. Этот параметр имеет значение false по умолчанию.
- [SPARK-48273][SQL] Исправление последней перезаписи PlanWithUnresolvedIdentifier
- [SPARK-48292][CORE] Возврат [SPARK-39195][SQL] OutputCommitCoordinator Spark должен прервать этап, когда зафиксированный файл не соответствует состоянию задачи
- [SPARK-48100][SQL] Устранение проблем при пропуске вложенных полей структуры, не выбранных в схеме
- [SPARK-48286] Исправление анализа столбца с выражением по умолчанию. Добавление ошибки, видимой пользователям.
- [SPARK-48294][SQL] Обработка нижнего регистра в вложенныхTypeMissingElementTypeError
- [SPARK-48556][SQL] Исправлено неверное сообщение об ошибке, указывающее на UNSUPPORTED_GROUPING_EXPRESSION
- [SPARK-48648][PYTHON][CONNECT] Правильное определение потока SparkConnectClient.tags
- [SPARK-48503][SQL] Исправлены недопустимые скалярные подзапросы с группировкой по неэквивалентным столбцам, которые были неправильно разрешены
- [SPARK-48252][SQL] При необходимости обновите CommonExpressionRef
- [SPARK-48475][PYTHON] Оптимизация _get_jvm_function в PySpark.
- [SPARK-48566][PYTHON] Исправлена ошибка, из-за которой индексы секций неверны при выполнении analyze() с использованием UDTF, когда используются как select, так и partitionColumns.
- [SPARK-48481][SQL][SS] Не применяйте OptimizeOneRowPlan к потоковому набору данных
- [SPARK-47463][SQL] Использование версии 2Predicate для упаковки выражения с типом возвращаемого логического значения
- [SPARK-48383][SS] Создание более эффективной ошибки для несовпадений секций в параметре startOffset в Kafka
- [SPARK-48445][SQL] Не встраивайте пользовательские функции с дорогими дочерними объектами
- Обновления системы безопасности операционной системы.
- (изменение поведения) DataFrame, кэшированные для источников таблиц Delta, теперь аннулируются, если исходная таблица перезаписана. Это изменение означает, что все изменения состояния в таблицах Delta теперь аннулируют кэшированные результаты. Используйте
- 17 июня 2024 г.
-
applyInPandasWithState()
доступен в общих кластерах. - Исправлена ошибка, из-за которой оптимизация рангового окна с помощью Photon TopK неправильно обрабатывала секции со структурами.
- Исправлена ошибка в функции try_divide(), в которой входные данные, содержащие десятичные разряды, привели к непредвиденным исключениям.
- [SPARK-48197][SQL] Избегайте ошибки утверждения для недопустимой лямбда-функции
-
[SPARK-48276][PYTHON][CONNECT] Добавление отсутствующих
__repr__
методов дляSQLExpression
- [SPARK-48014][SQL] Измените ошибку makeFromJava в EvaluatePython на ошибку с пользователем
- [SPARK-48016][SQL] Исправлена ошибка в функции try_divide при использовании десятичных разрядов
- [SPARK-47986][CONNECT][PYTHON] Не удается создать новый сеанс при закрытии сеанса по умолчанию сервером
- [SPARK-48173][SQL] CheckAnalysis должен видеть весь план запроса
- [SPARK-48056][CONNECT][PYTHON] Повторный запуск плана, если возникает ошибка SESSION_NOT_FOUND, и не было получено частичного ответа
- [SPARK-48172][SQL] Устранение проблем с экранированием в обратном переносе JDBCDialects до версии 15.2
- [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
- [SPARK-48288] Добавление типа исходных данных для выражения приведения соединителя
- [SPARK-48310][PYTHON][CONNECT] Кэшированные свойства должны возвращать копии
- [SPARK-48277] Улучшение сообщения об ошибке для ErrorClassesJsonReader.getErrorMessage
- [SPARK-47986][CONNECT][PYTHON] Не удается создать новый сеанс при закрытии сеанса по умолчанию сервером
- Возврат "[SPARK-47406][SQL] Обработка TIMESTAMP и DATETIME в MYSQLDialect"
- [SPARK-47994][SQL] Исправлена ошибка с проталкиванием фильтра столбцов CASE WHEN в SQLServer
- [SPARK-47764][CORE][SQL] Очистка зависимостей перетасовки на основе ShuffleCleanupMode
- [SPARK-47921][CONNECT] Исправлено создание ExecuteJobTag в ExecuteHolder
- [SPARK-48010][SQL] Избегайте повторных вызовов conf.resolver в resolveExpression
- [SPARK-48146][SQL] Исправлена агрегатная функция в дочернем утверждении выражения
- [SPARK-48180][SQL] Улучшение сообщения об ошибке при вызове UDTF с TABLE аргументом, если забыты круглые скобки вокруг нескольких PARTITION/ORDER BY выражений
- Обновления системы безопасности операционной системы.
-
Databricks Runtime 15.1
См. раздел Databricks Runtime 15.1 (EoS).
- 22 октября 2024 г.
- [SPARK-49863][SQL] Исправление нормализации значенийNumbers для сохранения допустимости значений NULL вложенных структур
- [SPARK-46632][SQL] Исправлена ликвидация вложенных выражений, если эквивалентные тернарные выражения имеют разные дочерние элементы
- [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
- [SPARK-49829] Пересмотреть оптимизацию при добавлении входных данных в хранилище состояний в потоковом соединении (для обеспечения корректности)
- Обновления системы безопасности операционной системы.
- 10 октября 2024 г.
- [SPARK-496888][CONNECT] Исправлена гонка данных между прерыванием и планом выполнения
- [SPARK-49743][SQL] OptimizeCsvJsonExpr не должно изменять поля схемы при выполнении очистки GetArrayStructFields
- [BACKPORT] [[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Классифицировать класс ошибки для ошибки в пользовательской функции FlatMapGroupsWithState
- Обновления системы безопасности операционной системы.
- 25 сентября 2024 г.
- [SPARK-49628][SQL] ConstantFolding должен копировать выражение с отслеживанием состояния перед вычислением
- [SPARK-48719][SQL] Исправлена ошибка вычисления RegrSlope и RegrIntercept, когда первый параметр имеет значение NULL
- [SPARK-49492][CONNECT] Повторная попытка выполнить попытку неактивного заполнителя
- [SPARK-49000][SQL] Исправление "select count(distinct 1) from t", где t пустая таблица путем расширения RewriteDistinctAggregates
- [SPARK-49458][CONNECT][PYTHON] Укажите идентификатор сеанса на стороне сервера с помощью ReattachExecute
- Обновления системы безопасности операционной системы.
- 17 сентября 2024 г.
- [SPARK-49336][CONNECT] Ограничить вложенность при усечении сообщения protobuf
- [SPARK-49526][CONNECT] Поддержка путей в стиле Windows в ArtifactManager
- [SPARK-49409][CONNECT] Настройка значения по умолчанию CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-43242][CORE] Исправление вызов "Непредвиденный тип BlockId" при диагностике повреждения смешения
- [SPARK-49366][CONNECT] Рассматривать узел union как конечный в разрешении столбцов кадра данных
- 29 августа 2024 г.
- [SPARK-49263][CONNECT] Клиент Python Spark Connect: согласованно обрабатывать логические параметры чтения с кадрами данных
- [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
-
[SPARK-48862][PYTHON][CONNECT] Избегайте вызова
_proto_to_string
, если уровень INFO не включен - [SPARK-49146][SS] Переместить ошибки утверждения, связанные с отсутствием водяного знака в запросах потоковой передачи в режиме добавления, в систему управления ошибками
- 14 августа 2024 г.
- [SPARK-48941][SPARK-48970] Исправление средства записи машинного обучения и средства чтения
- [SPARK-48050][SS] Логический план журнала при запуске запроса
- [SPARK-48706][PYTHON] UDF Python в функциях более высокого порядка не должен вызывать внутреннюю ошибку
- [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
- [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
- [SPARK-49047][PYTHON][CONNECT] Усечение сообщения для ведения журнала
- [SPARK-48740][SQL] Раннее обнаружение ошибки отсутствующей спецификации окна
- 1 августа 2024 г.
- В бессерверных вычислительных ресурсах для записных книжек и заданий режим ANSI SQL включен по умолчанию. См. раздел Поддерживаемые параметры конфигурации Spark.
- При вычислении, настроенном в режиме общего доступа, пакет Kafka считывает и записывает теперь те же ограничения, что и для структурированной потоковой передачи. См. ограничения потоковой передачи и требования к режиму совместного доступа Unity Catalog.
- Выходные данные из инструкции
SHOW CREATE TABLE
теперь включают любые фильтры строк или маски столбцов, определенные в материализованном представлении или потоковой таблице. См. SHOW CREATE TABLE. Дополнительные сведения о фильтрах строк и масках столбцов см. в статье Фильтрация конфиденциальных данных таблицы с помощью фильтров строк и маски столбцов. - [SPARK-48544][SQL] Уменьшение давления памяти пустых наборов BitSet в TreeNode
- [SPARK-46957][CORE] Перенос перенесенных файлов перетасовки должен иметь возможность очистки от исполнителя
- [SPARK-47202][PYTHON] Исправление критических дат и времени ввода с помощью tzinfo
- [SPARK-48713][SQL] Добавление проверки диапазона индекса для unsafeRow.pointTo, если baseObject является массивом байтов
- [SPARK-48896][SPARK-48909][SPARK-48883] Исправления средства записи машинного обучения backport spark
- [SPARK-48810][CONNECT] API остановки сеанса () должен быть идемпотентным и не завершается ошибкой, если сеанс уже закрыт сервером
- [SPARK-48873][SQL] Используйте unsafeRow в средство синтаксического анализа JSON.
- [SPARK-48934][SS] Типы даты и времени Python преобразуются неправильно для настройки времени ожидания в applyInPandasWithState
- [SPARK-48705][PYTHON] Явное использование worker_main при запуске с pyspark
- [SPARK-48889][SS] testStream для выгрузки хранилищ состояний перед завершением
- [SPARK-48047][SQL] Уменьшение нагрузки на память пустых тегов TreeNode
- [SPARK-48463] Make StringIndexer, поддерживающий вложенные входные столбцы
- Обновления системы безопасности операционной системы.
- 11 июля 2024 г.
- (изменение поведения) Кадры данных, кэшированные в источниках таблиц Delta, теперь недействительны, если исходная таблица перезаписана. Это изменение означает, что все изменения состояния в таблицах Delta теперь делают недействительными кэшированные результаты. Используйте
.checkpoint()
для сохранения состояния таблицы на протяжении всего времени жизни DataFrame. - Драйвер Snowflake JDBC обновлен до версии 3.16.1.
- Этот выпуск содержит исправление проблемы, которая не позволила правильно отображать вкладку среды пользовательского интерфейса Spark при запуске в службах контейнеров Databricks.
- В бессерверных вычислительных ресурсах для записных книжек и заданий режим ANSI SQL включен по умолчанию. См. раздел Поддерживаемые параметры конфигурации Spark.
- Чтобы игнорировать недопустимые секции при чтении данных, файловые источники данных, такие как Parquet, ORC, CSV или JSON, могут задать параметру источника данных ignoreInvalidPartitionPaths значение true. Например: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...)`. Можно также использовать конфигурацию SQL spark.sql.files.ignoreInvalidPartitionPaths. Однако параметр источника данных имеет приоритет над конфигурацией SQL. Этот параметр имеет значение false по умолчанию.
- [SPARK-48383][SS] Создание более эффективной ошибки для несовпадений секций в параметре startOffset в Kafka
- [SPARK-48481][SQL][SS] Не применяйте OptimizeOneRowPlan к потоковому набору данных
- [SPARK-48100][SQL] Устранение проблем при пропуске вложенных полей структуры, не выбранных в схеме
- [SPARK-47463][SQL] Использование версии 2Predicate для упаковки выражения с типом возвращаемого логического значения
- [SPARK-48445][SQL] Не встраивайте пользовательские функции с дорогими дочерними объектами
- [SPARK-48292][CORE] Возврат [SPARK-39195][SQL] OutputCommitCoordinator Spark должен прервать этап, когда зафиксированный файл не соответствует состоянию задачи
- [SPARK-48566][PYTHON] Исправлена ошибка, из-за которой индексы секций неверны при анализе UDTF() используют как select, так и partitionColumns
- [SPARK-48648][PYTHON][CONNECT] Правильное определение потока SparkConnectClient.tags
- [SPARK-48503][SQL] Исправить недопустимые скалярные подзапросы с группировкой по неэквивалентным столбцам, которые были неправильно разрешены
- [SPARK-48252][SQL] При необходимости обновите CommonExpressionRef
- [SPARK-48475][PYTHON] Оптимизируйте _get_jvm_function в PySpark.
- [SPARK-48294][SQL] Обработка нижнего регистра в вложенныхTypeMissingElementTypeError
- [SPARK-48286] Исправление анализа столбца с существующим выражением по умолчанию - Добавление ошибки, видимой для пользователей
- [SPARK-47309][SQL] XML: Добавить тесты вывода схемы для значений тегов
- [SPARK-47309][SQL][XML] Добавление модульных тестов вывода схемы
- [SPARK-48273][SQL] Исправление последней перезаписи PlanWithUnresolvedIdentifier
- Обновления системы безопасности операционной системы.
- (изменение поведения) Кадры данных, кэшированные в источниках таблиц Delta, теперь недействительны, если исходная таблица перезаписана. Это изменение означает, что все изменения состояния в таблицах Delta теперь делают недействительными кэшированные результаты. Используйте
- 17 июня 2024 г.
-
applyInPandasWithState()
доступен в общих кластерах. - Исправлена ошибка, из-за которой оптимизация рангового окна с помощью Photon TopK неправильно обрабатывала секции со структурами.
- [SPARK-48310][PYTHON][CONNECT] Кэшированные свойства должны возвращать копии
-
[SPARK-48276][PYTHON][CONNECT] Добавление отсутствующих
__repr__
методов дляSQLExpression
- [SPARK-48277] Улучшение сообщения об ошибке для ErrorClassesJsonReader.getErrorMessage
- [SPARK-47764][CORE][SQL] Очистка зависимостей перетасовки на основе ShuffleCleanupMode
- Обновления системы безопасности операционной системы.
-
- 21 мая 2024 г.
- Исправлена ошибка в функции try_divide(), в которой входные данные, содержащие десятичные разряды, привели к непредвиденным исключениям.
- [SPARK-48173][SQL] CheckAnalysis должен видеть весь план запроса
- [SPARK-48016][SQL] Исправлена ошибка в функции try_divide при использовании десятичных разрядов
- [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
- [SPARK-48197][SQL] Избегайте ошибки утверждения для недопустимой лямбда-функции
- [SPARK-48180][SQL] Улучшение сообщения об ошибке при вызове UDTF с TABLE аргументом, если забыты круглые скобки вокруг нескольких PARTITION/ORDER BY выражений
- [SPARK-48014][SQL] Измените ошибку makeFromJava в EvaluatePython на ошибку с пользователем
- [SPARK-48056][CONNECT][PYTHON] Повторный запуск плана, если возникает ошибка SESSION_NOT_FOUND, и не было получено частичного ответа
- [SPARK-48146][SQL] Исправлена агрегатная функция в дочернем утверждении выражения
- [SPARK-47994][SQL] Исправить ошибку в проталкивании фильтрации столбцов CASE WHEN в SQLServer
- Обновления системы безопасности операционной системы.
- 9 мая 2024 г.
- [SPARK-47543][CONNECT][PYTHON] Вывод дикта как MapType из Кадра данных Pandas, чтобы разрешить создание кадра данных
- [SPARK-47739][SQL] Регистрация типа логического avro
-
[SPARK-48044][PYTHON][CONNECT] Тайник
DataFrame.isStreaming
-
[SPARK-47855][CONNECT] Добавить
spark.sql.execution.arrow.pyspark.fallback.enabled
в неподдерживаемый список - [SPARK-48010][SQL] Избегайте повторных вызовов conf.resolver в resolveExpression
- [SPARK-47941] [SS] [Подключение] Распространение ошибок инициализации рабочей роли ForeachBatch пользователям для PySpark
- [SPARK-47819][CONNECT][Cherry-pick-15.0] Используйте асинхронный обратный вызов для очистки выполнения
- [SPARK-47956][SQL] Проверка работоспособности для неразрешенной ссылки на LCA
- [SPARK-47839][SQL] Исправлена статистическая ошибка в RewriteWithExpression
- [SPARK-48018][SS] Исправление null groupId, вызывающее ошибку param при вызове KafkaException.couldNotReadOffsetRange
- [SPARK-47371] [SQL] XML: игнорировать теги строк, найденные в CDATA
- [SPARK-47907][SQL] Поместите удар под конфигурацией
- [SPARK-47895]Группа [SQL] по всем должна быть идемпотентной
- [SPARK-47973][CORE] Сайт вызова журнала в SparkContext.stop() и более поздних версиях в SparkContext.assertNotStopped()
- [SPARK-47986][CONNECT][PYTHON] Не удается создать новый сеанс при закрытии сеанса по умолчанию сервером
- Обновления системы безопасности операционной системы.
Databricks Runtime 15.0
См. раздел Databricks Runtime 15.0 (EoS).
- 30 мая 2024 г.
- (изменение поведения)
dbutils.widgets.getAll()
теперь поддерживается, чтобы получить все значения виджетов в записной книжке.
- (изменение поведения)
- 25 апреля 2024 г.
- [SPARK-47786]SELECT DISTINCT () не должно стать SELECT структуры DISTINCT () (вернуться к предыдущему поведению)
- [SPARK-47802][SQL] Возврат () от значения структуры() обратно к значению *
- [SPARK-47509][SQL] Блокировать выражения вложенных запросов в лямбда-функциях и функциях более высокого порядка
- [SPARK-47722] Дождитесь завершения фоновой работы RocksDB до закрытия
- [SPARK-47081][CONNECT][СЛЕДУЙТЕ] Улучшение удобства использования обработчика хода выполнения
- [SPARK-47694][CONNECT] Настройка максимального размера сообщения на стороне клиента
-
[SPARK-47669][SQL][CONNECT][PYTHON] Добавлять
Column.try_cast
- [SPARK-47664][PYTHON][CONNECT][Cherry-pick-15.0] Проверка имени столбца по кэшированной схеме
- [SPARK-47818][CONNECT][Cherry-pick-15.0] Введите кэш планов в SparkConnectPlanner для повышения производительности запросов анализа
- [SPARK-47704][SQL] Синтаксический анализ JSON завершается ошибкой "java.lang.ClassCastException", если включен параметр spark.sql.json.enablePartialResults
- [SPARK-47755][CONNECT] Поворот должен выдать ошибку, если количество уникальных значений слишком велико
- [SPARK-47713][SQL][CONNECT] Исправлена ошибка самосоединения
- [SPARK-47812][CONNECT] Поддержка сериализации SparkSession для рабочей роли ForEachBatch
-
[SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
сбой с недопустимым планом - [SPARK-47862][PYTHON][CONNECT]Исправление создания файлов proto
- [SPARK-47800][SQL] Создание нового метода для преобразования идентификатора в tableIdentifier
- Обновления системы безопасности операционной системы.
- 3 апреля 2024 г.
- (Изменение поведения) Чтобы обеспечить согласованное поведение в разных типах вычислений, определяемые пользователем PySpark в общих кластерах, теперь соответствуют поведению определяемых пользователем удостовериться в отсутствии изоляции и назначенных кластерах. Это обновление включает следующие изменения, которые могут нарушить существующий код:
- Определяемые пользователем функции с типом возврата
string
больше неявно не преобразовывают значения, отличные отstring
, вstring
значения. Ранее определяемые пользователем элементы с возвращаемым типомstr
упаковывают возвращаемое значение сstr()
функцией независимо от фактического типа данных возвращаемого значения. - Определяемые пользователем функции с
timestamp
возвращаемыми типами больше неявно применяют преобразование кtimestamp
timezone
. - Конфигурации
spark.databricks.sql.externalUDF.*
кластера Spark больше не применяются к пользовательским файлам PySpark в общих кластерах. - Конфигурация
spark.databricks.safespark.externalUDF.plan.limit
кластера Spark больше не влияет на определяемые пользователем функции PySpark, удаляя ограничение общедоступной предварительной версии 5 определяемых пользователем пользователей для pySpark. - Конфигурация
spark.databricks.safespark.sandbox.size.default.mib
кластера Spark больше не применяется к определяемой пользователем функции PySpark в общих кластерах. Вместо этого используется доступная память в системе. Чтобы ограничить память UDF PySpark, используйтеspark.databricks.pyspark.udf.isolation.memoryLimit
с минимальным значением100m
.
- Определяемые пользователем функции с типом возврата
- Теперь тип данных
TimestampNTZ
поддерживается в качестве кластирующего столбца с жидкостной кластеризацией. См. Использование кластеризации жидкости для таблиц Delta. - [SPARK-47218][SQL] XML: игнорировать закомментированные теги строк в xml-токенизаторе
- [SPARK-46990][SQL] Исправлена загрузка пустых файлов Avro, создаваемых центрами событий
- [SPARK-47033][SQL] Исправить, что EXECUTE IMMEDIATE USING не распознает имена переменных сеансов
- [SPARK-47368][SQL] Удалить проверку настройки inferTimestampNTZ в ParquetRowConverter
- [SPARK-47561][SQL] Устранение проблем с порядком правил анализатора для псевдонима
- [SPARK-47638][PS][CONNECT] Пропустить проверку имени столбца в PS
- [SPARK-46906][BACKPORT][SS] Добавление проверки изменения оператора с отслеживанием состояния для потоковой передачи
- [SPARK-47569][SQL] Запретить сравнение вариантов.
- [SPARK-47241][SQL] Устранение проблем с порядком правил для ExtractGenerator
- [SPARK-47218] [SQL] XML: изменена схемаOfXml для сбоя в режиме DROPMALFORMED
-
[SPARK-47300][SQL]
quoteIfNeeded
должен заключать в кавычки идентификаторы, начинающиеся с цифр - [SPARK-47009][SQL][Сортировка] Включение поддержки создания таблиц для сортировки
-
[SPARK-47322][PYTHON][CONNECT] Сделать обработку дублирования имен столбцов
withColumnsRenamed
в соответствии сwithColumnRenamed
- [SPARK-47544][PYTHON] Метод построителя SparkSession несовместим с intellisense кода Visual Studio
- [SPARK-47511][SQL] Канонизация с помощью выражений путем повторного назначения идентификаторов
- [SPARK-47385] Исправьте кодировщики кортежей с помощью входных данных Option.
- [SPARK-47200][SS] Класс ошибок для ошибки пользовательской функции приемника пакетной службы Foreach
- [SPARK-47135][SS] Реализация классов ошибок для исключений потери данных Kafka
- [SPARK-38708][SQL] Обновление клиента хранилища метаданных Hive до версии 3.1.3 для Hive 3.1
- [SPARK-47305][SQL] Исправление PruneFilters, чтобы пометить флаг isStreaming LocalRelation правильно, когда план содержит пакетную и потоковую передачу.
- [SPARK-47380][CONNECT] Убедитесь в том, что SparkSession совпадает с сервером.
- Обновления системы безопасности операционной системы.
- (Изменение поведения) Чтобы обеспечить согласованное поведение в разных типах вычислений, определяемые пользователем PySpark в общих кластерах, теперь соответствуют поведению определяемых пользователем удостовериться в отсутствии изоляции и назначенных кластерах. Это обновление включает следующие изменения, которые могут нарушить существующий код:
Databricks Runtime 14.2
См. раздел Databricks Runtime 14.2 (EoS).
- 22 октября 2024 г.
- [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
- Обновления системы безопасности операционной системы.
- 10 октября 2024 г.
- [SPARK-49743][SQL] OptimizeCsvJsonExpr не должно изменять поля схемы при выполнении очистки GetArrayStructFields
- [BACKPORT] [[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Классифицировать класс ошибки для ошибки в пользовательской функции FlatMapGroupsWithState
- 25 сентября 2024 г.
- [SPARK-48719][SQL] Исправлена ошибка вычисления regrS...
- [SPARK-49628][SQL] ConstantFolding должен копировать выражение с отслеживанием состояния перед вычислением
- [SPARK-49000][SQL] Исправление "select count(distinct 1) from t", где t пустая таблица путем расширения RewriteDistinctAggregates
- [SPARK-43242][CORE] Исправление вызов "Непредвиденный тип BlockId" при диагностике повреждения смешения
- [SPARK-46601] [CORE] Исправлена ошибка журнала в handleStatusMessage
- Обновления системы безопасности операционной системы.
- 17 сентября 2024 г.
- [SPARK-49526][CONNECT] Поддержка путей в стиле Windows в ArtifactManager
- 29 августа 2024 г.
- [SPARK-49263][CONNECT] Клиент Python Spark Connect: согласованно обрабатывать логические параметры чтения с кадрами данных
- [SPARK-49146][SS] Переместить ошибки утверждения, связанные с отсутствием водяного знака в потоковых запросах в режиме добавления, в систему обработки ошибок
- [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
- 14 августа 2024 г.
- [SPARK-48050][SS] Логический план журнала при запуске запроса
- [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
- [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
- [SPARK-48706][PYTHON] UDF Python в функциях более высокого порядка не должен вызывать внутреннюю ошибку
- 1 августа 2024 г.
- Этот выпуск включает исправление ошибок для
ColumnVector
иColumnarArray
классов в интерфейсе Java Spark. До этого исправления могло возникнуть исключениеArrayIndexOutOfBoundsException
или возвращаться неверные данные, когда экземпляр одного из этих классов содержал значенияnull
. - Выходные данные из инструкции
SHOW CREATE TABLE
теперь включают любые фильтры строк или маски столбцов, определенные в материализованном представлении или потоковой таблице. См. SHOW CREATE TABLE. Дополнительные сведения о фильтрах строк и масках столбцов см. в статье Фильтрация конфиденциальных данных таблицы с помощью фильтров строк и маски столбцов. - [SPARK-47202][PYTHON] Исправление критических дат и времени ввода с помощью tzinfo
- [SPARK-48705][PYTHON] Явное использование worker_main при запуске с pyspark
- Обновления системы безопасности операционной системы.
- Этот выпуск включает исправление ошибок для
- 11 июля 2024 г.
- (изменение поведения) Кадры данных, кэшированные в источниках таблиц Delta, теперь недействительны, если исходная таблица перезаписана. Это изменение означает, что все изменения состояния в таблицах Delta теперь аннулируют ранее закэшированные результаты. Используйте
.checkpoint()
для сохранения состояния таблицы в течение всего времени существования фрейма данных. - Драйвер JDBC Snowflake обновлен до версии 3.16.1
- Этот выпуск содержит исправление проблемы, которая не позволила правильно отображать вкладку среды пользовательского интерфейса Spark при запуске в службах контейнеров Databricks.
- [SPARK-48292][CORE] Возврат [SPARK-39195][SQL] OutputCommitCoordinator Spark должен прервать этап, когда зафиксированный файл не соответствует состоянию задачи
- [SPARK-48273][SQL] Исправление последней перезаписи PlanWithUnresolvedIdentifier
- [SPARK-48503][SQL] Исправление недопустимых скалярных вложенных запросов с использованием группировки по неэквивалентным столбцам, которые были разрешены по ошибке.
- [SPARK-48481][SQL][SS] Не применяйте OptimizeOneRowPlan к потоковому набору данных
- [SPARK-48475][PYTHON] Оптимизация _get_jvm_function в PySpark.
- [SPARK-48100][SQL] Исправление проблем с пропуском вложенных полей структуры, не выбранных в схеме
- [SPARK-48445][SQL] Не встраивайте пользовательские функции с дорогими дочерними объектами
- [SPARK-48383][SS] Создание более эффективной ошибки для несовпадений секций в параметре startOffset в Kafka
- Обновления системы безопасности операционной системы.
- (изменение поведения) Кадры данных, кэшированные в источниках таблиц Delta, теперь недействительны, если исходная таблица перезаписана. Это изменение означает, что все изменения состояния в таблицах Delta теперь аннулируют ранее закэшированные результаты. Используйте
- 17 июня 2024 г.
- Исправлена ошибка, из-за которой оптимизация рангового окна с помощью Photon TopK неправильно обрабатывала секции со структурами.
-
[SPARK-48276][PYTHON][CONNECT] Добавление отсутствующих
__repr__
методов дляSQLExpression
- [SPARK-48277] Улучшение сообщения об ошибке для ErrorClassesJsonReader.getErrorMessage
- Обновления системы безопасности операционной системы.
- 21 мая 2024 г.
- (Изменение функциональности)
dbutils.widgets.getAll()
теперь поддерживается для получения всех значений виджетов в ноутбуке. - [SPARK-48173][SQL] CheckAnalysis должен видеть весь план запроса
- [SPARK-48197][SQL] Избегайте ошибки утверждения для недопустимой лямбда-функции
- [SPARK-47994][SQL] Исправлена ошибка с помощью фильтра столбцов CASE WHEN в SQLServer
- [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
- Обновления системы безопасности операционной системы.
- (Изменение функциональности)
- 9 мая 2024 г.
-
[SPARK-48044][PYTHON][CONNECT] Тайник
DataFrame.isStreaming
- [SPARK-47956][SQL] Проверка работоспособности для неразрешенной ссылки на LCA
- [SPARK-47371] [SQL] XML: игнорировать теги строк, найденные в CDATA
- [SPARK-47812][CONNECT] Поддержка сериализации SparkSession для рабочей роли ForEachBatch
- [SPARK-47895]Группа [SQL] по всем должна быть идемпотентной
- [SPARK-47973][CORE] Сайт вызова журнала в SparkContext.stop() и более поздних версиях в SparkContext.assertNotStopped()
- Обновления системы безопасности операционной системы.
-
[SPARK-48044][PYTHON][CONNECT] Тайник
- 25 апреля 2024 г.
- [SPARK-47704][SQL] Синтаксический анализ JSON завершается ошибкой "java.lang.ClassCastException", если включен параметр spark.sql.json.enablePartialResults
-
[SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
сбой с недопустимым планом - Обновления системы безопасности операционной системы.
- 11 апреля 2024 г.
- [SPARK-47309][SQL][XML] Добавление модульных тестов вывода схемы
- [SPARK-46990][SQL] Исправлена загрузка пустых файлов Avro, создаваемых центрами событий
- [SPARK-47638][PS][CONNECT] Пропустить проверку имени столбца в PS
- [SPARK-47509][SQL] Блокировать выражения вложенных запросов в лямбда-функциях и функциях более высокого порядка
- [SPARK-38708][SQL] Обновление клиента хранилища метаданных Hive до версии 3.1.3 для Hive 3.1
- Обновления системы безопасности операционной системы.
- 1 апреля 2024 г.
-
[SPARK-47322][PYTHON][CONNECT] Сделать обработку дублирования имен столбцов
withColumnsRenamed
согласованной сwithColumnRenamed
- [SPARK-47385] Исправьте кодировщики кортежей с помощью входных данных Option.
- [SPARK-47070] Исправлена недопустимая агрегирование после перезаписи вложенных запросов
- [SPARK-47218] [SQL] XML: изменена схемаOfXml для сбоя в режиме DROPMALFORMED
- [SPARK-47305][SQL] Исправление PruneFilters, чтобы пометить флаг isStreaming LocalRelation правильно, когда план содержит пакетную и потоковую передачу.
- [SPARK-47218][SQL] XML: игнорировать закомментированные теги строк в xml-токенизаторе
- Возврат "[SPARK-46861][CORE] Избегайте взаимоблокировки в DAGScheduler"
-
[SPARK-47300][SQL]
quoteIfNeeded
должен заключать в кавычки идентификаторы, начинающиеся с цифр - [SPARK-47368][SQL] Удалить проверку конфигурации inferTimestampNTZ в ParquetRowConverter
- Обновления системы безопасности операционной системы.
-
[SPARK-47322][PYTHON][CONNECT] Сделать обработку дублирования имен столбцов
- 14 марта 2024 г.
- [SPARK-47035][SS][CONNECT] Протокол для прослушивателя на стороне клиента
- [SPARK-47121][CORE] Избегайте отклоненийExecutionExceptions во время завершения работы StandaloneSchedulerBackend
- [SPARK-47145][SQL] Передача идентификатора таблицы в выполнение операции сканирования источника данных строк для стратегии V2.
- [SPARK-47176][SQL] Функция вспомогательного средства ResolveAllExpressionsUpWithPruning
- [SPARK-47167][SQL] Добавление конкретного класса для анонимного отношения JDBC
-
[SPARK-47129][CONNECT][SQL] Правильное подключение
ResolveRelations
к кэшу - [SPARK-47044][SQL] Добавление выполненного запроса для внешних источников данных JDBC для объяснения выходных данных
- Обновления системы безопасности операционной системы.
- 29 февраля 2024 г.
- Исправлена проблема, из-за которой использование локальной коллекции в качестве источника в команде MERGE может привести к тому, что метрика numSourceRows сообщает о двойном количестве строк.
- Создание схемы с определенным расположением теперь требует, чтобы пользователь должен иметь привилегии SELECT и ИЗМЕНИТЬ на любом файле.
- Теперь вы можете получать XML-файлы с помощью автозагрузчика, read_files, COPY INTO, DLT и DBSQL. Поддержка XML-файла может автоматически выводить и развивать схему, спасать данные с несоответствиями типов, проверять XML с помощью XSD, поддерживать выражения SQL, такие как from_xml, schema_of_xml и to_xml. Дополнительные сведения см . в статье о поддержке XML-файла. Если вы ранее использовали внешний пакет spark-xml, ознакомьтесь с инструкциями по миграции.
- [SPARK-46954][SQL] XML: оболочка InputStreamReader с помощью bufferedReader
- [SPARK-46630][SQL] XML: проверка имени XML-элемента при записи
- [SPARK-46248][SQL] XML: поддержка параметров ignoreCorruptFiles и ignoreMissingFiles
- [SPARK-46954][SQL] XML: оптимизация поиска индекса схемы
- [SPARK-47059][SQL] Присоединить контекст ошибки для команды ALTER COLUMN v1
- [SPARK-46993][SQL] Исправление свертывания констант для переменных сеанса
- 8 февраля 2024 г.
- Запросы на канал данных изменений (CDF) в материализованных представлениях каталога Unity не поддерживаются, и при попытке выполнить запрос CDF с материализованным представлением каталога Unity возникает ошибка. Таблицы потоковой передачи каталога Unity поддерживают запросы CDF для таблиц, отличных от
APPLY CHANGES
в Databricks Runtime 14.1 и более поздних версиях. Запросы CDF не поддерживаются в таблицах потоковой передачи каталога Unity в Databricks Runtime 14.0 и более ранних версиях. - [SPARK-46930] Добавьте поддержку настраиваемого префикса для полей типа Union в Avro.
- [SPARK-46822] Уважение spark.sql.legacy.charVarcharAsString при приведение типа jdbc к типу катализатора в jdbc.
- [SPARK-46952] XML: ограничение размера поврежденной записи.
- [SPARK-46644] Измените добавление и слияние в SQLMetric для использования isZero.
- [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
- [SPARK-46794] Удалить вложенные запросы из ограничений LogicalRDD.
- [SPARK-46941] Не удается вставить узел ограничения группы окон для вычисления top-k, если содержит SizeBasedWindowFunction.
- [SPARK-46933] Добавьте метрику времени выполнения запроса в соединители, использующие JDBCRDD.
- Обновления системы безопасности операционной системы.
- Запросы на канал данных изменений (CDF) в материализованных представлениях каталога Unity не поддерживаются, и при попытке выполнить запрос CDF с материализованным представлением каталога Unity возникает ошибка. Таблицы потоковой передачи каталога Unity поддерживают запросы CDF для таблиц, отличных от
- 31 января 2024 г.
-
[SPARK-46382] XML: обновление документации по
ignoreSurroundingSpaces
. - [SPARK-46382] XML: Поиск значений, расположенных между элементами.
- [SPARK-46763] Исправлена ошибка утверждения в ReplaceDeduplicateWithAggregate для повторяющихся атрибутов.
- Откат [SPARK-46769] Уточнение схемы, связанной с метками времени.
-
[SPARK-46677] Исправление
dataframe["*"]
разрешения. - [SPARK-46382] XML: по умолчанию игнорируется Значение true ДляSurroundingSpaces.
- [SPARK-46633] Исправление средства чтения Avro для обработки блоков нулевой длины.
- [SPARK-45964] Удалить частный метод доступа SQL в пакете XML и JSON под пакетом катализатора.
- [SPARK-46581] обновить комментарий о функции isZero в AccumulatorV2.
- [SPARK-45912] Усовершенствование API XSDToSchema: переход на API HDFS для специальных возможностей облачного хранилища.
- [SPARK-45182] Игнорировать завершение задачи из старой стадии после повторного выполнения родительского этапа, определяемого контрольной суммой.
- [SPARK-46660] Запросы reattachExecute обновляют состояние активности sessionHolder.
- [SPARK-46610] Создание таблицы должно вызывать исключение, если значение ключа в параметрах отсутствует.
-
[SPARK-46383] Сокращение использования кучи драйверов путем уменьшения срока существования
TaskInfo.accumulables()
. - [SPARK-46769] Уточнить вывод схемы, связанный с меткой времени.
- [SPARK-46684] Исправьте coGroup.applyInPandas/Arrow, чтобы правильно передать аргументы.
- [SPARK-46676] dropDuplicatesWithinWatermark не должен завершать ошибку канонизации плана.
-
[SPARK-45962] Удалить
treatEmptyValuesAsNulls
и использовать вместо этого параметрnullValue
в XML. - [SPARK-46541] Исправлена неоднозначная ссылка на столбец при самостоятельном соединении.
- [SPARK-46599] XML: используйте TypeCoercion.findTightestCommonType для проверки совместимости.
- Обновления системы безопасности операционной системы.
-
[SPARK-46382] XML: обновление документации по
- 17 января 2024 г.
- Узел
shuffle
плана объяснения, возвращаемого запросом Photon, обновляется, чтобы добавить флагcausedBroadcastJoinBuildOOM=true
при возникновении ошибки нехватки памяти во время перетасовки, которая является частью совмещения с вещательным соединением. - Чтобы избежать повышенной задержки при обмене данными по протоколу TLSv1.3, этот выпуск обслуживания включает исправление для установки JDK 8, чтобы устранить ошибку JDK-8293562.
-
[SPARK-46261]
DataFrame.withColumnsRenamed
должен хранить упорядочение диктовки или карты. -
[SPARK-46538] Исправлена проблема с неоднозначной ссылкой на столбец в
ALSModel.transform
. - [SPARK-46145] spark.catalog.listTables не вызывает исключения, если таблица или представление не найдены.
-
[SPARK-46484] Чтобы
resolveOperators
вспомогательные функции сохраняли идентификатор плана. -
[SPARK-46394] Исправить проблемы spark.catalog.listDatabases() со специальными символами, когда
spark.sql.legacy.keepCommandOutputSchema
установлено в true. - [SPARK-46609] Избегайте экспоненциального взрыва в PartitioningPreservingUnaryExecNode.
- [SPARK-46446] Отключить вложенные запросы с коррелированной OFFSET для исправления ошибки правильности.
- [SPARK-46152] XML: добавление поддержки DecimalType в вывод схемы XML.
-
[SPARK-46602] распространять
allowExisting
при создании представления, если представление или таблица не существуют. - [SPARK-45814] Сделайте стрелкуConverters.createEmptyArrowBatch вызов close(), чтобы избежать утечки памяти.
- [SPARK-46058] Добавьте отдельный флаг для privateKeyPassword.
- [SPARK-46132] Поддержка пароля ключа для ключей JKS для ПРОТОКОЛА SSL RPC.
- [SPARK-46600] Переместите общий код между SqlConf и SqlApiConf в SqlApiConfHelper.
- [SPARK-46478] Вернуть SPARK-43049 для использования oracle varchar(255) для строки.
- [SPARK-46417] Не завершайте ошибку при вызове hive.getTable и throwException имеет значение false.
- [SPARK-46153] XML: добавление поддержки TimestampNTZType.
- [SPARK-46056][BACKPORT] Исправление векторного вектора Parquet чтения NPE с значением по умолчанию byteArrayDecimalType.
- [SPARK-46466] Векторное средство чтения parquet никогда не должно делать перебазу для метки времени ntz.
-
[SPARK-46260]
DataFrame.withColumnsRenamed
должен соблюдать порядок диктовки. - [SPARK-46036] Удаление класса ошибок из функции raise_error.
- [SPARK-46294] Очистка семантики инициализации и нуля значений.
- [SPARK-46173] Пропуск вызова trimAll во время синтаксического анализа даты.
- [SPARK-46250] Deflake test_parity_listener.
- [SPARK-46587] XML: исправлено преобразование большого целочисленного числа XSD.
- [SPARK-46396] Вывод метки времени не должен вызывать исключение.
- [SPARK-46241] Исправьте подпрограмму обработки ошибок, чтобы она не падала в бесконечное рекурсии.
- [SPARK-46355] XML: закройте InputStreamReader при завершении чтения.
- [SPARK-46370] Исправить ошибку при запросе из таблицы после изменения значений по умолчанию столбца.
- [SPARK-46265] Утверждения в AddArtifact RPC делают клиент подключения несовместимыми со старыми кластерами.
- [SPARK-46308] Запретить рекурсивную обработку ошибок.
-
[SPARK-46337] Сохраните
CTESubstitution
PLAN_ID_TAG
.
- Узел
- 14 декабря 2023 г.
- [SPARK-46141] Измените значение по умолчанию для spark.sql.legacy.ctePrecedencePolicy на CORRECTED.
- [SPARK-45730] Сделайте reloadingX509TrustManagerSuite меньше пламени.
- [SPARK-45852] Грациозно справиться с ошибкой рекурсии во время ведения журнала.
- [SPARK-45808] Улучшена обработка ошибок для исключений SQL.
- [SPARK-45920] группа по порядковой номеру должна быть идемпотентной.
- Вернуть "[SPARK-45649] Объединить платформу подготовки для
OffsetWindowFunctionFrame
". - [SPARK-45733] Поддержка нескольких политик повторных попыток.
- [SPARK-45509] Исправление ссылочного поведения столбца df для Spark Connect.
- [SPARK-45655] Разрешить недетерминированные выражения внутри AggregateFunctions в CollectMetrics.
- [SPARK-45905] Наименее распространенный тип между десятичными типами должен хранить целочисленные цифры в первую очередь.
- [SPARK-45136] Улучшена поддержка ЗакрытияCleaner с поддержкой Ammonite.
- [SPARK-46255] Поддержка сложного типа —> преобразование строк.
- [SPARK-45859] Сделайте объекты UDF в ml.functions ленивыми.
-
[SPARK-46028] Сделать так, чтобы
Column.__getitem__
принимал входной столбец. - [SPARK-45798] Утверждение идентификатора сеанса на стороне сервера.
-
[SPARK-45892] Проверка плана оптимизатора рефакторинга для развязки
validateSchemaOutput
иvalidateExprIdUniqueness
. - [SPARK-45844] Реализуйте нечувствительность регистра для XML.
-
[SPARK-45770] Общие сведения о
DataFrameDropColumns
планеDataframe.drop
. - [SPARK-44790] XML: to_xml реализацию и привязки для Python, connect и SQL.
- [SPARK-45851] Поддержка нескольких политик в клиенте Scala.
- Обновления системы безопасности операционной системы.
- 29 ноября 2023 г.
- Установите новый пакет,
pyarrow-hotfix
чтобы устранить уязвимость PyArrow RCE. - Исправлена проблема, из-за которой экранированные подчеркивания в операциях
getColumns
, исходящих из клиентов JDBC или ODBC, были неправильно интерпретированы как подстановочные знаки. -
[SPARK-45730] Улучшенные ограничения времени для
ReloadingX509TrustManagerSuite
. - [SPARK-45852] Клиент Python для Spark Connect теперь перехватывает ошибки рекурсии во время преобразования текста.
- [SPARK-45808] Улучшена обработка ошибок для исключений SQL.
-
[SPARK-45920]
GROUP BY
Порядковый номер не заменяет порядковый номер. - Возврат [SPARK-45649].
- [SPARK-45733] Добавлена поддержка нескольких политик повторных попыток.
-
[SPARK-45509] Исправлено поведение ссылки на столбец
df
для Spark Connect. -
[SPARK-45655] Разрешить недетерминированные выражения внутри
AggregateFunctions
CollectMetrics
. - [SPARK-45905] Наименьший распространенный тип между десятичными типами теперь сохраняет целочисленные цифры в первую очередь.
-
[SPARK-45136] Улучшена
ClosureCleaner
поддержка Ammonite. -
[SPARK-45859] Сделал объекты UDF ленивым
ml.functions
. -
[SPARK-46028]
Column.__getitem__
принимает входные столбцы. - [SPARK-45798] Утверждение идентификатора сеанса на стороне сервера.
-
[SPARK-45892] Проверка плана оптимизатора рефакторинга для развязки
validateSchemaOutput
иvalidateExprIdUniqueness
. - [SPARK-45844] Реализуйте нечувствительность регистра для XML.
-
[SPARK-45770] исправлено разрешение столбцов при
DataFrameDropColumns
дляDataframe.drop
. -
[SPARK-44790] Добавлена
to_xml
реализация и привязки для Python, Spark Connect и SQL. - [SPARK-45851] Добавлена поддержка нескольких политик в клиенте Scala.
- Обновления системы безопасности операционной системы.
- Установите новый пакет,
Databricks Runtime 14.0
См. раздел Databricks Runtime 14.0 (EoS).
- 8 февраля 2024 г.
- [SPARK-46396] Вывод метки времени не должен вызывать исключение.
- [SPARK-46794] Удалить вложенные запросы из ограничений LogicalRDD.
- [SPARK-45182] Игнорировать завершение задачи из старой стадии после повторного выполнения родительского этапа, определяемого контрольной суммой.
- [SPARK-46933] Добавьте метрику времени выполнения запроса в соединители, использующие JDBCRDD.
- [SPARK-45957] Избегайте создания плана выполнения для не исполняемых команд.
- [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
- [SPARK-46930] Добавьте поддержку настраиваемого префикса для полей типа Union в Avro.
- [SPARK-46941] Невозможно вставить узел ограничения группы окон для вычисления Top-K, если он содержит SizeBasedWindowFunction.
- [SPARK-45582] Убедитесь, что экземпляр хранилища не используется после вызова фиксации в режиме потоковой передачи потоковой передачи.
- Обновления системы безопасности операционной системы.
- 31 января 2024 г.
- [SPARK-46541] Исправлена неоднозначная ссылка на столбец при самостоятельном соединении.
- [SPARK-46676] dropDuplicatesWithinWatermark не должен завершать ошибку канонизации плана.
- [SPARK-46769] Уточнение вывода схемы, связанного с метками времени.
- [SPARK-45498] Дальнейшие действия. Пропустить завершение задачи из старых попыток этапа.
- Откат [SPARK-46769] Уточнение вывода схемы, связанного с меткой времени.
-
[SPARK-46383] Сокращение использования кучи драйверов путем уменьшения срока существования
TaskInfo.accumulables()
. - [SPARK-46633] Исправление средства чтения Avro для обработки блоков нулевой длины.
-
[SPARK-46677] Исправление
dataframe["*"]
разрешения. - [SPARK-46684] Исправьте coGroup.applyInPandas/Arrow, чтобы правильно передать аргументы.
- [SPARK-46763] Исправлена ошибка утверждения в ReplaceDeduplicateWithAggregate для повторяющихся атрибутов.
- [SPARK-46610] Создание таблицы должно вызывать исключение, если значение ключа в параметрах отсутствует.
- Обновления системы безопасности операционной системы.
- 17 января 2024 г.
- Узел
shuffle
плана объяснения, возвращаемого запросом Photon, обновляется, чтобы добавить флагcausedBroadcastJoinBuildOOM=true
при возникновении ошибки недостатка памяти во время перетасовки, которая является частью соединения с вещанием. - Чтобы избежать повышенной задержки при обмене данными по протоколу TLSv1.3, этот выпуск обслуживания включает исправление для установки JDK 8, чтобы устранить ошибку JDK-8293562.
-
[SPARK-46394] Исправить проблемы spark.catalog.listDatabases() со схемами, содержащими специальные символы, когда
spark.sql.legacy.keepCommandOutputSchema
установлено на true. - [SPARK-46250] Deflake test_parity_listener.
- [SPARK-45814] Сделайте стрелкуConverters.createEmptyArrowBatch вызов close(), чтобы избежать утечки памяти.
- [SPARK-46173] Пропуск вызова trimAll во время синтаксического анализа даты.
-
[SPARK-46484] Чтобы
resolveOperators
вспомогательные функции сохраняли идентификатор плана. - [SPARK-46466] Векторное средство чтения parquet никогда не должно делать перебазу для метки времени ntz.
- [SPARK-46056] Исправление векторного вектора Parquet чтения NPE с значением по умолчанию byteArrayDecimalType.
- [SPARK-46058] Добавьте отдельный флаг для privateKeyPassword.
- [SPARK-46478] Вернуть SPARK-43049 для использования oracle varchar(255) для строки.
- [SPARK-46132] Поддержка пароля ключа для ключей JKS для ПРОТОКОЛА SSL RPC.
- [SPARK-46417] Не завершайте ошибку при вызове hive.getTable и throwException имеет значение false.
-
[SPARK-46261]
DataFrame.withColumnsRenamed
должен хранить упорядочение диктовки или карты. - [SPARK-46370] Исправить ошибку при запросе из таблицы после изменения значений по умолчанию столбца.
- [SPARK-46609] Избегайте экспоненциального взрыва в PartitioningPreservingUnaryExecNode.
- [SPARK-46600] Переместите общий код между SqlConf и SqlApiConf в SqlApiConfHelper.
-
[SPARK-46538] Исправлена проблема неоднозначной ссылки на столбец в
ALSModel.transform
. -
[SPARK-46337] Сохраните
CTESubstitution
PLAN_ID_TAG
. -
[SPARK-46602] распространение
allowExisting
при создании представления, если представление или таблица не существует. -
[SPARK-46260]
DataFrame.withColumnsRenamed
должен соблюдать порядок диктовки. - [SPARK-46145] spark.catalog.listTables не вызывает исключения, если таблица или представление не найдены.
- Узел
- 14 декабря 2023 г.
- Исправлена проблема, из-за которой в операциях getColumns экранированные подчеркивания, исходящие из JDBC или ODBC клиентов, обрабатывались неправильно и интерпретировались как подстановочные знаки.
- [SPARK-46255] Поддержка сложного типа —> преобразование строк.
-
[SPARK-46028] Настроить
Column.__getitem__
на прием входного столбца. - [SPARK-45920] группа по порядковой номеру должна быть идемпотентной.
- [SPARK-45433] Исправить определение схемы CSV/JSON, если метки времени не соответствуют заданному формату метки времени.
- [SPARK-45509] Исправление ссылочного поведения столбца df для Spark Connect.
- Обновления системы безопасности операционной системы.
- 29 ноября 2023 г.
- Установите новый пакет,
pyarrow-hotfix
чтобы устранить уязвимость PyArrow RCE. - Исправлена проблема, из-за которой экранированные подчеркивания в операциях
getColumns
, исходящих из клиентов JDBC или ODBC, были неправильно интерпретированы как подстановочные знаки. - При приеме данных CSV с помощью автозагрузчика или потоковой передачи большие CSV-файлы теперь разделены и могут обрабатываться параллельно во время вывода схемы и обработки данных.
- Соединитель Spark-snowflake обновляется до версии 2.12.0.
-
[SPARK-45859] Сделал объекты UDF ленивым
ml.functions
. - Возврат [SPARK-45592].
-
[SPARK-45892] Проверка плана оптимизатора рефакторинга для развязки
validateSchemaOutput
иvalidateExprIdUniqueness
. -
[SPARK-45592] Исправлена проблема с правильностью в AQE.
InMemoryTableScanExec
- [SPARK-45620] API, связанные с UDF Python, теперь используют верблюдьи Регистр.
- [SPARK-44784] Сделал SBT тестирования герметично.
-
[SPARK-45770] исправлено разрешение столбцов с
DataFrameDropColumns
дляDataframe.drop
. -
[SPARK-45544] Встроенная поддержка SSL в
TransportContext
. -
[SPARK-45730] Улучшенные ограничения времени для
ReloadingX509TrustManagerSuite
. - Обновления системы безопасности операционной системы.
- Установите новый пакет,
- 10 ноября 2023 г.
- Запросы к потоковым таблицам и материализованным представлениям в каталоге Unity изменены, чтобы отображать сообщения об ошибках.
-
[SPARK-45545]
SparkTransportConf
наследуетсяSSLOptions
при создании. -
[SPARK-45584] Исправлен сбой выполнения вложенных запросов.
TakeOrderedAndProjectExec
-
[SPARK-45427] Добавлены параметры SSL RPC в
SSLOptions
иSparkTransportConf
. -
[SPARK-45541] Добавлен.
SSLFactory
-
[SPARK-45430]
FramelessOffsetWindowFunction
больше не завершается ошибкой, когдаIGNORE NULLS
иoffset > rowCount
. - [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
- [SPARK-44219] Добавлены дополнительные проверки для каждого правила для перезаписи оптимизации.
-
[SPARK-45543] Исправлена проблема, из-за которой
InferWindowGroupLimit
возникала ошибка, если другие функции окна не имеют такой же оконной рамки, как функции, похожие на ранжирование. - Обновления системы безопасности операционной системы.
- 23 октября 2023 г.
-
[SPARK-45426] Добавлена поддержка
ReloadingX509TrustManager
. -
[SPARK-45396] Добавлена запись документа для
PySpark.ml.connect
модуля и добавленаEvaluator
в__all__
ml.connect
нее. -
[SPARK-45256] Исправлена проблема, из-за которой
DurationWriter
произошел сбой при написании больше значений, чем начальная емкость. -
[SPARK-45279] Присоединено
plan_id
ко всем логическим планам. - [SPARK-45250] Добавлена поддержка профиля ресурсов на уровне стадии для кластеров yarn при отключении динамического выделения.
- [SPARK-45182] Добавлена поддержка отката этапа перетасовки карты, поэтому все задачи этапа можно получить, когда выходные данные этапа не определены.
-
[SPARK-45419] Избегайте повторного использования
rocksdb sst
файлов в другомrocksdb
экземпляре, удалив записи карты версий файлов более крупных версий. -
[SPARK-45386] Исправлена проблема, из-за которой
StorageLevel.NONE
неправильно возвращали 0. - Обновления системы безопасности операционной системы.
-
[SPARK-45426] Добавлена поддержка
- 13 октября 2023 г.
- Зависимость Snowflake-jdbc обновлена с 3.13.29 до 3.13.33.
- Функция
array_insert
основана на 1 для положительных и отрицательных индексов, в то время как раньше она была основана на 0 для отрицательных индексов. Теперь он вставляет новый элемент в конец входных массивов для индекса -1. Чтобы восстановить предыдущее поведение, задайте дляspark.sql.legacy.negativeIndexInArrayInsert
значениеtrue
. - Azure Databricks больше не игнорирует поврежденные файлы, если вывод схемы CSV с автозагрузчиком включен
ignoreCorruptFiles
. -
[SPARK-45227] Исправлена проблема с тонкой безопасностью
CoarseGrainedExecutorBackend
потока. -
[SPARK-44658]
ShuffleStatus.getMapStatus
должен возвращатьсяNone
вместоSome(null)
. -
[SPARK-44910]
Encoders.bean
не поддерживает суперклассы с аргументами универсального типа. - [SPARK-45346] вывод схемы Parquet учитывает чувствительность к регистру флагов при слиянии схем.
- Возврат [SPARK-42946].
- [SPARK-42205] обновлен протокол JSON, чтобы удалить логирование Accumulables в событиях запуска задачи или этапа.
-
[SPARK-45360] Построитель сеансов Spark поддерживает инициализацию из
SPARK_REMOTE
. -
[SPARK-45316] Добавление новых параметров
ignoreCorruptFiles
/ignoreMissingFiles
вHadoopRDD
иNewHadoopRDD
. - [SPARK-44909] Пропустите запуск сервера потоковой передачи журнала распространителя факела, если он недоступен.
-
[SPARK-45084]
StateOperatorProgress
теперь использует точный номер секции перетасовки. - [SPARK-45371] Исправлены проблемы с заливки в клиенте Spark Connect Scala.
-
[SPARK-45178] Резервное выполнение одного пакета для
Trigger.AvailableNow
неподдерживаемых источников, а не с помощью оболочки. -
[SPARK-44840] Сделайте
array_insert()
1 на основе отрицательных индексов. - [SPARK-44551] Редактированные комментарии в целях синхронизации с OSS.
-
[SPARK-45078] Теперь
ArrayInsert
функция делает явное приведение, если тип элемента не равен производного типа компонента. - [SPARK-45339] PySpark теперь регистрирует ошибки повторных попыток.
-
[SPARK-45057] Избегайте получения блокировки чтения при
keepReadLock
значении false. -
[SPARK-44908] Исправлена функция перекрестного проверки
foldCol
парам. - Обновления системы безопасности операционной системы.
Databricks Runtime 13.1
См. раздел Databricks Runtime 13.1 (EoS).
- 29 ноября 2023 г.
- Исправлена проблема, из-за которой экранированные подчеркивания в операциях
getColumns
, исходящих от клиентов JDBC или ODBC, неправильно интерпретировались как подстановочные знаки. -
[SPARK-44846] Удалены сложные выражения группировки после
RemoveRedundantAggregates
. - [SPARK-43802] Исправлена проблема, из-за которой генерация кода для выражений unhex и unbase64 вызывала сбой.
-
[SPARK-43718] Исправлена возможность null для ключей в
USING
соединениях. - Обновления системы безопасности операционной системы.
- Исправлена проблема, из-за которой экранированные подчеркивания в операциях
- 14 ноября 2023 г.
- Фильтры секций в запросах потоковой передачи Delta Lake отправляются вниз до ограничения скорости, чтобы повысить эффективность использования.
- Изменены запросы потоков данных в потоковых таблицах и материализованных представлениях каталога Unity для отображения сообщений об ошибках.
-
[SPARK-45584] Исправлен сбой выполнения вложенных запросов.
TakeOrderedAndProjectExec
-
[SPARK-45430]
FramelessOffsetWindowFunction
больше не завершается ошибкой, когдаIGNORE NULLS
иoffset > rowCount
. -
[SPARK-45543] Исправлена проблема, из-за которой
InferWindowGroupLimit
создавала проблему, если другие функции окна не имели той же оконной рамки, что и функции ранжирования. - Обновления системы безопасности операционной системы.
- 24 октября 2023 г.
-
[SPARK-43799] Добавлен двоичный параметр дескриптора в API PySpark
Protobuf
. - Возврат [SPARK-42946].
- [SPARK-45346] определение схемы Parquet теперь учитывает флаг с учетом регистра при слиянии схемы.
- Обновления системы безопасности операционной системы.
-
[SPARK-43799] Добавлен двоичный параметр дескриптора в API PySpark
- 13 октября 2023 г.
- Зависимость Snowflake-jdbc обновлена с 3.13.29 до 3.13.33.
- Больше не игнорируются поврежденные файлы, когда
ignoreCorruptFiles
включен при определении схемы CSV с помощью Auto Loader. -
[SPARK-44658]
ShuffleStatus.getMapStatus
возвращаетсяNone
вместоSome(null)
. -
[SPARK-45178] Резервное выполнение одного пакета для
Trigger.AvailableNow
неподдерживаемых источников, а не с помощью оболочки. - [SPARK-42205] обновлен протокол JSON, чтобы удалить ведение журнала Accumulables в задачах или событиях запуска этапа.
- Обновления системы безопасности операционной системы.
- 12 сентября 2023 г.
-
[SPARK-44718] Сопоставление
ColumnVector
конфигурации в режиме памяти по умолчанию соOffHeapMemoryMode
значением конфигурации. -
SPARK-44878 Отключено жесткое ограничение для менеджера записи
RocksDB
, чтобы избежать исключения при вставке в кэш. - Прочие исправления.
-
[SPARK-44718] Сопоставление
- 30 августа 2023 г.
- [SPARK-44871] Исправлено поведение percentile_disc.
- [SPARK-44714] Упрощение ограничения разрешения LCA относительно запросов.
-
[SPARK-44245]
PySpark.sql.dataframe sample()
Тесты doc теперь иллюстрируются только для иллюстрации. -
[SPARK-44818] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации
taskThread
. - Обновления системы безопасности операционной системы.
- 15 августа 2023 г.
-
[SPARK-44485] Оптимизировано
TreeNode.generateTreeString
. -
[SPARK-44643] Исправлено
Row.__repr__
, если строка пуста. - [SPARK-44504] задача обслуживания теперь удаляет загруженные провайдеры при ошибке завершения.
-
[SPARK-44479] Исправлено
protobuf
преобразование из пустого типа структуры. -
[SPARK-44464] Исправлено, чтобы
applyInPandasWithStatePythonRunner
выводились строки, у которыхNull
является первым значением столбца. - Прочие исправления.
-
[SPARK-44485] Оптимизировано
- 27 июля 2023 г.
- Исправлена проблема, из-за которой
dbutils.fs.ls()
возвращалINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
при запросе пути к расположению хранилища, который конфликтовал с другим внешним или управляемым местом хранения. -
[SPARK-44199]
CacheManager
больше не обновляет ненужныеfileIndex
. -
[SPARK-44448] Исправлена ошибка ошибок результатов из
DenseRankLimitIterator
иInferWindowGroupLimit
. - Обновления системы безопасности операционной системы.
- Исправлена проблема, из-за которой
- 24 июля 2023 г.
- Возврат [SPARK-42323].
-
[SPARK-41848] Исправлена проблема
TaskResourceProfile
с превышением расписания задачи. -
[SPARK-44136] Исправлена проблема, из-за которой
StateManager
будет материализовано в исполнителе вместо драйвера вFlatMapGroupsWithStateExec
. -
[SPARK-44337] Исправлена проблема, из-за которой любое поле, установленное на
Any.getDefaultInstance
, вызвало ошибки синтаксического анализа. - Обновления системы безопасности операционной системы.
- 27 июня 2023 г.
- Обновления системы безопасности операционной системы.
- 15 июня 2023 г.
- Фотонализовано
approx_count_distinct
. - Средство синтаксического анализа JSON теперь удаляет запись в
failOnUnknownFields
DROPMALFORMED
режиме и завершается сбоем непосредственно вFAILFAST
режиме. - Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
- Поле
PubSubRecord
атрибутов хранится как JSON вместо строки из карты Scala для более простой сериализации и десериализации. - Теперь команда
EXPLAIN EXTENDED
возвращает право кэша результатов запроса. - Повышение производительности добавочных обновлений с помощью
SHALLOW CLONE
Айсберга и Parquet. - [SPARK-43032] Исправлена ошибка Python SQM.
- [SPARK-43404]Пропустите повторное использовать SST-файл для той же версии хранилища состояний RocksDB, чтобы избежать ошибки несоответствия идентификаторов.
- [SPARK-43340] Обработка отсутствующих полей трассировки стека в журналах событий.
-
[SPARK-43527] Исправлено
catalog.listCatalogs
в PySpark. -
[SPARK-43541] пропагандировать все теги
Project
при разрешении выражений и отсутствующих столбцов. -
[SPARK-43300]
NonFateSharingCache
оболочка для кэша Guava. -
[SPARK-43378] Правильно закрывайте объекты потока в
deserializeFromChunkedBuffer
. -
[SPARK-42852]
NamedLambdaVariable
Возврат связанных изменений изEquivalentExpressions
. -
[SPARK-43779]
ParseToDate
теперь загружаетсяEvalMode
в основной поток. -
[SPARK-43413] Исправление
IN
допустимости вложенного запросаListQuery
null. -
[SPARK-43889] Добавить проверку имени столбца для
__dir__()
, чтобы отфильтровать имена столбцов, подверженных ошибкам. -
[SPARK-43043] Улучшена производительность
MapOutputTracker
updateMapOutput - [SPARK-43522] Исправлено создание столбца структуры с именем, содержащим индекс массива.
- [SPARK-43457] Расширение агента пользователя с версиями ОС, Python и Spark.
-
[SPARK-43286] Обновленный режим
aes_encrypt
CBC для создания случайных ВИ. -
[SPARK-42851] Guard
EquivalentExpressions.addExpr()
сsupportedExpression()
. - Возврат [SPARK-43183].
- Обновления системы безопасности операционной системы.
- Фотонализовано
Databricks Runtime 12.2 LTS
См. раздел Databricks Runtime 12.2 LTS.
- 29 ноября 2023 г.
- Исправлена проблема, из-за которой экранированные подчеркивания в операциях
getColumns
, исходящих из клиентов JDBC или ODBC, были неправильно интерпретированы как подстановочные знаки. -
[SPARK-42205] Удалены журналы, доступные для ведения журнала, в
Stage
событиях запуска иTask
запуска. -
[SPARK-44846] Удалены сложные выражения группировки после
RemoveRedundantAggregates
. -
[SPARK-43718] Исправлена возможность null для ключей в
USING
соединениях. -
[SPARK-45544] Встроенная поддержка SSL в
TransportContext
. - [SPARK-43973] Структурированный пользовательский интерфейс потоковой передачи теперь отображает неудачные запросы.
-
[SPARK-45730] Улучшенные ограничения времени для
ReloadingX509TrustManagerSuite
. -
[SPARK-45859] Сделал объекты UDF ленивым
ml.functions
. - Обновления системы безопасности операционной системы.
- Исправлена проблема, из-за которой экранированные подчеркивания в операциях
- 14 ноября 2023 г.
- Фильтры секций в запросах потоковой передачи Delta Lake отправляются вниз до ограничения скорости, чтобы повысить эффективность использования.
-
[SPARK-45545]
SparkTransportConf
наследуетсяSSLOptions
при создании. -
[SPARK-45427] Добавлены параметры SSL RPC в
SSLOptions
иSparkTransportConf
. -
[SPARK-45584] Исправлен сбой выполнения вложенных запросов.
TakeOrderedAndProjectExec
-
[SPARK-45541] Добавлен.
SSLFactory
-
[SPARK-45430]
FramelessOffsetWindowFunction
больше не завершается ошибкой, когдаIGNORE NULLS
иoffset > rowCount
. - [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
- Обновления системы безопасности операционной системы.
- 24 октября 2023 г.
-
[SPARK-45426] Добавлена поддержка
ReloadingX509TrustManager
. - Прочие исправления.
-
[SPARK-45426] Добавлена поддержка
- 13 октября 2023 г.
- Зависимость Snowflake-jdbc обновлена с 3.13.29 до 3.13.33.
- [SPARK-42553] Убедитесь, что по крайней мере один единица времени после интервала.
- [SPARK-45346] определение схем Parquet учитывает флаг чувствительности к регистру при слиянии схем.
-
[SPARK-45178] Резервное выполнение одного пакета для
Trigger.AvailableNow
неподдерживаемых источников, а не с помощью оболочки. -
[SPARK-45084]
StateOperatorProgress
использовать точное, адекватное количество разделов для перетасовки.
- 12 сентября 2023 г.
-
[SPARK-44873] Добавлена поддержка
alter view
с вложенными столбцами в клиенте Hive. -
[SPARK-44718] Сопоставление
ColumnVector
конфигурации в режиме памяти по умолчанию соOffHeapMemoryMode
значением конфигурации. -
[SPARK-43799] Добавлен двоичный параметр дескриптора в API PySpark
Protobuf
. - Прочие исправления.
-
[SPARK-44873] Добавлена поддержка
- 30 августа 2023 г.
-
[SPARK-44485] Оптимизировано
TreeNode.generateTreeString
. -
[SPARK-44818] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации
taskThread
. -
[SPARK-44871][11.3-13.0] Исправлено
percentile_disc
поведение. - [SPARK-44714] Упрощенное ограничение разрешения LCA относительно запросов.
- Обновления системы безопасности операционной системы.
-
[SPARK-44485] Оптимизировано
- 15 августа 2023 г.
- [SPARK-44504] задача обслуживания очищает загруженных провайдеров при возникновении ошибки остановки.
-
[SPARK-44464] исправлены
applyInPandasWithStatePythonRunner
выходных строк, которыеNull
в качестве первого значения столбца. - Обновления системы безопасности операционной системы.
- 29 июля 2023 г.
- Исправлена проблема, из-за которой
dbutils.fs.ls()
возвращалINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
при вызове пути к расположению хранилища, которое конфликтовало с другим внешним или управляемым расположением хранилища. -
[SPARK-44199]
CacheManager
больше не обновляет ненужныеfileIndex
. - Обновления системы безопасности операционной системы.
- Исправлена проблема, из-за которой
- 24 июля 2023 г.
-
[SPARK-44337] Исправлена проблема, где любое поле, установленное на
Any.getDefaultInstance
, вызывало ошибки синтаксического анализа. -
[SPARK-44136] Исправлена проблема, из-за которой
StateManager
будет материализовано в исполнителе вместо драйвера вFlatMapGroupsWithStateExec
. - Обновления системы безопасности операционной системы.
-
[SPARK-44337] Исправлена проблема, где любое поле, установленное на
- 23 июня 2023 г.
- Обновления системы безопасности операционной системы.
- 15 июня 2023 г.
- Фотонализовано
approx_count_distinct
. - Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
-
[SPARK-43779]
ParseToDate
теперь загружаетсяEvalMode
в основной поток. -
[SPARK-43156][SPARK-43098] Проверка ошибки расширенного скалярного подзаверждения с
decorrelateInnerQuery
отключенным. - Обновления системы безопасности операционной системы.
- Фотонализовано
- 2 июня 2023 г.
- Средство синтаксического анализа JSON в
failOnUnknownFields
режиме удаляет запись вDROPMALFORMED
режиме и завершается сбоем непосредственно в режимеFAILFAST
. - Повышение производительности добавочных обновлений с помощью
SHALLOW CLONE
Айсберга и Parquet. - Исправлена проблема в Auto Loader, где разные форматы исходных файлов были несовместимы, когда предоставленная схема не включала выводимые разделы. Эта проблема может привести к непредвиденным сбоям при чтении файлов с отсутствующими столбцами в схеме выводимой секции.
- [SPARK-43404] Пропустите повторное использовать SST-файл для той же версии хранилища состояний RocksDB, чтобы избежать ошибки несоответствия идентификаторов.
-
[SPARK-43413][11.3-13.0] Исправлена
IN
возможность nullqueryListQuery
. - [SPARK-43522] Исправлено создание имени столбца структуры с использованием индекса из массива.
-
[SPARK-43541] распространять все теги
Project
в разрешении выражений и отсутствующих столбцов. -
[SPARK-43527] Исправлено
catalog.listCatalogs
в PySpark. - [SPARK-43123] метаданные внутренних полей больше не просачиваются в каталоги.
- [SPARK-43340] Исправлено отсутствие поля трассировки стека в журналах событий.
-
[SPARK-42444]
DataFrame.drop
теперь правильно обрабатывает повторяющиеся столбцы. -
[SPARK-42937]
PlanSubqueries
теперь задаетInSubqueryExec#shouldBroadcast
значение true. -
[SPARK-43286] Режим
aes_encrypt
CBC обновлён для генерации случайных IV. -
[SPARK-43378] Правильно закрывайте объекты потока в
deserializeFromChunkedBuffer
.
- Средство синтаксического анализа JSON в
- 17 мая 2023 г.
- Теперь сканирование Parquet обеспечивает надежную защиту от OOM при сканировании исключительно структурированных файлов путем динамической настройки размера пакета. Метаданные файлов анализируются для предварительного уменьшения размера пакета и снова снижаются при повторных попытках задачи в качестве окончательной сетки безопасности.
- Если файл Avro считывался только с параметром
failOnUnknownFields
или автозагрузчиком в режиме эволюции схемыfailOnNewColumns
, столбцы с различными типами данных будут считываться какnull
вместо того, чтобы вызвать ошибку, указывающую, что файл не может быть прочитан. Теперь эти операции чтения завершаются ошибкой и рекомендуют пользователям использовать этотrescuedDataColumn
параметр. - Автозагрузчик теперь выполняет следующие действия.
-
- Правильно считывает и больше не спасает
Integer
Short
, иByte
типы, если предоставлен один из этих типов данных, но файл Avro предлагает один из других двух типов.
- Правильно считывает и больше не спасает
-
- Запрещает чтение типов интервалов в виде типов меток даты или времени, чтобы избежать повреждения дат.
-
- Запрещает
Decimal
чтение типов с более низкой точностью.
- Запрещает
- [SPARK-43172] Предоставляет узел и маркер из клиента Spark connect.
-
[SPARK-43293]
__qualified_access_only
игнорируется в обычных столбцах. -
[SPARK-43098] Исправлена ошибка правильности
COUNT
при группировке скалярных вложенных запросов по предложению. -
[SPARK-43085] поддержка назначения столбцов
DEFAULT
для имен таблиц с несколькими частьми. -
[SPARK-43190]
ListQuery.childOutput
теперь согласуется со вторичными выходными данными. - [SPARK-43192] Удалена проверка charset агента пользователя.
- Обновления системы безопасности операционной системы.
- 25 апреля 2023 г.
- Если файл Parquet был прочитан только с параметром
failOnUnknownFields
или с автозагрузчиком в режиме эволюции схемыfailOnNewColumns
, столбцы с различными типами данных будут считываться какnull
вместо того, чтобы вызвать ошибку, указывающую, что файл не может быть прочитан. Теперь эти операции чтения завершаются ошибкой и рекомендуют пользователям использовать этотrescuedDataColumn
параметр. - Автоматический загрузчик теперь правильно считывает и больше не спасает
Integer
Short
, иByte
типы, если предоставлен один из этих типов данных. Файл Parquet предлагает один из двух других типов. Когда ранее была включена функция восстановления данных, несоответствие типов данных могло привести к тому, что столбцы сохранялись, даже если они были доступны для чтения. -
[SPARK-43009] Параметризованный
sql()
сAny
константами - [SPARK-42406] Завершение рекурсивных полей Protobuf путем удаления поля
-
[SPARK-43038] Поддержка режима CBC по
aes_encrypt()
/aes_decrypt()
-
[SPARK-42971] Изменение на печать
workdir
, еслиappDirs
значение NULL при событии рабочего дескриптораWorkDirCleanup
- [SPARK-43018] Исправлена ошибка для команд INSERT с литералом временной метки
- Обновления системы безопасности операционной системы.
- Если файл Parquet был прочитан только с параметром
- 11 апреля 2023 г.
- Поддержка устаревших форматов источников данных в команде
SYNC
. - Исправлена проблема в поведении %autoreload в записных книжках за пределами репозитория.
- Исправлена проблема, из-за которой эволюция схемы автозагрузчика может перейти в бесконечный цикл сбоя при обнаружении нового столбца в схеме вложенного объекта JSON.
-
[SPARK-42928] Выполняет
resolvePersistentFunction
синхронизацию. - [SPARK-42936] Устраняет проблему LCan, когда предложение может быть разрешено непосредственно его дочерним агрегатом.
-
[SPARK-42967] Исправления
SparkListenerTaskStart.stageAttemptId
при запуске задачи после отмены этапа. - Обновления системы безопасности операционной системы.
- Поддержка устаревших форматов источников данных в команде
- 29 марта 2023 г.
Databricks SQL теперь поддерживает указание значений по умолчанию для столбцов таблиц Delta Lake либо во время создания таблицы, либо после этого. Последующие команды
INSERT
,UPDATE
,DELETE
иMERGE
могут ссылаться на значение по умолчанию любого столбца с помощью явного ключевого словаDEFAULT
. Кроме того, если в каком-либо назначенииINSERT
явно указано меньше столбцов, чем в целевой таблице, то для оставшихся столбцов подставляются соответствующие значения столбцов по умолчанию (или NULL, если значение по умолчанию не указано).Например:
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; \> 0, 2023-03-28 1, 2023-03-28z
Auto Loader теперь инициирует по крайней мере одну синхронную очистку журнала RocksDB для потоков
Trigger.AvailableNow
, чтобы убедиться, что контрольная точка может регулярно очищаться для потоков Auto Loader, работающих с высокой скоростью. Это может привести к тому, что некоторые потоки будут занять больше времени до завершения работы, но это позволит сэкономить затраты на хранение и улучшить возможности автозагрузчика в будущих запусках.Теперь можно изменить таблицу Delta, чтобы добавить поддержку функциям таблицы с помощью
DeltaTable.addFeatureSupport(feature_name)
.[SPARK-42794] Увеличьте блокировкуAcquireTimeoutMs до 2 минут для получения хранилища состояний RocksDB в службе "Потоковая передача структуры"
[SPARK-42521] добавить NULL для операций вставки с пользовательскими списками с количеством столбцов меньше, чем в целевой таблице
[SPARK-42702][SPARK-42623] Поддержка параметризованного запроса в вложенных запросах и CTE
[SPARK-42668] Перехват исключения при попытке закрыть сжатый поток в HDFSStateStoreProvider
[SPARK-42403] JsonProtocol должен обрабатывать строки JSON NULL
- 8 марта 2023 г.
- Сообщение об ошибке "Сбой инициализации конфигурации" улучшено, чтобы обеспечить больше контекста для клиента.
- Существует изменение терминологии для добавления функций в таблицу Delta с помощью свойства таблицы. Предпочтительный синтаксис теперь
'delta.feature.featureName'='supported'
вместо'delta.feature.featureName'='enabled'
. Для обеспечения обратной совместимости использование'delta.feature.featureName'='enabled'
по-прежнему работает и продолжит работать. - Начиная с этого выпуска, можно создать или заменить таблицу, добавив дополнительное свойство
delta.ignoreProtocolDefaults
, чтобы игнорировать конфигурации Spark, связанные с протоколом, которые включают версии чтения и записи по умолчанию, а также функции таблицы, поддерживаемые по умолчанию. - [SPARK-42070] Изменение значения по умолчанию аргумента функции Mask с -1 на NULL
- [SPARK-41793] Неверный результат для оконных кадров, определённых условием диапазона для значимых десятичных разрядов
- [SPARK-42484] Лучшее сообщение об ошибке unsafeRowUtils
- [SPARK-42516] Всегда записывать конфигурацию часового пояса сеанса при создании представлений
- [SPARK-42635] Исправлено выражение TimestampAdd.
- [SPARK-42622] Отключена подстановка значений
- [SPARK-42534] Исправить оператор ограничения DB2Dialect
- [SPARK-42121] Добавление встроенных табличных функций posexplode, posexplode_outer, json_tuple и stack
- [SPARK-42045] Режим SQL ANSI: Round/Bround должен возвращать ошибку при крошечном/маленьком или значительном переполнении целых чисел
- Обновления системы безопасности операционной системы.
Databricks Runtime 11.3 LTS
См. раздел Databricks Runtime 11.3 LTS.
- 29 ноября 2023 г.
- Исправлена проблема, из-за которой экранированные подчеркивания в операциях
getColumns
, исходящих из клиентов JDBC или ODBC, были неправильно интерпретированы как подстановочные знаки. - [SPARK-43973] Структурированный пользовательский интерфейс потоковой передачи теперь отображает неудачные запросы.
-
[SPARK-45730] Улучшенные ограничения времени для
ReloadingX509TrustManagerSuite
. -
[SPARK-45544] Встроенная поддержка SSL в
TransportContext
. -
[SPARK-45859] Сделал объекты UDF ленивым
ml.functions
. -
[SPARK-43718] Исправлена возможность null для ключей в
USING
соединениях. -
[SPARK-44846] Удалены сложные выражения группировки после
RemoveRedundantAggregates
. - Обновления системы безопасности операционной системы.
- Исправлена проблема, из-за которой экранированные подчеркивания в операциях
- 14 ноября 2023 г.
- Фильтры секций в запросах потоковой передачи Delta Lake отправляются вниз до ограничения скорости, чтобы повысить эффективность использования.
- [SPARK-42205] Удалены сведения о ведении журнала в событиях запуска этапов и задач.
-
[SPARK-45545]
SparkTransportConf
наследуетсяSSLOptions
при создании. - Возврат [SPARK-33861].
-
[SPARK-45541] Добавлен.
SSLFactory
- [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
-
[SPARK-45584] Исправлен сбой выполнения вложенных запросов.
TakeOrderedAndProjectExec
-
[SPARK-45430]
FramelessOffsetWindowFunction
больше не завершается ошибкой, когдаIGNORE NULLS
иoffset > rowCount
. -
[SPARK-45427] Добавлены параметры SSL RPC в
SSLOptions
иSparkTransportConf
. - Обновления системы безопасности операционной системы.
- 24 октября 2023 г.
-
[SPARK-45426] Добавлена поддержка
ReloadingX509TrustManager
. - Прочие исправления.
-
[SPARK-45426] Добавлена поддержка
- 13 октября 2023 г.
- Зависимость Snowflake-jdbc обновлена с 3.13.29 до 3.13.33.
-
[SPARK-45178] Резервное выполнение одного пакета для
Trigger.AvailableNow
неподдерживаемых источников, а не с помощью оболочки. -
[SPARK-45084]
StateOperatorProgress
использовать точный, подходящий номер секции перетасовки. - [SPARK-45346] вывод схемы Parquet теперь учитывает флаг чувствительности к регистру при слиянии схемы.
- Обновления системы безопасности операционной системы.
- 10 сентября 2023 г.
- Прочие исправления.
- 30 августа 2023 г.
-
[SPARK-44818] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации
taskThread
. -
[SPARK-44871][11.3-13.0] Исправлено
percentile_disc
поведение. - Обновления системы безопасности операционной системы.
-
[SPARK-44818] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации
- 15 августа 2023 г.
-
[SPARK-44485] Оптимизировано
TreeNode.generateTreeString
. - [SPARK-44504] задача по обслуживанию очищает загруженных поставщиков при остановке из-за ошибки.
-
[SPARK-44464] исправлено
applyInPandasWithStatePythonRunner
результатных строк, имеющихNull
в качестве значения первого столбца. - Обновления системы безопасности операционной системы.
-
[SPARK-44485] Оптимизировано
- 27 июля 2023 г.
- Исправлена проблема, из-за которой
dbutils.fs.ls()
возвращалINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
при вызове пути к расположению хранилища, который конфликтовал с другими, внешними или управляемыми, местами хранения. -
[SPARK-44199]
CacheManager
больше не обновляет ненужныеfileIndex
. - Обновления системы безопасности операционной системы.
- Исправлена проблема, из-за которой
- 24 июля 2023 г.
- [SPARK-44136] Исправлена ошибка, из-за которой StateManager может материализоваться на исполнителях вместо драйвера в FlatMapGroupsWithStateExec.
- Обновления системы безопасности операционной системы.
- 23 июня 2023 г.
- Обновления системы безопасности операционной системы.
- 15 июня 2023 г.
- Фотонализовано
approx_count_distinct
. - Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
-
[SPARK-43779]
ParseToDate
теперь загружаетсяEvalMode
в основной поток. - [SPARK-40862] Поддержка не агрегированных вложенных запросов в RewriteCorrelatedScalarSubquery
-
[SPARK-43156][SPARK-43098] Расширенный скалярный тест количества
decorrelateInnerQuery
ошибок с отключенным. - [SPARK-43098] Исправлена ошибка COUNT правильности, если скалярный вложенный запрос содержит группу по предложению
- Обновления системы безопасности операционной системы.
- Фотонализовано
- 2 июня 2023 г.
- Средство синтаксического анализа JSON в
failOnUnknownFields
режиме удаляет запись вDROPMALFORMED
режиме и завершается сбоем непосредственно в режимеFAILFAST
. - Повышение производительности добавочных обновлений с помощью
SHALLOW CLONE
Айсберга и Parquet. - Исправлена проблема в автозагрузчике, где различные форматы исходных данных были несовместимы, когда указанная схема не включала интерпретированные разделы. Эта проблема может привести к непредвиденным сбоям при чтении файлов с отсутствующими столбцами в схеме выводимой секции.
- [SPARK-43404]Пропустите повторное использовать SST-файл для той же версии хранилища состояний RocksDB, чтобы избежать ошибки несоответствия идентификаторов.
-
[SPARK-43527] Исправлено
catalog.listCatalogs
в PySpark. -
[SPARK-43413][11.3-13.0] Исправлена
IN
возможность nullqueryListQuery
. - [SPARK-43340] Исправлено отсутствие поля трассировки стека в журналах событий.
- Средство синтаксического анализа JSON в
Databricks Runtime 10.4 LTS
См. Databricks Runtime 10.4 LTS.
- 29 ноября 2023 г.
-
[SPARK-45544] Встроенная поддержка SSL в
TransportContext
. -
[SPARK-45859] Сделал объекты UDF ленивым
ml.functions
. -
[SPARK-43718] Исправлена возможность null для ключей в
USING
соединениях. -
[SPARK-45730] Улучшенные ограничения времени для
ReloadingX509TrustManagerSuite
. - [SPARK-42205] Удалены сведения о ведении журнала в событиях запуска этапов и задач.
-
[SPARK-44846] Удалены сложные выражения группировки после
RemoveRedundantAggregates
. - Обновления системы безопасности операционной системы.
-
[SPARK-45544] Встроенная поддержка SSL в
- 14 ноября 2023 г.
-
[SPARK-45541] Добавлен.
SSLFactory
-
[SPARK-45545]
SparkTransportConf
наследуетсяSSLOptions
при создании. -
[SPARK-45427] Добавлены параметры SSL RPC в
SSLOptions
иSparkTransportConf
. - [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
-
[SPARK-45584] Исправлен сбой выполнения вложенных запросов.
TakeOrderedAndProjectExec
- Возврат [SPARK-33861].
- Обновления системы безопасности операционной системы.
-
[SPARK-45541] Добавлен.
- 24 октября 2023 г.
-
[SPARK-45426] Добавлена поддержка
ReloadingX509TrustManager
. - Обновления системы безопасности операционной системы.
-
[SPARK-45426] Добавлена поддержка
- 13 октября 2023 г.
-
[SPARK-45084]
StateOperatorProgress
использовать точный, подходящий номер секции перетасовки. -
[SPARK-45178] Резервное выполнение одного пакета для
Trigger.AvailableNow
неподдерживаемых источников, а не с помощью оболочки. - Обновления системы безопасности операционной системы.
-
[SPARK-45084]
- 10 сентября 2023 г.
- Прочие исправления.
- 30 августа 2023 г.
-
[SPARK-44818] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации
taskThread
. - Обновления системы безопасности операционной системы.
-
[SPARK-44818] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации
- 15 августа 2023 г.
- [SPARK-44504] Задача по техническому обслуживанию очищает загруженных поставщиков в случае ошибки остановки.
- [SPARK-43973] Структурированный пользовательский интерфейс потоковой передачи теперь отображается неправильно.
- Обновления системы безопасности операционной системы.
- 23 июня 2023 г.
- Обновления системы безопасности операционной системы.
- 15 июня 2023 г.
- Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
- [SPARK-43098] Исправлена ошибка COUNT правильности, если скалярный вложенный запрос содержит группу по предложению
- [SPARK-40862] Поддержка не агрегированных вложенных запросов в RewriteCorrelatedScalarSubquery
-
[SPARK-43156][SPARK-43098] Расширенный тест скалярного подзапроса с
decorrelateInnerQuery
отключенным. - Обновления системы безопасности операционной системы.
- 2 июня 2023 г.
- Средство синтаксического анализа JSON в
failOnUnknownFields
режиме удаляет запись вDROPMALFORMED
режиме и завершается сбоем непосредственно в режимеFAILFAST
. - Исправлена проблема в синтаксическом анализе данных JSON, чтобы предотвратить
UnknownFieldException
. - Исправлена проблема в Auto Loader, в которой разные форматы исходных файлов были несогласованы, когда указанная схема не включала инферированные разделы. Эта проблема может привести к непредвиденным сбоям при чтении файлов с отсутствующими столбцами в схеме выводимой секции.
- [SPARK-43404] Пропустите повторное использовать SST-файл для той же версии хранилища состояний RocksDB, чтобы избежать ошибки несоответствия идентификаторов.
-
[SPARK-43413] Исправлена
IN
возможность nullqueryListQuery
. - Обновления системы безопасности операционной системы.
- Средство синтаксического анализа JSON в
- 17 мая 2023 г.
- Теперь сканирование Parquet обеспечивает надежную защиту от OOM при сканировании исключительно структурированных файлов путем динамической настройки размера пакета. Метаданные файлов анализируются для предварительного уменьшения размера пакета и снова снижаются при повторных попытках задачи в качестве окончательной сетки безопасности.
-
[SPARK-41520] Разделение
AND_OR
шаблона дерева для разделения иAND
разделенияOR
. -
[SPARK-43190]
ListQuery.childOutput
теперь согласуется со вторичными выходными данными. - Обновления системы безопасности операционной системы.
- 25 апреля 2023 г.
-
[SPARK-42928] Сделайте
resolvePersistentFunction
синхронизированным. - Обновления системы безопасности операционной системы.
-
[SPARK-42928] Сделайте
- 11 апреля 2023 г.
- Исправлена проблема, из-за которой эволюция схемы автозагрузчика может перейти в бесконечный цикл сбоя при обнаружении нового столбца в схеме вложенного объекта JSON.
-
[SPARK-42937]
PlanSubqueries
теперь задаетInSubqueryExec#shouldBroadcast
значение true. - [SPARK-42967] Исправление SparkListenerTaskStart.stageAttemptId при запуске задачи после отмены этапа.
- 29 марта 2023 г.
- [SPARK-42668] Перехват исключения при попытке закрыть сжатый поток в HDFSStateStoreProvider
- [SPARK-42635] Исправление ...
- Обновления системы безопасности операционной системы.
- 14 марта 2023 г.
- [SPARK-41162] Исправление анти- и полусоединения для самообъединения с агрегациями
- [SPARK-33206] Исправление вычисления веса кэша кэша индексов с перетасовками для небольших файлов индексов
-
[SPARK-42484] Улучшено сообщение об ошибке
UnsafeRowUtils
- Прочие исправления.
- 28 февраля 2023 г.
- Поддержка сгенерированного столбца для формата даты гггг-ММ-дд. Это изменение поддерживает очистку секций для гггг-ММ-дд в виде date_format в созданных столбцах.
- Теперь пользователи могут читать и записывать определенные таблицы Delta, требующие чтения версии 3 и записи версии 7, с помощью Databricks Runtime 9.1 LTS или более поздней версии. Для успешного выполнения функции таблиц, перечисленные в протоколе таблиц, должны поддерживаться текущей версией Databricks Runtime.
- Поддержка сгенерированного столбца для форматирования даты в формате гггг-ММ-дд. Это изменение поддерживает очистку секций для гггг-ММ-дд в виде date_format в созданных столбцах.
- Обновления системы безопасности операционной системы.
- 16 февраля 2023 г.
- [SPARK-30220] Включение вложенных запросов "Существует" или "В" за пределами узла фильтра
- Обновления системы безопасности операционной системы.
- 31 января 2023 г.
- По умолчанию типы таблиц JDBC являются внешними.
- 18 января 2023 г.
- Соединитель Azure Synapse возвращает более описательное сообщение об ошибке, если имя столбца содержит недопустимые символы, такие как пробелы или точки с запятой. В таких случаях будет возвращено следующее сообщение:
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
- [SPARK-38277] Очистка пакета записи после фиксации хранилища состояний RocksDB
- [SPARK-41199] Исправлена проблема с метриками при совместном использовании источника потоковой передачи DSv1 и источника потоковой передачи DSv2.
- [SPARK-41198] Исправить метрики в потоковом запросе, содержащем CTE и потоковый источник DSv1
- [SPARK-41339] Закрытие и повторное создание пакета записи RocksDB вместо простой очистки
- [SPARK-41732] Применение обрезки на основе дерева для сеанса правила
- Обновления системы безопасности операционной системы.
- Соединитель Azure Synapse возвращает более описательное сообщение об ошибке, если имя столбца содержит недопустимые символы, такие как пробелы или точки с запятой. В таких случаях будет возвращено следующее сообщение:
- 29 ноября 2022 г.
- Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пробелов:
-
csvignoreleadingwhitespace
, если задано значениеtrue
, удаляет начальные пробелы из значений во время записи, когдаtempformat
установлено вCSV
илиCSV GZIP
. Пробелы сохраняются, если для конфигурации задано значениеfalse
. Значение по умолчанию —true
. -
csvignoretrailingwhitespace
, при установленном значенииtrue
, удаляет конечные пробелы из значений во время записи, когдаtempformat
имеет значениеCSV
илиCSV GZIP
. Пробелы сохраняются, если для конфигурации задано значениеfalse
. Значение по умолчанию —true
.
-
- Исправлена проблема с синтаксическим анализом JSON в Автозагрузчике, когда все столбцы оставлены в виде строк (
cloudFiles.inferColumnTypes
не были заданы или заданы какfalse
), и JSON содержал вложенные объекты. - Обновления системы безопасности операционной системы.
- Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пробелов:
- 15 ноября 2022 г.
- Обновление Apache commons-text до версии 1.10.0.
-
[SPARK-40646] синтаксический анализ JSON для структур, карт и массивов был исправлен, поэтому, если часть записи не соответствует схеме, остальная часть записи по-прежнему может быть правильно проанализирована, а не возвращать значения NULL. Чтобы включить улучшенное поведение, задайте для
spark.sql.json.enablePartialResults
значениеtrue
. Флаг отключен по умолчанию, чтобы сохранить исходное поведение. -
[SPARK-40292] Исправление имен столбцов в функции
arrays_zip
при ссылке на массивы из вложенных структур - Обновления системы безопасности операционной системы.
- 1 ноября 2022 г.
- Исправлена проблема, из-за которой в таблице Delta существовал пользовательский столбец с именем
_change_type
, но поток изменений данных был отключен, и данные в этом столбце неправильно заполнялись значениями NULL при выполненииMERGE
. - Исправлена проблема с автозагрузчиком, из-за которой файл можно дублировать в одном микропакете при включении
allowOverwrites
- [SPARK-40697] Добавление заполнения на стороне чтения для покрытия внешних файлов данных
- [SPARK-40596] Заполнение объекта ExecutorDecommission сообщениями в ExecutorDecommissionInfo
- Обновления системы безопасности операционной системы.
- Исправлена проблема, из-за которой в таблице Delta существовал пользовательский столбец с именем
- 18 октября 2022 г.
- Обновления системы безопасности операционной системы.
- 5 октября 2022 г.
-
[SPARK-40468] Исправление обрезки столбцов в CSV при выборе
_corrupt_record
. - Обновления системы безопасности операционной системы.
-
[SPARK-40468] Исправление обрезки столбцов в CSV при выборе
- 22 сентября 2022 г.
- Пользователи могут задать spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled
,true
) для повторного включения встроенного списка для автозагрузчика в ADLS 2-го поколения. Встроенное описание было ранее отключено из-за проблем с производительностью, но может быть вызвано увеличением затрат на хранение для клиентов. - [SPARK-40315] Добавление hashCode() для литерала ArrayBasedMapData
- [SPARK-40213] Поддержка преобразования значений ASCII для символов Latin-1
- [SPARK-40380] Исправление константного свертывания InvokeLike, чтобы избежать несериализируемых литерала, внедренных в план
- [SPARK-38404] Улучшение разрешения CTE, когда вложенный CTE ссылается на внешний CTE
- [SPARK-40089] Исправление сортировки для некоторых десятичных типов
- [SPARK-39887] RemoveRedundantAliases должен сохранять псевдонимы, которые делают выходные данные узлов проекции уникальными
- Пользователи могут задать spark.conf.set(
- 6 сентября 2022 г.
- [SPARK-40235] Используйте прерванную блокировку вместо синхронизированной в Executor.updateDependencies()
- [SPARK-40218] GROUPING SETS должны сохранять столбцы группирования
- [SPARK-39976] ArrayIntersect должен правильно обрабатывать значение NULL в левом выражении
-
[SPARK-40053] Добавление в динамические случаи отмены, для которых требуется
assume
среда выполнения Python - [SPARK-35542] Исправление: Бакетизатор, созданный для нескольких столбцов с параметрами splitsArray, inputCols и outputCols, не может быть загружен после сохранения.
- [SPARK-40079] Добавление проверки ввода Imputer InputCols для пустого регистра ввода
- 24 августа 2022 г.
- [SPARK-39983] Не кэшируйте несериализированные отношения вещания на драйвере
- [SPARK-39775] Отключить проверку значений по умолчанию при синтаксическом анализе схем Avro
- [SPARK-39962] Применение проекции при пустых атрибутах группы
- [SPARK-37643] Если charVarcharAsString имеет значение true, для запроса предиката типа char следует пропустить правило rpadding
- Обновления системы безопасности операционной системы.
- 9 августа 2022 г.
- [SPARK-39847] Исправьте состояние гонки в RocksDBLoader.loadLibrary(), если вызывающий поток прерван
- [SPARK-39731] Исправлена проблема в источниках данных CSV и JSON при синтаксическом анализе дат в формате yyMMddd с политикой синтаксического анализа времени CORRECTED.
- Обновления системы безопасности операционной системы.
- 27 июля 2022 г.
- [SPARK-39625] Добавление Dataset.as(StructType)
-
[SPARK-39689]Поддержка 2-chars в источнике
lineSep
данных CSV - [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded должен быть потокобезопасной
- [SPARK-39570] встроенная таблица должна позволять выражения с псевдонимами
- [SPARK-39702] Сокращение расходов на память в TransportCipher$EncryptedMessage с помощью общей байтовойRawChannel
- [SPARK-39575] добавить ByteBuffer#rewind после ByteBuffer#get в AvroDeserializer
- [SPARK-39476] Отключить оптимизацию Unwrap cast при приведении из Long в Float/Double или из Integer в Float
- [SPARK-38868] Не распространяйте исключения из предиката фильтра при оптимизации внешних соединений
- Обновления системы безопасности операционной системы.
- 20 июля 2022 г.
- Результаты операции Delta MERGE согласованы, если источник не детерминирован.
- [SPARK-39355] Один столбец использует кавычки для создания неразрешенного атрибута
- [SPARK-39548] Команда CreateView с запросом, содержащим окно, вызывает ошибку: определение окна не найдено.
- [SPARK-39419] Исправление ArraySort для создания исключения, когда компратор возвращает значение NULL
- Отключено использование встроенных облачных API-интерфейсов автозагрузчика для перечисления каталогов в Azure.
- Обновления системы безопасности операционной системы.
- 5 июля 2022 г.
- [SPARK-39376] Скрытие повторяющихся столбцов в расширении псевдонима вложенных запросов из NATURAL/USING JOIN
- Обновления системы безопасности операционной системы.
- 15 июня 2022 г.
- [SPARK-39283] Исправлена взаимоблокировка между TaskMemoryManager и UnsafeExternalSorter.SpillableIterator
- [SPARK-39285] Spark не должен проверять имена полей при чтении файлов
- [SPARK-34096] Повышение производительности для nth_value с игнорированием NULL в окне со смещением
-
[SPARK-36718] Исправление
isExtractOnly
проверки в CollapseProject
- 2 июня 2022 г.
- [SPARK-39093] Избегайте ошибки компиляции кодегена при делении интервалов годовых или дневных интервалов по целочисленным
- [SPARK-38990] Избегайте nullPointerException при оценке формата date_trunc/усечения в качестве привязанной ссылки
- Обновления системы безопасности операционной системы.
- 18 мая 2022 г.
- Устраняет потенциальную утечку встроенной памяти в автозагрузчике.
- [SPARK-38918] очистка вложенных столбцов должна отфильтровать атрибуты, которые не относятся к текущему реляционному отношению.
- [SPARK-37593] Уменьшите размер страницы по умолчанию LONG_ARRAY_OFFSET, если используется G1GC и ON_HEAP
- [SPARK-39084] Исправление df.rdd.isEmpty() с помощью TaskContext для остановки итератора при завершении задачи
- [SPARK-32268] Добавление ColumnPruning в injectBloomFilter
- [SPARK-38974] Фильтр зарегистрированных функций с заданным именем базы данных в функциях списка
- [SPARK-38931] Создание корневого каталога dfs для RocksDBFileManager с неизвестным числом ключей на 1-й контрольной точке
- Обновления системы безопасности операционной системы.
- 19 апреля 2022 г.
- Пакет SDK AWS для Java обновлен с версии 1.11.655 до версии 1.12.1899.
- Исправлена проблема, из-за которой библиотеки с областью записной книжки не работали в заданиях пакетной потоковой передачи.
- [SPARK-38616] Отслеживание текста sql-запроса в Приложении Catalyst TreeNode
- Обновления системы безопасности операционной системы.
- 6 апреля 2022 г.
- Следующие функции SQL Spark теперь доступны в этом выпуске:
-
timestampadd()
иdateadd()
: добавьте длительность времени в указанное единицу в выражение метки времени. -
timestampdiff()
иdatediff()
: вычислите разницу времени между двумя выражениями меток в заданной единице.
-
- Parquet-MR обновлен до версии 1.12.2.
- Улучшена поддержка комплексных схем в файлах Parquet
- [SPARK-38631] Использует реализацию на основе Java для отмены таринга в Utils.unpack
-
[SPARK-38509][SPARK-38481] Вишни выбрать три
timestmapadd/diff
изменения. - [SPARK-38523] Исправить ссылку на столбец поврежденной записи из CSV
-
[SPARK-38237] Разрешить
ClusteredDistribution
требовать полные ключи кластеризации - [SPARK-38437] Сериализация даты и времени из источника данных
- [SPARK-38180] Разрешить безопасные выражения приведения в коррелированных предикатах равенства
- [SPARK-38155] Запретить отдельный агрегат в боковом вложенных запросах с неподдерживаемые предикаты
- Обновления системы безопасности операционной системы.
- Следующие функции SQL Spark теперь доступны в этом выпуске:
Databricks Runtime 9.1 LTS
См. Databricks Runtime 9.1 LTS.
- 29 ноября 2023 г.
-
[SPARK-45859] Сделал объекты UDF ленивым
ml.functions
. -
[SPARK-45544] Встроенная поддержка SSL в
TransportContext
. -
[SPARK-45730] Улучшенные ограничения времени для
ReloadingX509TrustManagerSuite
. - Обновления системы безопасности операционной системы.
-
[SPARK-45859] Сделал объекты UDF ленивым
- 14 ноября 2023 г.
-
[SPARK-45545]
SparkTransportConf
наследуетсяSSLOptions
при создании. - [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
-
[SPARK-45427] Добавлены параметры SSL RPC в
SSLOptions
иSparkTransportConf
. -
[SPARK-45584] Исправлен сбой выполнения вложенных запросов.
TakeOrderedAndProjectExec
-
[SPARK-45541] Добавлен.
SSLFactory
- [SPARK-42205] Удалены сведения о ведении журнала в событиях запуска этапов и задач.
- Обновления системы безопасности операционной системы.
-
[SPARK-45545]
- 24 октября 2023 г.
-
[SPARK-45426] Добавлена поддержка
ReloadingX509TrustManager
. - Обновления системы безопасности операционной системы.
-
[SPARK-45426] Добавлена поддержка
- 13 октября 2023 г.
- Обновления системы безопасности операционной системы.
- 10 сентября 2023 г.
- Прочие исправления.
- 30 августа 2023 г.
- Обновления системы безопасности операционной системы.
- 15 августа 2023 г.
- Обновления системы безопасности операционной системы.
- 23 июня 2023 г.
- Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
- Обновления системы безопасности операционной системы.
- 15 июня 2023 г.
- [SPARK-43098] Исправлена ошибка COUNT правильности, если скалярный вложенный запрос содержит группу по предложению
-
[SPARK-43156][SPARK-43098] Расширение скалярного теста количества ошибок счетчика ошибок с
decorrelateInnerQuery
отключенным. - [SPARK-40862] Поддержка не агрегированных вложенных запросов в RewriteCorrelatedScalarSubquery
- Обновления системы безопасности операционной системы.
- 2 июня 2023 г.
- Средство синтаксического анализа JSON в
failOnUnknownFields
режиме удаляет запись вDROPMALFORMED
режиме и завершается сбоем непосредственно в режимеFAILFAST
. - Исправлена проблема в синтаксическом анализе данных JSON, чтобы предотвратить
UnknownFieldException
. - Исправлена проблема в Auto Loader, где форматы исходных файлов были различны, когда предоставленная схема не включала выведенные партиции. Эта проблема может привести к непредвиденным сбоям при чтении файлов с отсутствующими столбцами в схеме выводимой секции.
-
[SPARK-37520]
startswith()
Добавление функций иendswith()
строковых функций -
[SPARK-43413] Исправлена
IN
возможность nullqueryListQuery
. - Обновления системы безопасности операционной системы.
- Средство синтаксического анализа JSON в
- 17 мая 2023 г.
- Обновления системы безопасности операционной системы.
- 25 апреля 2023 г.
- Обновления системы безопасности операционной системы.
- 11 апреля 2023 г.
- Исправлена проблема, из-за которой эволюция схемы автозагрузчика может перейти в бесконечный цикл сбоя при обнаружении нового столбца в схеме вложенного объекта JSON.
- [SPARK-42967] Исправление SparkListenerTaskStart.stageAttemptId при запуске задачи после отмены этапа.
- 29 марта 2023 г.
- Обновления системы безопасности операционной системы.
- 14 марта 2023 г.
-
[SPARK-42484] Улучшено сообщение об ошибке для
UnsafeRowUtils
. - Прочие исправления.
-
[SPARK-42484] Улучшено сообщение об ошибке для
- 28 февраля 2023 г.
- Теперь пользователи могут читать и записывать определенные таблицы Delta, требующие чтения версии 3 и записи версии 7, с помощью Databricks Runtime 9.1 LTS или более поздней версии. Для успешного выполнения функции таблиц, перечисленные в протоколе таблиц, должны поддерживаться текущей версией Databricks Runtime.
- Обновления системы безопасности операционной системы.
- 16 февраля 2023 г.
- Обновления системы безопасности операционной системы.
- 31 января 2023 г.
- По умолчанию типы таблиц JDBC являются внешними.
- 18 января 2023 г.
- Обновления системы безопасности операционной системы.
- 29 ноября 2022 г.
- Исправлена проблема с синтаксическим анализом JSON в автозагрузчике, когда все столбцы оставлены в виде строк (не задано
cloudFiles.inferColumnTypes
или заданоfalse
), и JSON содержал вложенные объекты. - Обновления системы безопасности операционной системы.
- Исправлена проблема с синтаксическим анализом JSON в автозагрузчике, когда все столбцы оставлены в виде строк (не задано
- 15 ноября 2022 г.
- Обновление Apache commons-text до версии 1.10.0.
- Обновления системы безопасности операционной системы.
- Прочие исправления.
- 1 ноября 2022 г.
- Исправлена проблема, возникшая, если в таблице Delta существовал определяемый пользователем столбец с именем
_change_type
, но функция изменения данных была отключена на этой таблице, вследствие чего данные в этом столбце некорректно заполнялись NULL при выполненииMERGE
. - Исправлена проблема с автозагрузчиком, из-за которой файл можно дублировать в одном микропакете при включении
allowOverwrites
- [SPARK-40596] Заполнение объекта ExecutorDecommission сообщениями в ExecutorDecommissionInfo
- Обновления системы безопасности операционной системы.
- Исправлена проблема, возникшая, если в таблице Delta существовал определяемый пользователем столбец с именем
- 18 октября 2022 г.
- Обновления системы безопасности операционной системы.
- 5 октября 2022 г.
- Прочие исправления.
- Обновления системы безопасности операционной системы.
- 22 сентября 2022 г.
- Пользователи могут задать spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") для повторного включения встроенного списка для автозагрузчика в ADLS 2-го поколения. Встроенное описание было ранее отключено из-за проблем с производительностью, но может быть вызвано увеличением затрат на хранение для клиентов.
- [SPARK-40315] Добавление hashCode() для литерала ArrayBasedMapData
- [SPARK-40089] Исправление сортировки для некоторых десятичных типов
- [SPARK-39887] RemoveRedundantAliases должен сохранять псевдонимы, которые делают выходные данные узлов проекции уникальными
- 6 сентября 2022 г.
- [SPARK-40235] Используйте прерванную блокировку вместо синхронизированной в Executor.updateDependencies()
- [SPARK-35542] Исправление: Бакетизатор, созданный для нескольких столбцов с параметрами splitsArray, inputCols и outputCols, нельзя загрузить после сохранения.
- [SPARK-40079] Добавление проверки ввода Imputer InputCols для пустого регистра ввода
- 24 августа 2022 г.
-
[SPARK-39666] Использование unsafeProjection.create для уважения
spark.sql.codegen.factoryMode
в ExpressionEncoder - [SPARK-39962] Применение проекции при пустых атрибутах группы
- Обновления системы безопасности операционной системы.
-
[SPARK-39666] Использование unsafeProjection.create для уважения
- 9 августа 2022 г.
- Обновления системы безопасности операционной системы.
- 27 июля 2022 г.
- Результаты операции Delta MERGE согласованы, если источник не детерминирован.
-
[SPARK-39689] Поддержка 2-chars в источнике
lineSep
данных CSV -
[SPARK-39575] Добавлено
ByteBuffer#rewind
послеByteBuffer#get
этого вAvroDeserializer
. - [SPARK-37392] Исправлена ошибка производительности для оптимизатора катализатора.
- Обновления системы безопасности операционной системы.
- 13 июля 2022 г.
-
[SPARK-39419]
ArraySort
создает исключение, когда средство сравнения возвращает значение NULL. - Отключено использование встроенных облачных API-интерфейсов автозагрузчика для перечисления каталогов в Azure.
- Обновления системы безопасности операционной системы.
-
[SPARK-39419]
- 5 июля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления.
- 15 июня 2022 г.
-
[SPARK-39283] Исправлена взаимоблокировка между
TaskMemoryManager
иUnsafeExternalSorter.SpillableIterator
.
-
[SPARK-39283] Исправлена взаимоблокировка между
- 2 июня 2022 г.
-
[SPARK-34554]
copy()
Реализуйте метод вColumnarMap
. - Обновления системы безопасности операционной системы.
-
[SPARK-34554]
- 18 мая 2022 г.
- Исправлена потенциальная утечка встроенной памяти в автозагрузчике.
- Версия пакета SDK AWS обновлена с 1.11.655 до 1.11.678.
- [SPARK-38918] очистка вложенных столбцов должна отфильтровать атрибуты, которые не относятся к текущему реляционному отношению.
-
[SPARK-39084] Исправление
df.rdd.isEmpty()
с помощьюTaskContext
итератора при завершении задачи - Обновления системы безопасности операционной системы.
- 19 апреля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления.
- 6 апреля 2022 г.
- [SPARK-38631] Использует реализацию на основе Java для отмены таринга в Utils.unpack
- Обновления системы безопасности операционной системы.
- 22 марта 2022 г.
- Изменен текущий рабочий каталог записных книжек в кластерах с высокой параллельностью и включенным управлением доступом к таблицам или сквозной передачей учетных данных на домашний каталог пользователя. Ранее active directory был
/databricks/driver
. - [SPARK-38437] Сериализация даты и времени из источника данных
- [SPARK-38180] Разрешить безопасные выражения приведения в коррелированных предикатах равенства
- [SPARK-38155] Запретить отдельный агрегат в боковом вложенных запросах с неподдерживаемые предикаты
- [SPARK-27442] Удалено поле проверки при чтении или записи данных в паркете.
- Изменен текущий рабочий каталог записных книжек в кластерах с высокой параллельностью и включенным управлением доступом к таблицам или сквозной передачей учетных данных на домашний каталог пользователя. Ранее active directory был
- 14 марта 2022 г.
- [SPARK-38236] Абсолютные пути к файлам, указанным в таблице create/alter, рассматриваются как относительные
-
[SPARK-34069] Прервать поток задачи, если для локального свойства
SPARK_JOB_INTERRUPT_ON_CANCEL
установлено значение true.
- 23 февраля 2022 г.
- [SPARK-37859] таблицы SQL, созданные с помощью JDBC с Spark 3.1, недоступны для чтения с помощью Spark 3.2.
- 8 февраля 2022 г.
- [SPARK-27442] Удалено поле проверки при чтении или записи данных в паркете.
- Обновления системы безопасности операционной системы.
- 1 февраля 2022 г.
- Обновления системы безопасности операционной системы.
- 26 января 2022 г.
- Исправлена проблема, из-за которой одновременные транзакции в таблицах Delta могли фиксироваться в порядке, который не может быть сериализован, в определенных редких условиях.
- Исправлена проблема, когда команда
OPTIMIZE
могла завершиться ошибкой, если был включен диалект ANSI SQL.
- 19 января 2022 г.
- Незначительные исправления и улучшения безопасности.
- Обновления системы безопасности операционной системы.
- 4 ноября 2021 г.
- Исправлена проблема, из-за которой структурированные потоки потоковой передачи завершаются ошибкой
ArrayIndexOutOfBoundsException
. - Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: No FileSystem for scheme
, или привести к тому, что изменения вsparkContext.hadoopConfiguration
не вступят в силу в запросах. - Соединитель Apache Spark для разностного доступа был обновлен до 0.2.0.
- Исправлена проблема, из-за которой структурированные потоки потоковой передачи завершаются ошибкой
- 20 октября 2021 г.
- Обновлен соединитель BigQuery с версии 0.18.1 до версии 0.22.2. Это добавляет поддержку типа BigNumeric.
Databricks Runtime 13.0 (EoS)
См. раздел Databricks Runtime 13.0 (EoS).
13 октября 2023 года
- Зависимость Snowflake-jdbc обновлена с 3.13.29 до 3.13.33.
- [SPARK-42553][SQL] Убедитесь, что по крайней мере один единица времени после интервала.
-
[SPARK-45178] Резервное выполнение одного пакета для
Trigger.AvailableNow
неподдерживаемых источников, а не с помощью оболочки. -
[SPARK-44658][CORE]
ShuffleStatus.getMapStatus
возвращаетсяNone
вместоSome(null)
. -
[SPARK-42205][CORE] Удаление ведения журнала accumulables в событиях запуска задачи/этапа в
JsonProtocol
. - Обновления системы безопасности операционной системы.
12 сентября 2023 г.
-
[SPARK-44485][SQL] Оптимизировать
TreeNode.generateTreeString
. -
[SPARK-44718][SQL] Сопоставление
ColumnVector
конфигурации в режиме памяти по умолчанию соOffHeapMemoryMode
значением конфигурации. - Прочие исправления ошибок.
-
[SPARK-44485][SQL] Оптимизировать
30 августа 2023 г.
-
[SPARK-44818][Backport] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации
taskThread
. - [SPARK-44714] Упрощение ограничения разрешения LCA относительно запросов.
-
[SPARK-44245][PYTHON]
pyspark.sql.dataframe sample()
doctests теперь является иллюстрирующей только. -
[SPARK-44871][11.3-13.0][SQL] Исправлено
percentile_disc
поведение. - Обновления системы безопасности операционной системы.
-
[SPARK-44818][Backport] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации
15 августа 2023 г.
-
[SPARK-44643][SQL][PYTHON] Исправление
Row.__repr__
, когда строка пуста. - [SPARK-44504]задача обслуживания [Backport] очищает загруженных поставщиков при ошибке остановки.
-
[SPARK-44479][CONNECT][PYTHON] Исправлено
protobuf
преобразование из пустого типа структуры. -
[SPARK-44464][SS] Исправлено, чтобы выводить строки с
Null
в качестве первого значения столбцаapplyInPandasWithStatePythonRunner
. - Прочие исправления ошибок.
-
[SPARK-44643][SQL][PYTHON] Исправление
29 июля 2023 г.
- Исправлена ошибка, из-за которой
dbutils.fs.ls()
возвращался какINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
при вызове пути к расположению хранилища, который конфликтовал с другим внешним или управляемым хранилищем. -
[SPARK-44199]
CacheManager
больше не обновляет ненужныеfileIndex
. - Обновления системы безопасности операционной системы.
- Исправлена ошибка, из-за которой
24 июля 2023 г.
-
[SPARK-44337][PROTOBUF] Исправлена проблема, из-за которой любое поле, заданное для
Any.getDefaultInstance
, вызвало ошибки синтаксического анализа. -
[SPARK-44136] [SS] Исправлена проблема, из-за которой
StateManager
будет материализовано в исполнителе вместо драйвера вFlatMapGroupsWithStateExec
. -
Вернуть [SPARK-42323][SQL] Назначить имя
_LEGACY_ERROR_TEMP_2332
. - Обновления системы безопасности операционной системы.
-
[SPARK-44337][PROTOBUF] Исправлена проблема, из-за которой любое поле, заданное для
23 июня 2023 г.
- Обновления системы безопасности операционной системы.
15 июня 2023 г.
- Фотонализовано
approx_count_distinct
. - Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
- [SPARK-43156][SPARK-43098][SQL] Расширение тестовой ошибки скалярного подзаверха с отключенным decorrelateInnerQuery
-
[SPARK-43779][SQL]
ParseToDate
теперь загружаетсяEvalMode
в основной поток. -
[SPARK-42937][SQL]
PlanSubqueries
должен иметь значение trueInSubqueryExec#shouldBroadcast
- Обновления системы безопасности операционной системы.
- Фотонализовано
2 июня 2023 г.
- Средство синтаксического анализа JSON в
failOnUnknownFields
режиме удаляет запись вDROPMALFORMED
режиме и завершается сбоем непосредственно в режимеFAILFAST
. - Повышение производительности добавочного обновления с помощью
SHALLOW CLONE
Айсберг и Parquet. - Исправлена проблема в Auto Loader, в которой разные форматы исходных файлов не соответствовали, когда указанная схема не включала выведенные разделы. Эта проблема может привести к непредвиденным сбоям при чтении файлов с отсутствующими столбцами в схеме выводимой секции.
- [SPARK-43404][Backport] Пропустите повторное использовать SST-файл для той же версии хранилища состояний RocksDB, чтобы избежать ошибки несоответствия идентификаторов.
- [SPARK-43340][CORE] Исправлено отсутствие поля трассировки стека в журналах событий.
-
[SPARK-43300][CORE]
NonFateSharingCache
оболочка для кэша Guava. -
[SPARK-43378][CORE] Правильно закрывайте объекты потока в
deserializeFromChunkedBuffer
. - [SPARK-16484][SQL] Используйте 8-разрядные регистры для представления DataSketches.
- [SPARK-43522][SQL] Исправлено создание имени столбца структуры с использованием индекса массива.
-
[SPARK-43413][11.3-13.0][SQL] Исправлена
IN
возможность nullqueryListQuery
. -
[SPARK-43043][CORE] Улучшенная
MapOutputTracker.updateMapOutput
производительность. - [SPARK-16484][SQL] Добавлена поддержка DataSketches HllSketch.
- [SPARK-43123][SQL] Внутренние метаданные поля больше не проникают в каталоги.
-
[SPARK-42851][SQL] Guard
EquivalentExpressions.addExpr()
сsupportedExpression()
. -
[SPARK-43336][SQL] Приведение между
Timestamp
иTimestampNTZ
требует часового пояса. -
[SPARK-43286][SQL] Обновлен режим
aes_encrypt
CBC для создания случайных IV. -
[SPARK-42852][SQL] Отменены
NamedLambdaVariable
связанные изменения изEquivalentExpressions
. -
[SPARK-43541][SQL] Распространение всех
Project
тегов при разрешении выражений и отсутствующих столбцов. -
[SPARK-43527][PYTHON] Исправлено
catalog.listCatalogs
в PySpark. - Обновления системы безопасности операционной системы.
- Средство синтаксического анализа JSON в
31 мая 2023 г.
- Поддержка оптимизированной записи по умолчанию для таблиц Delta, зарегистрированных в каталоге Unity, расширена, чтобы включать операторы
CTAS
и операцииINSERT
для секционированных таблиц. Это поведение соответствует значениям по умолчанию в хранилищах SQL. См . оптимизированные записи для Delta Lake в Azure Databricks.
- Поддержка оптимизированной записи по умолчанию для таблиц Delta, зарегистрированных в каталоге Unity, расширена, чтобы включать операторы
17 мая 2023 г.
- Исправлена регрессия, при которой
_metadata.file_path
и_metadata.file_name
возвращали неправильно отформатированные строки. Например, теперь путь с пробелами будет представленs3://test-bucket/some%20directory/some%20data.csv
вместоs3://test-bucket/some directory/some data.csv
. - Теперь сканирование Parquet обеспечивает надежную защиту от OOM при сканировании исключительно структурированных файлов путем динамической настройки размера пакета. Метаданные файлов анализируются для предварительного уменьшения размера пакета и снова снижаются при повторных попытках задачи в качестве окончательной сетки безопасности.
-
- Если файл Avro считывался только с параметром
failOnUnknownFields
или автозагрузчиком в режиме эволюции схемыfailOnNewColumns
, столбцы с различными типами данных будут считываться какnull
вместо того, чтобы вызвать ошибку, указывающую, что файл не может быть прочитан. Теперь эти операции чтения завершаются ошибкой и рекомендуют пользователям использовать этотrescuedDataColumn
параметр.
- Если файл Avro считывался только с параметром
- Автозагрузчик теперь выполняет следующие действия.
-
- Правильно считывает и больше не спасает
Integer
типы,Short
Byte
если предоставляется один из этих типов данных, но avro-файл предлагает один из других двух типов.
- Правильно считывает и больше не спасает
-
- Запрещает типы интервалов чтения как типы меток даты и времени, чтобы избежать повреждения дат.
-
- Запрещает
Decimal
чтение типов с более низкой точностью.
- Запрещает
- [SPARK-43172] [CONNECT] Предоставляет узел и маркер из клиента Spark connect.
-
[SPARK-43293][SQL]
__qualified_access_only
игнорируется в обычных столбцах. -
[SPARK-43098][SQL] Исправлена ошибка правильности
COUNT
при группировке скалярных вложенных запросов по предложению. -
[SPARK-43085][SQL] Поддержка назначения столбцов
DEFAULT
для имен таблиц с несколькими частями. -
[SPARK-43190][SQL]
ListQuery.childOutput
теперь согласуется со вторичными выходными данными. - [SPARK-43192] [CONNECT] Удалена проверка charset агента пользователя.
- Исправлена регрессия, при которой
25 апреля 2023 г.
- Можно изменить таблицу Delta, чтобы добавить поддержку функции разностной таблицы с помощью
DeltaTable.addFeatureSupport(feature_name)
. - Теперь команда
SYNC
поддерживает устаревшие форматы источников данных. - Исправлена ошибка, из-за которой использование средства форматирования Python перед выполнением других команд в записной книжке Python может привести к отсутствии пути к записной книжке из
sys.path.
- Azure Databricks теперь поддерживает указание значений по умолчанию для столбцов таблиц Delta.
INSERT
,UPDATE
,DELETE
иMERGE
команды могут ссылаться на значение столбца по умолчанию с помощью явного ключевого словаDEFAULT
. Для командINSERT
с явным списком столбцов, меньшим, чем в целевой таблице, соответствующие значения по умолчанию для столбцов используются на месте недостающих столбцов (илиNULL
, если значение по умолчанию не указано).
- Можно изменить таблицу Delta, чтобы добавить поддержку функции разностной таблицы с помощью
Исправлена ошибка, из-за которой веб-терминал не мог использоваться для доступа к файлам в
/Workspace
для некоторых пользователей.- Если файл Parquet был прочитан только с параметром
failOnUnknownFields
или с автозагрузчиком в режиме эволюции схемыfailOnNewColumns
, столбцы с различными типами данных будут считываться какnull
вместо того, чтобы вызвать ошибку, указывающую, что файл не может быть прочитан. Теперь эти операции чтения завершаются ошибкой и рекомендуют пользователям использовать этотrescuedDataColumn
параметр. - Автоматический загрузчик теперь правильно считывает и больше не спасает
Integer
,Short
типы,Byte
если предоставляется один из этих типов данных. Файл Parquet предлагает один из двух других типов. Когда ранее был включен сохраненный столбец данных, несоответствие типа данных приведет к спасению столбцов, даже если они доступны для чтения. - Исправлена ошибка, из-за которой эволюция схемы автозагрузчика может перейти в бесконечный цикл сбоя, когда новый столбец обнаруживается в схеме вложенного объекта JSON.
- [SPARK-42794][SS] Увеличьте блокировкуAcquireTimeoutMs до 2 минут для получения хранилища состояний RocksDB в службе "Потоковая передача структуры".
- [SPARK-39221][SQL] Правильное редактирование конфиденциальной информации для задания или этапа задания сервера thrift.
-
[SPARK-42971][CORE] Измените значение на печать
workdir
, еслиappDirs
значение NULL при событии рабочего дескриптораWorkDirCleanup
. - [SPARK-42936][SQL] Исправьте ошибку LCA, когда предложение HAVING можно обработать непосредственно его дочерним агрегатом.
-
[SPARK-43018][SQL] Исправлена ошибка для
INSERT
команд с литералом метки времени. - Возврат [SPARK-42754][SQL][пользовательский интерфейс] Исправлена проблема с обратной совместимостью в вложенном запуске SQL.
- Возврат [SPARK-41498] Распространение метаданных через объединение.
-
[SPARK-43038][SQL] Поддержка режима CBC по
aes_encrypt()
/aes_decrypt()
. -
[SPARK-42928][SQL] Сделайте
resolvePersistentFunction
синхронизированным. -
[SPARK-42521][SQL] Добавление значений
NULL
дляINSERT
с пользовательскими списками, содержащими меньше столбцов, чем целевая таблица. -
[SPARK-41391][SQL] Имя выходного столбца
groupBy.agg(count_distinct)
было неверным. -
[SPARK-42548][SQL] Добавьте
ReferenceAllColumns
, чтобы пропустить перезапись атрибутов. - [SPARK-42423][SQL] Добавить столбцы метаданных начала блока файла и его длины.
-
[SPARK-42796][SQL] Поддержка доступа к столбцам
TimestampNTZ
вCachedBatch
. - [SPARK-42266][PYTHON] Удалите родительский каталог в процессе выполнения shell.py при использовании IPython.
-
[SPARK-43011][SQL]
array_insert
должен завершиться ошибкой с индексом 0. -
[SPARK-41874][CONNECT][PYTHON] Поддержка
SameSemantics
в Spark Connect. - [SPARK-42702][SPARK-42623][SQL] Поддержка параметризованного запроса в вложенных запросах и CTE.
-
[SPARK-42967][CORE] Исправление
SparkListenerTaskStart.stageAttemptId
при запуске задачи после отмены этапа. - Обновления системы безопасности операционной системы.
- Если файл Parquet был прочитан только с параметром
Databricks Runtime 12.1 (EoS)
См. раздел Databricks Runtime 12.1 (EoS).
23 июня 2023 г.
- Обновления системы безопасности операционной системы.
15 июня 2023 г.
- Фотонализовано
approx_count_distinct
. - Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
-
[SPARK-43779][SQL]
ParseToDate
теперь загружаетсяEvalMode
в основной поток. - [SPARK-43156][SPARK-43098][SQL] Расширение тестовой ошибки скалярного подзаверха с отключенным decorrelateInnerQuery
- Обновления системы безопасности операционной системы.
- Фотонализовано
2 июня 2023 г.
- Средство синтаксического анализа JSON в
failOnUnknownFields
режиме удаляет запись вDROPMALFORMED
режиме и завершается сбоем непосредственно в режимеFAILFAST
. - Улучшение производительности инкрементного обновления с использованием технологий
SHALLOW CLONE
Iceberg и Parquet. - Исправлена проблема в Auto Loader, когда различные форматы исходных файлов проявляли несогласованность, если указанная схема не включала выведенные разделы. Эта проблема может привести к непредвиденным сбоям при чтении файлов с отсутствующими столбцами в схеме выводимой секции.
- [SPARK-43404][Backport] Пропустите повторное использовать SST-файл для той же версии хранилища состояний RocksDB, чтобы избежать ошибки несоответствия идентификаторов.
-
[SPARK-43413][11.3-13.0][SQL] Исправлена
IN
возможность nullqueryListQuery
. - [SPARK-43522][SQL] Исправлено создание имени столбца структуры с индексом массива.
-
[SPARK-42444][PYTHON]
DataFrame.drop
теперь правильно обрабатывает повторяющиеся столбцы. -
[SPARK-43541][SQL] Передача всех
Project
тегов при решении выражений и отсутствующих столбцов. - [SPARK-43340][CORE] Исправлено отсутствие поля трассировки стека в журналах событий.
-
[SPARK-42937][SQL]
PlanSubqueries
теперь задаетInSubqueryExec#shouldBroadcast
значение true. -
[SPARK-43527][PYTHON] Исправлено
catalog.listCatalogs
в PySpark. -
[SPARK-43378][CORE] Правильно закрывайте объекты потока в
deserializeFromChunkedBuffer
.
- Средство синтаксического анализа JSON в
17 мая 2023 г.
- Теперь сканирование Parquet обеспечивает надежную защиту от OOM при сканировании исключительно структурированных файлов путем динамической настройки размера пакета. Метаданные файлов анализируются для предварительного уменьшения размера пакета и снова снижаются при повторных попытках задачи в качестве окончательной сетки безопасности.
- Если файл Avro считывался только с параметром
failOnUnknownFields
или автозагрузчиком в режиме эволюции схемыfailOnNewColumns
, столбцы с различными типами данных будут считываться какnull
вместо того, чтобы вызвать ошибку, указывающую, что файл не может быть прочитан. Теперь эти операции чтения завершаются ошибкой и рекомендуют пользователям использовать этотrescuedDataColumn
параметр. - Автозагрузчик теперь выполняет следующие действия.
-
- Правильно считывает и больше не спасает
Integer
типы,Short
Byte
если предоставляется один из этих типов данных, но avro-файл предлагает один из других двух типов.
- Правильно считывает и больше не спасает
-
- Запрещает типы интервалов чтения как типы меток даты и времени, чтобы избежать повреждения дат.
-
- Запрещает
Decimal
чтение типов с более низкой точностью.
- Запрещает
-
[SPARK-43098][SQL] Исправлена ошибка правильности
COUNT
при группировке скалярных вложенных запросов по предложению. -
[SPARK-43190][SQL]
ListQuery.childOutput
теперь согласуется со вторичными выходными данными. - Обновления системы безопасности операционной системы.
25 апреля 2023 г.
- Если файл Parquet был прочитан только с параметром
failOnUnknownFields
или с автозагрузчиком в режиме эволюции схемыfailOnNewColumns
, столбцы с различными типами данных будут считываться какnull
вместо того, чтобы вызвать ошибку, указывающую, что файл не может быть прочитан. Теперь эти операции чтения завершаются ошибкой и рекомендуют пользователям использовать этотrescuedDataColumn
параметр. - Автоматический загрузчик теперь правильно считывает и больше не спасает
Integer
,Short
типы,Byte
если предоставляется один из этих типов данных. Файл Parquet предлагает один из двух других типов. Когда ранее был включен восстановленный столбец данных, несоответствие типа данных приводило к восстановлению столбцов, даже если они были читаемыми. -
[SPARK-43009][SQL] Параметризовано
sql()
константамиAny
. -
[SPARK-42971][CORE] Измените значение на печать
workdir
, еслиappDirs
значение NULL при событии рабочего дескриптораWorkDirCleanup
. - Обновления системы безопасности операционной системы.
- Если файл Parquet был прочитан только с параметром
11 апреля 2023 г.
- Поддержка устаревших форматов источников данных в SYNC команде.
- Исправлена ошибка в поведении %autoreload в записных книжках, которые находятся за пределами репозитория.
- Исправлена ошибка, из-за которой эволюция схемы автозагрузчика может перейти в бесконечный цикл сбоя, когда новый столбец обнаруживается в схеме вложенного объекта JSON.
-
[SPARK-42928][SQL] Выполняет
resolvePersistentFunction
синхронизацию. -
[SPARK-42967][CORE] Исправляет
SparkListenerTaskStart.stageAttemptId
, когда задача начинается после отмены этапа. - Обновления системы безопасности операционной системы.
29 марта 2023 г.
- Автозагрузчик теперь инициирует по крайней мере одну синхронную очистку журнала RocksDB для потоков
Trigger.AvailableNow
, чтобы убедиться, что контрольная точка может регулярно очищаться для ускорения обработки потоков автозагрузчика. Это может привести к тому, что некоторые потоки будут занимать больше времени, прежде чем они завершаются, но при этом будут сохранены затраты на хранение и улучшены возможности автозагрузчика в будущих запусках. - Теперь можно изменить таблицу Delta, чтобы добавить поддержку функциям таблицы с помощью
DeltaTable.addFeatureSupport(feature_name)
. - [SPARK-42702][SPARK-42623][SQL] Поддержка параметризованного запроса в вложенных запросах и CTE
- [SPARK-41162][SQL] Исправление анти- и полусоединения в случае самосоединения с агрегированием
- [SPARK-42403][CORE] JsonProtocol должен обрабатывать строки JSON NULL
- [SPARK-42668][SS] Перехват исключения при попытке закрыть сжатый поток в HDFSStateStoreProvider
- [SPARK-42794][SS] Увеличьте блокировкуAcquireTimeoutMs до 2 минут для получения хранилища состояний RocksDB в службе "Потоковая передача структуры"
- Автозагрузчик теперь инициирует по крайней мере одну синхронную очистку журнала RocksDB для потоков
14 марта 2023 г.
- Существует изменение терминологии для добавления функций в таблицу Delta с помощью свойства таблицы. Предпочтительный синтаксис теперь
'delta.feature.featureName'='supported'
вместо'delta.feature.featureName'='enabled'
. Для обратной совместимости использование'delta.feature.featureName'='enabled'
по-прежнему работает и продолжит работать. - [SPARK-42622][CORE] Отключить подстановку значений
- [SPARK-42534][SQL] Исправлено ограничение в DB2Dialect Limit
- [SPARK-42635][SQL] Исправлено выражение TimestampAdd.
- [SPARK-42516][SQL] Всегда фиксирует конфигурацию часового пояса сеанса при создании представлений
- [SPARK-42484] [SQL] Лучшее сообщение об ошибке unsafeRowUtils
- [SPARK-41793][SQL] Неправильный результат для рамок окна, определённых предложением диапазона для больших десятичных чисел
- Обновления системы безопасности операционной системы.
- Существует изменение терминологии для добавления функций в таблицу Delta с помощью свойства таблицы. Предпочтительный синтаксис теперь
24 февраля 2023
- Теперь можно использовать унифицированный набор параметров (
host
,port
,database
,user
,password
) для подключения к источникам данных, поддерживаемым в федерации запросов (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Обратите внимание, чтоport
это необязательно и использует номер порта по умолчанию для каждого источника данных, если он не указан.
Пример конфигурации подключения PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Пример конфигурации подключения Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
- [SPARK-41989][PYTHON] Избегайте критической конфигурации ведения журнала из pyspark.pandas
- [SPARK-42346][SQL] Перезапись отдельных статистических выражений после слияния вложенного запроса
-
[SPARK-41990][SQL]
FieldReference.column
Вместоapply
преобразования фильтра версии 1 в версию 2 - Возврат [SPARK-41848][CORE] Исправление задачи с превышением расписания с помощью TaskResourceProfile
- [SPARK-42162] Введение выражения MultiCommutativeOp в качестве оптимизации памяти для канонизации больших деревьев коммутативных выражений
- Обновления системы безопасности операционной системы.
- Теперь можно использовать унифицированный набор параметров (
16 февраля 2023 г.
- команда SYNC поддерживает синхронизацию повторно созданной таблицы хранилища метаданных Hive. Если таблица HMS ранее была синхронизирована с каталогом Unity, но затем удалена и заново создана, последующая повторная синхронизация будет выполнена успешно, вместо того чтобы выдавать код состояния TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] Целочисленная идентификатора использует десятичную (1, 0) для представления 0
- [SPARK-36173][CORE] Поддержка получения номера ЦП в TaskContext
- [SPARK-41848][CORE] Исправление задачи с превышением расписания с помощью TaskResourceProfile
- [SPARK-42286][SQL] Резервный путь к предыдущему пути кода codegen для сложного экспра с помощью CAST
31 января 2023 г.
- Создание схемы с определённым расположением теперь требует, чтобы у пользователя были привилегии SELECT и MODIFY на любые файлы.
- [SPARK-41581][SQL] Назначение имени _LEGACY_ERROR_TEMP_1230
- [SPARK-41996][SQL][SS] Исправление теста kafka, чтобы проверить потерянные секции для учета медленных операций Kafka
- [SPARK-41580][SQL] Назначение имени _LEGACY_ERROR_TEMP_2137
-
[SPARK-41666][PYTHON] Поддержка параметризованного SQL по
sql()
- [SPARK-41579][SQL] Назначение имени _LEGACY_ERROR_TEMP_1249
- [SPARK-41573][SQL] Назначение имени _LEGACY_ERROR_TEMP_2136
- [SPARK-41574][SQL] Назначение имени _LEGACY_ERROR_TEMP_2009
- [SPARK-41049][Продолжение] Исправление регрессии синхронизации кода для ConvertToLocalRelation
- [SPARK-41576][SQL] Назначение имени _LEGACY_ERROR_TEMP_2051
- [SPARK-41572][SQL] Назначение имени _LEGACY_ERROR_TEMP_2149
- [SPARK-41575][SQL] Назначение имени _LEGACY_ERROR_TEMP_2054
- Обновления системы безопасности операционной системы.
Databricks Runtime 12.0 (EoS)
См. раздел Databricks Runtime 12.0 (EoS).
15 июня 2023 г.
- Фотонализовано
approx_count_distinct
. - Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
- [SPARK-43156][SPARK-43098][SQL] Расширение тестовой ошибки скалярного подзаверха с отключенным decorrelateInnerQuery
-
[SPARK-43779][SQL]
ParseToDate
теперь загружаетсяEvalMode
в основной поток. - Обновления системы безопасности операционной системы.
- Фотонализовано
2 июня 2023 г.
- Средство синтаксического анализа JSON в
failOnUnknownFields
режиме удаляет запись вDROPMALFORMED
режиме и завершается сбоем непосредственно в режимеFAILFAST
. - Улучшите производительность инкрементального обновления с помощью Iceberg
SHALLOW CLONE
и Parquet. - Исправлена проблема в Auto Loader, из-за которой форматы исходных файлов были несовместимы, если указанная схема не включала выводимые разделы. Эта проблема может привести к непредвиденным сбоям при чтении файлов с отсутствующими столбцами в схеме выводимой секции.
-
[SPARK-42444][PYTHON]
DataFrame.drop
теперь правильно обрабатывает повторяющиеся столбцы. - [SPARK-43404][Backport] Пропустите повторное использовать SST-файл для той же версии хранилища состояний RocksDB, чтобы избежать ошибки несоответствия идентификаторов.
-
[SPARK-43413][11.3-13.0][SQL] Исправлена
IN
возможность nullqueryListQuery
. -
[SPARK-43527][PYTHON] Исправлено
catalog.listCatalogs
в PySpark. - [SPARK-43522][SQL] Исправлено создание имени столбца структуры с индексом массива.
-
[SPARK-43541][SQL] Применение всех
Project
тегов при обработке выражений и отсутствующих столбцов. - [SPARK-43340][CORE] Исправлено отсутствие поля трассировки стека в журналах событий.
-
[SPARK-42937][SQL]
PlanSubqueries
задайте дляInSubqueryExec#shouldBroadcast
значение true.
- Средство синтаксического анализа JSON в
17 мая 2023 г.
- Теперь сканирование Parquet обеспечивает надежную защиту от OOM при сканировании исключительно структурированных файлов путем динамической настройки размера пакета. Метаданные файлов анализируются для предварительного уменьшения размера пакета и снова снижаются при повторных попытках задачи в качестве окончательной сетки безопасности.
- Если файл Avro считывался только с параметром
failOnUnknownFields
или автозагрузчиком в режиме эволюции схемыfailOnNewColumns
, столбцы с различными типами данных будут считываться какnull
вместо того, чтобы вызвать ошибку, указывающую, что файл не может быть прочитан. Теперь эти операции чтения завершаются ошибкой и рекомендуют пользователям использовать этотrescuedDataColumn
параметр. - Автозагрузчик теперь выполняет следующие действия.
-
- Правильно считывает и больше не спасает
Integer
типы,Short
Byte
если предоставляется один из этих типов данных, но avro-файл предлагает один из других двух типов.
- Правильно считывает и больше не спасает
-
- Запрещает типы интервалов чтения как типы меток даты и времени, чтобы избежать повреждения дат.
-
- Запрещает
Decimal
чтение типов с более низкой точностью.
- Запрещает
- [SPARK-43172] [CONNECT] Предоставляет узел и маркер из клиента Spark connect.
-
[SPARK-41520][SQL] Разделение
AND_OR
шаблона дерева для разделения иAND
разделенияOR
. -
[SPARK-43098][SQL] Исправлена ошибка правильности
COUNT
при группировке скалярных вложенных запросов по предложению. -
[SPARK-43190][SQL]
ListQuery.childOutput
теперь согласуется со вторичными выходными данными. - Обновления системы безопасности операционной системы.
25 апреля 2023 г.
- Если файл Parquet был прочитан только с параметром
failOnUnknownFields
или с автозагрузчиком в режиме эволюции схемыfailOnNewColumns
, столбцы с различными типами данных будут считываться какnull
вместо того, чтобы вызвать ошибку, указывающую, что файл не может быть прочитан. Теперь эти операции чтения завершаются ошибкой и рекомендуют пользователям использовать этотrescuedDataColumn
параметр. - Автоматический загрузчик теперь правильно считывает и больше не спасает
Integer
,Short
типы,Byte
если предоставляется один из этих типов данных. Файл Parquet предлагает один из двух других типов. Когда ранее был включен восстановленный столбец данных, несоответствие типа данных приводило бы к восстановлению столбцов, даже если они были доступны для чтения. -
[SPARK-42971][CORE] Изменение на печать
workdir
, еслиappDirs
значение NULL при событии рабочего дескриптораWorkDirCleanup
- Обновления системы безопасности операционной системы.
- Если файл Parquet был прочитан только с параметром
11 апреля 2023 г.
- Поддержка устаревших форматов источников данных в
SYNC
команде. - Исправлена ошибка в поведении %autoreload в записных книжках, которые находятся за пределами репозитория.
- Исправлена ошибка, из-за которой эволюция схемы автозагрузчика может перейти в бесконечный цикл сбоя, когда новый столбец обнаруживается в схеме вложенного объекта JSON.
-
[SPARK-42928][SQL] Выполняет
resolvePersistentFunction
синхронизацию. -
[SPARK-42967][CORE] Исправляет
SparkListenerTaskStart.stageAttemptId
, когда задача начинается после отмены этапа. - Обновления системы безопасности операционной системы.
- Поддержка устаревших форматов источников данных в
29 марта 2023 г.
- [SPARK-42794][SS] Увеличьте блокировкуAcquireTimeoutMs до 2 минут для получения хранилища состояний RocksDB в службе "Потоковая передача структуры"
- [SPARK-41162][SQL] Исправьте анти- и полусоединение для самостоятельного соединения с агрегированием
- [SPARK-42403][CORE] JsonProtocol должен обрабатывать строки JSON NULL
- [SPARK-42668][SS] Перехват исключения при попытке закрыть сжатый поток в HDFSStateStoreProvider
- Прочие исправления ошибок.
14 марта 2023 г.
- [SPARK-42534][SQL] Исправлено предложение Limit в db2Dialect
- [SPARK-42622][CORE] Отключить подстановку значений
- [SPARK-41793][SQL] Неправильный результат для окон, определенных оператором диапазона для больших десятичных чисел
- [SPARK-42484] [SQL] Лучшее сообщение об ошибке unsafeRowUtils
- [SPARK-42635][SQL] Исправлено выражение TimestampAdd.
- [SPARK-42516][SQL] Всегда сохранять конфигурацию часового пояса сеанса при создании представлений
- Обновления системы безопасности операционной системы.
24 февраля 2023
Стандартные параметры подключения для федерации запросов
Теперь можно использовать унифицированный набор параметров (
host
,port
,database
,user
,password
) для подключения к источникам данных, поддерживаемым в федерации запросов (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Обратите внимание, чтоport
это необязательно и будет использовать номер порта по умолчанию для каждого источника данных, если он не указан.Пример конфигурации подключения PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Пример конфигурации подключения Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
Возврат [SPARK-41848][CORE] Исправление задачи с превышением расписания с помощью TaskResourceProfile
[SPARK-42162] Введение выражения MultiCommutativeOp в качестве оптимизации памяти для канонизации больших деревьев коммутативных выражений
[SPARK-41990][SQL]
FieldReference.column
Вместоapply
преобразования фильтра версии 1 в версию 2[SPARK-42346][SQL] Перезапись отдельных статистических выражений после слияния вложенного запроса
Обновления системы безопасности операционной системы.
16 февраля 2023 г.
- Теперь пользователи могут читать и записывать определенные таблицы Delta, требующие чтения версии 3 и записи версии 7, с помощью Databricks Runtime 9.1 или более поздней версии. Для успешного выполнения функции таблиц, перечисленные в протоколе таблиц, должны поддерживаться текущей версией Databricks Runtime.
- команда SYNC поддерживает синхронизацию повторно созданной таблицы хранилища метаданных Hive. Если таблица HMS ранее была синхронизирована в Unity Catalog, но затем удалена и воссоздана, последующая повторная синхронизация пройдет успешно вместо кода состояния TABLE_ALREADY_EXISTS.
- [SPARK-36173][CORE] Поддержка получения номера ЦП в TaskContext
- [SPARK-42286][SQL] Резервный путь к предыдущему пути кода codegen для сложного экспра с помощью CAST
- [SPARK-41848][CORE] Исправление задачи с превышением расписания с помощью TaskResourceProfile
- [SPARK-41219][SQL] Целочисленная идентификатора использует десятичную (1, 0) для представления 0
25 января 2023 г.
- [SPARK-41660][SQL] Передавать только столбцы метаданных, если они используются
- [SPARK-41379][SS][PYTHON] Предоставление клонированного сеанса Spark в DataFrame в пользовательской функции для приемника foreachBatch в PySpark
- [SPARK-41669][SQL] Ранняя обрезка в canCollapseExpressions
- Обновления системы безопасности операционной системы.
18 января 2023 г.
-
REFRESH FUNCTION
команда SQL теперь поддерживает функции SQL и функции таблицы SQL. Например, можно использовать команду для обновления постоянной функции SQL, которая была обновлена в другом сеансе SQL. - Источник данных Java Database Connectivity (JDBC) версии 1 теперь поддерживает отправку предложения LIMIT для повышения производительности запросов. Эта функция включена по умолчанию и может быть отключена с помощью установки
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
вfalse
. - В кластерах с устаревшими списками ACL для создания функций, ссылающихся на классы JVM, теперь требуется привилегия
MODIFY_CLASSPATH
. - Источник данных Java Database Connectivity (JDBC) версии 1 теперь поддерживает отправку предложения LIMIT для повышения производительности запросов. Эта функция включена по умолчанию и может быть отключена с помощью установки spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled в значение false.
- Соединитель Azure Synapse теперь возвращает более описательное сообщение об ошибке, если имя столбца содержит недопустимые символы, такие как пробелы или точки с запятой. В таких случаях будет возвращено следующее сообщение:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
- Структурированная потоковая передача Spark теперь работает с форматом ("deltasharing") на таблице Delta Sharing в качестве источника.
- [SPARK-38277][SS] Очистка пакета записи после фиксации хранилища состояний RocksDB
- [SPARK-41733][SQL][SS] Применение обрезки на основе дерева для правила ResolveWindowTime
- [SPARK-39591][SS] Асинхронное отслеживание хода выполнения
- [SPARK-41339][SQL] Закрытие и повторное создание пакета записи RocksDB вместо простой очистки
- [SPARK-41198][SS] Исправить метрики в потоковом запросе, содержащем CTE и источник потоковой передачи DSv1
- [SPARK-41539][SQL] Remap stats and constraints against output in logical plan for LogicalRDD
- [SPARK-41732][SQL][SS] Применение обрезки на основе дерева для сеанса правила
- [SPARK-41862][SQL] Исправлена ошибка корректности, связанная со значениями DEFAULT в Orc-ридере
- [SPARK-41199][SS] Исправлена проблема с метриками при совместном использовании источника потоковой передачи DSv1 и источника потоковой передачи DSv2.
- [SPARK-41261][PYTHON][SS] Исправлена проблема в функции applyInPandasWithState, когда столбцы ключей группировки расположены не в порядке от самых ранних.
- Обновления системы безопасности операционной системы.
-
17 мая 2023 г.
- Теперь сканирование Parquet обеспечивает надежную защиту от OOM при сканировании исключительно структурированных файлов путем динамической настройки размера пакета. Метаданные файлов анализируются для предварительного уменьшения размера пакета и снова снижаются при повторных попытках задачи в качестве окончательной сетки безопасности.
- Исправлена регрессия, из-за которой задания Azure Databricks сохранялись после сбоя подключения к хранилищу метаданных во время инициализации кластера.
-
[SPARK-41520][SQL] Разделение
AND_OR
шаблона дерева для разделения иAND
разделенияOR
. -
[SPARK-43190][SQL]
ListQuery.childOutput
теперь согласуется со вторичными выходными данными. - Обновления системы безопасности операционной системы.
25 апреля 2023 г.
- Если файл Parquet был прочитан только с параметром
failOnUnknownFields
или с автозагрузчиком в режиме эволюции схемыfailOnNewColumns
, столбцы с различными типами данных будут считываться какnull
вместо того, чтобы вызвать ошибку, указывающую, что файл не может быть прочитан. Теперь эти операции чтения завершаются ошибкой и рекомендуют пользователям использовать этотrescuedDataColumn
параметр. - Автоматический загрузчик теперь правильно считывает и больше не спасает
Integer
,Short
типы,Byte
если предоставляется один из этих типов данных. Файл Parquet предлагает один из двух других типов. Когда ранее был включен восстановленный столбец данных, несоответствие типа данных приводило бы к восстановлению столбцов, даже если их можно было прочитать. -
[SPARK-42937][SQL]
PlanSubqueries
теперь задаетInSubqueryExec#shouldBroadcast
значение true. - Обновления системы безопасности операционной системы.
- Если файл Parquet был прочитан только с параметром
11 апреля 2023 г.
- Поддержка устаревших форматов источников данных в SYNC команде.
- Исправлена ошибка в поведении %autoreload в записных книжках, которые находятся за пределами репозитория.
- Исправлена ошибка, из-за которой эволюция схемы автозагрузчика может перейти в бесконечный цикл сбоя, когда новый столбец обнаруживается в схеме вложенного объекта JSON.
- [SPARK-42928][SQL] Выполните синхронизацию resolvePersistentFunction.
- [SPARK-42967][CORE] Исправление SparkListenerTaskStart.stageAttemptId при запуске задачи после отмены этапа.
29 марта 2023 г.
- [SPARK-42794][SS] Увеличьте блокировкуAcquireTimeoutMs до 2 минут для получения хранилища состояний RocksDB в службе "Потоковая передача структуры"
- [SPARK-42403][CORE] JsonProtocol должен обрабатывать строки JSON NULL
- [SPARK-42668][SS] Перехват исключения при попытке закрыть сжатый поток в HDFSStateStoreProvider
- Обновления системы безопасности операционной системы.
14 марта 2023 г.
- [SPARK-42635][SQL] Исправлено выражение TimestampAdd.
- [SPARK-41793][SQL] Неправильный результат для рамок окон, определенных предложением диапазона для больших десятичных чисел
- [SPARK-42484] [SQL] Лучшее сообщение об ошибке unsafeRowUtils
- [SPARK-42534][SQL] Исправить предложение DB2Dialect Limit
- [SPARK-41162][SQL] Исправьте анти- и полусоединение для самостоятельного соединения с агрегированием
- [SPARK-42516][SQL] Всегда учитывать конфигурацию часового пояса сеанса при создании представлений
- Прочие исправления ошибок.
28 февраля 2023 г.
Стандартные параметры подключения для федерации запросов
Теперь можно использовать унифицированный набор параметров (
host
,port
,database
,user
,password
) для подключения к источникам данных, поддерживаемым в федерации запросов (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Обратите внимание, чтоport
это необязательно и использует номер порта по умолчанию для каждого источника данных, если он не указан.Пример конфигурации подключения PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Пример конфигурации подключения Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
[SPARK-42286][SQL] Резервный путь к предыдущему пути кода codegen для сложного экспра с помощью CAST
[SPARK-41989][PYTHON] Избегайте критической конфигурации ведения журнала из pyspark.pandas
[SPARK-42346][SQL] Перезапись отдельных статистических выражений после слияния вложенного запроса
[SPARK-41360][CORE] Избегайте повторной регистрации BlockManager, если исполнитель был потерян
[SPARK-42162] Введение выражения MultiCommutativeOp в качестве оптимизации памяти для канонизации больших деревьев коммутативных выражений
[SPARK-41990][SQL]
FieldReference.column
Вместоapply
преобразования фильтра версии 1 в версию 2Обновления системы безопасности операционной системы.
16 февраля 2023 г.
- Теперь пользователи могут читать и записывать определенные таблицы Delta, требующие чтения версии 3 и записи версии 7, с помощью Databricks Runtime 9.1 или более поздней версии. Для успешного выполнения функции таблиц, перечисленные в протоколе таблиц, должны поддерживаться текущей версией Databricks Runtime.
- команда SYNC поддерживает синхронизацию повторно созданной таблицы хранилища метаданных Hive. Если таблица HMS ранее была синхронизирована с каталогом Unity, но затем удалена и воссоздана, последующая повторная синхронизация будет работать, вместо того чтобы вызывать код состояния TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] Целочисленная идентификатора использует десятичную (1, 0) для представления 0
-
[SPARK-40382][SQL] Группировать отдельные статистические выражения по семантически эквивалентным дочерним элементам
RewriteDistinctAggregates
- Обновления системы безопасности операционной системы.
25 января 2023 г.
- [SPARK-41379][SS][PYTHON] Предоставление клонированного сеанса Spark в DataFrame в пользовательской функции для приемника foreachBatch в PySpark
- [SPARK-41660][SQL] Распространять только столбцы метаданных, если они используются
- [SPARK-41669][SQL] Ранняя обрезка в canCollapseExpressions
- Прочие исправления ошибок.
18 января 2023 г.
-
REFRESH FUNCTION
команда SQL теперь поддерживает функции SQL и функции таблицы SQL. Например, можно использовать команду для обновления постоянной функции SQL, которая была обновлена в другом сеансе SQL. - Источник данных Java Database Connectivity (JDBC) версии 1 теперь поддерживает отправку предложения LIMIT для повышения производительности запросов. Эта функция включена по умолчанию и может быть отключена установкой
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
наfalse
. - Источник данных Java Database Connectivity (JDBC) версии 1 теперь поддерживает отправку предложения LIMIT для повышения производительности запросов. Эта функция включена по умолчанию и может быть отключена с помощью параметра spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled, установленного в false.
- Соединитель Azure Synapse теперь возвращает более описательное сообщение об ошибке, если имя столбца содержит недопустимые символы, такие как пробелы или точки с запятой. В таких случаях будет возвращено следующее сообщение:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
- [SPARK-41198][SS] Исправление метрик в потоковом запросе с CTE и источником потоковой передачи DSv1
- [SPARK-41862][SQL] Исправлена ошибка точности, связанная со значениями DEFAULT в Orc-ридере
- [SPARK-41539][SQL] Remap stats and constraints against output in logical plan for LogicalRDD
- [SPARK-39591][SS] Асинхронное отслеживание хода выполнения
- [SPARK-41199][SS] Исправлена проблема с метриками при совместном использовании источника потоковой передачи DSv1 и источника потоковой передачи DSv2.
- [SPARK-41261][PYTHON][SS] Исправлена проблема с applyInPandasWithState, когда столбцы ключей группировки не упорядочены от самых ранних.
- [SPARK-41339][SQL] Закрытие и повторное создание пакета записи RocksDB вместо простой очистки
- [SPARK-41732][SQL][SS] Применение обрезки на основе дерева для сеанса правила
- [SPARK-38277][SS] Очистка пакета записи после фиксации хранилища состояний RocksDB
- Обновления системы безопасности операционной системы.
-
29 ноября 2022 г.
- Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пробелов:
-
csvignoreleadingwhitespace
, если установлено вtrue
, удаляет ведущие пробелы из значений при записи, еслиtempformat
установлено вCSV
илиCSV GZIP
. Пробелы сохраняются, если для конфигурации задано значениеfalse
. Значение по умолчанию —true
. -
csvignoretrailingwhitespace
, при установке значенияtrue
, удаляет конечные пробелы из значений в процессе записи, когдаtempformat
имеет значениеCSV
илиCSV GZIP
. Пробелы сохраняются, если для конфигурации задано значениеfalse
. Значение по умолчанию —true
.
-
- Исправлена ошибка синтаксического анализа JSON в Auto Loader, когда все столбцы оставались строками (
cloudFiles.inferColumnTypes
не установлено или установлено какfalse
), и JSON содержал вложенные объекты. - Обновление
snowflake-jdbc
зависимости до версии 3.13.22. - По умолчанию типы таблиц JDBC являются внешними.
-
[SPARK-40906][SQL]
Mode
следует копировать ключи перед вставками в карту - Обновления системы безопасности операционной системы.
- Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пробелов:
15 ноября 2022 г.
- Списки управления доступом к таблицам и общие кластеры UC теперь позволяют использовать метод Dataset.toJSON из Python.
-
[SPARK-40646] синтаксический анализ JSON для структур, карт и массивов был исправлен, поэтому, если часть записи не соответствует схеме, остальная часть записи по-прежнему может быть правильно проанализирована, а не возвращать значения NULL. Чтобы выбрать улучшенный набор
spark.sql.json.enablePartialResults
true
поведения. Флаг отключен по умолчанию, чтобы сохранить исходное поведение. - [SPARK-40903][SQL] Избегайте переупорядочения десятичного добавления для канонизации, если тип данных изменен
- [SPARK-40618][SQL] Исправлена ошибка в правиле MergeScalarSubqueries с вложенными запросами с помощью отслеживания ссылок
- [SPARK-40697][SQL] Добавление заполнения на стороне чтения для покрытия внешних файлов данных
- Обновления системы безопасности операционной системы.
1 ноября 2022 г.
- Структурированная потоковая передача в каталоге Unity теперь поддерживает обновление временных маркеров доступа. Рабочие нагрузки стриминга, выполняемые с универсальными кластерами или кластерами для заданий каталога Unity, больше не завершаются сбоем после истечения срока действия первоначального токена.
- Исправлена проблема, из-за которой в таблице Delta существовал определяемый пользователем столбец с именем
_change_type
, но веб- канал изменений данных был отключен в этой таблице, данные в этом столбце неправильно заполняются значениями NULL при выполненииMERGE
. - Исправлена проблема, из-за которой выполнение
MERGE
и использование точно 99 столбцов из источника в условии может привести кjava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
. - Исправлена проблема с автозагрузчиком, из-за которой файл можно дублировать в одном микропакете при включении
allowOverwrites
. - Обновление Apache commons-text до версии 1.10.0.
- [SPARK-38881][DSTREAMS][KINESIS][PYSPARK] Добавлена поддержка конфигурации CloudWatch MetricsLevel
- [SPARK-40596][CORE] Заполнение объекта ExecutorDecommission сообщениями в ExecutorDecommissionInfo
- [SPARK-40670][SS][PYTHON] Исправить NPE в applyInPandasWithState, если входная схема содержит столбцы, которые не могут принимать значение NULL.
- Обновления системы безопасности операционной системы.
Databricks Runtime 11.2 (EoS)
См. раздел Databricks Runtime 11.2 (EoS).
- 28 февраля 2023 г.
- [SPARK-42286][SQL] Резервный путь к предыдущему пути кода codegen для сложного экспра с помощью CAST
- [SPARK-42346][SQL] Перезапись отдельных статистических выражений после слияния вложенного запроса
- Обновления системы безопасности операционной системы.
- 16 февраля 2023 г.
- Теперь пользователи могут читать и записывать определенные таблицы Delta, требующие чтения версии 3 и записи версии 7, с помощью Databricks Runtime 9.1 или более поздней версии. Для успешного выполнения функции таблиц, перечисленные в протоколе таблиц, должны поддерживаться текущей версией Databricks Runtime.
- команда SYNC поддерживает синхронизацию повторно созданной таблицы хранилища метаданных Hive. Если таблица HMS ранее была синхронизирована с каталогом Unity, но затем удалена и воссоздана, последующая повторная синхронизация будет работать без возврата кода состояния TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] Целочисленная идентификатора использует десятичную (1, 0) для представления 0
- Обновления системы безопасности операционной системы.
- 31 января 2023 г.
- По умолчанию типы таблиц JDBC являются внешними.
- [SPARK-41379][SS][PYTHON] Предоставление клонированного сеанса Spark в DataFrame в пользовательской функции для приемника foreachBatch в PySpark
- 18 января 2023 г.
- Соединитель Azure Synapse теперь возвращает более описательное сообщение об ошибке, если имя столбца содержит недопустимые символы, такие как пробелы или точки с запятой. В таких случаях будет возвращено следующее сообщение:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
- [SPARK-41198][SS] Исправьте метрики в потоковом запросе с источником потоковой передачи CTE и DSv1
- [SPARK-41862][SQL] Исправлена ошибка корректности, связанная со значениями DEFAULT в средстве чтения Orc
- [SPARK-41539][SQL] Remap stats and constraints against output in logical plan for LogicalRDD
- [SPARK-41199][SS] Исправлена проблема с метриками при совместном использовании источника потоковой передачи DSv1 и источника потоковой передачи DSv2.
- [SPARK-41339][SQL] Закрытие и повторное создание пакета записи RocksDB вместо простой очистки
- [SPARK-41732][SQL][SS] Применение обрезки на основе дерева для сеанса правила
- [SPARK-38277][SS] Очистка пакета записи после фиксации хранилища состояний RocksDB
- Обновления системы безопасности операционной системы.
- Соединитель Azure Synapse теперь возвращает более описательное сообщение об ошибке, если имя столбца содержит недопустимые символы, такие как пробелы или точки с запятой. В таких случаях будет возвращено следующее сообщение:
- 29 ноября 2022 г.
- Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пробелов:
-
csvignoreleadingwhitespace
, при установке вtrue
, удаляет ведущие пробелы из значений при записи, когдаtempformat
установлено вCSV
илиCSV GZIP
. Пробелы сохраняются, если для конфигурации задано значениеfalse
. Значение по умолчанию —true
. -
csvignoretrailingwhitespace
, если задано значениеtrue
, удаляет пробелы в конце значений при их записи, когдаtempformat
установлено вCSV
илиCSV GZIP
. Пробелы сохраняются, если для конфигурации задано значениеfalse
. Значение по умолчанию —true
.
-
- Исправлена ошибка в синтаксическом анализе JSON в Auto Loader, когда все столбцы оставались строками (не был задан
cloudFiles.inferColumnTypes
или было заданоfalse
), и JSON содержал вложенные объекты. -
[SPARK-40906][SQL]
Mode
следует копировать ключи перед вставками в карту - Обновления системы безопасности операционной системы.
- Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пробелов:
- 15 ноября 2022 г.
-
[SPARK-40646] синтаксический анализ JSON для структур, карт и массивов был исправлен, поэтому, если часть записи не соответствует схеме, остальная часть записи по-прежнему может быть правильно проанализирована, а не возвращать значения NULL. Чтобы включить улучшенное поведение, задайте для
spark.sql.json.enablePartialResults
значениеtrue
. Флаг отключен по умолчанию, чтобы сохранить исходное поведение. - [SPARK-40618][SQL] Исправлена ошибка в правиле MergeScalarSubqueries с вложенными запросами с помощью отслеживания ссылок
- [SPARK-40697][SQL] Добавление заполнения на стороне чтения для покрытия внешних файлов данных
- Обновления системы безопасности операционной системы.
-
[SPARK-40646] синтаксический анализ JSON для структур, карт и массивов был исправлен, поэтому, если часть записи не соответствует схеме, остальная часть записи по-прежнему может быть правильно проанализирована, а не возвращать значения NULL. Чтобы включить улучшенное поведение, задайте для
- 1 ноября 2022 г.
- Обновление Apache commons-text до версии 1.10.0.
- Исправлена проблема, из-за которой в таблице Delta существовал определяемый пользователем столбец с именем
_change_type
, но веб- канал изменений данных был отключен в этой таблице, данные в этом столбце неправильно заполняются значениями NULL при выполненииMERGE
. - Исправлена проблема, из-за которой запуск
MERGE
и использование точно 99 столбцов из источника в условии может привести кjava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
. - Исправлена проблема с автозагрузчиком, из-за которой файл можно дублировать в одном микропакете при включении
allowOverwrites
- [SPARK-40596][CORE] Заполнение объекта ExecutorDecommission сообщениями в ExecutorDecommissionInfo
- Обновления системы безопасности операционной системы.
- 19 октября 2022 г.
- Исправлена проблема с использованием COPY INTO с временными учетными данными в включенных в каталог Unity кластерах и складах.
- [SPARK-40213][SQL] Поддержка преобразования значений ASCII для символов Latin-1
- Обновления системы безопасности операционной системы.
- 5 октября 2022 г.
- Пользователи могут установить spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true"), чтобы повторно включить нативное перечисление для Auto Loader в ADLS Gen2. Собственный листинг ранее был отключен из-за проблем с производительностью, но, возможно, привел к увеличению затрат на хранение для клиентов. Это изменение было внедрено в DBR 10.4 и 9.1 в предыдущем обновлении обслуживания.
- [SPARK-40315][SQL]Поддержка кодирования и декодирования URL-адресов в виде встроенной функции и функции, связанные с URL-адресом
-
[SPARK-40156][SQL]
url_decode()
Значение, если возвращается класс ошибок - [SPARK-40169] не применяйте функции фильтрации Parquet без учета схемы данных
-
[SPARK-40460][SS] Исправление метрик потоковой передачи при выборе
_metadata
- [SPARK-40468][SQL] Исправить обрезку столбцов в CSV при использовании _corrupt_record
- [SPARK-40055][SQL] listCatalogs также должен возвращать spark_catalog даже если реализация spark_catalog используется по умолчаниюSessionCatalog
- Обновления системы безопасности операционной системы.
- 22 сентября 2022 г.
- [SPARK-40315][SQL] Добавление hashCode() для литерала ArrayBasedMapData
- [SPARK-40389][SQL] Десятичные знаки не могут переадресироваться как целочисленные типы, если приведение может переполнение
- [SPARK-40380][SQL] Исправление константного свертывания InvokeLike, чтобы избежать несериализируемых литерала, внедренных в план
- [SPARK-40066][SQL][ОТСЛЕЖИВАНИЕ] Проверьте, разрешен ли ЭлементAt перед получением типа данных
- [SPARK-40109][SQL] Новая функция SQL: get()
- [SPARK-40066][SQL] РЕЖИМ ANSI: всегда возвращает значение NULL для недопустимого доступа к столбцу сопоставления
- [SPARK-40089][SQL] Исправление сортировки для некоторых десятичных типов
- [SPARK-39887][SQL] RemoveRedundantAliases должен сохранять псевдонимы, которые делают выходные данные узлов проекции уникальными
- [SPARK-40152][SQL] Исправлена проблема компиляции кодегена split_part
- [SPARK-40235][CORE] Использование прерываемой блокировки вместо синхронизированной в Executor.updateDependencies()
- [SPARK-40212][SQL] SparkSQL castPartValue неправильно обрабатывает байт, короткий или с плавающей точкой
- [SPARK-40218][SQL] GROUPING SETS должны сохранять столбцы группирования
- [SPARK-35542][ML] Исправление: Бакетайзер, созданный для нескольких столбцов с параметрами
- [SPARK-40079] Добавление проверки ввода Imputer InputCols для пустого регистра ввода
- [SPARK-39912]SPARK-39828[SQL] Уточнение catalogImpl
Databricks Runtime 11.1 (EoS)
См. раздел Databricks Runtime 11.1 (EoS).
31 января 2023 г.
- [SPARK-41379][SS][PYTHON] Предоставление клонированного сеанса Spark в DataFrame в пользовательской функции для приемника foreachBatch в PySpark
- Прочие исправления ошибок.
18 января 2023 г.
- Соединитель Azure Synapse теперь возвращает более описательное сообщение об ошибке, если имя столбца содержит недопустимые символы, такие как пробелы или точки с запятой. В таких случаях будет возвращено следующее сообщение:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
- [SPARK-41198][SS] Исправьте метрики в потоковом запросе с источником потоковой передачи CTE и DSv1
- [SPARK-41862][SQL] Исправлена ошибка корректности, связанная со значениями DEFAULT в ридере Orc
- [SPARK-41199][SS] Исправлена проблема с метриками при совместном использовании источника потоковой передачи DSv1 и источника потоковой передачи DSv2.
- [SPARK-41339][SQL] Закрытие и повторное создание пакета записи RocksDB вместо простой очистки
- [SPARK-41732][SQL][SS] Применение обрезки на основе дерева для сеанса правила
- [SPARK-38277][SS] Очистка пакета записи после фиксации хранилища состояний RocksDB
- Обновления системы безопасности операционной системы.
- Соединитель Azure Synapse теперь возвращает более описательное сообщение об ошибке, если имя столбца содержит недопустимые символы, такие как пробелы или точки с запятой. В таких случаях будет возвращено следующее сообщение:
29 ноября 2022 г.
- Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пробелов:
-
csvignoreleadingwhitespace
, при значенииtrue
, удаляет ведущие пробелы из значений во время записи, если дляtempformat
установлено значениеCSV
илиCSV GZIP
. Пробелы сохраняются, если для конфигурации задано значениеfalse
. Значение по умолчанию —true
. -
csvignoretrailingwhitespace
при установке вtrue
удаляет конечные пробелы из значений во время записи, еслиtempformat
установлено вCSV
илиCSV GZIP
. Пробелы сохраняются, если для конфигурации задано значениеfalse
. Значение по умолчанию —true
.
-
- Исправлена ошибка синтаксического анализа JSON в Auto Loader, когда все столбцы оставались строками (
cloudFiles.inferColumnTypes
не был задан или было установлено значениеfalse
), и JSON содержал вложенные объекты. - [SPARK-39650][SS] Исправлена неправильная схема значений в дедупликации потоковой передачи с обратной совместимостью
- Обновления системы безопасности операционной системы.
- Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пробелов:
15 ноября 2022 г.
-
[SPARK-40646] синтаксический анализ JSON для структур, карт и массивов был исправлен, поэтому, если часть записи не соответствует схеме, остальная часть записи по-прежнему может быть правильно проанализирована, а не возвращать значения NULL. Чтобы выбрать улучшенное поведение, задайте для
spark.sql.json.enablePartialResults
значениеtrue
. Флаг отключен по умолчанию, чтобы сохранить исходное поведение. - Обновления системы безопасности операционной системы.
-
[SPARK-40646] синтаксический анализ JSON для структур, карт и массивов был исправлен, поэтому, если часть записи не соответствует схеме, остальная часть записи по-прежнему может быть правильно проанализирована, а не возвращать значения NULL. Чтобы выбрать улучшенное поведение, задайте для
1 ноября 2022 г.
- Обновление Apache commons-text до версии 1.10.0.
- Исправлена проблема, из-за которой в таблице Delta существовал определяемый пользователем столбец с именем
_change_type
, но веб- канал изменений данных был отключен в этой таблице, данные в этом столбце неправильно заполняются значениями NULL при выполненииMERGE
. - Исправлена проблема, из-за которой выполнение
MERGE
и использование точно 99 столбцов из источника в условии может привести кjava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
. - Исправлена проблема с автозагрузчиком, из-за которой файл можно дублировать в одном микропакете при включении
allowOverwrites
- [SPARK-40697][SQL] Добавление заполнения на стороне чтения для покрытия внешних файлов данных
- [SPARK-40596][CORE] Заполнение объекта ExecutorDecommission сообщениями в ExecutorDecommissionInfo
- Обновления системы безопасности операционной системы.
18 октября 2022 г.
- Устранена проблема с использованием COPY INTO с временными учетными данными в кластерах и хранилищах с включенным Unity Catalog.
- [SPARK-40213][SQL] Поддержка преобразования значений ASCII для символов Latin-1
- Обновления системы безопасности операционной системы.
5 октября 2022 г.
- Пользователи могут задать spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true"), чтобы снова включить нативное перечисление для автозагрузчика на ADLS Gen2. Собственный листинг ранее был отключен из-за проблем с производительностью, но, возможно, привел к увеличению затрат на хранение для клиентов. Это изменение было внедрено в DBR 10.4 и 9.1 в предыдущем обновлении обслуживания.
- [SPARK-40169] Не применяйте фильтры Parquet без ссылки на схему данных
-
[SPARK-40460][SS] Исправление метрик потоковой передачи при выборе
_metadata
- [SPARK-40468][SQL] Исправить обрезку столбцов в CSV при выборе _corrupt_record
- [SPARK-40055][SQL] listCatalogs также должен возвращать spark_catalog даже если реализация spark_catalog используется по умолчаниюSessionCatalog
- Обновления системы безопасности операционной системы.
22 сентября 2022 г.
- [SPARK-40315][SQL] Добавление hashCode() для литерала ArrayBasedMapData
- [SPARK-40380][SQL] Исправление константного свертывания InvokeLike, чтобы избежать несериализируемых литерала, внедренных в план
- [SPARK-40089][SQL] Исправление сортировки для некоторых десятичных типов
- [SPARK-39887][SQL] RemoveRedundantAliases должен сохранять псевдонимы, которые делают выходные данные узлов проекции уникальными
- [SPARK-40152][SQL] Исправлена проблема компиляции кодегена split_part
6 сентября 2022 г.
- Мы обновили модель разрешений в элементах управления доступом к таблицам (Table ACLs), так что для изменения схемы таблицы или её свойств требуются только разрешения MODIFY с помощью ALTER TABLE. Ранее эти операции требовали, чтобы пользователь владел таблицей. Для предоставления разрешений на таблицу, изменения её владельца, изменения расположения или переименования все еще требуется право владения. Это изменение делает модель разрешений для списков управления доступом к таблицам более согласованной с каталогом Unity.
- [SPARK-40235][CORE] Использование прерываемой блокировки вместо синхронизированной в Executor.updateDependencies()
- [SPARK-40212][SQL] SparkSQL castPartValue неправильно обрабатывает байт, короткий или с плавающей точкой
- [SPARK-40218][SQL] GROUPING SETS должны обеспечивать сохранение столбцов группирования
- [SPARK-39976][SQL] ArrayIntersect должен правильно обрабатывать значение NULL в левом выражении
-
[SPARK-40053][CORE][SQL][TESTS] Добавление
assume
в динамические случаи отмены, для которых требуется среда выполнения Python - [SPARK-35542][CORE][ML] Исправление: Bucketizer, созданный для нескольких столбцов с параметрами splitsArray, inputCols и outputCols, нельзя загрузить после его сохранения.
- [SPARK-40079][CORE] Добавление проверки Imputer inputCols для пустого варианта ввода
24 августа 2022 г.
- Объекты, поставщики и получатели теперь поддерживают команды SQL для изменения владельцев, добавления комментариев и переименования.
- [SPARK-39983][CORE][SQL] Не следует кэшировать несериализированные отношения широковещательной рассылки в драйвере
- [SPARK-39912][SPARK-39828][SQL] Уточнение CatalogImpl
- [SPARK-39775][CORE][AVRO] Отключить проверку значений по умолчанию при синтаксическом анализе схем Avro
- [SPARK-39806] Исправлена ошибка, из-за которой запросы, обращающиеся к структуре METADATA, приводили к сбою в секционированных таблицах.
- [SPARK-39867][SQL] Глобальный лимит не должен наследовать OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] Применение проекции, если атрибуты группы пустые
- [SPARK-39839][SQL] Обработка особого случая нулевого десятичного числа переменной длины с ненулевым значением offsetAndSize в проверке структурной целостности UnsafeRow
- [SPARK-39713][SQL] Режим ANSI: добавление предложения использования try_element_at для исправления ошибки INVALID_ARRAY_INDEX
- [SPARK-39847][SS] Исправление состояния гонки в RocksDBLoader.loadLibrary(), если вызывающий поток прерван
- [SPARK-39731][SQL] Исправлена проблема в источниках данных CSV и JSON при синтаксическом анализе дат в формате "yyyyMdd" с помощью исправленной политики синтаксического анализа времени
- Обновления системы безопасности операционной системы.
10 августа 2022 г.
- Для таблиц Delta с контролем доступа к таблицам автоматическая эволюция схемы с помощью инструкций DML, таких как
INSERT
иMERGE
, теперь доступна для всех пользователей, имеющихMODIFY
разрешения на такие таблицы. Кроме того, разрешения, необходимые для выполнения эволюции схемы сCOPY INTO
, теперь снижаются сOWNER
доMODIFY
для согласованности с другими командами. Эти изменения делают модель безопасности ACL таблицы более согласованной с моделью безопасности каталога Unity, а также с другими операциями, такими как замена таблицы. - [SPARK-39889] Улучшение сообщения об ошибке при делении на 0
- [SPARK-39795] [SQL] Новая функция SQL: try_to_timestamp
- [SPARK-39749] Всегда используйте простое строковое представление при преобразовании десятичного числа в строку в режиме ANSI
- [SPARK-39625] Переименование df.as в df.to
- [SPARK-39787] [SQL] Используйте класс error при ошибке синтаксического анализа функции to_timestamp
- [SPARK-39625] [SQL] Добавление Dataset.as(StructType)
-
[SPARK-39689] Поддержка двухсимвольных конструкций
lineSep
в источнике данных CSV - [SPARK-39579] [SQL][PYTHON][R] Обеспечение совместимости ListFunctions/getFunction/functionExists с пространством имен уровня 3
- [SPARK-39702] [CORE] Сокращение объема памяти, требуемого TransportCipher$EncryptedMessage, за счет использования общего byteRawChannel
- [SPARK-39575] [AVRO] добавить ByteBuffer#rewind после ByteBuffer#get в AvroDeserializer
- [SPARK-39265] [SQL] Исправление в случае сбоя теста при включении SPARK_ANSI_SQL_MODE
- [SPARK-39441] [SQL] Ускорение DeduplicateRelations
- [SPARK-39497] [SQL] Улучшение исключения анализа отсутствующих ключевых столбцов карты
- [SPARK-39476] [SQL] Отключить оптимизацию разворачивания приведения при преобразовании из Long в Float/Double или из Integer в Float
- [SPARK-39434] [SQL] Предоставление контекста запроса для ошибки среды выполнения при выходе индекса за границы массива
- Для таблиц Delta с контролем доступа к таблицам автоматическая эволюция схемы с помощью инструкций DML, таких как
Databricks Runtime 11.0 (EoS)
См. раздел Databricks Runtime 11.0 (EoS).
- 29 ноября 2022 г.
- Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пробелов:
-
csvignoreleadingwhitespace
, при установке вtrue
, удаляет ведущие пробелы из значений во время записи, если дляtempformat
установлено значениеCSV
илиCSV GZIP
. Пробелы сохраняются, если для конфигурации задано значениеfalse
. Значение по умолчанию —true
. -
csvignoretrailingwhitespace
, при установке вtrue
, удаляет конечные пробелы из значений при записи, еслиtempformat
установлено вCSV
илиCSV GZIP
. Пробелы сохраняются, если для конфигурации задано значениеfalse
. Значение по умолчанию —true
.
-
- Исправлена ошибка при синтаксическом анализе JSON в автозагрузчике, когда все столбцы были оставлены в виде строк (
cloudFiles.inferColumnTypes
не задано или задано значениеfalse
) и JSON содержит вложенные объекты. - [SPARK-39650][SS] Исправлена неправильная схема данных в потоковой дедупликации, обеспечивающая обратную совместимость
- Обновления системы безопасности операционной системы.
- Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пробелов:
- 15 ноября 2022 г.
-
[SPARK-40646] синтаксический анализ JSON для структур, карт и массивов был исправлен, поэтому, если часть записи не соответствует схеме, остальная часть записи по-прежнему может быть правильно проанализирована, а не возвращать значения NULL. Чтобы включить улучшенное поведение, задайте для
spark.sql.json.enablePartialResults
значениеtrue
. Флаг отключен по умолчанию, чтобы сохранить исходное поведение.
-
[SPARK-40646] синтаксический анализ JSON для структур, карт и массивов был исправлен, поэтому, если часть записи не соответствует схеме, остальная часть записи по-прежнему может быть правильно проанализирована, а не возвращать значения NULL. Чтобы включить улучшенное поведение, задайте для
- 1 ноября 2022 г.
- Обновление Apache commons-text до версии 1.10.0.
- Исправлена проблема, из-за которой в таблице Delta существовал определяемый пользователем столбец с именем
_change_type
, но веб- канал изменений данных был отключен в этой таблице, данные в этом столбце неправильно заполняются значениями NULL при выполненииMERGE
. - Исправлена проблема с автозагрузчиком, из-за которой файл можно дублировать в одном микропакете при включении
allowOverwrites
- [SPARK-40697][SQL] Добавление заполнения на стороне чтения для покрытия внешних файлов данных
- [SPARK-40596][CORE] Заполнение объекта ExecutorDecommission сообщениями в ExecutorDecommissionInfo
- Обновления системы безопасности операционной системы.
- 18 октября 2022 г.
- [SPARK-40213][SQL] Поддержка преобразования значений ASCII для символов Latin-1
- Обновления системы безопасности операционной системы.
- 5 октября 2022 г.
- Пользователи могут задать spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") для повторного включения нативного списка в Auto Loader на ADLS Gen2. Собственный листинг ранее был отключен из-за проблем с производительностью, но, возможно, привел к увеличению затрат на хранение для клиентов. Это изменение было развернуто в версиях DBR 10.4 и 9.1 в предыдущем обновлении обслуживания.
- [SPARK-40169] Не применяйте Parquet-фильтры без учёта схемы данных
-
[SPARK-40460][SS] Исправление метрик потоковой передачи при выборе
_metadata
- [SPARK-40468][SQL] Исправление обрезки столбцов в CSV при выборе _corrupt_record
- Обновления системы безопасности операционной системы.
- 22 сентября 2022 г.
- [SPARK-40315][SQL] Добавление hashCode() для литерала ArrayBasedMapData
- [SPARK-40380][SQL] Исправление константного свертывания InvokeLike, чтобы избежать несериализируемых литерала, внедренных в план
- [SPARK-40089][SQL] Исправление сортировки для некоторых десятичных типов
- [SPARK-39887][SQL] RemoveRedundantAliases должен сохранять псевдонимы, которые делают выходные данные узлов проекции уникальными
- [SPARK-40152][SQL] Исправлена проблема компиляции кодегена split_part
- 6 сентября 2022 г.
- [SPARK-40235][CORE] Использование прерываемой блокировки вместо синхронизированной в Executor.updateDependencies()
- [SPARK-40212][SQL] SparkSQL castPartValue неправильно обрабатывает байт, короткий или с плавающей точкой
- [SPARK-40218][SQL] GROUPING SETS должны сохранять столбцы группирования
- [SPARK-39976][SQL] ArrayIntersect должен правильно обрабатывать значение NULL в левом выражении
-
[SPARK-40053][CORE][SQL][TESTS] Добавление
assume
в динамические случаи отмены, для которых требуется среда выполнения Python - [SPARK-35542][CORE][ML] Исправление: Дискретизатор, созданный для нескольких столбцов с параметрами splitsArray, inputCols и outputCols, не может быть загружен после сохранения.
- [SPARK-40079][CORE] Добавление проверки Imputer inputCols для пустого варианта ввода
- 24 августа 2022 г.
- [SPARK-39983][CORE][SQL] Не следует кэшировать несериализированные отношения широковещательной рассылки в драйвере
- [SPARK-39775][CORE][AVRO] Отключить проверку значений по умолчанию при синтаксическом анализе схем Avro
- [SPARK-39806] Исправлена проблема при выполнении запросов, обращающихся к структуре метаданных, что вызывало сбой в секционированных таблицах
- [SPARK-39867]Глобальное ограничение не должно наследовать OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] Применение проекции, если атрибуты группы пустые
- Обновления системы безопасности операционной системы.
- 9 августа 2022 г.
- [SPARK-39713][SQL] Режим ANSI: добавление предложения использования try_element_at для исправления ошибки INVALID_ARRAY_INDEX
- [SPARK-39847] Исправление состояния гонки в RocksDBLoader.loadLibrary(), если вызывающий поток прерван
- [SPARK-39731][SQL] Исправлена проблема в источниках данных CSV и JSON при синтаксическом анализе дат в формате "yyyyMdd" с помощью исправленной политики синтаксического анализа времени
- [SPARK-39889] Улучшение сообщения об ошибке при делении на 0
- [SPARK-39795][SQL] Новая функция SQL: try_to_timestamp
- [SPARK-39749] Всегда используйте простое строковое представление при преобразовании десятичного числа в строку в режиме ANSI
- [SPARK-39625][SQL] Добавление Dataset.as(StructType)
- [SPARK-39787][SQL] Использование класса error при ошибке синтаксического анализа функции to_timestamp
- Обновления системы безопасности операционной системы.
- 27 июля 2022 г.
-
[SPARK-39689]Поддержка двухсимвольных конструкций
lineSep
в источнике данных CSV - [SPARK-39104][SQL] Потокобезопасность для InMemoryRelation#isCachedColumnBuffersLoaded
- [SPARK-39702][CORE] Сокращение объема памяти, требуемого TransportCipher$EncryptedMessage, за счет использования общего byteRawChannel
- [SPARK-39575][AVRO] добавьте ByteBuffer#rewind после ByteBuffer#get в AvroDeserializer
- [SPARK-39497][SQL] Улучшение исключения анализа отсутствующих ключевых столбцов карты
- [SPARK-39441][SQL] Ускорение DeduplicateRelations
- [SPARK-39476][SQL] Отключить оптимизацию Unwrap cast при приведении от Long к Float/Double или от Integer к Float
- [SPARK-39434][SQL] Предоставление контекста запроса для ошибки среды выполнения при выходе индекса за границы массива
- [SPARK-39570][SQL] Встроенная таблица должна поддерживать выражения с псевдонимом
- Обновления системы безопасности операционной системы.
-
[SPARK-39689]Поддержка двухсимвольных конструкций
- 13 июля 2022 г.
- Убедитесь, что результаты операции MERGE Delta согласованы, если источник является недетерминированным.
- Исправлена проблема с TVF cloud_files_state при выполнении с использованием путей, отличных от DBFS.
- Отключено использование автозагрузчика собственных облачных API для перечисления каталогов в Azure.
- [SPARK-38796][SQL] Обновление to_number и try_to_number функций для предоставления pr с положительными числами
- [SPARK-39272][SQL] Увеличение начальной позиции контекста запроса на 1.
- [SPARK-39419][SQL] Исправление для ArraySort, чтобы возникало исключение когда блок сравнения возвращает значение NULL.
- Обновления системы безопасности операционной системы.
- 5 июля 2022 г.
- Улучшение сообщений об ошибках для различных классов ошибок.
- [SPARK-39451][SQL] Поддержка интервалов приведения к интегралам в режиме ANSI.
- [SPARK-39361] Не используйте расширенный шаблон Log4J2 преобразования объекта типа throwable в конфигурациях ведения журнала по умолчанию.
-
[SPARK-39354][SQL] Убедитесь, что отображается
Table or view not found
, даже при появлении ошибкиdataTypeMismatchError
, связанной сFilter
, в это же время. - [SPARK-38675][CORE] Исправление ошибки гонки при разблокировке в BlockInfoManager.
- [SPARK-39392][SQL] Уточнение сообщений об ошибках ANSI для указаний функций try_*.
- [SPARK-39214][SQL][3.3] Улучшения в обработке ошибок, связанных с CAST.
- [SPARK-37939][SQL] Классы ошибок теперь используются в ошибках анализа свойств.
-
[SPARK-39085][SQL] Перемещение сообщения об ошибке
INCONSISTENT_BEHAVIOR_CROSS_VERSION
в файл error-classes.json. - [SPARK-39376][SQL] Скрыть повторяющиеся столбцы в звёздном расширении псевдонима подзапроса из NATURAL/USING JOIN
- [SPARK-39283][CORE] Исправлена взаимоблокировка между TaskMemoryManager и UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] В Spark не должны проверяться имена полей при чтении файлов
- Обновления системы безопасности операционной системы.
Databricks Runtime 10.5 (EoS)
См. раздел Databricks Runtime 10.5 (EoS).
- 1 ноября 2022 г.
- Исправлена проблема, из-за которой в таблице Delta существовал определяемый пользователем столбец с именем
_change_type
, но веб- канал изменений данных был отключен в этой таблице, данные в этом столбце неправильно заполняются значениями NULL при выполненииMERGE
. - [SPARK-40697][SQL] Добавление заполнения на стороне чтения для покрытия внешних файлов данных
- [SPARK-40596][CORE] Заполнение объекта ExecutorDecommission сообщениями в ExecutorDecommissionInfo
- Обновления системы безопасности операционной системы.
- Исправлена проблема, из-за которой в таблице Delta существовал определяемый пользователем столбец с именем
- 18 октября 2022 г.
- Обновления системы безопасности операционной системы.
- 5 октября 2022 г.
- Пользователи могут задать spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") для повторного включения нативного списка для Auto Loader в ADLS Gen2. Собственный листинг ранее был отключен из-за проблем с производительностью, но, возможно, привел к увеличению затрат на хранение для клиентов. Это изменение было внедрено в DBR 10.4 и 9.1 в ходе предыдущего обновления обслуживания.
- Reload4j обновлен до версии 1.2.19, чтобы устранить уязвимости.
-
[SPARK-40460][SS] Исправление метрик потоковой передачи при выборе
_metadata
- [SPARK-40468][SQL] Исправить обрезку столбцов в CSV при выборе _corrupt_record
- Обновления системы безопасности операционной системы.
- 22 сентября 2022 г.
- [SPARK-40315][SQL] Добавление hashCode() для литерала ArrayBasedMapData
- [SPARK-40213][SQL] Поддержка преобразования значений ASCII для символов Latin-1
- [SPARK-40380][SQL] Исправление константного свертывания InvokeLike, чтобы избежать несериализируемых литерала, внедренных в план
- [SPARK-38404][SQL] Улучшение разрешения CTE, когда вложенный CTE ссылается на внешний CTE
- [SPARK-40089][SQL] Исправление сортировки для некоторых десятичных типов
- [SPARK-39887][SQL] RemoveRedundantAliases должен сохранять псевдонимы, которые делают выходные данные узлов проекции уникальными
- Обновления системы безопасности операционной системы.
- 6 сентября 2022 г.
- [SPARK-40235][CORE] Использование прерываемой блокировки вместо синхронизированной в Executor.updateDependencies()
- [SPARK-39976][SQL] ArrayIntersect должен правильно обрабатывать значение NULL в левом выражении
-
[SPARK-40053][CORE][SQL][TESTS] Добавление
assume
в динамические случаи отмены, для которых требуется среда выполнения Python - [SPARK-35542][CORE][ML] Исправление: Контейнеризатор, созданный для нескольких столбцов с параметрами splitsArray, inputCols и outputCols, нельзя загрузить после сохранения.
- [SPARK-40079][CORE] Добавление проверки Imputer inputCols для пустого варианта ввода
- 24 августа 2022 г.
- [SPARK-39983][CORE][SQL] Не следует кэшировать несериализированные отношения широковещательной рассылки в драйвере
- [SPARK-39775][CORE][AVRO] Отключить проверку значений по умолчанию при синтаксическом анализе схем Avro
- [SPARK-39806] Исправлена проблема сбоя запросов, обращающихся к структуре метаданных в секционированных таблицах
- [SPARK-39962][PYTHON][SQL] Применение проекции, если атрибуты группы пустые
- [SPARK-37643][SQL] Когда charVarcharAsString имеет значение true, для запроса предиката типа данных char следует пропустить правило rpadding
- Обновления системы безопасности операционной системы.
- 9 августа 2022 г.
- [SPARK-39847] Исправление состояния гонки в RocksDBLoader.loadLibrary(), если вызывающий поток прерван
- [SPARK-39731][SQL] Исправлена проблема в источниках данных CSV и JSON при синтаксическом анализе дат в формате "yyyyMdd" с помощью исправленной политики синтаксического анализа времени
- Обновления системы безопасности операционной системы.
- 27 июля 2022 г.
- [SPARK-39625][SQL] Добавление Dataset.as(StructType)
-
[SPARK-39689]Поддержка двухсимвольных конструкций
lineSep
в источнике данных CSV - [SPARK-39104][SQL] Потокобезопасность для InMemoryRelation#isCachedColumnBuffersLoaded
- [SPARK-39570][SQL] Встроенная таблица должна разрешать выражения с псевдонимом
- [SPARK-39702][CORE] Сокращение объема памяти, требуемого TransportCipher$EncryptedMessage, за счет использования общего byteRawChannel
- [SPARK-39575][AVRO] добавьте вызов ByteBuffer#rewind после ByteBuffer#get в AvroDeserializer
- [SPARK-39476][SQL] Отключить раскрытие оптимизации приведения при преобразовании из Long в Float/Double или из Integer в Float
- Обновления системы безопасности операционной системы.
- 13 июля 2022 г.
- Убедитесь, что результаты операции MERGE Delta согласованы, если источник является недетерминированным.
- [SPARK-39355][SQL] Один столбец использует кавычки для создания НеразрешеннойAttribute
- [SPARK-39548][SQL] Команда CreateView с запросом с оконной конструкцией привела к ошибке отсутствия определения окна.
- [SPARK-39419][SQL] Исправление для ArraySort, чтобы возникало исключение когда блок сравнения возвращает значение NULL.
- Отключено использование автозагрузчика собственных облачных API для перечисления каталогов в Azure.
- Обновления системы безопасности операционной системы.
- 5 июля 2022 г.
- [SPARK-39376][SQL] Скрытие повторяющихся столбцов при расширении подзапроса через псевдоним из NATURAL/USING JOIN
- Обновления системы безопасности операционной системы.
- 15 июня 2022 г.
- [SPARK-39283][CORE] Исправлена взаимоблокировка между TaskMemoryManager и UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] В Spark не должны проверяться имена полей при чтении файлов
- [SPARK-34096][SQL] Улучшение производительности nth_value с игнорированием NULL-значений в смещенном окне
-
[SPARK-36718][SQL][FOLLOWUP] Исправлена проверка
isExtractOnly
в CollapseProject
- 2 июня 2022 г.
- [SPARK-39166][SQL] Теперь возвращается ошибка времени выполнения с предупреждением о контексте запроса для двоичной арифметики при отключенном WSCG
- [SPARK-39093][SQL] Устранена ошибка компиляции при создании кода для деления интервалов типа "год и месяц" или "день и время дня" на целое число
- [SPARK-38990][SQL] Устранено исключение NullPointerException при оценке формата date_trunc/trunc в качестве привязанной ссылки
- Обновления системы безопасности операционной системы.
- 18 мая 2022 г.
- Устранена потенциальная собственная утечка памяти в Автозагрузчике.
- [SPARK-38868][SQL]Больше не выполняется распространение исключений из предиката фильтра при оптимизации внешних соединений.
- [SPARK-38796][SQL] Реализованы функции SQL to_number и try_to_number в соответствии с новой спецификацией.
- [SPARK-38918][SQL] Очистка вложенных столбцов должна отфильтровать атрибуты, которые не относятся к текущему отношению
- [SPARK-38929][SQL] Улучшены сообщения об ошибках для сбоев приведений в ANSI.
- [SPARK-38926][SQL] Выходные типы в сообщениях об ошибках реализованы в стиле SQL.
- [SPARK-39084][PYSPARK] Исправлена df.rdd.isEmpty() с использованием TaskContext для остановки итератора при завершении задачи.
- [SPARK-32268][SQL] Добавлено ColumnPruning в injectBloomFilter.
- [SPARK-38908][SQL] Предоставлен контекст запроса в ошибке выполнения при приведении из String в Number/Date/Timestamp/Boolean.
- [SPARK-39046][SQL] Возвращает пустую строку контекста, если TreeNode.origin неправильно задано
- [SPARK-38974][SQL] Фильтрация зарегистрированных функций с заданным именем базы данных в функциях списка
- [SPARK-38762][SQL] Предоставлен контекст запроса в ошибках переполнения десятичных значений.
- [SPARK-38931][SS] Создан корневой каталог dfs для RocksDBFileManager с неизвестным числом ключей на первой контрольной точке.
- [SPARK-38992][CORE] Теперь следует избегать использования bash -c в ShellBasedGroupsMappingProvider.
- [SPARK-38716][SQL] Предоставлен контекст запроса в ошибке "Ключ сопоставления не существует".
- [SPARK-38889][SQL] Компилирование булевых фильтров столбцов с использованием типа bit для источника данных MSSQL
- [SPARK-38698][SQL] Предоставлен контекст запроса в ошибке выполнения Divide/Div/Reminder/Pmod.
-
[SPARK-38823][SQL]
NewInstance
больше не свертывается, чтобы исправить проблему с повреждением буфера агрегирования. - [SPARK-38809][SS] Реализовать опцию пропуска значений NULL в симметричной хэш-реализации объединений потоков.
- [SPARK-38676][SQL] Предоставлен контекст запроса SQL в сообщении ошибки выполнения Add/Subtract/Multiply.
- [SPARK-38677][PYSPARK] Python MonitorThread должен обнаруживать взаимоблокировку из-за блокировки ввода-вывода.
- Обновления системы безопасности операционной системы.
Databricks Runtime 10.3 (EoS)
См. раздел Databricks Runtime 10.3 (EoS).
- 27 июля 2022 г.
-
[SPARK-39689]Поддержка двухсимвольных конструкций
lineSep
в источнике данных CSV - [SPARK-39104][SQL] Потокобезопасность для InMemoryRelation#isCachedColumnBuffersLoaded
- [SPARK-39702][CORE] Сокращение объема памяти, требуемого TransportCipher$EncryptedMessage, за счет использования общего byteRawChannel
- Обновления системы безопасности операционной системы.
-
[SPARK-39689]Поддержка двухсимвольных конструкций
- 20 июля 2022 г.
- Убедитесь, что результаты операции MERGE Delta согласованы, если источник является недетерминированным.
- [SPARK-39476][SQL] Отключить оптимизацию Unwrap при преобразовании из Long в Float/Double или из Integer в Float
- [SPARK-39548][SQL] Команда создания представления с запросом с оконным выражением вызвала проблему с отсутствием определения окна.
- [SPARK-39419][SQL] Исправление для ArraySort, чтобы возникало исключение когда блок сравнения возвращает значение NULL.
- Обновления системы безопасности операционной системы.
- 5 июля 2022 г.
- [SPARK-39376][SQL] Скрытие повторяющихся столбцов в расширении подзадач из NATURAL/USING JOIN
- Обновления системы безопасности операционной системы.
- 15 июня 2022 г.
- [SPARK-39283][CORE] Исправлена взаимоблокировка между TaskMemoryManager и UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] В Spark не должны проверяться имена полей при чтении файлов
- [SPARK-34096][SQL] Улучшение производительности для nth_value с учетом пропуска значений NULL в окне смещения
-
[SPARK-36718][SQL][FOLLOWUP] Исправлена проверка
isExtractOnly
в CollapseProject
- 2 июня 2022 г.
- [SPARK-38990][SQL] Устранено исключение NullPointerException при оценке формата date_trunc/trunc в качестве привязанной ссылки
- Обновления системы безопасности операционной системы.
- 18 мая 2022 г.
- Устранена потенциальная собственная утечка памяти в Автозагрузчике.
- [SPARK-38918][SQL] Очистка вложенных столбцов должна отфильтровать атрибуты, которые не относятся к текущему отношению
- [SPARK-37593][CORE] Уменьшен размер страницы по умолчанию на LONG_ARRAY_OFFSET, если используются G1GC и ON_HEAP.
- [SPARK-39084][PYSPARK] Исправлена df.rdd.isEmpty() с использованием TaskContext для остановки итератора при завершении задачи.
- [SPARK-32268][SQL] Добавлено ColumnPruning в injectBloomFilter.
- [SPARK-38974][SQL] Фильтрация зарегистрированных функций с заданным именем базы данных в функциях списка
- [SPARK-38889][SQL] Компиляция логических фильтров столбцов для использования битового типа для источника данных MSSQL
- Обновления системы безопасности операционной системы.
- 4 мая 2022 г.
- Пакет SDK AWS для Java обновлен с версии 1.11.655 до версии 1.12.1899.
- 19 апреля 2022 г.
- [SPARK-38616] [SQL] Отслеживание текста запроса SQL в Catalyst TreeNode.
- Обновления системы безопасности операционной системы.
- 6 апреля 2022 г.
- [SPARK-38631][CORE]: использование реализации на основе Java для распаковки файлов .tar в Utils.unpack.
- Обновления системы безопасности операционной системы.
- 22 марта 2022 г.
- Изменен текущий рабочий каталог записных книжек в кластерах высокой параллельности с включенным управлением доступом к таблицам или сквозной передачей учетных данных на домашний каталог пользователя. Ранее рабочим каталогом был
/databricks/driver
. - [SPARK-38437][SQL]: гибкая сериализация даты и времени из источника данных.
- [SPARK-38180][SQL]: разрешение безопасных приведенных выражений в скоррелированных предикатах равенства.
- [SPARK-38155][SQL]: запрет на явное объединение во вторичных вложенных запросах с неподдерживаемыми предикатами.
- [SPARK-38325][SQL] режим ANSI: предотвращение потенциальной ошибки среды выполнения в HashJoin.extractKeyExprAt().
- Изменен текущий рабочий каталог записных книжек в кластерах высокой параллельности с включенным управлением доступом к таблицам или сквозной передачей учетных данных на домашний каталог пользователя. Ранее рабочим каталогом был
- 14 марта 2022 г.
- Улучшено обнаружение конфликтов транзакций для пустых транзакций в Delta Lake.
- [SPARK-38185][SQL] Исправление некорректных данных, если агрегатная функция пуста
- [SPARK-38318][SQL] Регрессия при замене представления набора данных
- [SPARK-38236][SQL] Абсолютные пути к файлам, указанным в таблице create/alter, рассматриваются как относительные
- [SPARK-35937][SQL] Извлечение поля даты из метки времени должно работать в режиме ANSI
-
[SPARK-34069][SQL] Задачи барьера заверения должны соответствовать
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Разрешение назначения хранилища между TimestampNTZ и Date/Timestamp
- 23 февраля 2022 г.
- [SPARK-27442][SQL] Удалить проверку имени поля при чтении и записи данных в формате Parquet
Databricks Runtime 10.2 (EoS)
См. раздел Databricks Runtime 10.2 (EoS).
- 15 июня 2022 г.
- [SPARK-39283][CORE] Исправлена взаимоблокировка между TaskMemoryManager и UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] В Spark не должны проверяться имена полей при чтении файлов
- [SPARK-34096][SQL] Повышение производительности nth_value пропускать значения NULL в окне смещения
- 2 июня 2022 г.
- [SPARK-38918][SQL] Очистка вложенных столбцов должна отфильтровать атрибуты, которые не относятся к текущему отношению
- [SPARK-38990][SQL] Устранено исключение NullPointerException при оценке формата date_trunc/trunc в качестве привязанной ссылки
- Обновления системы безопасности операционной системы.
- 18 мая 2022 г.
- Устранена потенциальная собственная утечка памяти в Автозагрузчике.
- [SPARK-39084][PYSPARK] Исправлена df.rdd.isEmpty() с использованием TaskContext для остановки итератора при завершении задачи.
- [SPARK-38889][SQL] Компиляция булевых фильтров столбцов для использования типа бит для источника данных MSSQL
- [SPARK-38931][SS] Создан корневой каталог dfs для RocksDBFileManager с неизвестным числом ключей на первой контрольной точке.
- Обновления системы безопасности операционной системы.
- 4 мая 2022 г.
- Пакет SDK AWS для Java обновлен с версии 1.11.655 до версии 1.12.1899.
- 19 апреля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
- 6 апреля 2022 г.
- [SPARK-38631][CORE]: использование реализации на основе Java для распаковки файлов .tar в Utils.unpack.
- Обновления системы безопасности операционной системы.
- 22 марта 2022 г.
- Изменен текущий рабочий каталог записных книжек в кластерах высокой параллельности с включенным управлением доступом к таблицам или сквозной аутентификацией на домашний каталог пользователя. Ранее рабочим каталогом был
/databricks/driver
. - [SPARK-38437][SQL]: гибкая сериализация даты и времени из источника данных.
- [SPARK-38180][SQL]: разрешение безопасных приведенных выражений в скоррелированных предикатах равенства.
- [SPARK-38155][SQL]: запрет на явное объединение во вторичных вложенных запросах с неподдерживаемыми предикатами.
- [SPARK-38325][SQL] режим ANSI: предотвращение потенциальной ошибки среды выполнения в HashJoin.extractKeyExprAt().
- Изменен текущий рабочий каталог записных книжек в кластерах высокой параллельности с включенным управлением доступом к таблицам или сквозной аутентификацией на домашний каталог пользователя. Ранее рабочим каталогом был
- 14 марта 2022 г.
- Улучшено обнаружение конфликтов транзакций для пустых транзакций в Delta Lake.
- [SPARK-38185][SQL] Исправление некорректных данных, если агрегатная функция пуста
- [SPARK-38318][SQL] Регрессия при замене представления набора данных
- [SPARK-38236][SQL] Абсолютные пути к файлам, указанным в таблице create/alter, рассматриваются как относительные
- [SPARK-35937][SQL] Извлечение поля даты из метки времени должно работать в режиме ANSI
-
[SPARK-34069][SQL] Задачи барьера заверения должны соответствовать
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Разрешение назначения хранилища между TimestampNTZ и Date/Timestamp
- 23 февраля 2022 г.
- [SPARK-37577][SQL] Исправление ClassCastException: ArrayType не может быть приведено к StructType при генерировании обрезки
- 8 февраля 2022 г.
- [SPARK-27442][SQL] Удалить проверку имени поля при чтении и записи данных в Parquet.
- Обновления системы безопасности операционной системы.
- 1 февраля 2022 г.
- Обновления системы безопасности операционной системы.
- 26 января 2022 г.
- Исправлена ошибка, из-за которой параллельные транзакции в таблицах Delta могли зафиксироваться в несериализируемом порядке в определенных редких условиях.
- Исправлена ошибка, из-за которой команда OPTIMIZE могла завершиться ошибкой при включении диалекта ANSI SQL.
- 19 января 2022 г.
- Появилась поддержка встраивания временных учетных записей в COPY INTO для загрузки исходных данных без необходимости разрешений SQL ANY_FILE.
- Исправления ошибок и доработки средств безопасности.
- 20 декабря 2021 г.
- Исправлена редкая ошибка с фильтрацией столбцов на основе индекса Parquet.
Databricks Runtime 10.1 (EoS)
См. раздел Databricks Runtime 10.1 (EoS).
- 15 июня 2022 г.
- [SPARK-39283][CORE] Исправлена взаимоблокировка между TaskMemoryManager и UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] В Spark не должны проверяться имена полей при чтении файлов
- [SPARK-34096][SQL] Улучшить производительность для nth_value, игнорируя значения NULL в окне смещения
- 2 июня 2022 г.
- Обновления системы безопасности операционной системы.
- 18 мая 2022 г.
- Устранена потенциальная собственная утечка памяти в Автозагрузчике.
- [SPARK-39084][PYSPARK] Исправлена df.rdd.isEmpty() с использованием TaskContext для остановки итератора при завершении задачи.
- [SPARK-38889][SQL] Компиляция фильтров булевых столбцов для использования типа бит для источника данных MSSQL
- Обновления системы безопасности операционной системы.
- 19 апреля 2022 г.
- [SPARK-37270] [SQL] Исправление отправки свертываемых выражений в ветви CaseWhen, если elseValue является пустым.
- Обновления системы безопасности операционной системы.
- 6 апреля 2022 г.
- [SPARK-38631][CORE]: использование реализации на основе Java для распаковки файлов .tar в Utils.unpack.
- Обновления системы безопасности операционной системы.
- 22 марта 2022 г.
- [SPARK-38437][SQL]: гибкая сериализация даты и времени из источника данных.
- [SPARK-38180][SQL]: разрешение безопасных приведенных выражений в скоррелированных предикатах равенства.
- [SPARK-38155][SQL]: запрет на явное объединение во вторичных вложенных запросах с неподдерживаемыми предикатами.
- [SPARK-38325][SQL] режим ANSI: предотвращение потенциальной ошибки среды выполнения в HashJoin.extractKeyExprAt().
- 14 марта 2022 г.
- Улучшено обнаружение конфликтов транзакций для пустых транзакций в Delta Lake.
- [SPARK-38185][SQL] Исправление некорректных данных, если агрегатная функция пуста
- [SPARK-38318][SQL] Регрессия при замене представления набора данных
- [SPARK-38236][SQL] Абсолютные пути к файлам, указанным в таблице create/alter, рассматриваются как относительные
- [SPARK-35937][SQL] Извлечение поля даты из метки времени должно работать в режиме ANSI
-
[SPARK-34069][SQL] Задачи барьера заверения должны соответствовать
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Разрешение назначения хранилища между TimestampNTZ и Date/Timestamp
- 23 февраля 2022 г.
- [SPARK-37577][SQL] Исправление ClassCastException: ArrayType не может быть приведен к StructType для генерации обрезки
- 8 февраля 2022 г.
- [SPARK-27442][SQL] Удалить проверку имени поля при чтении и записи данных в Parquet.
- Обновления системы безопасности операционной системы.
- 1 февраля 2022 г.
- Обновления системы безопасности операционной системы.
- 26 января 2022 г.
- Исправлена ошибка, из-за которой параллельные транзакции в таблицах Delta могли зафиксироваться в несериализируемом порядке в определенных редких условиях.
- Исправлена ошибка, из-за которой выполнение команды OPTIMIZE могло не выполниться при включении диалекта ANSI SQL.
- 19 января 2022 г.
- Добавлена поддержка встраивания временных учетных данных в COPY INTO для загрузки исходных данных, без необходимости разрешений SQL ANY_FILE
- Исправлена проблема нехватки памяти при кэшировании результатов запроса при определенных условиях.
- Исправлена проблема с
USE DATABASE
, когда пользователь переключает текущий каталог в каталог, отличный от по умолчанию. - Исправления ошибок и доработки средств безопасности.
- Обновления системы безопасности операционной системы.
- 20 декабря 2021 г.
- Исправлена редкая ошибка, связанная с фильтрацией на основе индексов столбцов Parquet.
Databricks Runtime 10.0 (EoS)
См. раздел Databricks Runtime 10.0 (EoS).
- 19 апреля 2022 г.
- [SPARK-37270] [SQL] Исправление отправки свертываемых выражений в ветви CaseWhen, если elseValue является пустым.
- Обновления системы безопасности операционной системы.
- 6 апреля 2022 г.
- [SPARK-38631][CORE]: использование реализации на основе Java для распаковки файлов .tar в Utils.unpack.
- Обновления системы безопасности операционной системы.
- 22 марта 2022 г.
- [SPARK-38437][SQL]: гибкая сериализация даты и времени из источника данных.
- [SPARK-38180][SQL]: разрешение безопасных приведенных выражений в скоррелированных предикатах равенства.
- [SPARK-38155][SQL]: запрет на явное объединение во вторичных вложенных запросах с неподдерживаемыми предикатами.
- [SPARK-38325][SQL] режим ANSI: предотвращение потенциальной ошибки среды выполнения в HashJoin.extractKeyExprAt().
- 14 марта 2022 г.
- Улучшено обнаружение конфликтов транзакций для пустых транзакций в Delta Lake.
- [SPARK-38185][SQL] Исправление некорректных данных, если агрегатная функция пуста
- [SPARK-38318][SQL] Регрессия при замене представления набора данных
- [SPARK-38236][SQL] Абсолютные пути к файлам, указанным в таблице create/alter, рассматриваются как относительные
- [SPARK-35937][SQL] Извлечение поля даты из метки времени должно работать в режиме ANSI
-
[SPARK-34069][SQL] Задачи барьера заверения должны соответствовать
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Разрешение назначения хранилища между TimestampNTZ и Date/Timestamp
- 23 февраля 2022 г.
- [SPARK-37577][SQL] Исправление ClassCastException: ArrayType не может быть приведён к StructType для Generate Pruning
- 8 февраля 2022 г.
- [SPARK-27442][SQL] Удалить проверку имени поля при чтении и записи данных в Parquet.
- [SPARK-36905][SQL] Исправлено чтение представлений Hive без явных имен столбцов
- [SPARK-37859][SQL] Исправлена проблема, из-за которых таблицы SQL, созданные с помощью JDBC с Spark 3.1, недоступны для чтения с 3.2.
- Обновления системы безопасности операционной системы.
- 1 февраля 2022 г.
- Обновления системы безопасности операционной системы.
- 26 января 2022 г.
- Исправлена ошибка, из-за которой параллельные транзакции в таблицах Delta могли фиксироваться в неупорядоченном порядке в определённых редких условиях.
- Исправлена ошибка, которая могла приводить к сбою команды OPTIMIZE при активированном диалекте ANSI SQL.
- 19 января 2022 г.
- Исправления ошибок и доработки средств безопасности.
- Обновления системы безопасности операционной системы.
- 20 декабря 2021 г.
- Исправлена редкая ошибка с фильтрацией на основе индекса столбцов Parquet.
- 9 ноября 2021 г.
- Появились дополнительные флаги конфигурации для обеспечения точного детального контроля над расширениями функциональности ANSI.
- 4 ноября 2021 г.
- Исправлена ошибка, которая могла привести к сбою структурированных потоков передачи с использованием ArrayIndexOutOfBoundsException
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: No FileSystem for scheme
, или привести к тому, что изменения вsparkContext.hadoopConfiguration
не вступят в силу в запросах. - Соединитель Apache Spark для разностного доступа был обновлен до 0.2.0.
- 30 ноября 2021 г.
- Исправлена проблема с синтаксическим анализом метки времени, когда строка часового пояса без двоеточия считалась недопустимой.
- Исправлена проблема нехватки памяти при кэшировании результатов запроса при определенных условиях.
- Исправлена проблема с
USE DATABASE
, когда пользователь переключает текущий каталог в каталог, отличный от по умолчанию.
Databricks Runtime 9.0 (EoS)
См. раздел Databricks Runtime 9.0 (EoS).
- 8 февраля 2022 г.
- Обновления системы безопасности операционной системы.
- 1 февраля 2022 г.
- Обновления системы безопасности операционной системы.
- 26 января 2022 г.
- Исправлена ошибка, из-за которой команда OPTIMIZE могла завершиться ошибкой при включении диалекта ANSI SQL.
- 19 января 2022 г.
- Исправления ошибок и доработки средств безопасности.
- Обновления системы безопасности операционной системы.
- 4 ноября 2021 г.
- Исправлена ошибка, которая могла привести к сбою структурированных потоков передачи с использованием ArrayIndexOutOfBoundsException
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: No FileSystem for scheme
, или привести к тому, что изменения вsparkContext.hadoopConfiguration
не вступят в силу в запросах. - Соединитель Apache Spark для разностного доступа был обновлен до 0.2.0.
- 22 сентября 2021 г.
- Исправлена ошибка в массиве cast Spark со значением null для строки
- 15 сентября 2021 г.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
- 8 сентября 2021 г.
- Добавлена поддержка имени схемы (
databaseName.schemaName.tableName
формата) в качестве целевого имени таблицы для Соединителя Azure Synapse. - Добавлена поддержка геометрических и географических типов JDBC, для SQL Spark.
- [SPARK-33527][SQL] Расширена функция декодирования, которая будет соответствовать широко используемым базам данных.
-
[SPARK-36532][CORE] [3.1] Исправлена взаимоблокировка в
CoarseGrainedExecutorBackend.onDisconnected
во избежаниеexecutorsconnected
для предотвращения зависания завершения работы исполнителя.
- Добавлена поддержка имени схемы (
- 25 августа 2021 г.
- Библиотека драйверов SQL Server обновлена до версии 9.2.1.jre8.
- Соединитель Snowflake обновлен до версии 2.9.0.
- Исправлена неработающая ссылка на лучшую пробную версию записной книжки на странице эксперимента AutoML.
Databricks Runtime 8.4 (EoS)
См. раздел Databricks Runtime 8.4 (EoS).
- 19 января 2022 г.
- Обновления системы безопасности операционной системы.
- 4 ноября 2021 г.
- Исправлена ошибка, которая могла привести к сбою структурированных потоков передачи с использованием ArrayIndexOutOfBoundsException
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: No FileSystem for scheme
, или привести к тому, что изменения вsparkContext.hadoopConfiguration
не вступят в силу в запросах. - Соединитель Apache Spark для разностного доступа был обновлен до 0.2.0.
- 22 сентября 2021 г.
- Драйвер JDBC для Spark обновлен до версии 2.6.19.1030
- [SPARK-36734][SQL] Обновление ORC до версии 1.5.1
- 15 сентября 2021 г.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
. - Обновления системы безопасности операционной системы.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
- 8 сентября 2021 г.
-
[SPARK-36532][CORE] [3.1] Исправлена взаимоблокировка в
CoarseGrainedExecutorBackend.onDisconnected
во избежаниеexecutorsconnected
для предотвращения зависания завершения работы исполнителя.
-
[SPARK-36532][CORE] [3.1] Исправлена взаимоблокировка в
- 25 августа 2021 г.
- Библиотека драйверов SQL Server обновлена до версии 9.2.1.jre8.
- Соединитель Snowflake обновлен до версии 2.9.0.
- Исправлена ошибка в сквозной передаче учетных данных, вызванная новой оптимизацией предварительной загрузки в формате Parquet, из-за которой учетные данные пользователя могли не определяться при доступе к файлам.
- 11 августа 2021 г.
- Устранена проблема несовместимости RocksDB, которая не позволяет выполнять операции более старой версии Databricks Runtime 8.4. Это исправляет прямую совместимость для Auto Loader,
COPY INTO
, с приложениями потоковой передачи с отслеживанием состояния. - Устранена ошибка при использовании Auto Loader для чтения CSV-файлов с несовпадающими заголовками файлов. Если имена столбцов не совпадают, столбец будет заполнен значением NULL. Теперь, если указана схема, предполагается, что схема одинакова и сохраняет несоответствия столбцов только при включении спасенных столбцов данных.
- Добавляет новый параметр с именем
externalDataSource
в соединитель Azure Synapse, чтобы удалить требование разрешенияCONTROL
на чтение PolyBase из базы данных.
- Устранена проблема несовместимости RocksDB, которая не позволяет выполнять операции более старой версии Databricks Runtime 8.4. Это исправляет прямую совместимость для Auto Loader,
- 29 июля 2021 г.
- [SPARK-36034][BUILD] Перемещение даты и времени в помещенных в стек фильтрах на Parquet
-
[SPARK-36163][BUILD] Распространение правильных свойств JDBC в поставщике соединителя JDBC и добавление параметра
connectionProvider
Databricks Runtime 8.3 (EoS)
См. раздел Databricks Runtime 8.3 (EoS).
- 19 января 2022 г.
- Обновления системы безопасности операционной системы.
- 4 ноября 2021 г.
- Исправлена ошибка, которая могла привести к сбою структурированных потоков передачи с использованием ArrayIndexOutOfBoundsException
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: No FileSystem for scheme
, или привести к тому, что изменения вsparkContext.hadoopConfiguration
не вступят в силу в запросах.
- 22 сентября 2021 г.
- Драйвер JDBC для Spark обновлен до версии 2.6.19.1030
- 15 сентября 2021 г.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
. - Обновления системы безопасности операционной системы.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
- 8 сентября 2021 г.
- [SPARK-35700][SQL][WARMFIX] Чтение таблицы char/varchar orc, созданной и записанной внешними системами.
-
[SPARK-36532][CORE] [3.1] Исправлена взаимоблокировка в
CoarseGrainedExecutorBackend.onDisconnected
во избежаниеexecutorsconnected
для предотвращения зависания завершения работы исполнителя.
- 25 августа 2021 г.
- Библиотека драйверов SQL Server обновлена до версии 9.2.1.jre8.
- Соединитель Snowflake обновлен до версии 2.9.0.
- Исправлена ошибка в сквозной передаче учетных данных, вызванная новой оптимизацией предварительной выборки в Parquet, из-за которой учетные данные пользователя могли не находиться при доступе к файлам.
- 11 августа 2021 г.
- Устранена ошибка при использовании Auto Loader для чтения CSV-файлов с несовпадающими заголовками файлов. Если имена столбцов не совпадают, столбец будет заполнен значением NULL. Теперь, если указана схема, предполагается, что используется та же схема, и несоответствия столбцов сохраняются только в случае, если включена функция спасения столбцов данных.
- 29 июля 2021 г.
- Обновление соединителя Databricks Snowflake Spark до версии 2.9.0-spark-3.1
- [SPARK-36034][BUILD] Перемещение даты и времени в помещенных в стек фильтрах на Parquet
-
[SPARK-36163][BUILD] Распространение правильных свойств JDBC в поставщике соединителя JDBC и добавление параметра
connectionProvider
- 14 июля 2021 г.
- Исправлена проблема при использовании имен столбцов с точками в коннекторе Azure Synapse.
- Представлен формат
database.schema.table
для соединителя Synapse. - Добавлена поддержка для предоставления формата
databaseName.schemaName.tableName
в качестве целевой таблицы вместоschemaName.tableName
илиtableName
.
- 15 июня 2021 г.
- Исправлена ошибка
NoSuchElementException
в оптимизированных операциях записи Delta Lake, которые могут произойти при записи больших объемов данных и при возникновении потерь исполнителя - Добавляет команды SQL
CREATE GROUP
,DROP GROUP
,ALTER GROUP
,SHOW GROUPS
, иSHOW USERS
. Дополнительные сведения см. в разделах Инструкции по безопасности и Инструкции отображения.
- Исправлена ошибка
Databricks Runtime 8.2 (EoS)
См. раздел Databricks Runtime 8.2 (EoS).
22 сентября 2021 г.
- Обновления системы безопасности операционной системы.
15 сентября 2021 г.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
8 сентября 2021 г.
- [SPARK-35700][SQL][WARMFIX] Чтение таблицы char/varchar ORC, когда она создана и записана внешними системами.
-
[SPARK-36532][CORE] [3.1] Исправлена взаимоблокировка в
CoarseGrainedExecutorBackend.onDisconnected
во избежаниеexecutorsconnected
для предотвращения зависания завершения работы исполнителя.
25 августа 2021 г.
- Соединитель Snowflake обновлен до версии 2.9.0.
11 августа 2021 г.
- [SPARK-36034][SQL] Перемещение даты и времени в помещенных в стек фильтрах на Parquet.
29 июля 2021 г.
- Обновление соединителя Databricks Snowflake Spark до версии 2.9.0-spark-3.1
-
[SPARK-36163][BUILD] Распространение правильных свойств JDBC в поставщике соединителя JDBC и добавление параметра
connectionProvider
14 июля 2021 г.
- Исправлена проблема при использовании столбцов с именами, содержащими точки, в соединителе Azure Synapse.
- Представлен формат
database.schema.table
для соединителя Synapse. - Добавлена поддержка для предоставления формата
databaseName.schemaName.tableName
в качестве целевой таблицы вместоschemaName.tableName
илиtableName
. - Исправлена ошибка, которая мешает пользователям переходить на более старые доступные версии с помощью таблиц Delta.
15 июня 2021 г.
- Исправляет ошибку
NoSuchElementException
в оптимизированных операциях записи Delta Lake, которые могут произойти при записи больших объемов данных и при возникновении потерь исполнителя
- Исправляет ошибку
26 мая 2021 г.
- Обновлен Python с обновлением для системы безопасности для устранения уязвимости системы безопасности Python (CVE-2021-3177).
30 апреля 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-35227][BUILD] Обновление сопоставителя для пакетов spark в SparkSubmit
- [SPARK-34245][CORE] Обеспечение при помощи Master удаления исполнителей, которым не удалось отправить завершенное состояние
- Устранена проблема нехватки памяти, когда Auto Loader передает метрики хода выполнения структурированной потоковой передачи.
Databricks Runtime 8.1 (EoS)
См. раздел Databricks Runtime 8.1 (EoS).
22 сентября 2021 г.
- Обновления системы безопасности операционной системы.
15 сентября 2021 г.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
8 сентября 2021 г.
- [SPARK-35700][SQL][WARMFIX] Чтение таблицы char/varchar orc, созданной и записанной внешними системами.
-
[SPARK-36532][CORE] [3.1] Исправлена взаимоблокировка в
CoarseGrainedExecutorBackend.onDisconnected
во избежаниеexecutorsconnected
для предотвращения зависания завершения работы исполнителя.
25 августа 2021 г.
- Соединитель Snowflake обновлен до версии 2.9.0.
11 августа 2021 г.
- [SPARK-36034][SQL] Перемещение даты и времени в помещенных в стек фильтрах на Parquet.
29 июля 2021 г.
- Обновление соединителя Databricks Snowflake Spark до версии 2.9.0-spark-3.1
-
[SPARK-36163][BUILD] Распространение правильных свойств JDBC в поставщике соединителя JDBC и добавление параметра
connectionProvider
14 июля 2021 г.
- Исправлена проблема при использовании имен столбцов с точками в соединителе Azure Synapse.
- Исправлена ошибка, которая мешала пользователям вернуться к более старым доступным версиям с помощью таблиц Delta.
15 июня 2021 г.
- Исправляет ошибку
NoSuchElementException
в оптимизированных операциях записи Delta Lake, которые могут произойти при записи больших объемов данных и при возникновении потерь исполнителя
- Исправляет ошибку
26 мая 2021 г.
- Обновлен Python с обновлением для системы безопасности для устранения уязвимости системы безопасности Python (CVE-2021-3177).
30 апреля 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-35227][BUILD] Обновление сопоставителя для пакетов spark в SparkSubmit
- Устранена проблема нехватки памяти, когда Auto Loader передает метрики хода выполнения структурированной потоковой передачи.
27 апреля 2021 г.
- [SPARK-34245][CORE] Обеспечение при помощи Master удаления исполнителей, которым не удалось отправить завершенное состояние
- [SPARK-34856][SQL] режим ANSI: разрешить приведение сложных типов в качестве строкового типа
- [SPARK-35014] Исправлен шаблон PhysicalAggregation, чтобы он не переписывал свертываемые выражения
- [SPARK-34769][SQL] AnsiTypeCoercion: возвращение самого узкого преобразуемого типа среди TypeCollection
- [SPARK-34614][SQL] Режим ANSI: приведение строки к логическому типу вызовет создание исключения при ошибке синтаксического анализа
- [SPARK-33794][SQL] Режим ANSI: исправление выражения NextDay для создания среды выполнения IllegalArgumentException при получении недопустимых входных данных
Databricks Runtime 8.0 (EoS)
См. раздел Databricks Runtime 8.0 (EoS).
15 сентября 2021 г.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
25 августа 2021 г.
- Соединитель Snowflake обновлен до версии 2.9.0.
11 августа 2021 г.
- [SPARK-36034][SQL] Перемещение даты и времени в помещенных в стек фильтрах на Parquet.
29 июля 2021 г.
-
[SPARK-36163][BUILD] Распространение правильных свойств JDBC в поставщике соединителя JDBC и добавление параметра
connectionProvider
-
[SPARK-36163][BUILD] Распространение правильных свойств JDBC в поставщике соединителя JDBC и добавление параметра
14 июля 2021 г.
- Исправлена проблема при использовании имен столбцов с точками в соединителе Azure Synapse.
- Исправлена ошибка, которая мешала пользователям путешествовать во времени на более старые доступные версии с помощью таблиц Delta.
26 мая 2021 г.
- Обновлен Python с обновлением для системы безопасности для устранения уязвимости системы безопасности Python (CVE-2021-3177).
30 апреля 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-35227][BUILD] Обновление резолвера для Spark-пакетов в SparkSubmit
- [SPARK-34245][CORE] Обеспечение при помощи Master удаления исполнителей, которым не удалось отправить завершенное состояние
24 марта 2021 г.
- [SPARK-34681][SQL] Исправлена ошибка полного внешнего перемешанного хэш-соединения при создании левой стороны с условием неравенства
- [SPARK-34534] Исправлен порядок blockId при использовании FetchShuffleBlocks для получения блоков
- [SPARK-34613][SQL] Исправлена ошибка, при которой представление на соответствует настройке отключении подсказки
9 марта 2021 г.
-
[SPARK-34543][SQL] Соблюдайте конфигурацию
spark.sql.caseSensitive
при разрешении спецификации раздела в v1SET LOCATION
- [SPARK-34392][SQL] Поддержка ZoneOffset +ч:мм в DateTimeUtils. getZoneId
- [пользовательский интерфейс] Исправление ссылки href визуализации Spark DAG
- [SPARK-34436][SQL] DPP поддерживает выражение LIKE ANY/ALL
-
[SPARK-34543][SQL] Соблюдайте конфигурацию
Databricks Runtime 7.6 (EoS)
См. раздел Databricks Runtime 7.6 (EoS).
- 11 августа 2021 г.
- [SPARK-36034][SQL] Перемещение даты и времени в помещенных в стек фильтрах на Parquet.
- 29 июля 2021 г.
- [SPARK-32998][BUILD] Добавьте возможность переопределения удаленных репозиториев по умолчанию только внутренними репозиториями
- 14 июля 2021 г.
- Исправлена ошибка, которая запрещает пользователям переходить во время на более старые доступные версии с помощью таблиц Delta.
- 26 мая 2021 г.
- Обновлен Python с обновлением для системы безопасности для устранения уязвимости системы безопасности Python (CVE-2021-3177).
- 30 апреля 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-35227][BUILD] Обновление резольвера для spark-packages в SparkSubmit
- [SPARK-34245][CORE] Обеспечение при помощи Master удаления исполнителей, которым не удалось отправить завершенное состояние
- 24 марта 2021 г.
- [SPARK-34768][SQL] Соблюдение размера входного буфера по умолчанию в Univocity
- [SPARK-34534] Исправлен порядок blockId при использовании FetchShuffleBlocks для получения блоков
- 9 марта 2021 г.
- (Только для Azure) Исправлена ошибка автозагрузчика, которая может вызвать NullPointerException при использовании Databricks Runtime 7.6 для запуска старого потока автозагрузчика, созданного в Databricks Runtime 7.2
- [пользовательский интерфейс] Исправление ссылки href визуализации Spark DAG
- Неизвестный листовой узел SparkPlan неверно обрабатывается в SizeInBytesOnlyStatsSparkPlanVisitor
- Восстановление выходной схемы
SHOW DATABASES
- [Delta][8.0, 7.6] Исправлена ошибка вычислений в логике автоматической настройки размера файла
- Отключение проверки устаревших файлов таблиц Delta в кэше дисков
- [SQL] Использовать правильный ключ динамической очистки при наличии подсказки о объединении диапазонов
- Отключение поддержки типа char в пути кода, отличного от SQL
- Избегайте NPE в DataFrameReader.schema
- Исправление NPE, если в ответе EventGridClient нет объекта
- Устранение ошибки чтения закрытого потока чтения в автозагрузчике Azure
- [SQL] Не создавайте рекомендации по числу разделов перемешивания при включении AOS
- 24 февраля 2021 г.
- Обновлен соединитель Spark BigQuery до версии v0.18, в которой введены различные исправления ошибок, а также поддержка итераторов Arrow и Avro.
- Исправлена ошибка правильности, из-за которой Spark возвращала неверные результаты, если десятичная точность и масштаб файла Parquet отличаются от схемы Spark.
- Исправлена проблема сбоя чтения в таблицах Microsoft SQL Server, содержащих пространственные типы данных, с добавлением поддержки типов geometry и geography JDBC для Spark SQL.
- Введена новая конфигурация
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Эта конфигурация управляет встроенной инициализацией Hive. Если задано значение true, Azure Databricks перезагрузит все функции из всех баз данных, которые пользователи имеют вFunctionRegistry
. Это — действия по умолчанию в хранилище метаданных Hive. Если задано значение false, Azure Databricks отключает этот процесс для оптимизации. - [SPARK-34212] Исправлены проблемы, связанные с чтением десятичных данных из файлов Parquet.
- [SPARK-34260][SQL] Исправлено UnresolvedException при создании временного представления дважды.
Databricks Runtime 7.5 (EoS)
См. раздел Databricks Runtime 7.5 (EoS).
- 26 мая 2021 г.
- Обновлен Python с обновлением для системы безопасности для устранения уязвимости системы безопасности Python (CVE-2021-3177).
- 30 апреля 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-35227][BUILD] Обновление резолвера для spark-packages в SparkSubmit
- [SPARK-34245][CORE] Обеспечение при помощи Master удаления исполнителей, которым не удалось отправить завершенное состояние
- 24 марта 2021 г.
- [SPARK-34768][SQL] Соблюдение размера входного буфера по умолчанию в Univocity
- [SPARK-34534] Исправлен порядок blockId при использовании FetchShuffleBlocks для получения блоков
- 9 марта 2021 г.
- (Только для Azure) Исправлена ошибка автозагрузчика, которая может вызвать NullPointerException при использовании Databricks Runtime 7.5 для запуска старого потока автозагрузчика, созданного в Databricks Runtime 7.2.
- [пользовательский интерфейс] Исправление ссылки href визуализации Spark DAG
- Неизвестный листовой узел SparkPlan неверно обрабатывается в SizeInBytesOnlyStatsSparkPlanVisitor
- Восстановите выходную схему
SHOW DATABASES
- Отключение проверки устаревших файлов таблиц Delta в кэше дисков
- [SQL] Используйте правильный ключ построения динамической фильтрации при наличии подсказки о соединении диапазона
- Отключение поддержки типа char в пути кода, отличного от SQL
- Избегайте NPE в DataFrameReader.schema
- Исправление NPE, если в ответе EventGridClient нет объекта
- Устранение ошибки чтения закрытого потока чтения в автозагрузчике Azure
- 24 февраля 2021 г.
- Обновлен соединитель Spark BigQuery до версии v0.18, в которой введены различные исправления ошибок, а также поддержка итераторов Arrow и Avro.
- Исправлена ошибка правильности, из-за которой Spark возвращала неверные результаты, если десятичная точность и масштаб файла Parquet отличаются от схемы Spark.
- Исправлена проблема с сбоем чтения в таблицах Microsoft SQL Server, содержащих пространственные типы данных, за счет добавления поддержки типов geometry и geography JDBC для Spark SQL.
- Введена новая конфигурация
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Эта конфигурация управляет встроенной инициализацией Hive. Если задано значение true, Azure Databricks перезагрузит все функции из всех баз данных, которые пользователи имеют вFunctionRegistry
. Это — действия по умолчанию в хранилище метаданных Hive. Если задано значение false, Azure Databricks отключает этот процесс для оптимизации. - [SPARK-34212] Исправлены проблемы, связанные с чтением десятичных данных из файлов Parquet.
- [SPARK-34260][SQL] Исправлено UnresolvedException при создании временного представления дважды.
- 4 февраля 2021 г.
- Исправлена регрессия, которая предотвращает добавочное выполнение запроса, которое задает глобальное ограничение, например
SELECT * FROM table LIMIT nrows
. Эта регрессия была вызвана тем, что пользователи, выполняющие запросы через ODBC/JDBC, поддерживают сериализацию с помощью Arrow. - Введены проверки времени записи в клиенте Hive, чтобы предотвратить повреждение метаданных в хранилище метаданных Hive для таблиц Delta.
- Исправлена регрессия, из-за которой DBFS FUSE не запускается, если конфигурации переменных среды кластера содержат недопустимый синтаксис bash.
- Исправлена регрессия, которая предотвращает добавочное выполнение запроса, которое задает глобальное ограничение, например
- 20 января 2021 г.
- Исправлена ошибка в выпуске обслуживания от 12 января 2021 г., которая может привести к возникновению исключения AnalysisException и указывать, что столбец является неоднозначным при самосоединении. Эта регрессия происходит, когда пользователь объединяет DataFrame с его производным DataFrame (так называемым самоприсоединением) со следующими условиями:
- Эти два DataFrame имеют общие столбцы, но результат самосоединения не содержит общих столбцов. Например:
df.join(df.select($"col" as "new_col"), cond)
- Построенный DataFrame исключает некоторые столбцы с помощью выборки, группировки или оконных функций.
- Условие соединения или последующее преобразование после присоединенного кадра данных относится к необщим столбцам. Например:
df.join(df.drop("a"), df("a") === 1)
- Эти два DataFrame имеют общие столбцы, но результат самосоединения не содержит общих столбцов. Например:
- Исправлена ошибка в выпуске обслуживания от 12 января 2021 г., которая может привести к возникновению исключения AnalysisException и указывать, что столбец является неоднозначным при самосоединении. Эта регрессия происходит, когда пользователь объединяет DataFrame с его производным DataFrame (так называемым самоприсоединением) со следующими условиями:
- 12 января 2021 г.
- Обновление Azure Storage SDK с версии 2.3.8 до версии 2.3.9.
- [SPARK-33593][SQL] Векторный ридер получил неправильные данные с двоичным значением раздела
- [SPARK-33480][SQL] обновляет сообщение об ошибке проверки длины вставки таблицы char/varchar
Databricks Runtime 7.3 LTS (EoS)
См. раздел Databricks Runtime 7.3 LTS (EoS).
10 сентября 2023 г.
- Прочие исправления ошибок.
30 августа 2023 г.
- Обновления системы безопасности операционной системы.
15 августа 2023 г.
- Обновления системы безопасности операционной системы.
23 июня 2023 г.
- Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
- Обновления системы безопасности операционной системы.
15 июня 2023 г.
-
[SPARK-43413][SQL] Исправление
IN
допустимости вложенного запросаListQuery
null. - Обновления системы безопасности операционной системы.
-
[SPARK-43413][SQL] Исправление
2 июня 2023 г.
- Исправлена проблема в Auto Loader, в которой разные форматы исходных файлов были несовместимы, когда указанная схема не включала выведенные разделы. Эта проблема может привести к непредвиденным сбоям при чтении файлов с отсутствующими столбцами в схеме выводимой секции.
17 мая 2023 г.
- Обновления системы безопасности операционной системы.
25 апреля 2023 г.
- Обновления системы безопасности операционной системы.
11 апреля 2023 г.
- [SPARK-42967][CORE] Исправление SparkListenerTaskStart.stageAttemptId при запуске задачи после отмены этапа.
- Прочие исправления ошибок.
29 марта 2023 г.
- Обновления системы безопасности операционной системы.
14 марта 2023 г.
- Прочие исправления ошибок.
28 февраля 2023 г.
- Обновления системы безопасности операционной системы.
16 февраля 2023 г.
- Обновления системы безопасности операционной системы.
31 января 2023 г.
- По умолчанию типы таблиц JDBC являются внешними.
18 января 2023 г.
- Обновления системы безопасности операционной системы.
29 ноября 2022 г.
- Прочие исправления ошибок.
15 ноября 2022 г.
- Обновление Apache commons-text до версии 1.10.0.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
1 ноября 2022 г.
- [SPARK-38542][SQL] UnsafeHashedRelation должен сериализовать numKeys out
18 октября 2022 г.
- Обновления системы безопасности операционной системы.
5 октября 2022 г.
- Прочие исправления ошибок.
- Обновления системы безопасности операционной системы.
22 сентября 2022 г.
- [SPARK-40089][SQL] Исправление сортировки для некоторых десятичных типов
6 сентября 2022 г.
- [SPARK-35542][CORE][ML] Исправление: Бакетайзер, созданный для нескольких столбцов с параметрами splitsArray, inputCols и outputCols, не удается загрузить после сохранения.
- [SPARK-40079][CORE] Добавление проверки Imputer inputCols для пустого варианта ввода
24 августа 2022 г.
- [SPARK-39962][PYTHON][SQL] Применение проекции, если атрибуты группы пустые
- Обновления системы безопасности операционной системы.
9 августа 2022 г.
- Обновления системы безопасности операционной системы.
27 июля 2022 г.
- Убедитесь, что результаты операции MERGE Delta согласованы, если источник является недетерминированным.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
13 июля 2022 г.
- [SPARK-32680][SQL] Предварительная обработка V2 CTAS с неразрешенным запросом не выполняется.
- Отключено использование автозагрузчика собственных облачных API для перечисления каталогов в Azure.
- Обновления системы безопасности операционной системы.
5 июля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
2 июня 2022 г.
- [SPARK-38918][SQL] Очистка вложенных столбцов должна отфильтровать атрибуты, которые не относятся к текущему отношению
- Обновления системы безопасности операционной системы.
18 мая 2022 г.
- Версия пакета SDK AWS обновлена с 1.11.655 до 1.11.678.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
19 апреля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
6 апреля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
14 марта 2022 г.
- Удаление уязвимых классов из jar-файла log4j 1.2.17
- Прочие исправления ошибок.
23 февраля 2022 г.
- [SPARK-37859][SQL] Не проверяйте метаданные во время сравнения схем
8 февраля 2022 г.
- Обновление Ubuntu JDK до 1.8.0.312.
- Обновления системы безопасности операционной системы.
1 февраля 2022 г.
- Обновления системы безопасности операционной системы.
26 января 2022 г.
- Исправлена ошибка, из-за которой команда OPTIMIZE могла не сработать при включении диалекта ANSI SQL.
19 января 2022 г.
- Канал Conda по умолчанию удален из версии ML LTS 7.3
- Обновления системы безопасности операционной системы.
7 декабря 2021 г.
- Обновления системы безопасности операционной системы.
4 ноября 2021 г.
- Исправлена ошибка, которая могла привести к сбою структурированных потоков передачи с использованием ArrayIndexOutOfBoundsException
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: No FileSystem for scheme
, или привести к тому, что изменения вsparkContext.hadoopConfiguration
не вступят в силу в запросах.
15 сентября 2021 г.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
. - Обновления системы безопасности операционной системы.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
8 сентября 2021 г.
- [SPARK-35700][SQL][WARMFIX] Чтение таблицы char/varchar orc, созданной и записанной внешними системами.
-
[SPARK-36532][CORE] [3.1] Исправлена взаимоблокировка в
CoarseGrainedExecutorBackend.onDisconnected
во избежаниеexecutorsconnected
для предотвращения зависания завершения работы исполнителя.
25 августа 2021 г.
- Соединитель Snowflake обновлен до версии 2.9.0.
29 июля 2021 г.
- [SPARK-36034][BUILD] Перемещение даты и времени в помещенных в стек фильтрах на Parquet
-
[SPARK-34508][BUILD] Пропустить
HiveExternalCatalogVersionsSuite
, если сеть не работает
14 июля 2021 г.
- Представлен формат
database.schema.table
для соединителя Azure Synapse. - Добавлена поддержка для предоставления формата
databaseName.schemaName.tableName
в качестве целевой таблицы вместоschemaName.tableName
илиtableName
. - Исправлена ошибка, которая запрещает пользователям переходить во время на более старые доступные версии с помощью таблиц Delta.
- Представлен формат
15 июня 2021 г.
- Исправляет ошибку
NoSuchElementException
в оптимизированных операциях записи Delta Lake, которые могут произойти при записи больших объемов данных и при возникновении потерь исполнителя - Обновлен Python с обновлением для системы безопасности для устранения уязвимости системы безопасности Python (CVE-2021-3177).
- Исправляет ошибку
30 апреля 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-35227][BUILD] Обновление сопоставителя для пакетов spark в SparkSubmit
- [SPARK-34245][CORE] Обеспечение при помощи Master удаления исполнителей, которым не удалось отправить завершенное состояние
- [SPARK-35045][SQL] Добавлен внутренний параметр для управления входным буфером однозначным образом
24 марта 2021 г.
- [SPARK-34768][SQL] Соблюдение размера входного буфера по умолчанию в Univocity
- [SPARK-34534] Исправлен порядок blockId при использовании FetchShuffleBlocks для получения блоков
- [SPARK-33118][SQL]CREATE TEMPORARY TABLE вызывает ошибку, связанную с расположением
9 марта 2021 г.
- Обновленный драйвер файловой системы Blob-объектов Azure для Azure Data Lake Storage 2-го поколения теперь включен по умолчанию. Он обеспечивает несколько улучшений стабильности.
- Исправлен разделитель пути в Windows для
databricks-connect get-jar-dir
- [пользовательский интерфейс] Исправление ссылки href визуализации Spark DAG
- [DBCONNECT] Добавлена поддержка FlatMapCoGroupsInPandas в Databricks Connect 7.3
- Восстановите выходную схему
SHOW DATABASES
- [SQL] Используйте корректный ключ динамического сокращения при наличии подсказки соединения по диапазону
- Отключение проверки устаревших файлов таблиц Delta в кэше дисков
- [SQL] Не создавайте рекомендации по номеру секции перераспределения при включении AOS.
24 февраля 2021 г.
- Обновлен соединитель Spark BigQuery до версии v0.18, в которой введены различные исправления ошибок, а также поддержка итераторов Arrow и Avro.
- Исправлена ошибка правильности, из-за которой Spark возвращала неверные результаты, если десятичная точность и масштаб файла Parquet отличаются от схемы Spark.
- Исправлена проблема с сбоем чтения в таблицах Microsoft SQL Server, содержащих типы пространственных данных, путем добавления поддержки типов JDBC geometry и geography для использования в Spark SQL.
- Введена новая конфигурация
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Эта конфигурация управляет встроенной инициализацией Hive. Если задано значение true, Azure Databricks перезагрузит все функции из всех баз данных, которые пользователи имеют вFunctionRegistry
. Это — действия по умолчанию в хранилище метаданных Hive. Если задано значение false, Azure Databricks отключает этот процесс для оптимизации. - [SPARK-34212] Исправлены проблемы, связанные с чтением десятичных данных из файлов Parquet.
- [SPARK-33579][UI] Исправлена пустая страница исполнителя вслед за прокси-сервером.
- [SPARK-20044][UI] Добавлена поддержка пользовательского интерфейса Spark вслед за внешним обратным прокси-сервером с использованием префикса пути.
- [SPARK-33277][PYSPARK][SQL] ContextAwareIterator используется для прекращения потребления после выполнения задачи.
4 февраля 2021 г.
- Исправлена регрессия, которая предотвращает добавочное выполнение запроса, которое задает глобальное ограничение, например
SELECT * FROM table LIMIT nrows
. Эта регрессия была вызвана тем, что пользователи, выполняющие запросы через ODBC/JDBC, поддерживают сериализацию с помощью Arrow. - Исправлена регрессия, из-за которой DBFS FUSE не запускается, если конфигурации переменных среды кластера содержат недопустимый синтаксис bash.
- Исправлена регрессия, которая предотвращает добавочное выполнение запроса, которое задает глобальное ограничение, например
20 января 2021 г.
- Была исправлена регрессия в обслуживающем выпуске от 12 января 2021 года, из-за которой мог возникнуть неверный AnalysisException, указывающий, что столбец неоднозначен в самосоединении. Эта регрессия происходит, когда пользователь объединяет фрейм данных с его производным фреймом данных (так называемым самообъединением) при следующих условиях:
- Эти два DataFrame имеют общие столбцы, но результаты самосоединения не содержат общих столбцов. Например:
df.join(df.select($"col" as "new_col"), cond)
- Производный DataFrame исключает некоторые столбцы с помощью функций select, groupBy или window.
- Условие соединения или следующее преобразование после присоединенного кадра данных относится к нераспространенным столбцам. Например:
df.join(df.drop("a"), df("a") === 1)
- Эти два DataFrame имеют общие столбцы, но результаты самосоединения не содержат общих столбцов. Например:
- Была исправлена регрессия в обслуживающем выпуске от 12 января 2021 года, из-за которой мог возникнуть неверный AnalysisException, указывающий, что столбец неоднозначен в самосоединении. Эта регрессия происходит, когда пользователь объединяет фрейм данных с его производным фреймом данных (так называемым самообъединением) при следующих условиях:
12 января 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-33593][SQL] Векторный считыватель получил неправильные данные с двоичным значением раздела
- [SPARK-33677][SQL] Правило LikeSimplification пропускается, если шаблон содержит какие-либо escape-символы (escapeChar)
- [SPARK-33592][ML][PYTHON] Параметры Pyspark ML Validator в estimatorParamMaps могут быть утеряны после сохранения и перезагрузки
- [SPARK-33071][SPARK-33536][SQL] Избегайте изменения dataset_id логического плана в соединении(), чтобы не прерывать ОбнаружениеAmbiguousSelfJoin
8 декабря 2020 г.
- [SPARK-33587] [CORE] Исполнитель теперь завершает работу при вложенных неустранимых ошибках
- [SPARK-27421][SQL] Исправлен фильтр для столбца int и класса значений java.lang.String при отсечении столбца раздела
- [SPARK-33316][SQL] Поддержка пользователем предоставлена пустая схема Avro для ненулевой схемы катализатора в записи Avro.
- Здания Spark, запущенные с помощью Databricks Connect, могут зависнуть в течение неограниченного времени с
Executor$TaskRunner.$anonfun$copySessionState
трассировки стека исполнителя - Обновления системы безопасности операционной системы.
1 декабря 2020 г.
-
[SPARK-33404][SQL] [3.0] Исправлены неверные результаты в выражении
date_trunc
- [SPARK-33339][PYTHON] Приложение Pyspark теперь не зависает из-за ошибки, не связанной с исключением
- [SPARK-33183][SQL][ГОРЯЧЕЕ ИСПРАВЛЕНИЕ] Исправить правило оптимизатора EliminateSorts и добавить физическое правило для удаления избыточных сортировок.
- [SPARK-33371][PYTHON][3.0] Обновление setup.py и тестов для Python 3.9
- [SPARK-33391][SQL] element_at с CreateArray не учитывает индекс на основе единицы.
- [SPARK-33306][SQL]Часовой пояс необходим, когда дата приводится к строке
- [SPARK-33260][SQL] Исправлены неверные результаты из SortExec, если sortOrder имеет значение Stream
-
[SPARK-33404][SQL] [3.0] Исправлены неверные результаты в выражении
5 ноября 2020 г.
- Исправление блокировки ABFS и WASB в отношении
UserGroupInformation.getCurrentUser()
. - Устранение ошибки бесконечного цикла, когда читатель Avro считывает МАГИЧЕСКИЕ байты.
- Добавлена поддержка для привилегий ИСПОЛЬЗОВАНИЯ.
- Улучшения производительности для проверки привилегий в управлении доступом к таблице .
- Исправление блокировки ABFS и WASB в отношении
13 октября 2020 г.
- Обновления системы безопасности операционной системы.
- Вы можете читать и записывать данные из DBFS с помощью подключения FUSE в /dbfs/, если используется кластер с поддержкой транзитных учетных данных с высоким уровнем параллелизма. Обычные точки монтирования поддерживаются, но точки монтирования, требующие учетных данных для сквозного доступа, пока не поддерживаются.
- [SPARK-32999][SQL] используется Utils.getSimpleName, чтобы избежать попадания на неправильное имя класса в TreeNode
- [SPARK-32585][SQL] Поддержка перечисления scala в ScalaReflection
- Исправлены каталоги списков в подсоединении FUSE, содержащие имена файлов с недопустимыми XML-символами
- Для соединения FUSE больше не используется ListMultipartUploads
29 сентября 2020 г.
- [SPARK-32718][SQL] Удалите ненужные ключевые слова для единиц интервала
- [SPARK-32635][SQL] Исправление свертываемого распространения
- Добавлен новый файл конфигурации
spark.shuffle.io.decoder.consolidateThreshold
. Задайте значение конфигурацииLong.MAX_VALUE
, чтобы пропустить консолидацию Netty FrameBuffers, которая предотвращаетjava.lang.IndexOutOfBoundsException
в крайних случаях.
25 апреля 2023 г.
- Обновления системы безопасности операционной системы.
11 апреля 2023 г.
- Прочие исправления ошибок.
29 марта 2023 г.
- Прочие исправления ошибок.
14 марта 2023 г.
- Обновления системы безопасности операционной системы.
28 февраля 2023 г.
- Обновления системы безопасности операционной системы.
16 февраля 2023 г.
- Обновления системы безопасности операционной системы.
31 января 2023 г.
- Прочие исправления ошибок.
18 января 2023 г.
- Обновления системы безопасности операционной системы.
29 ноября 2022 г.
- Обновления системы безопасности операционной системы.
15 ноября 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
1 ноября 2022 г.
- Обновления системы безопасности операционной системы.
18 октября 2022 г.
- Обновления системы безопасности операционной системы.
- 5 октября 2022 г.
- Обновления системы безопасности операционной системы.
- 24 августа 2022 г.
- Обновления системы безопасности операционной системы.
- 9 августа 2022 г.
- Обновления системы безопасности операционной системы.
- 27 июля 2022 г.
- Обновления системы безопасности операционной системы.
- 5 июля 2022 г.
- Обновления системы безопасности операционной системы.
- 2 июня 2022 г.
- Обновления системы безопасности операционной системы.
- 18 мая 2022 г.
- Обновления системы безопасности операционной системы.
- 19 апреля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
- 6 апреля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
- 14 марта 2022 г.
- Прочие исправления ошибок.
- 23 февраля 2022 г.
- Прочие исправления ошибок.
- 8 февраля 2022 г.
- Обновление Ubuntu JDK до 1.8.0.312.
- Обновления системы безопасности операционной системы.
- 1 февраля 2022 г.
- Обновления системы безопасности операционной системы.
- 19 января 2022 г.
- Обновления системы безопасности операционной системы.
- 22 сентября 2021 г.
- Обновления системы безопасности операционной системы.
- 30 апреля 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-35227][BUILD] Обновление резолвера для пакетов Spark в SparkSubmit
- 12 января 2021 г.
- Обновления системы безопасности операционной системы.
- 8 декабря 2020 г.
- [SPARK-27421][SQL] Исправлен фильтр для int столбца и класса значений java.lang.String при отсечении столбца раздела
- Обновления системы безопасности операционной системы.
- 1 декабря 2020 г.
- [SPARK-33260][SQL] Исправлены неверные результаты из SortExec, если sortOrder имеет значение Stream
- 3 ноября 2020 г.
- Обновлена версия Java с версии 1.8.0 _252 до версии 1.8.0 _265.
- Исправление блокировки АБФС и WASB в отношении UserGroupInformation.getCurrentUser()
- 13 октября 2020 г.
- Обновления системы безопасности операционной системы.
Расширенная поддержка Databricks Runtime 6.4 (EoS)
См. статью Databricks Runtime 6.4 (EoS) и Databricks Runtime 6.4 Extended Support (EoS).
5 июля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
2 июня 2022 г.
- Обновления системы безопасности операционной системы.
18 мая 2022 г.
- Обновления системы безопасности операционной системы.
19 апреля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
6 апреля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
14 марта 2022 г.
- Удаление уязвимых классов из jar-файла log4j 1.2.17
- Прочие исправления ошибок.
23 февраля 2022 г.
- Прочие исправления ошибок.
8 февраля 2022 г.
- Обновление Ubuntu JDK до 1.8.0.312.
- Обновления системы безопасности операционной системы.
1 февраля 2022 г.
- Обновления системы безопасности операционной системы.
26 января 2022 г.
- Исправлена ошибка, в которой команда OPTIMIZE могла произойти сбой при включении диалекта ANSI SQL.
19 января 2022 г.
- Обновления системы безопасности операционной системы.
8 декабря 2021 г.
- Обновления системы безопасности операционной системы.
22 сентября 2021 г.
- Обновления системы безопасности операционной системы.
15 июня 2021 г.
- [SPARK-35576][SQL] Скрыть чувствительную информацию в результате команды Set
7 июня 2021 г.
- Добавьте новый файл конфигурации под названием
spark.sql.maven.additionalRemoteRepositories
, разделенный запятыми строкой конфигурации дополнительного удаленного зеркала maven. По умолчанию это значение равноhttps://maven-central.storage-download.googleapis.com/maven2/
.
- Добавьте новый файл конфигурации под названием
30 апреля 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-35227][BUILD] Обновление сопоставителя для пакетов spark в SparkSubmit
9 марта 2021 г.
- Порт HADOOP-17215 для драйвера файловой системы BLOB-объектов Azure (поддержка условной перезаписи).
- Исправлен разделитель пути в Windows для
databricks-connect get-jar-dir
- Добавлена поддержка хранилища метаданных Hive версий 2.3.5, 2.3.6 и 2.3.7
- Указатель "totalResultsCollected" выводится ошибочно после сброса.
24 февраля 2021 г.
- Введена новая конфигурация
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Эта конфигурация управляет встроенной инициализацией Hive. Если задано значение true, Azure Databricks перезагрузит все функции из всех баз данных, которые пользователи имеют вFunctionRegistry
. Это — действия по умолчанию в хранилище метаданных Hive. Если задано значение false, Azure Databricks отключает этот процесс для оптимизации.
- Введена новая конфигурация
4 февраля 2021 г.
- Исправлена регрессия, которая предотвращает добавочное выполнение запроса, которое задает глобальное ограничение, например
SELECT * FROM table LIMIT nrows
. Эта регрессия была вызвана тем, что пользователи, выполняющие запросы через ODBC/JDBC, поддерживают сериализацию с помощью Arrow. - Исправлена регрессия, из-за которой DBFS FUSE не запускается, если конфигурации переменных среды кластера содержат недопустимый синтаксис bash.
- Исправлена регрессия, которая предотвращает добавочное выполнение запроса, которое задает глобальное ограничение, например
12 января 2021 г.
- Обновления системы безопасности операционной системы.
8 декабря 2020 г.
- [SPARK-27421][SQL] Исправлен фильтр для столбца int и класса значений java.lang.String при обрезке разделяемого столбца
- [SPARK-33183][SQL] Исправление правила оптимизатора EliminateSorts и добавление физического правила для удаления избыточных сортировок
- [Runtime 6.4 ML GPU] Ранее нами была установлена неправильная версия (2.7.8-1 + cuda 11.1) NCCL. В этом выпуске исправления проведены до версии 2.4.8-1 + cuda 10.0, что совместимо с CUDA 10.0.
- Обновления системы безопасности операционной системы.
1 декабря 2020 г.
- [SPARK-33260][SQL] Исправлены неверные результаты из SortExec, если sortOrder имеет значение Stream
- [SPARK-32635][SQL] Исправление свертываемого распространения
3 ноября 2020 г.
- Обновлена версия Java с версии 1.8.0 _252 до версии 1.8.0 _265.
- Исправление блокировки АБФС и WASB в отношении UserGroupInformation.getCurrentUser()
- Устранение ошибки бесконечного цикла чтения Avro при чтении МАГИЧЕСКИХ байтов.
13 октября 2020 г.
- Обновления системы безопасности операционной системы.
- [SPARK-32999][SQL][2.4] используется Utils.getSimpleName, чтобы избежать попадания на неправильное имя класса в TreeNode
- Исправлены каталоги списков в подсоединении FUSE, содержащие имена файлов с недопустимыми XML-символами
- Для соединения FUSE больше не используется ListMultipartUploads
24 сентября 2020 г.
- Исправлено предыдущее ограничение, из-за которого сквозное подключение в стандартном кластере по-прежнему ограничивало использование файловой системы пользователем. Теперь пользователи смогут получать доступ к локальной файловой системе без ограничений.
- Обновления системы безопасности операционной системы.
8 сентября 2020 г.
- Для Azure Synapse Analytics был создан новый параметр
maxbinlength
. Этот параметр используется для управления длиной столбцов BinaryType и преобразуется какVARBINARY(maxbinlength)
. Его можно задать с помощью.option("maxbinlength", n)
, где 0 < n <= 8000. - Обновите Azure Storage SDK до версии 8.6.4 и включите функцию поддержания соединения TCP для подключений, установленных драйвером WASB.
- Для Azure Synapse Analytics был создан новый параметр
25 августа 2020 г.
- Исправлено неоднозначное разрешение атрибутов в самослиянии
18 августа 2020 г.
- [SPARK-32431][SQL] Проверьте повторяющиеся вложенные столбцы при чтении из встроенных источников данных
- Исправлено состояние гонки в соединителе АКС при использовании Trigger.Once.
11 августа 2020 г.
- [SPARK-28676][CORE] Избежание чрезмерного ведения журнала из ContextCleaner
3 августа 2020 г.
- Теперь можно использовать функцию преобразования LDA в кластере с транзитным включением.
- Обновления системы безопасности операционной системы.
7 июля 2020 г.
- Обновлена версия Java с версии 1.8.0_232 до версии 1.8.0_252.
21 апреля 2020 г.
- [SPARK-31312][SQL] Экземпляр класса кэша для экземпляра UDF в HiveFunctionWrapper
7 апреля 2020 г.
- Чтобы устранить проблему с Pandas UDF, которая не работает с PyArrow 0.15.0 и выше, мы добавили переменную среды (
ARROW_PRE_0_15_IPC_FORMAT=1
), чтобы обеспечить поддержку этих версий PyArrow. См. инструкции в [SPARK-29367].
- Чтобы устранить проблему с Pandas UDF, которая не работает с PyArrow 0.15.0 и выше, мы добавили переменную среды (
10 марта 2020 г.
- Оптимизированное автомасштабирование теперь используется по умолчанию в интерактивных кластерах в плане безопасности.
- Соединитель Snowflake (
spark-snowflake_2.11
), включенный в Databricks Runtime, обновляется до версии 2.5.9.snowflake-jdbc
обновлен до версии 3.12.0.
Databricks Runtime 5.5 LTS (EoS)
См. статью Databricks Runtime 5.5 LTS (EoS) и Databricks Runtime 5.5 Extended Support (EoS).
8 декабря 2021 г.
- Обновления системы безопасности операционной системы.
22 сентября 2021 г.
- Обновления системы безопасности операционной системы.
25 августа 2021 г.
- Произведен переход на использование более ранней версии некоторых ранее обновленных пакетов Python в 5.5 ML (расширенная поддержка) для поддержания лучшего паритета с версией 5.5 ML LTS (в настоящее время устарела). Обновленные различия между двумя версиями см. в [_]/Release-Notes/Runtime/5.5xml.md).
15 июня 2021 г.
- [SPARK-35576][SQL] Редактовать конфиденциальную информацию в результате команды Set
7 июня 2021 г.
- Добавьте новый файл конфигурации под названием
spark.sql.maven.additionalRemoteRepositories
, разделенный запятыми строкой конфигурации дополнительного удаленного зеркала maven. По умолчанию это значение равноhttps://maven-central.storage-download.googleapis.com/maven2/
.
- Добавьте новый файл конфигурации под названием
30 апреля 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-35227][BUILD] Обновление сопоставителя для пакетов spark в SparkSubmit
9 марта 2021 г.
- Порт HADOOP-17215 для драйвера файловой системы BLOB-объектов Azure (поддержка условной перезаписи).
24 февраля 2021 г.
- Введена новая конфигурация
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Эта конфигурация управляет встроенной инициализацией Hive. Если задано значение true, Azure Databricks перезагрузит все функции из всех баз данных, которые пользователи имеют вFunctionRegistry
. Это — действия по умолчанию в хранилище метаданных Hive. Если задано значение false, Azure Databricks отключает этот процесс для оптимизации.
- Введена новая конфигурация
12 января 2021 г.
- Обновления системы безопасности операционной системы.
- Исправление для [HADOOP-17130].
8 декабря 2020 г.
- [SPARK-27421][SQL] Исправлен фильтр для столбца int и класса значений java.lang.String при обрезке разделяющего столбца
- Обновления системы безопасности операционной системы.
1 декабря 2020 г.
- [SPARK-33260][SQL] Исправлены неверные результаты из SortExec, если sortOrder имеет значение Stream
- [SPARK-32635][SQL] Исправление свертываемого распространения
29 октября 2020 г.
- Обновлена версия Java с версии 1.8.0 _252 до версии 1.8.0 _265.
- Исправление блокировки АБФС и WASB в отношении UserGroupInformation.getCurrentUser()
- Устранение ошибки бесконечного цикла чтения Avro при чтении МАГИЧЕСКИХ байтов.
13 октября 2020 г.
- Обновления системы безопасности операционной системы.
- [SPARK-32999][SQL][2.4] используется Utils.getSimpleName, чтобы избежать попадания на неправильное имя класса в TreeNode
24 сентября 2020 г.
- Обновления системы безопасности операционной системы.
8 сентября 2020 г.
- Для Azure Synapse Analytics был создан новый параметр
maxbinlength
. Этот параметр используется для управления длиной столбцов BinaryType и преобразуется какVARBINARY(maxbinlength)
. Его можно задать с помощью.option("maxbinlength", n)
, где 0 < n <= 8000.
- Для Azure Synapse Analytics был создан новый параметр
18 августа 2020 г.
- [SPARK-32431][SQL] Проверка наличия повторяющихся вложенных столбцов при чтении из встроенных источников данных
- Исправлено состояние гонки в соединителе АКС при использовании Trigger.Once.
11 августа 2020 г.
- [SPARK-28676][CORE] Избежание чрезмерного ведения журнала из ContextCleaner
3 августа 2020 г.
- Обновления системы безопасности операционной системы
7 июля 2020 г.
- Обновлена версия Java с версии 1.8.0_232 до версии 1.8.0_252.
21 апреля 2020 г.
- [SPARK-31312][SQL] Экземпляр класса кэша для экземпляра UDF в HiveFunctionWrapper
7 апреля 2020 г.
- Чтобы устранить проблему с Pandas UDF, которая не работает с PyArrow 0.15.0 и выше, мы добавили переменную среды (
ARROW_PRE_0_15_IPC_FORMAT=1
), чтобы обеспечить поддержку этих версий PyArrow. См. инструкции в [SPARK-29367].
- Чтобы устранить проблему с Pandas UDF, которая не работает с PyArrow 0.15.0 и выше, мы добавили переменную среды (
25 марта 2020 г.
- Соединитель Snowflake (
spark-snowflake_2.11
), включенный в Databricks Runtime, обновляется до версии 2.5.9.snowflake-jdbc
обновлен до версии 3.12.0.
- Соединитель Snowflake (
10 марта 2020 г.
- Выходные данные задания, такие как журналы, выводимые в stdout, ограничены размером до 20 МБ. Если общий объем выходных данных имеет больший размер, выполнение будет отменено и помечено как неудавшееся. Чтобы избежать достижения этого ограничения, можно предотвратить возврат stdout от драйвера, установив конфигурацию Spark
spark.databricks.driver.disableScalaOutput
наtrue
. По умолчанию флаг имеет значениеfalse
. Флаг контролирует выходные данные ячейки для заданий JAR Scala и записных книжек Scala. Если флаг включен, Spark не возвращает клиенту результаты выполнения задания. Флаг не влияет на данные, записываемые в файлы журналов кластера. Установка этого флага рекомендуется только для автоматических кластеров для заданий JAR, так как это приведет к отключению результатов записной книжки.
- Выходные данные задания, такие как журналы, выводимые в stdout, ограничены размером до 20 МБ. Если общий объем выходных данных имеет больший размер, выполнение будет отменено и помечено как неудавшееся. Чтобы избежать достижения этого ограничения, можно предотвратить возврат stdout от драйвера, установив конфигурацию Spark
18 февраля 2020 г.
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 должно вызывать исключение
- Транзитная передача учетных данных с ADLS 2-го поколения имеет снижение производительности из-за неправильной локальной обработки цепочки, когда включена предварительная выборка клиентов ADLS. В этом выпуске отключена предварительная выборка ADLS 2-го поколения при включенной транзитной учетной записи, пока не будет установлено надлежащее исправление.
28 января 2020 г.
- [SPARK-30447][SQL] Постоянная проблема обнуляемости распространения.
14 января 2020 г.
- Обновлена версия Java с 1.8.0 _222 до 1.8.0 _232.
19 ноября 2019 г.
- [SPARK-29743] [SQL] образец должен задать needCopyResult в true, если значение needCopyResult дочерней задачи задано в true.
- Версия R была непредвиденно обновлена до версии 3.6.1 с версии 3.6.0. Мы перешли на использование более ранней версии 3.6.0.
5 ноября 2019 г.
- Обновлена версия Java с 1.8.0 _212 до 1.8.0 _222.
23 октября 2019 г.
- [SPARK-29244][CORE] Предотвращение повторного освобождения страницы в BytesToBytesMap
8 октября 2019 г.
- Изменения на стороне сервера, позволяющие драйверу Simba Apache Spark ODBC повторно подключаться и продолжать работу после сбоя подключения во время получения результатов (требуется драйвер Simba Apache Spark ODBC версии 2.6.10).
- Исправлена проблема, влияющая на использование команды
Optimize
в кластерах с включенной функцией таблиц ACL. - Исправлена проблема, из-за которой библиотеки
pyspark.ml
не удавалось выполнить из-за ошибки запрета Scala UDF в кластерах с включенной таблицей ACL и включенной передачей учетных данных. - Добавлены в список разрешений методы SerDe и SerDeUtil для передачи учетных данных.
- Внесены исправления в NullPointerException при проверке кода ошибки в клиенте WASB.
24 сентября 2019 г.
- Улучшена стабильность модуля записи Parquet.
- Исправлена проблема, из-за которой запрос Thrift, отмененный до начала его выполнения, мог зависнуть в состоянии STARTED.
10 сентября 2019 г.
- Добавить потокобезопасный итератор в BytesToBytesMap
- [SPARK-27992][SPARK-28881]Разрешить Python присоединиться к потоку подключения для распространения ошибок
- Исправлена ошибка, влияющая на определенные глобальные запросы на агрегирование.
- Улучшено исправление учетных данных.
- [SPARK-27330][SS] Поддержка прерывания задачи в средстве записи foreach
- [SPARK-28642]Скрыть учетные данные в SHOW CREATE TABLE
- [SPARK-28699][SQL] Отключение использования сортировки системы счисления для ShuffleExchangeExec в случае повторного секционирования
27 августа 2019 г.
- [SPARK-20906][SQL]Разрешить указанную пользователем схему в TO_AVRO API с реестром схем
- [SPARK-27838][SQL] Поддержка пользователем предоставленной ненулевой схемы avro для схемы катализатора, допускающей значение NULL, без каких-либо записей NULL
- Доработка перехода по времени на Delta Lake
- Исправлена проблема, влияющая на определенное выражение
transform
- Поддерживает широковещательные переменные при включенной изоляции процессов
13 августа 2019 г.
- Источник потоковой передачи Delta должен проверить актуальный протокол таблицы.
- [SPARK-28260] Добавление состояние CLOSED в ExecutionState
- [SPARK-28489][SS]Исправлена ошибка, при которой KafkaOffsetRangeCalculator.getRanges мог не учитывать смещения
30 июля 2019 г.
- [SPARK-28015][SQL] Проверка stringToDate() использует все входные данные для форматов гггг и гггг-[м]м.
- [SPARK-28308][CORE] Часть CalendarInterval менее секунды должна быть увеличена перед анализом
- [SPARK-27485]EnsureRequirements.reorder теперь корректно обрабатывает дубликаты выражений
- [SPARK-28355][CORE] [PYTHON] Использование конфигурации Spark для порога, при котором UDF сжимается с помощью трансляции
Databricks Light 2.4 (расширенная поддержка)
См. раздел Databricks Light 2.4 (EoS) и Databricks Light 2.4 Extended Support (EoS).
Databricks Runtime 7.4 (EoS)
См. раздел Databricks Runtime 7.4 (EoS).
30 апреля 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-35227][BUILD] Обновление резольвера для spark-packages в SparkSubmit
- [SPARK-34245][CORE] Обеспечение при помощи Master удаления исполнителей, которым не удалось отправить завершенное состояние
- [SPARK-35045][SQL] Добавление внутреннего параметра для управления входным буфером в univocity и конфигурацией для размера входного буфера CSV
24 марта 2021 г.
- [SPARK-34768][SQL] Соблюдение размера входного буфера по умолчанию в Univocity
- [SPARK-34534] Исправлен порядок blockId при использовании FetchShuffleBlocks для получения блоков
9 марта 2021 г.
- Обновленный драйвер файловой системы Blob-объектов Azure для Azure Data Lake Storage 2-го поколения теперь включен по умолчанию. Он обеспечивает несколько улучшений стабильности.
- [ES-67926][UI] Исправление ссылки href визуализации Spark DAG
- [ES-65064] Восстановление выходной схемы
SHOW DATABASES
- [SC-70522][SQL] Использование правильного ключа динамического построения при наличии указания на диапазонное соединение
- [SC-35081] Отключение проверки устаревших файлов таблиц Delta в кэше дисков
- [SC-70640] Исправление NPE, если в ответе EventGridClient нет объекта
- [SC-70220][SQL] Не создавайте рекомендации по количеству разделов перетасовки при включении AOS
24 февраля 2021 г.
- Обновлен соединитель Spark BigQuery до версии v0.18, в которой введены различные исправления ошибок, а также поддержка итераторов Arrow и Avro.
- Исправлена ошибка правильности, из-за которой Spark возвращала неверные результаты, если десятичная точность и масштаб файла Parquet отличаются от схемы Spark.
- Исправлена проблема отказа чтения в таблицах Microsoft SQL Server, содержащих пространственные типы данных, путем добавления поддержки типов geometry и geography JDBC для Spark SQL.
- Введена новая конфигурация
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Эта конфигурация управляет встроенной инициализацией Hive. Если задано значение true, Azure Databricks перезагрузит все функции из всех баз данных, которые пользователи имеют вFunctionRegistry
. Это — действия по умолчанию в хранилище метаданных Hive. Если задано значение false, Azure Databricks отключает этот процесс для оптимизации. - [SPARK-34212] Исправлены проблемы, связанные с чтением десятичных данных из файлов Parquet.
- [SPARK-33579][UI] Исправлена пустая страница исполнителя вслед за прокси-сервером.
- [SPARK-20044][UI] Добавлена поддержка пользовательского интерфейса Spark вслед за внешним обратным прокси-сервером с использованием префикса пути.
- [SPARK-33277][PYSPARK][SQL] ContextAwareIterator используется для прекращения потребления после выполнения задачи.
4 февраля 2021 г.
- Исправлена регрессия, которая предотвращает добавочное выполнение запроса, которое задает глобальное ограничение, например
SELECT * FROM table LIMIT nrows
. Эта регрессия была вызвана тем, что пользователи, выполняющие запросы через ODBC/JDBC, поддерживают сериализацию с помощью Arrow. - Исправлена регрессия, из-за которой DBFS FUSE не запускается, если конфигурации переменных среды кластера содержат недопустимый синтаксис bash.
- Исправлена регрессия, которая предотвращает добавочное выполнение запроса, которое задает глобальное ограничение, например
20 января 2021 г.
- Исправлена ошибка регрессии в выпуске обслуживания от 12 января 2021 г., которая может вызывать некорректное исключение AnalysisException и сообщение о том, что столбец неоднозначный при самосоединении. Эта регрессия возникает, когда пользователь выполняет объединение DataFrame с его производным DataFrame (так называемое самосоединение) при следующих условиях:
- Эти два DataFrame имеют общие столбцы, но результат операции самосоединения не содержит общих столбцов. Например:
df.join(df.select($"col" as "new_col"), cond)
- Производный DataFrame исключает некоторые столбцы с помощью функции select, groupBy или оконных функций.
- Условие объединения или следующее преобразование после объединенного датафрейма относится к необщим столбцам. Например:
df.join(df.drop("a"), df("a") === 1)
- Эти два DataFrame имеют общие столбцы, но результат операции самосоединения не содержит общих столбцов. Например:
- Исправлена ошибка регрессии в выпуске обслуживания от 12 января 2021 г., которая может вызывать некорректное исключение AnalysisException и сообщение о том, что столбец неоднозначный при самосоединении. Эта регрессия возникает, когда пользователь выполняет объединение DataFrame с его производным DataFrame (так называемое самосоединение) при следующих условиях:
12 января 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-33593][SQL] Векторный читатель получил неправильные данные с двоичным значением раздела
- [SPARK-33677][SQL] Правило LikeSimplification пропускается, если шаблон содержит какие-либо escape-символы (escapeChar)
- [SPARK-33071][SPARK-33536][SQL] Избегать изменения dataset_id в LogicalPlan при join(), чтобы не нарушать DetectAmbiguousSelfJoin
8 декабря 2020 г.
- [SPARK-33587] [CORE] Исполнитель теперь завершает работу при вложенных неустранимых ошибках
- [SPARK-27421][SQL] Исправлен фильтр для столбца int и класса значений java.lang.String при фильтрации столбца раздела
- [SPARK-33316][SQL] Поддержка предоставленной пользователем нулевой допустимой схемы Avro для ненулевой схемы катализатора при записи в Avro.
- Обновления системы безопасности операционной системы.
1 декабря 2020 г.
-
[SPARK-33404][SQL] [3.0] Исправлены неверные результаты в выражении
date_trunc
- [SPARK-33339][PYTHON] Приложение Pyspark теперь не зависает из-за ошибки, не связанной с исключением
- [SPARK-33183][SQL][ИСПРАВЛЕНИЕ] Исправление правила оптимизатора EliminateSorts и добавление физического правила для удаления избыточных сортировок
- [SPARK-33371][PYTHON][3.0] Обновление setup.py и тестов для Python 3.9
- [SPARK-33391][SQL] element_at с CreateArray не учитывает индекс на основе единицы.
- [SPARK-33306][SQL]Часовой пояс необходим, когда дата приводится к строке
- [SPARK-33260][SQL] Исправлены неверные результаты из SortExec, если sortOrder имеет значение Stream
- [SPARK-33272][SQL] Урезано сопоставление атрибутов в QueryPlan.transformUpWithNewOutput
-
[SPARK-33404][SQL] [3.0] Исправлены неверные результаты в выражении
Databricks Runtime 7.2 (EoS)
См. раздел Databricks Runtime 7.2 (EoS).
4 февраля 2021 г.
- Исправлена регрессия, которая предотвращает добавочное выполнение запроса, которое задает глобальное ограничение, например
SELECT * FROM table LIMIT nrows
. Эта регрессия была вызвана тем, что пользователи, выполняющие запросы через ODBC/JDBC, поддерживают сериализацию с помощью Arrow. - Исправлена регрессия, из-за которой DBFS FUSE не запускается, если конфигурации переменных среды кластера содержат недопустимый синтаксис bash.
- Исправлена регрессия, которая предотвращает добавочное выполнение запроса, которое задает глобальное ограничение, например
20 января 2021 г.
- Исправлена регрессия в выпуске обслуживания от 12 января 2021 года, которая может привести к возникновению неправильного AnalysisException и сообщить, что столбец неоднозначен в случае самосоединения. Эта регрессия происходит, когда пользователь присоединяет DataFrame к его производному DataFrame (так называемое самообъединение) при следующих условиях:
- Эти два DataFrames имеют общие столбцы, но результат самосоединения не имеет общих столбцов. Например:
df.join(df.select($"col" as "new_col"), cond)
- Созданный DataFrame исключает некоторые столбцы с помощью select, groupBy или window.
- Условие соединения или следующее преобразование после присоединенного кадра данных относится к нераспространенным столбцам. Например:
df.join(df.drop("a"), df("a") === 1)
- Эти два DataFrames имеют общие столбцы, но результат самосоединения не имеет общих столбцов. Например:
- Исправлена регрессия в выпуске обслуживания от 12 января 2021 года, которая может привести к возникновению неправильного AnalysisException и сообщить, что столбец неоднозначен в случае самосоединения. Эта регрессия происходит, когда пользователь присоединяет DataFrame к его производному DataFrame (так называемое самообъединение) при следующих условиях:
12 января 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-33593][SQL] Векторный ридер получил неправильные данные с двоичным значением раздела
- [SPARK-33677][SQL] Правило LikeSimplification пропускается, если шаблон содержит какие-либо escape-символы (escapeChar)
- [SPARK-33071][SPARK-33536][SQL] Избегать изменения dataset_id логического плана в join(), чтобы не прерывать DetectAmbiguousSelfJoin
8 декабря 2020 г.
- [SPARK-27421][SQL] Исправлен фильтр для столбца int и класса значений java.lang.String при отсечении столбца раздела
-
[SPARK-33404][SQL] Исправлены неверные результаты в выражении
date_trunc
- [SPARK-33339][PYTHON] Приложение Pyspark теперь не зависает из-за ошибки, не связанной с исключением
- [SPARK-33183][SQL] Исправить правило оптимизатора EliminateSorts и добавить физическое правило для удаления избыточных сортировок
- [SPARK-33391][SQL] element_at с CreateArray не учитывает индекс на основе единицы.
- Обновления системы безопасности операционной системы.
1 декабря 2020 г.
- [SPARK-33306][SQL]Часовой пояс необходим при преобразовании даты в строку
- [SPARK-33260][SQL] Исправлены неверные результаты из SortExec, если sortOrder имеет значение Stream
3 ноября 2020 г.
- Обновлена версия Java с версии 1.8.0 _252 до версии 1.8.0 _265.
- Исправление блокировки АБФС и WASB в отношении UserGroupInformation.getCurrentUser()
- Устранение ошибки бесконечного цикла чтения Avro при чтении МАГИЧЕСКИХ байтов.
13 октября 2020 г.
- Обновления системы безопасности операционной системы.
- [SPARK-32999][SQL] используется Utils.getSimpleName, чтобы избежать попадания на неправильное имя класса в TreeNode
- Исправлены каталоги списков в подсоединении FUSE, содержащие имена файлов с недопустимыми XML-символами
- Для соединения FUSE больше не используется ListMultipartUploads
29 сентября 2020 г.
- [SPARK-28863][SQL][WARMFIX] Внедрение AlreadyOptimized, чтобы предотвратить повторный анализ V1FallbackWriters
- [SPARK-32635][SQL] Исправление свертываемого распространения
- Добавлен новый файл конфигурации
spark.shuffle.io.decoder.consolidateThreshold
. Задайте значение конфигурацииLong.MAX_VALUE
, чтобы пропустить консолидацию netty FrameBuffers, что предотвращаетjava.lang.IndexOutOfBoundsException
в крайних случаях.
24 сентября 2020 г.
- [SPARK-32764][SQL] -0,0 должен быть равен 0,0
- [SPARK-32753][SQL] Копирование только тегов в узел без тегов при преобразовании планов
- [SPARK-32659][SQL] Исправлена проблема с данными при вставке с динамическим отбором секций для неатомарного типа
- Обновления системы безопасности операционной системы.
8 сентября 2020 г.
- Для Azure Synapse Analytics был создан новый параметр
maxbinlength
. Этот параметр используется для управления длиной столбцов BinaryType и преобразуется какVARBINARY(maxbinlength)
. Его можно задать с помощью.option("maxbinlength", n)
, где 0 < n <= 8000.
- Для Azure Synapse Analytics был создан новый параметр
Databricks Runtime 7.1 (EoS)
См. раздел Databricks Runtime 7.1 (EoS).
4 февраля 2021 г.
- Исправлена регрессия, из-за которой DBFS FUSE не запускается, если конфигурации переменных среды кластера содержат недопустимый синтаксис bash.
20 января 2021 г.
- Исправлена регрессия в выпуске обслуживания от 12 января 2021 г., которая может привести к возникновению исключения AnalysisException и указывать на неоднозначность столбца в случае самосоединения. Эта регрессия происходит, когда пользователь объединяет DataFrame с его производным DataFrame (так называемое самоприсоединение) при следующих условиях:
- Эти два DataFrame имеют общие столбцы, но выходные данные после self join не имеют общих столбцов. Например:
df.join(df.select($"col" as "new_col"), cond)
- Производный DataFrame исключает некоторые столбцы с помощью операторов select, groupBy или окна.
- Условие соединения или следующее преобразование после соединения фрейма данных относится к необщим столбцам. Например:
df.join(df.drop("a"), df("a") === 1)
- Эти два DataFrame имеют общие столбцы, но выходные данные после self join не имеют общих столбцов. Например:
- Исправлена регрессия в выпуске обслуживания от 12 января 2021 г., которая может привести к возникновению исключения AnalysisException и указывать на неоднозначность столбца в случае самосоединения. Эта регрессия происходит, когда пользователь объединяет DataFrame с его производным DataFrame (так называемое самоприсоединение) при следующих условиях:
12 января 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-33593][SQL] Векторный ридер получил неправильные данные с двоичным значением раздела
- [SPARK-33677][SQL] Правило LikeSimplification пропускается, если шаблон содержит какие-либо escape-символы (escapeChar)
- [SPARK-33071][SPARK-33536][SQL] Избегать изменения dataset_id в LogicalPlan при join(), чтобы не нарушить DetectAmbiguousSelfJoin
8 декабря 2020 г.
- [SPARK-27421][SQL] Исправлен фильтр для столбца типа int и класса значений типа java.lang.String при обрезке столбца раздела
- Здания Spark, запущенные с помощью Databricks Connect, могут зависнуть в течение неограниченного времени с
Executor$TaskRunner.$anonfun$copySessionState
трассировки стека исполнителя - Обновления системы безопасности операционной системы.
1 декабря 2020 г.
-
[SPARK-33404][SQL] [3.0] Исправлены неверные результаты в выражении
date_trunc
- [SPARK-33339][PYTHON] Приложение Pyspark теперь не зависает из-за ошибки, не связанной с исключением
- [SPARK-33183][SQL][HOTFIX] Исправление правила оптимизатора EliminateSorts и добавление физического правила для удаления избыточных сортировок
- [SPARK-33371][PYTHON][3.0] Обновление setup.py и тестов для Python 3.9
- [SPARK-33391][SQL] element_at с CreateArray не учитывает индекс на основе единицы.
- [SPARK-33306][SQL]Часовой пояс необходим, когда дата преобразуется в строку
-
[SPARK-33404][SQL] [3.0] Исправлены неверные результаты в выражении
3 ноября 2020 г.
- Обновлена версия Java с версии 1.8.0 _252 до версии 1.8.0 _265.
- Исправление блокировки АБФС и WASB в отношении UserGroupInformation.getCurrentUser()
- Устранение ошибки бесконечного цикла чтения Avro при чтении МАГИЧЕСКИХ байтов.
13 октября 2020 г.
- Обновления системы безопасности операционной системы.
- [SPARK-32999][SQL] используется Utils.getSimpleName, чтобы избежать попадания на неправильное имя класса в TreeNode
- Исправлены каталоги списков в подсоединении FUSE, содержащие имена файлов с недопустимыми XML-символами
- Для соединения FUSE больше не используется ListMultipartUploads
29 сентября 2020 г.
- [SPARK-28863][SQL][WARMFIX] Внедрение AlreadyOptimized, чтобы предотвратить повторный анализ V1FallbackWriters
- [SPARK-32635][SQL] Исправление свертываемого распространения
- Добавлен новый файл конфигурации
spark.shuffle.io.decoder.consolidateThreshold
. Задайте значение конфигурацииLong.MAX_VALUE
, чтобы пропустить консолидацию netty FrameBuffers, которая предотвращаетjava.lang.IndexOutOfBoundsException
в угловых случаях.
24 сентября 2020 г.
- [SPARK-32764][SQL] -0,0 должен быть равен 0,0
- [SPARK-32753][SQL] Копирование только тегов в узел без тегов при преобразовании планов
- [SPARK-32659][SQL] Исправлена проблема с данными при вставке с динамическим обрезанием разделов для неатомарного типа
- Обновления системы безопасности операционной системы.
8 сентября 2020 г.
- Для Azure Synapse Analytics был создан новый параметр
maxbinlength
. Этот параметр используется для управления длиной столбцов BinaryType и преобразуется какVARBINARY(maxbinlength)
. Его можно задать с помощью.option("maxbinlength", n)
, где 0 < n <= 8000.
- Для Azure Synapse Analytics был создан новый параметр
25 августа 2020 г.
-
[SPARK-32159][SQL] Исправление интеграции между
Aggregator[Array[_], _, _]
иUnresolvedMapObjects
-
[SPARK-32559][SQL] Исправление логики обрезки в
UTF8String.toInt/toLong
, которая неправильно обрабатывала символы, отличные от ASCII -
[SPARK-32543][R] Удаление использования
arrow::as_tibble
в SparkR - [SPARK-32091][CORE] Игнорирование ошибки времени ожидания при удалении блоков в потерянном исполнителе
- Исправлена проблема, влияющая на соединитель Azure Synapse с учетными данными MSI
- Исправлено неоднозначное разрешение атрибутов в самослиянии
-
[SPARK-32159][SQL] Исправление интеграции между
18 августа 2020 г.
- [SPARK-32594][SQL] Исправлена сериализация дат, вставленных в таблицы Hive
- [SPARK-32237][SQL] Разрешение указания в CTE
- [SPARK-32431][SQL] Проверить повторяющиеся вложенные столбцы при чтении из встроенных источников данных
- [SPARK-32467][UI] Избежание кодирования URL-адреса дважды при перенаправлении https
- Исправлено состояние гонки в соединителе АКС при использовании Trigger.Once.
11 августа 2020 г.
- [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight должен перезаписывать атрибуты только для узлов-предков плана конфликтов
- [SPARK-32234][SQL] Команды SQL Spark завершаются сбоем при выборке таблиц ORC
3 августа 2020 г.
- Теперь можно использовать функцию преобразования LDA в кластере с транзитным включением.
Databricks Runtime 7.0 (EoS)
См. раздел Databricks Runtime 7.0 (EoS).
4 февраля 2021 г.
- Исправлена регрессия, из-за которой DBFS FUSE не запускается, если конфигурации переменных среды кластера содержат недопустимый синтаксис bash.
20 января 2021 г.
- Исправлена регрессия в техническом выпуске от 12 января 2021 г., которая может вызвать неправильное исключение Analysis и указать, что столбец является неоднозначным в случае самосоединения. Эта регрессия происходит, когда пользователь объединяет кадр данных со своим производным кадром данных (так называемым самообъединением) при следующих условиях:
- Эти два DataFrame-ов имеют общие столбцы, но результат соединения с самим собой не содержит общих столбцов. Например:
df.join(df.select($"col" as "new_col"), cond)
- Производный DataFrame исключает некоторые столбцы с помощью операций select, groupBy или windowing.
- Условие объединения или последующее преобразование после объединённого фрейма данных относится к столбцам, не являющимся общими. Например:
df.join(df.drop("a"), df("a") === 1)
- Эти два DataFrame-ов имеют общие столбцы, но результат соединения с самим собой не содержит общих столбцов. Например:
- Исправлена регрессия в техническом выпуске от 12 января 2021 г., которая может вызвать неправильное исключение Analysis и указать, что столбец является неоднозначным в случае самосоединения. Эта регрессия происходит, когда пользователь объединяет кадр данных со своим производным кадром данных (так называемым самообъединением) при следующих условиях:
12 января 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-33593][SQL] Модуль чтения векторов получил неправильные данные с двоичным значением раздела
- [SPARK-33677][SQL] Правило LikeSimplification пропускается, если шаблон содержит какие-либо escape-символы (escapeChar)
- [SPARK-33071][SPARK-33536][SQL] Избегать изменения dataset_id ЛогическогоПлана при выполнении операции соединения, чтобы не прерывать ОбнаружениеAmbiguousSelfJoin
8 декабря 2020 г.
- [SPARK-27421][SQL] Исправлен фильтр для столбца int и класса значений java.lang.String при обрезке столбца секции
-
[SPARK-33404][SQL] Исправлены неверные результаты в выражении
date_trunc
- [SPARK-33339][PYTHON] Приложение Pyspark теперь не зависает из-за ошибки, не связанной с исключением
- [SPARK-33183][SQL] Исправление правила оптимизатора EliminateSorts и добавление физического правила для удаления избыточных сортировок
- [SPARK-33391][SQL] element_at с CreateArray не учитывает индекс на основе единицы.
- Обновления системы безопасности операционной системы.
1 декабря 2020 г.
- [SPARK-33306][SQL]Необходимо указать часовой пояс при преобразовании даты в строку
3 ноября 2020 г.
- Обновлена версия Java с версии 1.8.0 _252 до версии 1.8.0 _265.
- Исправление блокировки АБФС и WASB в отношении UserGroupInformation.getCurrentUser()
- Устранение ошибки бесконечного цикла чтения Avro при чтении МАГИЧЕСКИХ байтов.
13 октября 2020 г.
- Обновления системы безопасности операционной системы.
- [SPARK-32999][SQL] используется Utils.getSimpleName, чтобы избежать попадания на неправильное имя класса в TreeNode
- Исправлены каталоги списков в подсоединении FUSE, содержащие имена файлов с недопустимыми XML-символами
- Для соединения FUSE больше не используется ListMultipartUploads
29 сентября 2020 г.
- [SPARK-28863][SQL][WARMFIX] Внедрение AlreadyOptimized, чтобы предотвратить повторный анализ V1FallbackWriters
- [SPARK-32635][SQL] Исправление свертываемого распространения
- Добавлен новый файл конфигурации
spark.shuffle.io.decoder.consolidateThreshold
. Задайте значение конфигурацииLong.MAX_VALUE
, чтобы пропустить консолидацию netty FrameBuffers, которая предотвращаетjava.lang.IndexOutOfBoundsException
в угловых случаях.
24 сентября 2020 г.
- [SPARK-32764][SQL] -0,0 должен быть равен 0,0
- [SPARK-32753][SQL] Копирование только тегов в узел без тегов при преобразовании планов
- [SPARK-32659][SQL] Исправлена проблема с данными вставленной динамической фильтрации секций в неатомарном типе
- Обновления системы безопасности операционной системы.
8 сентября 2020 г.
- Для Azure Synapse Analytics был создан новый параметр
maxbinlength
. Этот параметр используется для управления длиной столбцов BinaryType и преобразуется какVARBINARY(maxbinlength)
. Его можно задать с помощью.option("maxbinlength", n)
, где 0 < n <= 8000.
- Для Azure Synapse Analytics был создан новый параметр
25 августа 2020 г.
-
[SPARK-32159][SQL] Исправление интеграции между
Aggregator[Array[_], _, _]
иUnresolvedMapObjects
-
[SPARK-32559][SQL] Исправление логики обрезки в
UTF8String.toInt/toLong
, которая неправильно обрабатывала символы, отличные от ASCII -
[SPARK-32543][R] Удаление использования
arrow::as_tibble
в SparkR - [SPARK-32091][CORE] Игнорирование ошибки времени ожидания при удалении блоков в потерянном исполнителе
- Исправлена проблема, влияющая на соединитель Azure Synapse с учетными данными MSI
- Исправлено неоднозначное разрешение атрибутов в самослиянии
-
[SPARK-32159][SQL] Исправление интеграции между
18 августа 2020 г.
- [SPARK-32594][SQL] Исправлена сериализация дат, вставленных в таблицы Hive
- [SPARK-32237][SQL] Разрешение указания в CTE
- [SPARK-32431][SQL] Проверяются повторяющиеся вложенные столбцы при чтении из встроенных источников данных
- [SPARK-32467][UI] Избежание кодирования URL-адреса дважды при перенаправлении https
- Исправлено состояние гонки в соединителе АКС при использовании Trigger.Once.
11 августа 2020 г.
- [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight должен перезаписывать атрибуты только для узлов-предков плана конфликтов
- [SPARK-32234][SQL] Команды Spark SQL проваливаются при выборе таблиц ORC
- Теперь можно использовать функцию преобразования LDA в кластере с транзитным включением.
Databricks Runtime 6.6 (EoS)
См. раздел Databricks Runtime 6.6 (EoS).
1 декабря 2020 г.
- [SPARK-33260][SQL] Исправлены неверные результаты из SortExec, если sortOrder имеет значение Stream
- [SPARK-32635][SQL] Исправление свертываемого распространения
3 ноября 2020 г.
- Обновлена версия Java с версии 1.8.0 _252 до версии 1.8.0 _265.
- Исправление блокировки АБФС и WASB в отношении UserGroupInformation.getCurrentUser()
- Устранение ошибки бесконечного цикла чтения Avro при чтении МАГИЧЕСКИХ байтов.
13 октября 2020 г.
- Обновления системы безопасности операционной системы.
- [SPARK-32999][SQL][2.4] используется Utils.getSimpleName, чтобы избежать попадания на неправильное имя класса в TreeNode
- Исправлены каталоги списков в подсоединении FUSE, содержащие имена файлов с недопустимыми XML-символами
- Для соединения FUSE больше не используется ListMultipartUploads
24 сентября 2020 г.
- Обновления системы безопасности операционной системы.
8 сентября 2020 г.
- Для Azure Synapse Analytics был создан новый параметр
maxbinlength
. Этот параметр используется для управления длиной столбцов BinaryType и преобразуется какVARBINARY(maxbinlength)
. Его можно задать с помощью.option("maxbinlength", n)
, где 0 < n <= 8000. - Обновите пакет SDK для службы хранилища Azure до версии 8.6.4 и включите функцию поддержания активности TCP для подключений, созданных драйвером WASB.
- Для Azure Synapse Analytics был создан новый параметр
25 августа 2020 г.
- Исправлено неоднозначное разрешение атрибутов в самослиянии
18 августа 2020 г.
- [SPARK-32431][SQL] Проверка дублирующихся вложенных столбцов при чтении из встроенных источников данных
- Исправлено состояние гонки в соединителе АКС при использовании Trigger.Once.
11 августа 2020 г.
- [SPARK-28676][CORE] Избежание чрезмерного ведения журнала из ContextCleaner
- [SPARK-31967][UI] Переход к предыдущей версии vis.js 4.21.0 для исправления регрессии времени загрузки пользовательского интерфейса задания
3 августа 2020 г.
- Теперь можно использовать функцию преобразования LDA в кластере с транзитным включением.
- Обновления системы безопасности операционной системы.
Databricks Runtime 6.5 (EoS)
См. раздел Databricks Runtime 6.5 (EoS).
- 24 сентября 2020 г.
- Исправлено предыдущее ограничение, при котором сквозная передача в стандартном кластере по-прежнему ограничивала возможность пользователя использовать реализацию файловой системы. Теперь пользователи смогут получать доступ к локальной файловой системе без ограничений.
- Обновления системы безопасности операционной системы.
- 8 сентября 2020 г.
- Для Azure Synapse Analytics был создан новый параметр
maxbinlength
. Этот параметр используется для управления длиной столбцов BinaryType и преобразуется какVARBINARY(maxbinlength)
. Его можно задать с помощью.option("maxbinlength", n)
, где 0 < n <= 8000. - Обновите пакет SDK для хранилища Azure до версии 8.6.4 и включите функцию TCP keep alive для подключений, установленных драйвером WASB.
- Для Azure Synapse Analytics был создан новый параметр
- 25 августа 2020 г.
- Исправлено неоднозначное разрешение атрибутов в самослиянии
- 18 августа 2020 г.
- [SPARK-32431][SQL] Проверка дублирующихся вложенных столбцов при чтении из встроенных источников данных
- Исправлено состояние гонки в соединителе АКС при использовании Trigger.Once.
- 11 августа 2020 г.
- [SPARK-28676][CORE] Избежание чрезмерного ведения журнала из ContextCleaner
- 3 августа 2020 г.
- Теперь можно использовать функцию преобразования LDA в кластере с транзитным включением.
- Обновления системы безопасности операционной системы.
- 7 июля 2020 г.
- Обновлена версия Java с 1.8.0 _242 до 1.8.0 _252.
- 21 апреля 2020 г.
- [SPARK-31312][SQL] Экземпляр класса кэша для экземпляра UDF в HiveFunctionWrapper
Databricks Runtime 6.3 (EoS)
См. раздел Databricks Runtime 6.3 (EoS).
- 7 июля 2020 г.
- Обновлена версия Java с версии 1.8.0_232 до версии 1.8.0_252.
- 21 апреля 2020 г.
- [SPARK-31312][SQL] Экземпляр класса кэша для экземпляра UDF в HiveFunctionWrapper
- 7 апреля 2020 г.
- Чтобы устранить проблему с Pandas UDF, которая не работает с PyArrow 0.15.0 и выше, мы добавили переменную среды (
ARROW_PRE_0_15_IPC_FORMAT=1
), чтобы обеспечить поддержку этих версий PyArrow. См. инструкции в [SPARK-29367].
- Чтобы устранить проблему с Pandas UDF, которая не работает с PyArrow 0.15.0 и выше, мы добавили переменную среды (
- 10 марта 2020 г.
- Соединитель Snowflake (
spark-snowflake_2.11
), включенный в Databricks Runtime, обновляется до версии 2.5.9.snowflake-jdbc
обновлен до версии 3.12.0.
- Соединитель Snowflake (
- 18 февраля 2020 г.
- Транзитная передача учетных данных с ADLS 2-го поколения имеет снижение производительности из-за неправильной локальной обработки цепочки, когда включена предварительная выборка клиентов ADLS. В этом выпуске отключена предварительная выборка ADLS 2-го поколения при включенной транзитной учетной записи, пока не будет установлено надлежащее исправление.
- 11 февраля 2020 г.
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 должно вызывать исключение
- [SPARK-30447][SQL] Ошибка при распространении констант, допускающих значения null
- [SPARK-28152][SQL] Добавление устаревшего объекта conf для старого числового сопоставления MsSqlServerDialect
- Добавлена в список разрешений функция перезаписи, чтобы имелась возможность вызвать эту функцию с помощью расширений MLModels MLWriter.
Databricks Runtime 6.2 (EoS)
См. раздел Databricks Runtime 6.2 (EoS).
- 21 апреля 2020 г.
- [SPARK-31312][SQL] Экземпляр класса кэша для экземпляра UDF в HiveFunctionWrapper
- 7 апреля 2020 г.
- Чтобы устранить проблему с Pandas UDF, которая не работает с PyArrow 0.15.0 и выше, мы добавили переменную среды (
ARROW_PRE_0_15_IPC_FORMAT=1
), чтобы обеспечить поддержку этих версий PyArrow. См. инструкции в [SPARK-29367].
- Чтобы устранить проблему с Pandas UDF, которая не работает с PyArrow 0.15.0 и выше, мы добавили переменную среды (
- 25 марта 2020 г.
- Выходные данные задания, такие как данные журнала, выводимые в stdout, подлежат ограничению размера в 20 МБ. Если общий объем выходных данных имеет больший размер, выполнение будет отменено и помечено как неудавшееся. Чтобы избежать достижения этого ограничения, можно предотвратить передачу stdout от драйвера, настроив конфигурацию
spark.databricks.driver.disableScalaOutput
Spark наtrue
. По умолчанию флаг имеет значениеfalse
. Флаг контролирует выходные данные ячейки для заданий JAR Scala и записных книжек Scala. Если флаг включен, Spark не возвращает клиенту результаты выполнения задания. Флаг не влияет на данные, записываемые в файлы журналов кластера. Установка этого флага рекомендуется только для автоматических кластеров для заданий JAR, так как это приведет к отключению результатов записной книжки.
- Выходные данные задания, такие как данные журнала, выводимые в stdout, подлежат ограничению размера в 20 МБ. Если общий объем выходных данных имеет больший размер, выполнение будет отменено и помечено как неудавшееся. Чтобы избежать достижения этого ограничения, можно предотвратить передачу stdout от драйвера, настроив конфигурацию
- 10 марта 2020 г.
- Соединитель Snowflake (
spark-snowflake_2.11
), включенный в Databricks Runtime, обновляется до версии 2.5.9.snowflake-jdbc
обновлен до версии 3.12.0.
- Соединитель Snowflake (
- 18 февраля 2020 г.
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 должно вызывать исключение
- Транзитная передача учетных данных с ADLS 2-го поколения имеет снижение производительности из-за неправильной локальной обработки цепочки, когда включена предварительная выборка клиентов ADLS. В этом выпуске отключена предварительная выборка ADLS 2-го поколения при включенной транзитной учетной записи, пока не будет установлено надлежащее исправление.
- 28 января 2020 г.
- Внесена в список разрешений функция перезаписи модулей записи моделей ML для кластеров, включенных для передачи учетных данных, чтобы при сохранение модели использовать режим перезаписи для кластеров передачи учетных данных.
- [SPARK-30447][SQL] Постоянная проблема обнуляемости распространения.
- [SPARK-28152][SQL] Добавить устаревший объект conf для старой версии числового сопоставления MsSqlServerDialect.
- 14 января 2020 г.
- Обновлена версия Java с 1.8.0 _222 до 1.8.0 _232.
- 10 декабря 2019 г.
- [SPARK-29904][SQL] Анализ меток времени с точностью до микросекунд по источникам данных JSON / CSV.
Databricks Runtime 6.1 (EoS)
См. раздел Databricks Runtime 6.1 (EoS).
- 7 апреля 2020 г.
- Чтобы устранить проблему с Pandas UDF, которая не работает с PyArrow 0.15.0 и выше, мы добавили переменную среды (
ARROW_PRE_0_15_IPC_FORMAT=1
), чтобы обеспечить поддержку этих версий PyArrow. См. инструкции в [SPARK-29367].
- Чтобы устранить проблему с Pandas UDF, которая не работает с PyArrow 0.15.0 и выше, мы добавили переменную среды (
- 25 марта 2020 г.
- Выходные данные задания, такие как лог, выводимый в stdout, подлежат ограничению размера в 20 МБ. Если общий объем выходных данных имеет больший размер, выполнение будет отменено и помечено как неудавшееся. Чтобы избежать возникновения этого ограничения, можно предотвратить возврат stdout от драйвера, задав конфигурацию
spark.databricks.driver.disableScalaOutput
Spark дляtrue
. По умолчанию флаг имеет значениеfalse
. Флаг контролирует выходные данные ячейки для заданий JAR Scala и записных книжек Scala. Если флаг включен, Spark не возвращает клиенту результаты выполнения задания. Флаг не влияет на данные, записываемые в файлы журналов кластера. Установка этого флага рекомендуется только для автоматических кластеров для заданий JAR, так как это приведет к отключению результатов записной книжки.
- Выходные данные задания, такие как лог, выводимый в stdout, подлежат ограничению размера в 20 МБ. Если общий объем выходных данных имеет больший размер, выполнение будет отменено и помечено как неудавшееся. Чтобы избежать возникновения этого ограничения, можно предотвратить возврат stdout от драйвера, задав конфигурацию
- 10 марта 2020 г.
- Соединитель Snowflake (
spark-snowflake_2.11
), включенный в Databricks Runtime, обновляется до версии 2.5.9.snowflake-jdbc
обновлен до версии 3.12.0.
- Соединитель Snowflake (
- 18 февраля 2020 г.
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 должно вызывать исключение
- Транзитная передача учетных данных с ADLS 2-го поколения имеет снижение производительности из-за неправильной локальной обработки цепочки, когда включена предварительная выборка клиентов ADLS. В этом выпуске отключена предварительная выборка ADLS 2-го поколения при включенной транзитной учетной записи, пока не будет установлено надлежащее исправление.
- 28 января 2020 г.
- [SPARK-30447][SQL] Постоянная проблема обнуляемости распространения.
- [SPARK-28152][SQL] Добавить устаревший объект conf для старой версии числового сопоставления MsSqlServerDialect.
- 14 января 2020 г.
- Обновлена версия Java с 1.8.0 _222 до 1.8.0 _232.
- 7 ноября 2019 г.
- [SPARK-29743]примеру [SQL] следует задать значение trueCopyResult, если требуется для дочернего объектаCopyResult значение true.
- Секреты, на которые ссылаются свойства конфигурации и переменные среды Spark в общедоступной предварительной версии. Дополнительные сведения см. в статье Использование секретов в свойстве конфигурации Spark или переменной среды.
- 5 ноября 2019 г.
- Исправлена ошибка в DBFS FUSE для обработки точек подключения с
//
в пути. - [SPARK-29081] Замена вызовов SerializationUtils.clone на свойства с более быстрой реализацией
- [SPARK-29244][CORE] Предотвращение повторного освобождения страницы в BytesToBytesMap
- (6.1 ML) Библиотека mkl версии 2019.4 была установлена непреднамеренно. Мы перешли на использование более ранней версии mkl 2019.3 для соответствия дистрибутиву Anaconda 2019.03.
- Исправлена ошибка в DBFS FUSE для обработки точек подключения с
Databricks Runtime 6.0 (EoS)
См. раздел Databricks Runtime 6.0 (EoS).
- 25 марта 2020 г.
- Выходные данные задания, такие как выходные данные журнала, созданные в stdout, подлежат ограничению размера в 20 МБ. Если общий объем выходных данных имеет больший размер, выполнение будет отменено и помечено как неудавшееся. Чтобы избежать достижения этого ограничения, можно предотвратить возврат stdout от драйвера, настроив конфигурацию Spark
spark.databricks.driver.disableScalaOutput
наtrue
. По умолчанию флаг имеет значениеfalse
. Флаг контролирует выходные данные ячейки для заданий JAR Scala и записных книжек Scala. Если флаг включен, Spark не возвращает клиенту результаты выполнения задания. Флаг не влияет на данные, записываемые в файлы журналов кластера. Установка этого флага рекомендуется только для автоматических кластеров для заданий JAR, так как это приведет к отключению результатов записной книжки.
- Выходные данные задания, такие как выходные данные журнала, созданные в stdout, подлежат ограничению размера в 20 МБ. Если общий объем выходных данных имеет больший размер, выполнение будет отменено и помечено как неудавшееся. Чтобы избежать достижения этого ограничения, можно предотвратить возврат stdout от драйвера, настроив конфигурацию Spark
- 18 февраля 2020 г.
- Транзитная передача учетных данных с ADLS 2-го поколения имеет снижение производительности из-за неправильной локальной обработки цепочки, когда включена предварительная выборка клиентов ADLS. В этом выпуске отключена предварительная выборка ADLS 2-го поколения при включенной транзитной учетной записи, пока не будет установлено надлежащее исправление.
- 11 февраля 2020 г.
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 должно вызывать исключение
- 28 января 2020 г.
- [SPARK-30447][SQL] Постоянная проблема обнуляемости распространения.
- [SPARK-28152][SQL] Добавить устаревший объект conf для старой версии числового сопоставления MsSqlServerDialect.
- 14 января 2020 г.
- Обновлена версия Java с 1.8.0 _222 до 1.8.0 _232.
- 19 ноября 2019 г.
- [SPARK-29743] [SQL] пример должен установить needCopyResult в true, если дочерний элемент также имеет needCopyResult, равный true
- 5 ноября 2019 г.
-
dbutils.tensorboard.start()
теперь поддерживает TensorBoard 2.0 (если установлено вручную). - Исправлена ошибка в DBFS FUSE для обработки точек подключения с
//
в пути. - [SPARK-29081]Замена вызовов SerializationUtils.clone на свойства с более быстрой реализацией
-
- 23 октября 2019 г.
- [SPARK-29244][CORE] Предотвращение повторного освобождения страницы в BytesToBytesMap
- 8 октября 2019 г.
- Изменения на стороне сервера, позволяющие драйверу Simba Apache Spark ODBC повторно подключаться и продолжать работу после сбоя подключения во время получения результатов (требуется драйвер Simba Apache Spark ODBC версии 2.6.10).
- Исправлена проблема, влияющая на применение команды
Optimize
на кластерах с включенными ACL таблицами. - Исправлена проблема, из-за которой библиотеки
pyspark.ml
не удавались из-за ошибки запрещенного использования Scala UDF на кластерах с включенными табличными ACL и передачей учетных данных. - Добавлены в список разрешений методы SerDe/SerDeUtil для транзитной передачи учетных данных.
- Внесены исправления в NullPointerException при проверке кода ошибки в клиенте WASB.
- Исправлена проблема, из-за которой учетные данные пользователя не были переадресованы в задания, созданные
dbutils.notebook.run()
.
Databricks Runtime 5.4 ML (EoS)
См. раздел Databricks Runtime 5.4 для машинного обучения (EoS).
- 18 июня 2019 г.
- Улучшена обработка активных запусков MLflow в интеграции Hyperopt
- Доработаны сообщения в Hyperopt
- Обновлен пакет
Marchkdown
с версии 3.1 на версию 3.1.1
Databricks Runtime 5.4 (EoS)
См. раздел Databricks Runtime 5.4 (EoS).
- 19 ноября 2019 г.
- [SPARK-29743] [SQL] образец должен установить параметр needCopyResult в true, если параметр needCopyResult дочернего элемента равен true
- 8 октября 2019 г.
- Изменения на стороне сервера, позволяющие драйверу ODBC Apache Spark Simba повторно подключиться и продолжить после сбоя подключения во время получения результатов (требуется обновление драйвера ODBC для Apache Simba Apache Spark до версии 2.6.10).
- Внесены исправления в NullPointerException при проверке кода ошибки в клиенте WASB.
- 10 сентября 2019 г.
- Добавить потокобезопасный итератор в BytesToBytesMap
- Исправлена ошибка, влияющая на определенные глобальные запросы на агрегирование.
- [SPARK-27330][SS] Поддержка прерывания задачи в средстве записи foreach
- [SPARK-28642]Скрыть учетные данные в SHOW CREATE TABLE
- [SPARK-28699][SQL] Отключение использования сортировки системы счисления для ShuffleExchangeExec в случае повторного секционирования
- [SPARK-28699][CORE] Исправлен пограничный случай для отмены промежуточного этапа.
- 27 августа 2019 г.
- Исправлена проблема, влияющая на определенные выражения
transform
- Исправлена проблема, влияющая на определенные выражения
- 13 августа 2019 г.
- Источник потоковой передачи Delta должен проверить последний протокол таблицы.
- [SPARK-28489][SS]Исправлена ошибка, при которой KafkaOffsetRangeCalculator.getRanges мог не учитывать смещения
- 30 июля 2019 г.
- [SPARK-28015][SQL] Проверка stringToDate() использует все входные данные для форматов гггг и гггг-[м]м.
- [SPARK-28308][CORE] Часть CalendarInterval менее секунды должна быть увеличена перед анализом
- [SPARK-27485]EnsureRequirements.reorder теперь корректно обрабатывает дубликаты выражений
- 2 июля 2019 г.
- Обновленная привязка — Java с версии 1.1.7.1 до версии 1.1.7.3.
- 18 июня 2019 г.
- Улучшена обработка активных запусков MLflow в интеграции MLlib
- Улучшено сообщение помощника по Databricks, связанное с использованием кэша диска
- Исправлена ошибка, влияющая на использование функций более высокого порядка
- Исправлена ошибка, влияющая на запросы разностных метаданных
Databricks Runtime 5.3 (EoS)
См. раздел Databricks Runtime 5.3 (EoS).
- 7 ноября 2019 г.
- [SPARK-29743][SQL] в образце переменная needCopyResult должна быть установлена в значение true, если для дочернего объекта needCopyResult также равно true.
- 8 октября 2019 г.
- Изменения на стороне сервера, позволяющие драйверу ODBC Apache Spark Simba повторно подключиться и продолжить после сбоя подключения во время получения результатов (требуется обновление драйвера ODBC для Apache Simba Apache Spark до версии 2.6.10).
- Внесены исправления в NullPointerException при проверке кода ошибки в клиенте WASB.
- 10 сентября 2019 г.
- Добавить потокобезопасный итератор в BytesToBytesMap
- Исправлена ошибка, влияющая на определенные глобальные запросы на агрегирование.
- [SPARK-27330][SS] Поддержка прерывания задачи в средстве записи foreach
- [SPARK-28642]Скрыть учетные данные в SHOW CREATE TABLE
- [SPARK-28699][SQL] Отключение использования сортировки системы счисления для ShuffleExchangeExec в случае повторного секционирования
- [SPARK-28699][CORE] Исправлен пограничный случай для отмены промежуточного этапа.
- 27 августа 2019 г.
- Исправлена проблема, влияющая на определенные выражения
transform
- Исправлена проблема, влияющая на определенные выражения
- 13 августа 2019 г.
- Источник потоковой передачи Delta должен проверить самый новый протокол таблицы.
- [SPARK-28489][SS]Исправлена ошибка, при которой KafkaOffsetRangeCalculator.getRanges мог не учитывать смещения
- 30 июля 2019 г.
- [SPARK-28015][SQL] Проверка stringToDate() использует все входные данные для форматов гггг и гггг-[м]м.
- [SPARK-28308][CORE] Часть CalendarInterval менее секунды должна быть увеличена перед анализом
- [SPARK-27485]EnsureRequirements.reorder теперь корректно обрабатывает дубликаты выражений
- 18 июня 2019 г.
- Улучшено сообщение помощника по Databricks, связанное с использованием кэша диска
- Исправлена ошибка, влияющая на использование функций более высокого порядка
- Исправлена ошибка, влияющая на запросы разностных метаданных
- 28 мая 2019 г.
- Повышена стабильность Delta
- Допустимость операций ввода-вывода при чтении файла Delta LAST_CHECKPOINT
- Добавлена возможность восстановления при сбое установки библиотеки
- 7 мая 2019 г.
- Порт HADOOP-15778 (ABFS: исправление регулирования на стороне клиента для чтения) для соединителя Azure Data Lake Storage 2-го поколения
- Порт HADOOP-16040 (ABFS: исправление ошибки конфигурации tolerateOobAppends) для соединителя Azure Data Lake Storage 2-го поколения
- Исправлена ошибка, влияющая на списки управления доступом к таблицам
- Исправлено состояние гонки при загрузке разностного файла контрольной суммы журнала
- Исправлена логика обнаружения конфликтов Delta, чтобы не идентифицировать операцию "вставка + перезапись" как "добавление"
- Убедитесь, что кэширование дисков не отключено при включении списков управления доступом к таблицам
- [SPARK-27494][SS] Ключи и значения NULL не работают в источнике Kafka версии 2
- [SPARK-27446][R] При доступности используется существующая конфигурация Spark.
- [SPARK-27454] [SPARK-27454] [ML] [SQL] Сбой источника данных изображения Spark при обнаружении некоторых недопустимых образов
- [SPARK-27160][SQL] Исправлен DecimalType при создании фильтров ORC
- [SPARK-27338][CORE] Исправлена взаимоблокировка между UnsafeExternalSorter и TaskMemoryManager
Databricks Runtime 5.2 (EoS)
См. раздел Databricks Runtime 5.2 (EoS).
- 10 сентября 2019 г.
- Добавить потокобезопасный итератор в BytesToBytesMap
- Исправлена ошибка, влияющая на определенные глобальные запросы на агрегирование.
- [SPARK-27330][SS] Поддержка прерывания задачи в средстве записи foreach
- [SPARK-28642]Скрыть учетные данные в SHOW CREATE TABLE
- [SPARK-28699][SQL] Отключение использования сортировки системы счисления для ShuffleExchangeExec в случае повторного секционирования
- [SPARK-28699][CORE] Исправлен пограничный случай для отмены промежуточного этапа.
- 27 августа 2019 г.
- Исправлена проблема, влияющая на определенные выражения
transform
- Исправлена проблема, влияющая на определенные выражения
- 13 августа 2019 г.
- Источник потоковой передачи Delta должен проверить самый последний протокол таблицы.
- [SPARK-28489][SS]Исправлена ошибка, при которой KafkaOffsetRangeCalculator.getRanges мог не учитывать смещения
- 30 июля 2019 г.
- [SPARK-28015][SQL] Проверка stringToDate() использует все входные данные для форматов гггг и гггг-[м]м.
- [SPARK-28308][CORE] Часть CalendarInterval менее секунды должна быть увеличена перед анализом
- [SPARK-27485]EnsureRequirements.reorder теперь корректно обрабатывает дубликаты выражений
- 2 июля 2019 г.
- Допущение IOExceptions при чтении файла Delta LAST_CHECKPOINT
- 18 июня 2019 г.
- Улучшено сообщение помощника по Databricks, связанное с использованием кэша диска
- Исправлена ошибка, влияющая на использование функций более высокого порядка
- Исправлена ошибка, влияющая на запросы разностных метаданных
- 28 мая 2019 г.
- Добавлена возможность восстановления при сбое установки библиотеки
- 7 мая 2019 г.
- Порт HADOOP-15778 (ABFS: исправление регулирования на стороне клиента для чтения) для соединителя Azure Data Lake Storage 2-го поколения
- Порт HADOOP-16040 (ABFS: исправление ошибки конфигурации tolerateOobAppends) для соединителя Azure Data Lake Storage 2-го поколения
- Исправлено состояние гонки при загрузке разностного файла контрольной суммы журнала
- Исправлена логика обнаружения конфликтов Delta, чтобы не идентифицировать "вставка + перезапись" как исключительно операцию "добавление"
- Убедитесь, что дисковое кэширование не отключено при включении таблиц ACL.
- [SPARK-27494][SS] Ключи и значения NULL не работают в источнике Kafka версии 2
- [SPARK-27454] [SPARK-27454] [ML] [SQL] Сбой источника данных изображения Spark при обнаружении некоторых недопустимых образов
- [SPARK-27160][SQL] Исправлен DecimalType при создании фильтров ORC
- [SPARK-27338][CORE] Исправлена взаимоблокировка между UnsafeExternalSorter и TaskMemoryManager
- 26 марта 2019 г.
- Теперь не допускается встраивание зависящих от платформы смещений прямо в сгенерированный для целого этапа код
- [SPARK-26665][CORE] Исправлена ошибка, которая могла приводить к постоянному зависанию BlockTransferService.fetchBlockSync.
- [SPARK-27134]функция [SQL array_distinct] не работает правильно со столбцами, содержащими массив массивов.
- [SPARK-24669][SQL] Недопустимые таблицы в случае DROP DATABASE CASCADE.
- [SPARK-26572][SQL] Исправлена агрегированная оценка результатов создания кода.
- Исправлена ошибка, влияющая на определенные PythonUDF.
- 26 февраля 2019 г.
- [SPARK-26864][SQL] Запрос может возвращать неправильный результат, если udf python используется в качестве условия соединения с левой точкой с запятой.
- [SPARK-26887][PYTHON] Теперь создается datetime.date напрямую вместо создания datetime64 в виде промежуточных данных.
- Исправлена ошибка, влияющая на сервер JDBC/ODBC.
- Исправлена ошибка, влияющая на PySpark.
- Исключены скрытые файлы при создании HadoopRDD.
- Исправлена ошибка в Delta, которая привела к проблемам сериализации.
- 12 февраля 2019 г.
- Исправлена проблема, влияющая на использование Delta с точками подключения Azure ADLS 2-го поколения.
- Исправлена проблема, из-за которой сетевой протокол Spark низкого уровня может быть нарушен при отправке больших сообщений об ошибках RPC с включенным шифрованием (если для
spark.network.crypto.enabled
задано значение true).
- 30 января 2019 г.
- Исправлена ошибка StackOverflowError при добавлении подсказки перекошенного соединения в кэшированное отношение.
- Исправлено несоответствие между кэшированным RDD кэша SQL и его физическим планом, который приводит к неправильному результату.
-
[SPARK-26706][SQL] Исправление
illegalNumericPrecedence
для ByteType. - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery теперь правильно обрабатывает пустые записи.
- Источники данных CSV/JSON должны избегать путей глоббинга при выводе схемы.
- Исправлено вывод ограничений в операторе Window.
- Исправлена проблема, влияющая на установку библиотек в формате egg в кластерах с включенными таблицами ACL.
Databricks Runtime 5.1 (EoS)
См. раздел Databricks Runtime 5.1 (EoS).
- 13 августа 2019 г.
- Источник потоковой передачи Delta должен проверить актуальный протокол таблицы.
- [SPARK-28489][SS]Исправлена ошибка, при которой KafkaOffsetRangeCalculator.getRanges мог не учитывать смещения
- 30 июля 2019 г.
- [SPARK-28015][SQL] Проверка stringToDate() использует все входные данные для форматов гггг и гггг-[м]м.
- [SPARK-28308][CORE] Часть CalendarInterval менее секунды должна быть увеличена перед анализом
- [SPARK-27485]EnsureRequirements.reorder теперь корректно обрабатывает дубликаты выражений
- 2 июля 2019 г.
- Допущение IOExceptions при чтении файла Delta LAST_CHECKPOINT
- 18 июня 2019 г.
- Исправлена ошибка, влияющая на использование функций более высокого порядка
- Исправлена ошибка, влияющая на запросы разностных метаданных
- 28 мая 2019 г.
- Добавлена возможность восстановления при сбое установки библиотеки
- 7 мая 2019 г.
- Порт HADOOP-15778 (ABFS: исправление регулирования на стороне клиента для чтения) для соединителя Azure Data Lake Storage 2-го поколения
- Порт HADOOP-16040 (ABFS: исправление ошибки конфигурации tolerateOobAppends) для соединителя Azure Data Lake Storage 2-го поколения
- Исправлено состояние гонки при загрузке разностного файла контрольной суммы журнала
- Исправлена логика обнаружения конфликтов разностных данных, чтобы не идентифицировать "вставка + перезапись" как однозначную операцию "добавление"
- [SPARK-27494][SS] Ключи и значения NULL не работают в источнике Kafka версии 2
- [SPARK-27454] [SPARK-27454] [ML] [SQL] Сбой источника данных изображения Spark при обнаружении некоторых недопустимых образов
- [SPARK-27160][SQL] Исправлен DecimalType при создании фильтров ORC
- [SPARK-27338][CORE] Исправлена взаимоблокировка между UnsafeExternalSorter и TaskMemoryManager
- 26 марта 2019 г.
- Теперь не допускается встраивание зависящих от платформы смещений прямо в сгенерированный для целого этапа код
- Исправлена ошибка, влияющая на определенные PythonUDF.
- 26 февраля 2019 г.
- [SPARK-26864][SQL] Запрос может возвращать неправильный результат, если udf на Python используется в качестве условия полусоединения слева.
- Исправлена ошибка, влияющая на сервер JDBC/ODBC.
- Исключены скрытые файлы при создании HadoopRDD.
- 12 февраля 2019 г.
- Исправлена проблема, влияющая на установку библиотек Egg для кластеров с включенной таблицей ACL.
- Исправлено несоответствие между кэшированным RDD кэша SQL и его физическим планом, который приводит к неправильному результату.
-
[SPARK-26706][SQL] Исправление
illegalNumericPrecedence
для ByteType. - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery теперь правильно обрабатывает пустые записи.
- Исправлена инференция ограничений в операторе Window.
- Исправлена проблема, из-за которой сетевой протокол Spark низкого уровня может быть нарушен при отправке больших сообщений об ошибках RPC с включенным шифрованием (если для
spark.network.crypto.enabled
задано значение true).
- 30 января 2019 г.
- Исправлена проблема, которая может привести к
df.rdd.count()
с UDT, чтобы происходил возврат неверного ответа в некоторых случаях. - Исправлена проблема, влияющая на установку wheelhouses.
- [SPARK-26267]Реализованы повторные попытки при обнаружении неверных смещений из Kafka.
- Исправлена ошибка, влияющая на несколько источников файловых потоков в потоковой передаче.
- Исправлена ошибка StackOverflowError при добавлении подсказки о скошенном соединении к кэшированному отношению.
- Исправлено несоответствие между кэшированным RDD кэша SQL и его физическим планом, который приводит к неправильному результату.
- Исправлена проблема, которая может привести к
- 8 января 2019 г.
- Исправлена проблема, которая вызывает ошибку
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - [SPARK-26352]переупорядочение соединения не должно изменять порядок выходных атрибутов.
- [SPARK-26366]В ReplaceExceptWithFilter NULL должно расцениваться как False.
- Улучшение стабильности для Delta Lake.
- Delta Lake включена.
- Исправлена проблема, из-за которой произошел сбой Azure Data Lake Storage 2-го поколения доступа при включенном сквозном руководстве учетных данных Microsoft Entra ID для Azure Data Lake Storage 1-го поколения.
- Кэш ввода-вывода Databricks теперь включен для типов рабочих экземпляров серии Ls для всех ценовых категорий.
- Исправлена проблема, которая вызывает ошибку
Databricks Runtime 5.0 (EoS)
См. раздел Databricks Runtime 5.0 (EoS).
- 18 июня 2019 г.
- Исправлена ошибка, влияющая на использование функций более высокого порядка
- 7 мая 2019 г.
- Исправлено состояние гонки при загрузке разностного файла контрольной суммы журнала
- Исправлена логика обнаружения конфликтов изменений, чтобы не считать "insert + overwrite" как чистую операцию "добавления"
- [SPARK-27494][SS] Ключи и значения NULL не работают в источнике Kafka версии 2
- [SPARK-27454] [SPARK-27454] [ML] [SQL] Сбой источника данных изображения Spark при обнаружении некоторых недопустимых образов
- [SPARK-27160][SQL] Исправление Десятичного типа при создании фильтров orc
- [SPARK-27338][CORE] Исправлена взаимоблокировка между UnsafeExternalSorter и TaskMemoryManager
- 26 марта 2019 г.
- Теперь не допускается встраивание зависящих от платформы смещений прямо в сгенерированный для целого этапа код
- Исправлена ошибка, влияющая на определенные PythonUDF.
- 12 марта 2019 г.
- [SPARK-26864][SQL] Запрос может возвращать неправильный результат, если udf python используется в качестве условия соединения с левой точкой с запятой.
- 26 февраля 2019 г.
- Исправлена ошибка, влияющая на сервер JDBC/ODBC.
- Исключены скрытые файлы при создании HadoopRDD.
- 12 февраля 2019 г.
- Исправлено несоответствие между кэшированным RDD кэша SQL и его физическим планом, который приводит к неправильному результату.
-
[SPARK-26706][SQL] Исправление
illegalNumericPrecedence
для ByteType. - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery теперь правильно обрабатывает пустые записи.
- Исправлен вывод ограничений в операторе Window.
- Исправлена проблема, из-за которой сетевой протокол Spark низкого уровня может быть нарушен при отправке больших сообщений об ошибках RPC с включенным шифрованием (если для
spark.network.crypto.enabled
задано значение true).
- 30 января 2019 г.
- Исправлена проблема, которая может привести к
df.rdd.count()
с UDT, чтобы происходил возврат неверного ответа в некоторых случаях. - [SPARK-26267]Реализованы повторные попытки при обнаружении неверных смещений из Kafka.
- Исправлена ошибка, влияющая на несколько источников файловых потоков в потоковой передаче.
- Исправлена ошибка StackOverflowError при указании подсказки на косое соединение в кэшированном отношении.
- Исправлено несоответствие между кэшированным RDD кэша SQL и его физическим планом, который приводит к неправильному результату.
- Исправлена проблема, которая может привести к
- 8 января 2019 г.
- Исправлена проблема, которая привела к ошибке
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - [SPARK-26352]переупорядочение соединения не должно изменять порядок выходных атрибутов.
- [SPARK-26366]В ReplaceExceptWithFilter NULL должно расцениваться как False.
- Улучшение стабильности для Delta Lake.
- Delta Lake включена.
- Кэш ввода-вывода Databricks теперь включен для типов рабочих экземпляров серии Ls для всех ценовых категорий.
- Исправлена проблема, которая привела к ошибке
- 18 декабря 2018 г.
- [SPARK-26293]Ошибка приведения типа при наличии Python UDF в подзапросе
- Исправлена проблема, затрагивающая определенные запросы, использующие операции JOIN и LIMIT.
- Отредактированные учетные данные из имен RDD в пользовательском интерфейсе Spark
- 6 декабря 2018 г.
- Исправлена проблема, которая вызывала неправильный результат запроса при использовании orderBy, за которым сразу же последовал groupBy с ключом group-by в качестве ведущей части ключа сортировки.
- Обновлен соединитель Snowflake для Spark с 2.4.9.2-spark_2.4_pre_release to 2.4.10.
- Игнорировать поврежденные файлы следует только после одной или нескольких повторных попыток, при включенном флаге
spark.sql.files.ignoreCorruptFiles
илиspark.sql.files.ignoreMissingFiles
. - Исправлена проблема, влияющая на некоторые запросы на самообъединение.
- Исправлена ошибка с сервером thrift, когда сеансы иногда утекают при отмене.
- [SPARK-26307]Исправлен CTAS при INSERT секционированной таблице с помощью Hive SerDe.
- [SPARK-26147]пользовательские функции Python в условии соединения вызывают ошибку даже при использовании столбцов только с одной стороны соединения.
- [SPARK-26211] Исправление InSet для двоичных файлов, а также структуры и массива с нулевым значением.
-
[SPARK-26181] метод
hasMinMaxStats
дляColumnStatsMap
является неверным. - Исправлена проблема, связанная с установкой Python Wheels в средах без доступа к Интернету.
- 20 ноября 2018 г.
- Исправлена проблема, из-за которой не удается использовать записную книжку после отмены потокового запроса.
- Исправлена проблема, влияющая на некоторые запросы с помощью функций окна.
- Исправлена проблема, влияющая на поток из Delta с несколькими изменениями схемы.
- Исправлена проблема, влияющая на некоторые запросы агрегации с соединениями Left Semi/Anti.
Databricks Runtime 4.3 (EoS)
См. раздел Databricks Runtime 4.3 (EoS).
9 апреля 2019 г.
- [SPARK-26665][CORE] Исправлена ошибка, которая могла вызывать постоянное зависание BlockTransferService.fetchBlockSync.
- [SPARK-24669][SQL] Аннулировать таблицы в случае DROP DATABASE CASCADE.
12 марта 2019 г.
- Исправлена ошибка, влияющая на создание кода.
- Исправлена ошибка, влияющая на Delta.
26 февраля 2019 г.
- Исправлена ошибка, влияющая на сервер JDBC/ODBC.
12 февраля 2019 г.
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery теперь правильно обрабатывает пустые записи.
- Исключение скрытых файлов при сборке HadoopRDD.
- Исправлено преобразование фильтра Parquet для предиката IN, когда его значение пусто.
- Исправлена проблема, из-за которой сетевой протокол Spark низкого уровня может быть нарушен при отправке больших сообщений об ошибках RPC с включенным шифрованием (если для
spark.network.crypto.enabled
задано значение true).
30 января 2019 г.
- Исправлена проблема, которая может привести к
df.rdd.count()
с UDT, чтобы происходил возврат неверного ответа в некоторых случаях. - Исправлено несоответствие между кэшированным RDD кэша SQL и его физическим планом, который приводит к неправильному результату.
- Исправлена проблема, которая может привести к
8 января 2019 г.
- Исправлена проблема, которая вызывает ошибку
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - Отредактированные учетные данные из имен RDD в пользовательском интерфейсе Spark
- [SPARK-26352]переупорядочение соединения не должно изменять порядок выходных атрибутов.
- [SPARK-26366]В ReplaceExceptWithFilter NULL должно расцениваться как False.
- Delta Lake включена.
- Кэш ввода-вывода Databricks теперь включен для типов рабочих экземпляров серии Ls для всех ценовых категорий.
- Исправлена проблема, которая вызывает ошибку
18 декабря 2018 г.
- [SPARK-25002] Avro: изменить пространство имен выходных записей.
- Исправлена проблема, влияющая на определенные запросы с использованием JOIN и LIMIT.
- [SPARK-26307]ИсправленО CTAS при INSERT секционированной таблице с помощью Hive SerDe.
- Игнорировать поврежденные файлы следует только после одной или нескольких повторных попыток, при включенном флаге
spark.sql.files.ignoreCorruptFiles
илиspark.sql.files.ignoreMissingFiles
. -
[SPARK-26181] метод
hasMinMaxStats
дляColumnStatsMap
является неверным. - Исправлена проблема, связанная с установкой Python Wheels в средах без доступа к Интернету.
- Исправлена проблема с производительностью в анализаторе запросов.
- Исправлена проблема в PySpark, которая приводила к сбою действий DataFrame с ошибкой "отказ в подключении".
- Исправлена проблема, влияющая на некоторые запросы на самообъединение.
20 ноября 2018 г.
- [SPARK-17916][SPARK-25241]Исправление пустой строки, анализируемой как null, если задано значение NULL.
- [SPARK-25387] Исправление для NPE вызвано неверными входными данными CSV.
- Исправлена проблема, влияющая на некоторые запросы агрегации с соединениями Left Semi/Anti.
6 ноября 2018 г.
- [SPARK-25741] Длинные URL-адреса не отображаются должным образом в веб-интерфейсе.
- [SPARK-25714] Исправление обработки нулей в правиле оптимизатора BooleanSimplification.
- Исправлена проблема, влияющая на очистку временных объектов в соединителе Synapse Analytics.
- [SPARK-25816] Исправление разрешения атрибута во вложенных средствах извлечения.
16 октября 2018 г.
- Исправлена ошибка, влияющая на выходные данные выполнения
SHOW CREATE TABLE
в таблицах Delta. - Исправлена ошибка, влияющая на работу
Union
.
- Исправлена ошибка, влияющая на выходные данные выполнения
25 сентября 2018 г.
- [SPARK-25368][SQL] Неправильное выведение ограничения возвращает ошибочный результат.
- [SPARK-25402][SQL] Обработка значений Null в BooleanSimplification.
- Исправлена
NotSerializableException
в источнике данных Avro.
11 сентября 2018 г.
-
[SPARK-25214][SS] Устранение проблемы, из-за которой источник Kafka v2 может возвращать повторяющиеся записи при
failOnDataLoss=false
. - [SPARK-24987][СС] Исправление утечки объекта-получателя Kafka, когда нет новых смещений для articlePartition.
- При уменьшении фильтра должно правильно обрабатываться значение null.
- Улучшена стабильность подсистемы выполнения.
-
[SPARK-25214][SS] Устранение проблемы, из-за которой источник Kafka v2 может возвращать повторяющиеся записи при
28 августа 2018 г.
- Исправлена ошибка в команде Delta Lake Delete, которая будет неправильно удалять строки, в которых условие оценивается как null.
-
[SPARK-25142] Добавление сообщения об ошибках, когда рабочей роли Python не удалось открыть сокет в
_load_from_socket
.
23 августа 2018 г.
-
[SPARK-23935]mapEntry создает
org.codehaus.commons.compiler.CompileException
. - Исправлена проблема с картой, допускающей значение null, в модуле чтения Parquet.
- [SPARK-25051][SQL] FixNullability не следует останавливаться на AnalysisBarrier.
- [SPARK-25081]Исправлена ошибка, из-за которой ShuffleExternalSorter может получить доступ к освобожденной странице памяти при сбое выделения памяти во время сброса данных.
- Исправлено взаимодействие между Databricks Delta и Pyspark, которое могло вызвать временные сбои чтения.
- [SPARK-25084]"распределять по" нескольким столбцам (оболочка в скобках) может привести к проблеме кодгена.
- [SPARK-25096] Ослабление допустимости значений NULL, если приведение является принудительным, допускающим значение null.
- Снизило число потоков по умолчанию, используемых командой Delta Lake Optimize, уменьшая затраты на память и ускоряя фиксацию данных.
- [SPARK-25114] Исправление RecordBinaryComparator, если результат вычитания между двумя словами делится на значение Integer.MAX_VALUE.
- Исправлено редактирование секретного менеджера при частично успешном завершении команды.
-
[SPARK-23935]mapEntry создает
Databricks Runtime 4.2 (EoS)
См. раздел Databricks Runtime 4.2 (EoS).
26 февраля 2019 г.
- Исправлена ошибка, влияющая на сервер JDBC/ODBC.
12 февраля 2019 г.
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery теперь правильно обрабатывает пустые записи.
- Исключение скрытых файлов при сборке HadoopRDD.
- Исправлено преобразование фильтра Parquet для предиката IN, когда его значение пусто.
- Исправлена проблема, из-за которой сетевой протокол Spark низкого уровня может быть нарушен при отправке больших сообщений об ошибках RPC с включенным шифрованием (если для
spark.network.crypto.enabled
задано значение true).
30 января 2019 г.
- Исправлена проблема, которая может привести к
df.rdd.count()
с UDT, чтобы происходил возврат неверного ответа в некоторых случаях.
- Исправлена проблема, которая может привести к
8 января 2019 г.
- Исправлена проблема, которая вызывает ошибку
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - Отредактированные учетные данные из имен RDD в пользовательском интерфейсе Spark
- [SPARK-26352]переупорядочение соединения не должно изменять порядок выходных атрибутов.
- [SPARK-26366]В ReplaceExceptWithFilter NULL должно расцениваться как False.
- Delta Lake включена.
- Кэш ввода-вывода Databricks теперь включен для типов рабочих экземпляров серии Ls для всех ценовых категорий.
- Исправлена проблема, которая вызывает ошибку
18 декабря 2018 г.
- [SPARK-25002] Avro: изменить пространство имен выходных записей.
- Исправлена проблема, влияющая на определенные запросы с использованием Join и Limit.
- [SPARK-26307]Исправлен CTAS для INSERT секционированной таблицы с помощью Hive SerDe.
- Игнорировать поврежденные файлы следует только после одной или нескольких повторных попыток, при включенном флаге
spark.sql.files.ignoreCorruptFiles
илиspark.sql.files.ignoreMissingFiles
. -
[SPARK-26181] метод
hasMinMaxStats
дляColumnStatsMap
является неверным. - Исправлена проблема, связанная с установкой Python Wheels в средах без доступа к Интернету.
- Исправлена проблема с производительностью в анализаторе запросов.
- Исправлена проблема в PySpark, которая приводила к сбою действий DataFrame с ошибкой "отказ в подключении".
- Исправлена проблема, влияющая на некоторые запросы на самообъединение.
20 ноября 2018 г.
- [SPARK-17916][SPARK-25241]Исправление пустой строки, анализируемой как null, если задано значение NULL.
- Исправлена проблема, влияющая на некоторые запросы агрегации с соединениями Left Semi/Anti.
6 ноября 2018 г.
- [SPARK-25741] Длинные URL-адреса не отображаются должным образом в веб-интерфейсе.
- [SPARK-25714] Исправление обработки нулей в правиле оптимизатора BooleanSimplification.
16 октября 2018 г.
- Исправлена ошибка, влияющая на выходные данные выполнения
SHOW CREATE TABLE
в таблицах Delta. - Исправлена ошибка, влияющая на работу
Union
.
- Исправлена ошибка, влияющая на выходные данные выполнения
25 сентября 2018 г.
- [SPARK-25368][SQL] Неправильный вывод ограничения возвращает неправильный результат.
- [SPARK-25402][SQL] Обработка значений Null в BooleanSimplification.
- Исправлена
NotSerializableException
в источнике данных Avro.
11 сентября 2018 г.
-
[SPARK-25214][SS] Устранение проблемы, из-за которой источник Kafka v2 может возвращать повторяющиеся записи при
failOnDataLoss=false
. - [SPARK-24987][СС] Исправление утечки объекта-получателя Kafka, когда нет новых смещений для articlePartition.
- При уменьшении фильтра должно правильно обрабатываться значение null.
-
[SPARK-25214][SS] Устранение проблемы, из-за которой источник Kafka v2 может возвращать повторяющиеся записи при
28 августа 2018 г.
- Исправлена ошибка в команде Delta Lake Delete, которая будет неправильно удалять строки, в которых условие оценивается как null.
23 августа 2018 г.
- Исправлена ошибка NoClassDefError для разностного моментального снимка
-
[SPARK-23935]mapEntry создает
org.codehaus.commons.compiler.CompileException
. - [SPARK-24957][SQL] Среднее с десятичным значением, за которым следует агрегирование, возвращает неверный результат. Могут возвращаться неверные результаты операции AVERAGE. CAST, добавленный в оператор Average, будет пропущен, если результат Divide будет того же типа, к которому он был приведен.
- [SPARK-25081]Исправлена ошибка, из-за которой ShuffleExternalSorter может получить доступ к освобожденной странице памяти при сбросе памяти, когда не удается выделить её.
- Исправлено взаимодействие между Databricks Delta и Pyspark, которое могло вызвать временные сбои чтения.
- [SPARK-25114] Исправление RecordBinaryComparator, если результат вычитания между двумя словами делится на значение Integer.MAX_VALUE.
- [SPARK-25084]"распределять по" нескольким столбцам (оболочка в скобках) может привести к проблеме кодгена.
- [SPARK-24934][SQL] Явным образом разрешенный список поддерживаемых типов в верхних или нижних границах для очистки секций в памяти. Если сложные типы данных используются в фильтрах запросов к кэшируемым данным, Spark всегда возвращает пустой результирующий набор. При очистке на основе статистики в памяти возникают неправильные результаты, так как значение NULL задано для верхних или нижних границ для сложных типов. Исправление заключается в том, чтобы не использовать очистку в памяти на основе статистики для сложных типов.
- Исправлено редактирование секретного менеджера при частично успешном завершении команды.
- Исправлена проблема с картой, допускающей значение null, в модуле чтения Parquet.
2 августа, 2018 г.
- Добавлен API writeStream.table в Python.
- Исправлена проблема, затрагивающая разностные контрольные точки.
- [SPARK-24867][SQL] Добавление AnalysisBarrier к DataFrameWriter. Кэш SQL не используется при использовании DataFrameWriter для записи кадра данных с помощью UDF. Это регрессия, вызванная изменениями, внесенными в AnalysisBarrier, так как не все правила анализатора идемпотентны.
- Исправлена проблема, которая могла привести команду
mergeInto
к получению неверных результатов. - Улучшена стабильность при доступе к Azure Data Lake Storage 1-го поколения.
- [Spark-24809] Сериализация LongHashedRelation в исполнителе может привести к ошибке данных.
- [SPARK-24878][SQL] Исправление функции reverse для массива примитивного типа, содержащего значение null.
11 июля 2018 г.
- Исправлена ошибка в исполнении запросов, которая приводила к агрегации на десятичных столбцах с различной точностью, возвращающую неправильные результаты в некоторых случаях.
- Исправлена ошибка
NullPointerException
, возникающая во время сложных операций агрегирования, таких как группирование наборов.
Databricks Runtime 4.1 ML (EoS)
См. статью Databricks Runtime 4.1 ML (EoS).
- 31 июля 2018 г.
- Azure Synapse Analytics добавлена в ML Runtime 4.1
- Исправлена ошибка, которая может вызвать неправильные результаты запроса, если имя столбца секции, используемого в предикате, отличается от случая этого столбца в схеме таблицы.
- Исправлена ошибка, влияющая на подсистему выполнения Spark SQL.
- Исправлена ошибка, влияющая на создание кода.
- Исправлена ошибка (
java.lang.NoClassDefFoundError
), влияющая на Delta Lake. - Улучшена обработка ошибок в Delta Lake.
- Исправлена ошибка, из-за которой собиралась статистика некорректного пропуска данных для строковых столбцов длиной 32 символа и более.
Databricks Runtime 4.1 (EoS)
См. раздел Databricks Runtime 4.1 (EoS).
8 января 2019 г.
- [SPARK-26366]В ReplaceExceptWithFilter NULL должно расцениваться как False.
- Delta Lake включена.
18 декабря 2018 г.
- [SPARK-25002] Avro: изменить пространство имен выходных записей.
- Исправлена проблема, влияющая на определенные запросы с использованием операторов JOIN и LIMIT.
- [SPARK-26307]ИсправленО CTAS при INSERT секционированной таблице с помощью Hive SerDe.
- Игнорировать поврежденные файлы следует только после одной или нескольких повторных попыток, при включенном флаге
spark.sql.files.ignoreCorruptFiles
илиspark.sql.files.ignoreMissingFiles
. - Исправлена проблема, связанная с установкой Python Wheels в средах без доступа к Интернету.
- Исправлена проблема в PySpark, которая приводила к сбою действий DataFrame с ошибкой "отказ в подключении".
- Исправлена проблема, влияющая на некоторые запросы на самообъединение.
20 ноября 2018 г.
- [SPARK-17916][SPARK-25241]Исправление пустой строки, анализируемой как null, если задано значение NULL.
- Исправлена проблема, влияющая на некоторые запросы агрегации с соединениями Left Semi/Anti.
6 ноября 2018 г.
- [SPARK-25741] Длинные URL-адреса не отображаются должным образом в веб-интерфейсе.
- [SPARK-25714] Исправление обработки нулей в правиле оптимизатора BooleanSimplification.
16 октября 2018 г.
- Исправлена ошибка, влияющая на выходные данные выполнения
SHOW CREATE TABLE
в таблицах Delta. - Исправлена ошибка, влияющая на работу
Union
.
- Исправлена ошибка, влияющая на выходные данные выполнения
25 сентября 2018 г.
- [SPARK-25368][SQL] Ошибочная интерпретация ограничения возвращает неверный результат.
- [SPARK-25402][SQL] Обработка значений Null в BooleanSimplification.
- Исправлена
NotSerializableException
в источнике данных Avro.
11 сентября 2018 г.
-
[SPARK-25214][SS] Устранение проблемы, из-за которой источник Kafka v2 может возвращать повторяющиеся записи при
failOnDataLoss=false
. - [SPARK-24987][СС] Исправление утечки объекта-получателя Kafka, когда нет новых смещений для articlePartition.
- При уменьшении фильтра должно правильно обрабатываться значение null.
-
[SPARK-25214][SS] Устранение проблемы, из-за которой источник Kafka v2 может возвращать повторяющиеся записи при
28 августа 2018 г.
- Исправлена ошибка в команде Delta Lake Delete, которая будет неправильно удалять строки, в которых условие оценивается как null.
- [SPARK-25084]"распределять по" нескольким столбцам (оболочка в скобках) может привести к проблеме кодгена.
- [SPARK-25114] Исправление RecordBinaryComparator, если результат вычитания между двумя словами делится на значение Integer.MAX_VALUE.
23 августа 2018 г.
- Исправлена ошибка NoClassDefError для разностного моментального снимка.
- [SPARK-24957][SQL] Среднее с десятичным значением, за которым следует агрегирование, возвращает неверный результат. Могут возвращаться неверные результаты операции AVERAGE. CAST, добавленный в оператор Average, будет пропущен, если результат Divide будет того же типа, к которому он был приведен.
- Исправлена проблема с картой, допускающей значение null, в модуле чтения Parquet.
- [SPARK-24934][SQL] Явно разрешить список поддерживаемых типов в верхних/нижних границах для обрезки секций в памяти. Если сложные типы данных используются в фильтрах запросов к кэшируемым данным, Spark всегда возвращает пустой результирующий набор. При очистке на основе статистики в памяти возникают неправильные результаты, так как значение NULL задано для верхних или нижних границ для сложных типов. Исправление заключается в том, чтобы не использовать очистку в памяти на основе статистики для сложных типов.
- [SPARK-25081]Исправлена ошибка, из-за которой ShuffleExternalSorter может получить доступ к освобожденной странице памяти при сбое выделения памяти.
- Исправлено взаимодействие между Databricks Delta и Pyspark, которое могло вызвать временные сбои чтения.
- Исправлено редактирование секретного менеджера при частично успешном завершении команды
2 августа, 2018 г.
- [SPARK-24613][SQL] Кэш с UDF не может быть сопоставлен с последующими зависимыми кэшами. Создает оболочку логического плана с помощью AnalysisBarrier для компиляции плана выполнения в CacheManager, чтобы избежать повторного анализа плана. Это также является регрессией Spark 2.3.
- Исправлена проблема соединителя Synapse Analytics, влияющая на преобразование часового пояса для записи данных DateType.
- Исправлена проблема, затрагивающая разностные контрольные точки.
- Исправлена проблема, которая могла привести команду
mergeInto
к получению неверных результатов. - [SPARK-24867][SQL] Добавление AnalysisBarrier к DataFrameWriter. Кэш SQL не используется при использовании DataFrameWriter для записи кадра данных с помощью UDF. Это регрессия, вызванная изменениями, внесенными в AnalysisBarrier, так как не все правила анализатора идемпотентны.
- [Spark-24809] Сериализация LongHashedRelation в исполнителе может привести к ошибке данных.
11 июля 2018 г.
- Исправлена ошибка в выполнении запроса, которая в некоторых случаях приводила к неправильной агрегации в десятичных столбцах с различной точностью, возвращая неверные результаты.
- Исправлена ошибка
NullPointerException
, возникающая во время сложных операций агрегирования, таких как группирование наборов.
28 июня 2018 г.
- Исправлена ошибка, которая может вызвать неправильные результаты запроса, если имя столбца секции, используемого в предикате, отличается от случая этого столбца в схеме таблицы.
7 июня 2018 г.
- Исправлена ошибка, влияющая на подсистему выполнения Spark SQL.
- Исправлена ошибка, влияющая на создание кода.
- Исправлена ошибка (
java.lang.NoClassDefFoundError
), влияющая на Delta Lake. - Улучшена обработка ошибок в Delta Lake.
17 мая 2018 г.
- Исправлена ошибка, из-за которой собиралась некорректная статистика пропуска данных для строковых столбцов длиной от 32 символов.
Databricks Runtime 4.0 (EoS)
См. раздел Databricks Runtime 4.0 (EoS).
6 ноября 2018 г.
- [SPARK-25714] Исправление обработки нулей в правиле оптимизатора BooleanSimplification.
16 октября 2018 г.
- Исправлена ошибка, влияющая на работу
Union
.
- Исправлена ошибка, влияющая на работу
25 сентября 2018 г.
- [SPARK-25368][SQL] Неправильный вывод ограничений приводит к неверному результату.
- [SPARK-25402][SQL] Обработка значений Null в BooleanSimplification.
- Исправлена
NotSerializableException
в источнике данных Avro.
11 сентября 2018 г.
- При уменьшении фильтра должно правильно обрабатываться значение null.
28 августа 2018 г.
- Исправлена ошибка в команде Delta Lake Delete, которая будет неправильно удалять строки, в которых условие оценивается как null.
23 августа 2018 г.
- Исправлена проблема с картой, допускающей значение null, в модуле чтения Parquet.
- Исправлено редактирование секретного менеджера при частично успешном завершении команды
- Исправлено взаимодействие между Databricks Delta и Pyspark, которое могло вызвать временные сбои чтения.
- [SPARK-25081]Исправлена ошибка, из-за которой ShuffleExternalSorter может получить доступ к освобожденной странице памяти при сбое выделения памяти.
- [SPARK-25114] Исправление RecordBinaryComparator, если результат вычитания между двумя словами делится на значение Integer.MAX_VALUE.
2 августа, 2018 г.
- [SPARK-24452] Избежание возможного переполнения в int add или multiple.
- [SPARK-24588]потоковое соединение должно требовать HashClusteredPartitioning от дочерних структур.
- Исправлена проблема, которая могла привести команду
mergeInto
к получению неверных результатов. - [SPARK-24867][SQL] Добавление AnalysisBarrier к DataFrameWriter. Кэш SQL не используется при использовании DataFrameWriter для записи кадра данных с помощью UDF. Это регрессия, вызванная изменениями, внесенными в AnalysisBarrier, так как не все правила анализатора идемпотентны.
- [Spark-24809] Сериализация LongHashedRelation в исполнителе может привести к ошибке данных.
28 июня 2018 г.
- Исправлена ошибка, которая может вызвать неправильные результаты запроса, если имя столбца секции, используемого в предикате, отличается от случая этого столбца в схеме таблицы.
7 июня 2018 г.
- Исправлена ошибка, влияющая на подсистему выполнения Spark SQL.
- Улучшена обработка ошибок в Delta Lake.
17 мая 2018 г.
- Исправление ошибок для управления секретами Databricks.
- Повышена стабильность при чтении данных, хранящихся в Azure Data Lake Store.
- Исправлена ошибка, влияющая на кэширование RDD.
- Исправлена ошибка, затрагивающая значение, равное Null, в SQL Spark.
24 апреля 2018 г.
- Обновлен пакет SDK Azure Data Lake Store с версии 2.0.11 до версии 2.2.8 для повышения стабильности доступа к Azure Data Lake Store.
- Исправлена ошибка, влияющая на вставку перезаписей в секционированные таблицы Hive, если
spark.databricks.io.hive.fastwriter.enabled
являетсяfalse
. - Исправлена проблема, при которой сериализация задачи не удавалась.
- Улучшена стабильность Delta Lake.
14 марта 2018 г.
- Предотвращение ненужных обновлений метаданных при записи в Delta Lake.
- Исправлена проблема, вызванная состоянием гонки, которое могло в редких обстоятельствах привести к утрате некоторых выходных файлов.
Databricks Runtime 3.5 LTS (EoS)
См. раздел Databricks Runtime 3.5 LTS (EoS).
7 ноября 2019 г.
- [SPARK-29743][SQL] выборка должна установить needCopyResult в true, если у дочернего элемента needCopyResult имеет значение true
8 октября 2019 г.
- Изменения на стороне сервера, позволяющие драйверу ODBC Apache Spark Simba повторно подключиться и продолжить после сбоя подключения во время получения результатов (требуется обновление драйвера ODBC для Apache Simba Apache Spark до версии 2.6.10).
10 сентября 2019 г.
- [SPARK-28699][SQL] Отключение использования сортировки системы счисления для ShuffleExchangeExec в случае повторного секционирования
9 апреля 2019 г.
- [SPARK-26665][CORE] Исправлена ошибка, которая могла вызывать постоянное зависание BlockTransferService.fetchBlockSync.
12 февраля 2019 г.
- Исправлена проблема, из-за которой сетевой протокол Spark низкого уровня может быть нарушен при отправке больших сообщений об ошибках RPC с включенным шифрованием (если для
spark.network.crypto.enabled
задано значение true).
- Исправлена проблема, из-за которой сетевой протокол Spark низкого уровня может быть нарушен при отправке больших сообщений об ошибках RPC с включенным шифрованием (если для
30 января 2019 г.
- Исправлена проблема, которая может привести к
df.rdd.count()
с UDT, чтобы происходил возврат неверного ответа в некоторых случаях.
- Исправлена проблема, которая может привести к
18 декабря 2018 г.
- Игнорировать поврежденные файлы следует только после одной или нескольких повторных попыток, при включенном флаге
spark.sql.files.ignoreCorruptFiles
илиspark.sql.files.ignoreMissingFiles
. - Исправлена проблема, влияющая на некоторые запросы на самообъединение.
- Игнорировать поврежденные файлы следует только после одной или нескольких повторных попыток, при включенном флаге
20 ноября 2018 г.
- [SPARK-25816] Исправлены разрешения атрибута во вложенных средствах извлечения.
6 ноября 2018 г.
- [SPARK-25714] Исправление обработки нулей в правиле оптимизатора BooleanSimplification.
16 октября 2018 г.
- Исправлена ошибка, влияющая на работу
Union
.
- Исправлена ошибка, влияющая на работу
25 сентября 2018 г.
- [SPARK-25402][SQL] Обработка значений Null в BooleanSimplification.
- Исправлена
NotSerializableException
в источнике данных Avro.
11 сентября 2018 г.
- При уменьшении фильтра должно правильно обрабатываться значение null.
28 августа 2018 г.
- Исправлена ошибка в команде Delta Lake Delete, которая будет неправильно удалять строки, в которых условие оценивается как null.
- [SPARK-25114] Исправление RecordBinaryComparator, если результат вычитания между двумя словами делится на значение Integer.MAX_VALUE.
23 августа 2018 г.
- [Spark-24809] Сериализация LongHashedRelation в исполнителе может привести к ошибке данных.
- Исправлена проблема с картой, допускающей значение null, в модуле чтения Parquet.
- [SPARK-25081]Исправлена ошибка, из-за которой ShuffleExternalSorter может получить доступ к освобожденной странице памяти при сбое выделения памяти.
- Исправлено взаимодействие между Databricks Delta и Pyspark, которое могло вызвать временные сбои чтения.
28 июня 2018 г.
- Исправлена ошибка, которая может вызвать неправильные результаты запроса, если имя столбца секции, используемого в предикате, отличается от случая этого столбца в схеме таблицы.
28 июня 2018 г.
- Исправлена ошибка, которая может вызвать неправильные результаты запроса, если имя столбца секции, используемого в предикате, отличается от случая этого столбца в схеме таблицы.
7 июня 2018 г.
- Исправлена ошибка, влияющая на подсистему выполнения Spark SQL.
- Улучшена обработка ошибок в Delta Lake.
17 мая 2018 г.
- Повышена стабильность при чтении данных, хранящихся в Azure Data Lake Store.
- Исправлена ошибка, влияющая на кэширование RDD.
- Исправлена ошибка, затрагивающая значение, равное Null, в SQL Spark.
- Исправлена ошибка, влияющая на определенные процессы агрегирования в потоковых запросах.
24 апреля 2018 г.
- Обновлен пакет SDK Azure Data Lake Store с версии 2.0.11 до версии 2.2.8 для повышения стабильности доступа к Azure Data Lake Store.
- Исправлена ошибка, влияющая на вставку перезаписей в секционированные таблицы Hive, когда
spark.databricks.io.hive.fastwriter.enabled
false
. - Исправлена проблема, при которой сериализация задачи не удавалась.
9 марта 2018 г.
- Исправлена проблема, вызванная состоянием гонки, которое могло в редких обстоятельствах привести к утрате некоторых выходных файлов.
1 марта 2018 г.
- Повышение эффективности обработки потоков, которые могут занять длительное время до остановки.
- Исправлена проблема, влияющая на автозаполнение Python.
- Применены обновления для системы безопасности Ubuntu.
- Исправлена ошибка, затрагивающая некоторые запросы с использованием пользовательских функций Python и оконных функций.
- Исправлена проблема, влияющая на использование определяемых пользователем функций в кластере, который имеет управление доступом к таблицам.
29 января 2018 г.
- Исправлена проблема, влияющая на обработку таблиц, хранящихся в хранилище BLOB-объектов Azure.
- Исправлена агрегация после dropDuplicates в пустом DataFrame.
Databricks Runtime 3.4 (EoS)
См. раздел Databricks Runtime 3.4 (EoS).
7 июня 2018 г.
- Исправлена ошибка, влияющая на подсистему выполнения Spark SQL.
- Улучшена обработка ошибок в Delta Lake.
17 мая 2018 г.
- Повышена стабильность при чтении данных, хранящихся в Azure Data Lake Store.
- Исправлена ошибка, влияющая на кэширование RDD.
- Исправлена ошибка, затрагивающая значение, равное Null, в SQL Spark.
24 апреля 2018 г.
- Исправлена ошибка, влияющая на вставку перезаписей в секционированные таблицы Hive, когда
spark.databricks.io.hive.fastwriter.enabled
являетсяfalse
.
- Исправлена ошибка, влияющая на вставку перезаписей в секционированные таблицы Hive, когда
9 марта 2018 г.
- Исправлена проблема, вызванная состоянием гонки, которое могло в редких обстоятельствах привести к утрате некоторых выходных файлов.
13 декабря 2017 г.
- Исправлена проблема, затрагивающая UDF в Scala.
- Исправлена проблема, влияющая на использование индекса пропуска данных в таблицах источников данных, хранящихся в путях, отличных от DBFS.
7 декабря 2017 г.
- Улучшена стабильность перемешивания.
Неподдерживаемые выпуски Databricks Runtime
Чтобы ознакомиться с исходными заметками о выпуске, перейдите по ссылке под подзаголовком.