Обновления обслуживания для Databricks Runtime (архивированные)
На этой архивной странице перечислены обновления обслуживания, выданные для выпусков среды выполнения Databricks, которые больше не поддерживаются. Чтобы добавить обслуживание update в существующий кластер, перезапустите кластер.
Внимание
Поддержка этой документации прекращена, она может больше не обновляться. Продукты, услуги или технологии, упомянутые в этом контенте, достигли конца поддержки. См . заметки о выпуске Databricks Runtime и версии совместимости.
Примечание.
Эта статья содержит упоминания термина whitelist (список разрешений), который больше не используется в Azure Databricks. Когда термин удаляется из программного обеспечения, мы remove его из этой статьи.
Заметки о выпуске Databricks Runtime
Обновления обслуживания по выпуску:
- Databricks Runtime 15.3
- Databricks Runtime 15.2
- Databricks Runtime 15.1
- Databricks Runtime 15.0
- Databricks Runtime 14.2
- Databricks Runtime 14.0
- Databricks Runtime 13.1
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS
- Databricks Runtime 9.1 LTS
- Databricks Runtime 13.0 (EoS)
- Databricks Runtime 12.1 (EoS)
- Databricks Runtime 12.0 (EoS)
- Databricks Runtime 11.2 (EoS)
- Databricks Runtime 11.1 (EoS)
- Databricks Runtime 11.0 (EoS)
- Databricks Runtime 10.5 (EoS)
- Databricks Runtime 10.3 (EoS)
- Databricks Runtime 10.2 (EoS)
- Databricks Runtime 10.1 (EoS)
- Databricks Runtime 10.0 (EoS)
- Databricks Runtime 9.0 (EoS)
- Databricks Runtime 8.4 (EoS)
- Databricks Runtime 8.3 (EoS)
- Databricks Runtime 8.2 (EoS)
- Databricks Runtime 8.1 (EoS)
- Databricks Runtime 8.0 (EoS)
- Databricks Runtime 7.6 (EoS)
- Databricks Runtime 7.5 (EoS)
- Databricks Runtime 7.3 LTS (EoS)
- Расширенная поддержка Databricks Runtime 6.4 (EoS)
- Databricks Runtime 5.5 LTS (EoS)
- Расширенная поддержка Databricks Light 2.4
- Databricks Runtime 7.4 (EoS)
- Databricks Runtime 7.2 (EoS)
- Databricks Runtime 7.1 (EoS)
- Databricks Runtime 7.0 (EoS)
- Databricks Runtime 6.6 (EoS)
- Databricks Runtime 6.5 (EoS)
- Databricks Runtime 6.3 (EoS)
- Databricks Runtime 6.2 (EoS)
- Databricks Runtime 6.1 (EoS)
- Databricks Runtime 6.0 (EoS)
- Databricks Runtime 5.4 ML (EoS)
- Databricks Runtime 5.4 (EoS)
- Databricks Runtime 5.3 (EoS)
- Databricks Runtime 5.2 (EoS)
- Databricks Runtime 5.1 (EoS)
- Databricks Runtime 5.0 (EoS)
- Databricks Runtime 4.3 (EoS)
- Databricks Runtime 4.2 (EoS)
- Databricks Runtime 4.1 ML (EoS)
- Databricks Runtime 4.1 (EoS)
- Databricks Runtime 4.0 (EoS)
- Databricks Runtime 3.5 LTS (EoS)
- Databricks Runtime 3.4 (EoS)
Обновления обслуживания для поддерживаемых версий среды выполнения Databricks см. в разделе Обновления обслуживания Databricks Runtime.
Databricks Runtime 15.3
См. Databricks Runtime 15.3 (EoS).
- 26 ноября 2024 г.
- В этом выпуске теперь можно запросить функцию
vector_search
с помощьюquery_text
для ввода текста илиquery_vector
для внедрения входных данных. - Обновления системы безопасности операционной системы.
- В этом выпуске теперь можно запросить функцию
- 5 ноября 2024 г.
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
- [SPARK-49867][SQL] Улучшение сообщения об ошибке, возникающей при вызове GetColumnByOrdinal, когда индекс выходит за пределы.
- [SPARK-48843][15.3,15.2] Предотвращение бесконечного цикла с помощью BindParameters
- [SPARK-49829] Пересмотреть оптимизацию при добавлении входных данных в хранилище состояний в потоках join (исправление для обеспечения корректности)
- [SPARK-49863][SQL] Исправление нормализации значенийNumbers для сохранения допустимости значений NULL вложенных структур
- [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
- [SPARK-46632][SQL] Исправлена ликвидация вложенных выражений, если эквивалентные тернарные выражения имеют разные дочерние элементы
- Обновления системы безопасности операционной системы.
- 22 октября 2024 г.
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
- [SPARK-49867][SQL] Улучшение сообщения об ошибке, возникающей при вызове GetColumnByOrdinal, когда индекс выходит за пределы.
- [SPARK-48843][15.3,15.2] Предотвращение бесконечного цикла с помощью BindParameters
- [SPARK-49829] Пересмотреть оптимизацию при добавлении входных данных в хранилище состояний в потоках join (исправление для обеспечения корректности)
- [SPARK-49863][SQL] Исправление нормализации значенийNumbers для сохранения допустимости значений NULL вложенных структур
- [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
- [SPARK-46632][SQL] Исправлена ликвидация вложенных выражений, если эквивалентные тернарные выражения имеют разные дочерние элементы
- Обновления системы безопасности операционной системы.
- 10 октября 2024 г.
- [SPARK-496888][CONNECT] Исправлена гонка данных между прерыванием и планом выполнения
- [SPARK-49743][SQL] OptimizeCsvJsonExpr не должна изменять поля schema при сокращении GetArrayStructFields
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Классify Error class for FlatMapGroupsWithState user function error
- Обновления системы безопасности операционной системы.
- 25 сентября 2024 г.
- [SPARK-49492][CONNECT] Повторная попытка выполнить попытку неактивного заполнителя
- [SPARK-49628][SQL] ConstantFolding должен копировать выражение с отслеживанием состояния перед вычислением
- [SPARK-49000][SQL] Исправление "select count(distinct 1) from t" where t пустой table путем расширения RewriteDistinctAggregates
- [SPARK-49458][CONNECT][PYTHON] Укажите идентификатор сеанса на стороне сервера с помощью ReattachExecute
-
[SPARK-48719][SQL] Исправлена ошибка вычисления
RegrSlope
&RegrIntercept
, если первый параметр имеет значение NULL - Обновления системы безопасности операционной системы.
- 17 сентября 2024 г.
- [SPARK-49336][CONNECT] Limit уровень вложения при усечении сообщения protobuf
- [SPARK-49526][CONNECT][15.3.5] Поддержка путей в формате Windows в ArtifactManager
- [SPARK-49366][CONNECT] Рассматривать узел объединения как листовой в разрешении column фрейма данных
- [SPARK-43242][CORE] Исправление вызов "Непредвиденный тип BlockId" при диагностике повреждения смешения
- [SPARK-49409][CONNECT] Настройка значения по умолчанию CONNECT_SESSION_PLAN_CACHE_SIZE
- Обновления системы безопасности операционной системы.
- 29 августа 2024 г.
- [SPARK-49263][CONNECT] Клиент Python Spark Connect: согласованно обрабатывать логические параметры чтения с кадрами данных
- [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
-
[SPARK-48862][PYTHON][CONNECT] Избегайте вызова
_proto_to_string
, если уровень INFO не включен - [SPARK-49146][SS] Перемещение ошибок утверждения, связанных с отсутствием watermark в потоковых запросах в режиме добавления, в инфраструктуру обработки ошибок
- 14 августа 2024 г.
- [SPARK-48941][SPARK-48970] Исправление средства записи машинного обучения и средства чтения
- [SPARK-48706][PYTHON] UDF Python в функциях более высокого порядка не должен вызывать внутреннюю ошибку
- [SPARK-48954] try_mod() заменяет try_remainder()
- [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
- [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
- [SPARK-49047][PYTHON][CONNECT] Усечение сообщения для ведения журнала
- [SPARK-48740][SQL] Раннее обнаружение ошибки отсутствия спецификации window
- 1 августа 2024 г.
- [Критическое изменение] В Databricks Runtime 15.3 и выше вызов любой определяемой пользователем функции Python (UDF), определяемой пользователем статистической функции (UDAF) или определяемой пользователем функции table (UDTF), которая использует тип
VARIANT
в качестве аргумента или возвращаемого значения вызывает исключение. Это изменение делается для предотвращения проблем, которые могут возникнуть из-за недопустимого значения, возвращаемого одним из этих функций. Дополнительные сведения о типеVARIANT
см. в статье использование VARIANTs для хранения полуструктурированных данных. - В бессерверных вычислительных ресурсах для записных книжек и заданий режим ANSI SQL включен по умолчанию. См. поддерживаемые конфигурации Spark parameters.
- При вычислении, настроенном в режиме общего доступа, пакет Kafka считывает и записывает теперь те же ограничения, что и для структурированной потоковой передачи. См. ограничения потоковой передачи и требования к режиму общего доступа Unity Catalog.
- Выходные данные из инструкции
SHOW CREATE TABLE
теперь включают любые фильтры строк или маски column, определенные в материализованном представлении или потоковой передаче table. См. SHOW CREATE TABLE. Чтобы узнать о фильтрах строк и масках column, см. статью Фильтрация конфиденциальных данных table с использованием фильтров строк и масок column. - [SPARK-46957][CORE] Перенос перенесенных файлов перетасовки должен иметь возможность очистки от исполнителя
- [SPARK-48648][PYTHON][CONNECT] Правильное определение потока SparkConnectClient.tags
- [SPARK-48896][SPARK-48909][SPARK-48883] Исправления средства записи машинного обучения backport spark
- [SPARK-48713][SQL] Добавление проверки диапазона индекса для unsafeRow.pointTo, если baseObject является массивом байтов
- [SPARK-48834][SQL] Отключить вариативный ввод/вывод для скалярных UDF, UDTF, UDAF на языке Python во время компиляции запросов
- [SPARK-48934][SS] Типы даты и времени Python преобразуются неправильно для настройки времени ожидания в applyInPandasWithState
- [SPARK-48705][PYTHON] Явное использование worker_main при запуске с pyspark
- [SPARK-48544][SQL] Уменьшение давления памяти пустых наборов BitSet в TreeNode
- [SPARK-48889][SS] testStream для выгрузки хранилищ состояний перед завершением
- [SPARK-49054][SQL] Column значение по умолчанию должно поддерживать функции current_*
- [SPARK-48653][PYTHON] Исправлены недопустимые ссылки на класс ошибок источника данных Python
- [SPARK-48463] Сделать StringIndexer поддерживающим вложенные входные данные columns
- [SPARK-48810][CONNECT] API остановки сеанса () должен быть идемпотентным и не завершается ошибкой, если сеанс уже закрыт сервером
- [SPARK-48873][SQL] Используйте unsafeRow в средство синтаксического анализа JSON.
- Обновления системы безопасности операционной системы.
- [Критическое изменение] В Databricks Runtime 15.3 и выше вызов любой определяемой пользователем функции Python (UDF), определяемой пользователем статистической функции (UDAF) или определяемой пользователем функции table (UDTF), которая использует тип
- 11 июля 2024 г.
- (изменение поведения) Кадры данных, кэшированные для источников Delta table, теперь становятся недействительными, если источник table перезаписан. Это изменение означает, что все изменения состояния Delta tables теперь аннулируют кэшированные результаты. Используйте
.checkpoint()
для сохранения состояния table в течение всего времени существования кадра данных. - Драйвер Snowflake JDBC обновлен до версии 3.16.1.
- Этот выпуск содержит исправление проблемы, которая не позволила правильно отображать вкладку среды пользовательского интерфейса Spark при запуске в службах контейнеров Databricks.
- Чтобы игнорировать недопустимые секции при чтении данных, файловых источников данных, таких как Parquet, ORC, CSV или JSON, можно set параметру источника данных ignoreInvalidPartitionPaths значение true. Например: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...)`. Можно также использовать конфигурацию SQL spark.sql.files.ignoreInvalidPartitionPaths. Однако параметр источника данных имеет приоритет над конфигурацией SQL. Этот параметр имеет значение false по умолчанию.
- [SPARK-48100][SQL] Устранение проблем при пропуске вложенных полей структуры, не выбранных в schema
- [SPARK-47463][SQL] Использование версии 2Predicate для упаковки выражения с типом возвращаемого логического значения
- [SPARK-48292][CORE] Возврат [SPARK-39195][SQL] OutputCommitCoordinator Spark должен прервать этап, когда зафиксированный файл не соответствует состоянию задачи
- [SPARK-48475][PYTHON] Optimize _get_jvm_function в PySpark.
- [SPARK-48286] Исправление анализа column с выражением EXISTS по умолчанию — добавление сообщения об ошибке, видимого пользователем
- [SPARK-48481][SQL][SS] Не применяйте OptimizeOneRowPlan к потоковому набору данных
- Возврат "[SPARK-47406][SQL] Обработка TIMESTAMP и DATETIME в MYSQLDialect"
- [SPARK-48383][SS] Создание более эффективной ошибки для несовпадений секций в параметре startOffset в Kafka
- [SPARK-48503][14.3-15.3][SQL] Исправление недопустимых скалярных вложенных запросов с group by по неэквивалентным columns, которые были неправильно разрешены
- [SPARK-48445][SQL] Не встраивайте пользовательские функции с дорогими дочерними объектами
- [SPARK-48252][SQL] Update CommonExpressionRef при необходимости
- [SPARK-48273][master][SQL] Исправление поздней перезаписи PlanWithUnresolvedIdentifier
- [SPARK-48566][PYTHON] Исправление ошибки индексов wherepartition, которые некорректны, когда UDTF analyze() использует как select, так и partitionColumns
- [SPARK-48556][SQL] Исправлено неверное сообщение об ошибке, указывающее на UNSUPPORTED_GROUPING_EXPRESSION
- Обновления системы безопасности операционной системы.
- (изменение поведения) Кадры данных, кэшированные для источников Delta table, теперь становятся недействительными, если источник table перезаписан. Это изменение означает, что все изменения состояния Delta tables теперь аннулируют кэшированные результаты. Используйте
Среда выполнения Databricks 15.2
См. Databricks Runtime 15.2 (EoS).
- 26 ноября 2024 г.
- Обновления системы безопасности операционной системы.
- 5 ноября 2024 г.
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
- [SPARK-48843][15.3,15.2] Предотвращение бесконечного цикла с помощью BindParameters
- [SPARK-49829] Пересмотреть оптимизацию при добавлении входных данных в хранилище состояний в потоках join (исправление для обеспечения корректности)
- [SPARK-49863][SQL] Исправление нормализации значенийNumbers для сохранения допустимости значений NULL вложенных структур
- [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
- [SPARK-46632][SQL] Исправлена ликвидация вложенных выражений, если эквивалентные тернарные выражения имеют разные дочерние элементы
- Обновления системы безопасности операционной системы.
- 22 октября 2024 г.
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
- [SPARK-48843][15.3,15.2] Предотвращение бесконечного цикла с помощью BindParameters
- [SPARK-49829] Пересмотреть оптимизацию при добавлении входных данных в хранилище состояний в потоках join (исправление для обеспечения корректности)
- [SPARK-49863][SQL] Исправление нормализации значенийNumbers для сохранения допустимости значений NULL вложенных структур
- [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
- [SPARK-46632][SQL] Исправлена ликвидация вложенных выражений, если эквивалентные тернарные выражения имеют разные дочерние элементы
- Обновления системы безопасности операционной системы.
- 10 октября 2024 г.
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Классify Error class for FlatMapGroupsWithState user function error
- [SPARK-49743][SQL] OptimizeCsvJsonExpr не должна изменять поля schema при сокращении GetArrayStructFields
- [SPARK-496888][CONNECT] Исправлена гонка данных между прерыванием и планом выполнения
- Обновления системы безопасности операционной системы.
- 25 сентября 2024 г.
- [SPARK-49000][SQL] Исправление "select count(distinct 1) from t" where t пустой table путем расширения RewriteDistinctAggregates
- [SPARK-48719][SQL] Исправлена ошибка вычисления RegrSlope и RegrIntercept, когда первый параметр имеет значение NULL
- [SPARK-49458][CONNECT][PYTHON] Укажите идентификатор сеанса на стороне сервера с помощью ReattachExecute
- [SPARK-49628][SQL] ConstantFolding должен копировать выражение с отслеживанием состояния перед вычислением
- [SPARK-49492][CONNECT] Повторная попытка выполнить попытку неактивного заполнителя
- Обновления системы безопасности операционной системы.
- 17 сентября 2024 г.
- [SPARK-49336][CONNECT] Limit уровень вложения при усечении сообщения protobuf
- [SPARK-49526][CONNECT] Поддержка путей в стиле Windows в ArtifactManager
- [SPARK-49366][CONNECT] Рассматривать узел объединения как листовой в разрешении column фрейма данных
- [SPARK-43242][CORE] Исправление вызов "Непредвиденный тип BlockId" при диагностике повреждения смешения
- [SPARK-49409][CONNECT] Настройка значения по умолчанию CONNECT_SESSION_PLAN_CACHE_SIZE
- Обновления системы безопасности операционной системы.
- 29 августа 2024 г.
- [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
- [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
-
[SPARK-48862][PYTHON][CONNECT] Избегайте вызова
_proto_to_string
, если уровень INFO не включен - [SPARK-49263][CONNECT] Клиент Python Spark Connect: согласованно обрабатывать логические параметры чтения с кадрами данных
- [SPARK-49146][SS] Перемещение ошибок утверждения, связанных с отсутствием watermark в потоковых запросах в режиме добавления, в инфраструктуру обработки ошибок
- 14 августа 2024 г.
- [SPARK-48941][SPARK-48970] Исправление средства записи машинного обучения и средства чтения
- [SPARK-48050][SS] Логический план журнала при запуске запроса
- [SPARK-48706][PYTHON] UDF Python в функциях более высокого порядка не должен вызывать внутреннюю ошибку
- [SPARK-48740][SQL] Раннее обнаружение ошибки отсутствия спецификации window
- [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
- [SPARK-49047][PYTHON][CONNECT] Усечение сообщения для ведения журнала
- 1 августа 2024 г.
- В бессерверных вычислительных ресурсах для записных книжек и заданий режим ANSI SQL включен по умолчанию. См. поддерживаемые конфигурации Spark parameters.
- При вычислении, настроенном в режиме общего доступа, пакет Kafka считывает и записывает теперь те же ограничения, что и для структурированной потоковой передачи. См. ограничения потоковой передачи и требования к режиму общего доступа Unity Catalog.
- Выходные данные из инструкции
SHOW CREATE TABLE
теперь включают любые фильтры строк или маски column, определенные в материализованном представлении или потоковой передаче table. См. SHOW CREATE TABLE. Чтобы узнать о фильтрах строк и масках column, см. статью Фильтрация конфиденциальных данных table с использованием фильтров строк и масок column. - [SPARK-48705][PYTHON] Явное использование worker_main при запуске с pyspark
- [SPARK-48047][SQL] Уменьшение нагрузки на память пустых тегов TreeNode
- [SPARK-48810][CONNECT] API остановки сеанса () должен быть идемпотентным и не завершается ошибкой, если сеанс уже закрыт сервером
- [SPARK-48873][SQL] Используйте unsafeRow в средство синтаксического анализа JSON.
- [SPARK-46957][CORE] Перенос перенесенных файлов перетасовки должен иметь возможность очистки от исполнителя
- [SPARK-48889][SS] testStream для выгрузки хранилищ состояний перед завершением
- [SPARK-48713][SQL] Добавление проверки диапазона индекса для unsafeRow.pointTo, если baseObject является массивом байтов
- [SPARK-48896][SPARK-48909][SPARK-48883] Исправления средства записи машинного обучения backport spark
- [SPARK-48544][SQL] Уменьшение давления памяти пустых наборов BitSet в TreeNode
- [SPARK-48934][SS] Типы даты и времени Python преобразуются неправильно для настройки времени ожидания в applyInPandasWithState
- [SPARK-48463] Сделать StringIndexer поддерживающим вложенные входные данные columns
- Обновления системы безопасности операционной системы.
- 11 июля 2024 г.
- (изменение поведения) Кадры данных, кэшированные для источников Delta table, теперь становятся недействительными, если источник table перезаписан. Это изменение означает, что все изменения состояния Delta tables теперь аннулируют кэшированные результаты. Используйте
.checkpoint()
для сохранения состояния table в течение всего времени существования кадра данных. - Драйвер Snowflake JDBC обновлен до версии 3.16.1.
- Этот выпуск содержит исправление проблемы, которая не позволила правильно отображать вкладку среды пользовательского интерфейса Spark при запуске в службах контейнеров Databricks.
- В бессерверных записных книжках и заданиях режим SQL ANSI будет включен по умолчанию и поддерживает короткие имена.
- Чтобы игнорировать недопустимые секции при чтении данных, файловых источников данных, таких как Parquet, ORC, CSV или JSON, можно set параметру источника данных ignoreInvalidPartitionPaths значение true. Например: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...)`. Можно также использовать конфигурацию SQL spark.sql.files.ignoreInvalidPartitionPaths. Однако параметр источника данных имеет приоритет над конфигурацией SQL. Этот параметр имеет значение false по умолчанию.
- [SPARK-48273][SQL] Исправление последней перезаписи PlanWithUnresolvedIdentifier
- [SPARK-48292][CORE] Возврат [SPARK-39195][SQL] OutputCommitCoordinator Spark должен прервать этап, когда зафиксированный файл не соответствует состоянию задачи
- [SPARK-48100][SQL] Устранение проблем при пропуске вложенных полей структуры, не выбранных в schema
- [SPARK-48286] Исправление анализа column с выражением EXISTS по умолчанию — добавление сообщения об ошибке, видимого пользователем
- [SPARK-48294][SQL] Обработка нижнего регистра в вложенныхTypeMissingElementTypeError
- [SPARK-48556][SQL] Исправлено неверное сообщение об ошибке, указывающее на UNSUPPORTED_GROUPING_EXPRESSION
- [SPARK-48648][PYTHON][CONNECT] Правильное определение потока SparkConnectClient.tags
- [SPARK-48503][SQL] Исправлены недопустимые скалярные вложенные запросы с группировкой по неэквивалентным columns, которые были допущены ошибочно.
- [SPARK-48252][SQL] Update CommonExpressionRef при необходимости
- [SPARK-48475][PYTHON] Optimize _get_jvm_function в PySpark.
- [SPARK-48566][PYTHON] Исправление ошибки индексов wherepartition, которые некорректны, когда UDTF analyze() использует как select, так и partitionColumns
- [SPARK-48481][SQL][SS] Не применяйте OptimizeOneRowPlan к потоковому набору данных
- [SPARK-47463][SQL] Использование версии 2Predicate для упаковки выражения с типом возвращаемого логического значения
- [SPARK-48383][SS] Создание более эффективной ошибки для несовпадений секций в параметре startOffset в Kafka
- [SPARK-48445][SQL] Не встраивайте пользовательские функции с дорогими дочерними объектами
- Обновления системы безопасности операционной системы.
- (изменение поведения) Кадры данных, кэшированные для источников Delta table, теперь становятся недействительными, если источник table перезаписан. Это изменение означает, что все изменения состояния Delta tables теперь аннулируют кэшированные результаты. Используйте
- 17 июня 2024 г.
-
applyInPandasWithState()
доступен в общих кластерах. - Исправлена ошибка в оптимизации ранжирования wherewindow с помощью Photon TopK, которая неправильно обрабатывала разделы со структурами.
- Исправлена ошибка в функции try_divide(), при котором where входные данные, содержащие десятичные числа, приводили к непредвиденным исключениям.
- [SPARK-48197][SQL] Избегайте ошибки утверждения для недопустимой лямбда-функции
-
[SPARK-48276][PYTHON][CONNECT] Добавление отсутствующих
__repr__
методов дляSQLExpression
- [SPARK-48014][SQL] Измените ошибку makeFromJava в EvaluatePython на ошибку с пользователем
- [SPARK-48016][SQL] Исправлена ошибка в функции try_divide при использовании десятичных разрядов
- [SPARK-47986][CONNECT][PYTHON] Не удается создать новый сеанс при закрытии сеанса по умолчанию сервером
- [SPARK-48173][SQL] CheckAnalysis должен видеть весь план запроса
- [SPARK-48056][CONNECT][PYTHON] Повторный запуск плана, если возникает ошибка SESSION_NOT_FOUND, и не было получено частичного ответа
- [SPARK-48172][SQL] Устранение проблем с экранированием в обратном переносе JDBCDialects до версии 15.2
- [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
- [SPARK-48288] Добавление типа исходных данных для выражения приведения соединителя
- [SPARK-48310][PYTHON][CONNECT] Кэшированные свойства должны возвращать копии
- [SPARK-48277] Улучшение сообщения об ошибке для ErrorClassesJsonReader.getErrorMessage
- [SPARK-47986][CONNECT][PYTHON] Не удается создать новый сеанс при закрытии сеанса по умолчанию сервером
- Возврат "[SPARK-47406][SQL] Обработка TIMESTAMP и DATETIME в MYSQLDialect"
- [SPARK-47994][SQL] Исправлена ошибка с фильтрацией CASE WHEN column в SQL Server
- [SPARK-47764][CORE][SQL] Очистка зависимостей перетасовки на основе ShuffleCleanupMode
- [SPARK-47921][CONNECT] Исправлено создание ExecuteJobTag в ExecuteHolder
- [SPARK-48010][SQL] Избегайте повторных вызовов conf.resolver в resolveExpression
- [SPARK-48146][SQL] Исправлена агрегатная функция в дочернем утверждении выражения
- [SPARK-48180][SQL] Улучшение сообщения об ошибке при вызове UDTF с TABLE аргументом, если забыты круглые скобки вокруг нескольких PARTITION/ORDER BY выражений
- Обновления системы безопасности операционной системы.
-
Databricks Runtime 15.1
См. раздел Databricks Runtime 15.1 (EoS).
- 22 октября 2024 г.
- [SPARK-49863][SQL] Исправление нормализации значенийNumbers для сохранения допустимости значений NULL вложенных структур
- [SPARK-46632][SQL] Исправлена ликвидация вложенных выражений, если эквивалентные тернарные выражения имеют разные дочерние элементы
- [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
- [SPARK-49829] Пересмотреть оптимизацию при добавлении входных данных в хранилище состояний в потоках join (исправление для обеспечения корректности)
- Обновления системы безопасности операционной системы.
- 10 октября 2024 г.
- [SPARK-496888][CONNECT] Исправлена гонка данных между прерыванием и планом выполнения
- [SPARK-49743][SQL] OptimizeCsvJsonExpr не должна изменять поля schema при сокращении GetArrayStructFields
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Классify Error class for FlatMapGroupsWithState user function error
- Обновления системы безопасности операционной системы.
- 25 сентября 2024 г.
- [SPARK-49628][SQL] ConstantFolding должен копировать выражение с отслеживанием состояния перед вычислением
- [SPARK-48719][SQL] Исправлена ошибка вычисления RegrSlope и RegrIntercept, когда первый параметр имеет значение NULL
- [SPARK-49492][CONNECT] Повторная попытка выполнить попытку неактивного заполнителя
- [SPARK-49000][SQL] Исправление "select count(distinct 1) from t" where t пустой table путем расширения RewriteDistinctAggregates
- [SPARK-49458][CONNECT][PYTHON] Укажите идентификатор сеанса на стороне сервера с помощью ReattachExecute
- Обновления системы безопасности операционной системы.
- 17 сентября 2024 г.
- [SPARK-49336][CONNECT] Limit уровень вложения при усечении сообщения protobuf
- [SPARK-49526][CONNECT] Поддержка путей в стиле Windows в ArtifactManager
- [SPARK-49409][CONNECT] Настройка значения по умолчанию CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-43242][CORE] Исправление вызов "Непредвиденный тип BlockId" при диагностике повреждения смешения
- [SPARK-49366][CONNECT] Рассматривать узел объединения как листовой в разрешении column фрейма данных
- 29 августа 2024 г.
- [SPARK-49263][CONNECT] Клиент Python Spark Connect: согласованно обрабатывать логические параметры чтения с кадрами данных
- [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
-
[SPARK-48862][PYTHON][CONNECT] Избегайте вызова
_proto_to_string
, если уровень INFO не включен - [SPARK-49146][SS] Перемещение ошибок утверждения, связанных с отсутствием watermark в потоковых запросах в режиме добавления, в инфраструктуру обработки ошибок
- 14 августа 2024 г.
- [SPARK-48941][SPARK-48970] Исправление средства записи машинного обучения и средства чтения
- [SPARK-48050][SS] Логический план журнала при запуске запроса
- [SPARK-48706][PYTHON] UDF Python в функциях более высокого порядка не должен вызывать внутреннюю ошибку
- [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
- [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
- [SPARK-49047][PYTHON][CONNECT] Усечение сообщения для ведения журнала
- [SPARK-48740][SQL] Раннее обнаружение ошибки отсутствия спецификации window
- 1 августа 2024 г.
- В бессерверных вычислительных ресурсах для записных книжек и заданий режим ANSI SQL включен по умолчанию. См. поддерживаемые конфигурации Spark parameters.
- При вычислении, настроенном в режиме общего доступа, пакет Kafka считывает и записывает теперь те же ограничения, что и для структурированной потоковой передачи. См. ограничения потоковой передачи и требования к режиму общего доступа Unity Catalog.
- Выходные данные из инструкции
SHOW CREATE TABLE
теперь включают любые фильтры строк или маски column, определенные в материализованном представлении или потоковой передаче table. См. SHOW CREATE TABLE. Чтобы узнать о фильтрах строк и масках column, см. статью Фильтрация конфиденциальных данных table с использованием фильтров строк и масок column. - [SPARK-48544][SQL] Уменьшение давления памяти пустых наборов BitSet в TreeNode
- [SPARK-46957][CORE] Перенос перенесенных файлов перетасовки должен иметь возможность очистки от исполнителя
- [SPARK-47202][PYTHON] Исправление критических дат и времени ввода с помощью tzinfo
- [SPARK-48713][SQL] Добавление проверки диапазона индекса для unsafeRow.pointTo, если baseObject является массивом байтов
- [SPARK-48896][SPARK-48909][SPARK-48883] Исправления средства записи машинного обучения backport spark
- [SPARK-48810][CONNECT] API остановки сеанса () должен быть идемпотентным и не завершается ошибкой, если сеанс уже закрыт сервером
- [SPARK-48873][SQL] Используйте unsafeRow в средство синтаксического анализа JSON.
- [SPARK-48934][SS] Типы даты и времени Python преобразуются неправильно для настройки времени ожидания в applyInPandasWithState
- [SPARK-48705][PYTHON] Явное использование worker_main при запуске с pyspark
- [SPARK-48889][SS] testStream для выгрузки хранилищ состояний перед завершением
- [SPARK-48047][SQL] Уменьшение нагрузки на память пустых тегов TreeNode
- [SPARK-48463] Сделать StringIndexer поддерживающим вложенные входные данные columns
- Обновления системы безопасности операционной системы.
- 11 июля 2024 г.
- (изменение поведения) Кадры данных, кэшированные для источников Delta table, теперь становятся недействительными, если источник table перезаписан. Это изменение означает, что все изменения состояния Delta tables теперь аннулируют кэшированные результаты. Используйте
.checkpoint()
для сохранения состояния table в течение всего времени существования кадра данных. - Драйвер Snowflake JDBC обновлен до версии 3.16.1.
- Этот выпуск содержит исправление проблемы, которая не позволила правильно отображать вкладку среды пользовательского интерфейса Spark при запуске в службах контейнеров Databricks.
- В бессерверных вычислительных ресурсах для записных книжек и заданий режим ANSI SQL включен по умолчанию. См. поддерживаемые конфигурации Spark parameters.
- Чтобы игнорировать недопустимые секции при чтении данных, файловых источников данных, таких как Parquet, ORC, CSV или JSON, можно set параметру источника данных ignoreInvalidPartitionPaths значение true. Например: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...)`. Можно также использовать конфигурацию SQL spark.sql.files.ignoreInvalidPartitionPaths. Однако параметр источника данных имеет приоритет над конфигурацией SQL. Этот параметр имеет значение false по умолчанию.
- [SPARK-48383][SS] Создание более эффективной ошибки для несовпадений секций в параметре startOffset в Kafka
- [SPARK-48481][SQL][SS] Не применяйте OptimizeOneRowPlan к потоковому набору данных
- [SPARK-48100][SQL] Устранение проблем при пропуске вложенных полей структуры, не выбранных в schema
- [SPARK-47463][SQL] Использование версии 2Predicate для упаковки выражения с типом возвращаемого логического значения
- [SPARK-48445][SQL] Не встраивайте пользовательские функции с дорогими дочерними объектами
- [SPARK-48292][CORE] Возврат [SPARK-39195][SQL] OutputCommitCoordinator Spark должен прервать этап, когда зафиксированный файл не соответствует состоянию задачи
- [SPARK-48566][PYTHON] Исправление ошибки индексов wherepartition, которые некорректны, когда UDTF analyze() использует как select, так и partitionColumns
- [SPARK-48648][PYTHON][CONNECT] Правильное определение потока SparkConnectClient.tags
- [SPARK-48503][SQL] Исправлены недопустимые скалярные вложенные запросы с группировкой по неэквивалентным columns, которые были допущены ошибочно.
- [SPARK-48252][SQL] Update CommonExpressionRef при необходимости
- [SPARK-48475][PYTHON] Optimize _get_jvm_function в PySpark.
- [SPARK-48294][SQL] Обработка нижнего регистра в вложенныхTypeMissingElementTypeError
- [SPARK-48286] Исправление анализа column с выражением EXISTS по умолчанию — добавление сообщения об ошибке, видимого пользователем
- [SPARK-47309][SQL] XML: добавить тесты на вывод schema для тегов значений
- [SPARK-47309][SQL][XML] Добавление модульных тестов для проверки вывода schema
- [SPARK-48273][SQL] Исправление последней перезаписи PlanWithUnresolvedIdentifier
- Обновления системы безопасности операционной системы.
- (изменение поведения) Кадры данных, кэшированные для источников Delta table, теперь становятся недействительными, если источник table перезаписан. Это изменение означает, что все изменения состояния Delta tables теперь аннулируют кэшированные результаты. Используйте
- 17 июня 2024 г.
-
applyInPandasWithState()
доступен в общих кластерах. - Исправлена ошибка в оптимизации ранжирования wherewindow с помощью Photon TopK, которая неправильно обрабатывала разделы со структурами.
- [SPARK-48310][PYTHON][CONNECT] Кэшированные свойства должны возвращать копии
-
[SPARK-48276][PYTHON][CONNECT] Добавление отсутствующих
__repr__
методов дляSQLExpression
- [SPARK-48277] Улучшение сообщения об ошибке для ErrorClassesJsonReader.getErrorMessage
- [SPARK-47764][CORE][SQL] Очистка зависимостей перетасовки на основе ShuffleCleanupMode
- Обновления системы безопасности операционной системы.
-
- 21 мая 2024 г.
- Исправлена ошибка в функции try_divide(), при котором where входные данные, содержащие десятичные числа, приводили к непредвиденным исключениям.
- [SPARK-48173][SQL] CheckAnalysis должен видеть весь план запроса
- [SPARK-48016][SQL] Исправлена ошибка в функции try_divide при использовании десятичных разрядов
- [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
- [SPARK-48197][SQL] Избегайте ошибки утверждения для недопустимой лямбда-функции
- [SPARK-48180][SQL] Улучшение сообщения об ошибке при вызове UDTF с TABLE аргументом, если забыты круглые скобки вокруг нескольких PARTITION/ORDER BY выражений
- [SPARK-48014][SQL] Измените ошибку makeFromJava в EvaluatePython на ошибку с пользователем
- [SPARK-48056][CONNECT][PYTHON] Повторный запуск плана, если возникает ошибка SESSION_NOT_FOUND, и не было получено частичного ответа
- [SPARK-48146][SQL] Исправлена агрегатная функция в дочернем утверждении выражения
- [SPARK-47994][SQL] Исправлена ошибка с фильтрацией CASE WHEN column в SQL Server
- Обновления системы безопасности операционной системы.
- 9 мая 2024 г.
- [SPARK-47543][CONNECT][PYTHON] Вывод дикта как MapType из Кадра данных Pandas, чтобы разрешить создание кадра данных
- [SPARK-47739][SQL] Регистрация типа логического avro
-
[SPARK-48044][PYTHON][CONNECT] Тайник
DataFrame.isStreaming
-
[SPARK-47855][CONNECT] Добавьте
spark.sql.execution.arrow.pyspark.fallback.enabled
в неподдерживаемый list - [SPARK-48010][SQL] Избегайте повторных вызовов conf.resolver в resolveExpression
- [SPARK-47941] [SS] [Подключение] Распространение ошибок инициализации рабочей роли ForeachBatch пользователям для PySpark
- [SPARK-47819][CONNECT][Cherry-pick-15.0] Используйте асинхронный обратный вызов для очистки выполнения
- [SPARK-47956][SQL] Проверка работоспособности для неразрешенной ссылки на LCA
- [SPARK-47839][SQL] Исправлена статистическая ошибка в RewriteWithExpression
- [SPARK-48018][SS] Исправление null groupId, вызывающее ошибку param при вызове KafkaException.couldNotReadOffsetRange
- [SPARK-47371] [SQL] XML: игнорировать теги строк, найденные в CDATA
- [SPARK-47907][SQL] Поместите удар под конфигурацией
- [SPARK-47895]Группа [SQL] по всем должна быть идемпотентной
- [SPARK-47973][CORE] Сайт вызова журнала в SparkContext.stop() и более поздних версиях в SparkContext.assertNotStopped()
- [SPARK-47986][CONNECT][PYTHON] Не удается создать новый сеанс при закрытии сеанса по умолчанию сервером
- Обновления системы безопасности операционной системы.
Databricks Runtime 15.0
См. раздел Databricks Runtime 15.0 (EoS).
- 30 мая 2024 г.
- (изменение поведения)
dbutils.widgets.getAll()
теперь поддерживается для get всех мини-приложений values в ноутбуке.
- (изменение поведения)
- 25 апреля 2024 г.
- [SPARK-47786]SELECT DISTINCT () не должно стать SELECT структуры DISTINCT () (вернуться к предыдущему поведению)
- [SPARK-47802][SQL] Возврат () от значения структуры() обратно к значению *
- [SPARK-47509][SQL] Блокировать выражения вложенных запросов в лямбда-функциях и функциях более высокого порядка
- [SPARK-47722] Дождитесь завершения фоновой работы RocksDB до закрытия
- [SPARK-47081][CONNECT][СЛЕДУЙТЕ] Улучшение удобства использования обработчика хода выполнения
- [SPARK-47694][CONNECT] Настройка максимального размера сообщения на стороне клиента
-
[SPARK-47669][SQL][CONNECT][PYTHON] Добавлять
Column.try_cast
- [SPARK-47664][PYTHON][CONNECT][Cherry-pick-15.0] Проверка имени column с кэшированной schema
- [SPARK-47818][CONNECT][Cherry-pick-15.0] Введите кэш планов в SparkConnectPlanner для повышения производительности запросов анализа
- [SPARK-47704][SQL] Синтаксический анализ JSON завершается ошибкой "java.lang.ClassCastException", если включен параметр spark.sql.json.enablePartialResults
- [SPARK-47755][CONNECT] Pivot должен завершиться сбоем при слишком большом количестве отдельных values
- [SPARK-47713][SQL][CONNECT] Исправление ошибки самопроверкиjoin
- [SPARK-47812][CONNECT] Поддержка сериализации SparkSession для рабочей роли ForEachBatch
-
[SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
сбой с недопустимым планом - [SPARK-47862][PYTHON][CONNECT]Исправление создания файлов proto
- [SPARK-47800][SQL] Создание нового метода для преобразования identifier в tableIdentifier
- Обновления системы безопасности операционной системы.
- 3 апреля 2024 г.
- (Изменение поведения) Чтобы обеспечить согласованное поведение в разных типах вычислений, определяемые пользователем PySpark в общих кластерах, теперь соответствуют поведению определяемых пользователем удостовериться в отсутствии изоляции и назначенных кластерах. Этот update включает следующие изменения, которые могут нарушить существующий код:
- Определяемые пользователем функции с типом возврата
string
больше не выполняют неявного преобразованияstring
values вstring
values. Ранее определяемые пользователем элементы с возвращаемым типомstr
упаковывают возвращаемое значение сstr()
функцией независимо от фактического типа данных возвращаемого значения. - Определяемые пользователем функции с
timestamp
возвращаемыми типами больше неявно применяют преобразование кtimestamp
timezone
. - Конфигурации
spark.databricks.sql.externalUDF.*
кластера Spark больше не применяются к пользовательским файлам PySpark в общих кластерах. - Конфигурация
spark.databricks.safespark.externalUDF.plan.limit
кластера Spark больше не влияет на определяемые пользователем функции PySpark, удаляя ограничение общедоступной предварительной версии 5 определяемых пользователем пользователей для pySpark. - Конфигурация
spark.databricks.safespark.sandbox.size.default.mib
кластера Spark больше не применяется к определяемой пользователем функции PySpark в общих кластерах. Вместо этого используется доступная память в системе. Чтобы limit память пользовательских функций PySpark, используйтеspark.databricks.pyspark.udf.isolation.memoryLimit
с минимальным значением100m
.
- Определяемые пользователем функции с типом возврата
- Теперь тип данных
TimestampNTZ
поддерживается как кластеризация column с кластериванием жидкости. См. раздел «Использование кластеризации жидкости для Delta tables». - [SPARK-47218][SQL] XML: игнорировать закомментированные теги строк в xml-токенизаторе
- [SPARK-46990][SQL] Исправлена загрузка пустых файлов Avro, создаваемых центрами событий
- [SPARK-47033][SQL] Исправить, что EXECUTE IMMEDIATE USING не распознает имена переменных сеансов
- [SPARK-47368][SQL] Remove проверка настройки inferTimestampNTZ в ParquetRowConverter
- [SPARK-47561][SQL] Устранение проблем с порядком правил анализатора для псевдонима
- [SPARK-47638][PS][CONNECT] Пропустить проверку имени column в PS
- [SPARK-46906][BACKPORT][SS] Добавление проверки изменения оператора с отслеживанием состояния для потоковой передачи
- [SPARK-47569][SQL] Запретить сравнение вариантов.
- [SPARK-47241][SQL] Устранение проблем с порядком правил для ExtractGenerator
- [SPARK-47218] [SQL] XML: изменена схемаOfXml для сбоя в режиме DROPMALFORMED
-
[SPARK-47300][SQL]
quoteIfNeeded
должен процитировать identifier начинается с цифр - [SPARK-47009][SQL][Сортировка] Включение поддержки создания table для сортировки
-
[SPARK-47322][PYTHON][CONNECT] Сделать обработку дублирования имен
withColumnsRenamed
column согласованной сwithColumnRenamed
- [SPARK-47544][PYTHON] Метод построителя SparkSession несовместим с intellisense кода Visual Studio
- [SPARK-47511][SQL] Канонизация с помощью выражений путем повторного назначения идентификаторов
- [SPARK-47385] Исправьте кодировщики кортежей с помощью входных данных Option.
- [SPARK-47200][SS] Класс ошибок для ошибки пользовательской функции приемника пакетной службы Foreach
- [SPARK-47135][SS] Реализация классов ошибок для исключений потери данных Kafka
- [SPARK-38708][SQL] Обновление клиента хранилища метаданных Hive до версии 3.1.3 для Hive 3.1
- [SPARK-47305][SQL] Исправление PruneFilters, чтобы пометить флаг isStreaming LocalRelation правильно, когда план содержит пакетную и потоковую передачу.
- [SPARK-47380][CONNECT] Убедитесь в том, что SparkSession совпадает с сервером.
- Обновления системы безопасности операционной системы.
- (Изменение поведения) Чтобы обеспечить согласованное поведение в разных типах вычислений, определяемые пользователем PySpark в общих кластерах, теперь соответствуют поведению определяемых пользователем удостовериться в отсутствии изоляции и назначенных кластерах. Этот update включает следующие изменения, которые могут нарушить существующий код:
Databricks Runtime 14.2
См. раздел Databricks Runtime 14.2 (EoS).
- 22 октября 2024 г.
- [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
- [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
- Обновления системы безопасности операционной системы.
- 10 октября 2024 г.
- [SPARK-49743][SQL] OptimizeCsvJsonExpr не должна изменять поля schema при сокращении GetArrayStructFields
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Классify Error class for FlatMapGroupsWithState user function error
- 25 сентября 2024 г.
- [SPARK-48719][SQL] Исправлена ошибка вычисления regrS...
- [SPARK-49628][SQL] ConstantFolding должен копировать выражение с отслеживанием состояния перед вычислением
- [SPARK-49000][SQL] Исправление "select count(distinct 1) from t" where t пустой table путем расширения RewriteDistinctAggregates
- [SPARK-43242][CORE] Исправление вызов "Непредвиденный тип BlockId" при диагностике повреждения смешения
- [SPARK-46601] [CORE] Исправлена ошибка журнала в handleStatusMessage
- Обновления системы безопасности операционной системы.
- 17 сентября 2024 г.
- [SPARK-49526][CONNECT] Поддержка путей в стиле Windows в ArtifactManager
- 29 августа 2024 г.
- [SPARK-49263][CONNECT] Клиент Python Spark Connect: согласованно обрабатывать логические параметры чтения с кадрами данных
- [SPARK-49146][SS] Перемещение ошибок утверждения, связанных с отсутствием watermark в потоковых запросах в режиме добавления, в инфраструктуру обработки ошибок
- [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
- 14 августа 2024 г.
- [SPARK-48050][SS] Логический план журнала при запуске запроса
- [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
- [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
- [SPARK-48706][PYTHON] UDF Python в функциях более высокого порядка не должен вызывать внутреннюю ошибку
- 1 августа 2024 г.
- Этот выпуск включает исправление ошибок для
ColumnVector
иColumnarArray
классов в интерфейсе Java Spark. До этого исправления могла вызываться ошибкаArrayIndexOutOfBoundsException
или возвращаться неверные данные, когда экземпляр одного из этих классов содержалnull
values. - Выходные данные из инструкции
SHOW CREATE TABLE
теперь включают любые фильтры строк или маски column, определенные в материализованном представлении или потоковой передаче table. См. SHOW CREATE TABLE. Чтобы узнать о фильтрах строк и масках column, см. статью Фильтрация конфиденциальных данных table с использованием фильтров строк и масок column. - [SPARK-47202][PYTHON] Исправление критических дат и времени ввода с помощью tzinfo
- [SPARK-48705][PYTHON] Явное использование worker_main при запуске с pyspark
- Обновления системы безопасности операционной системы.
- Этот выпуск включает исправление ошибок для
- 11 июля 2024 г.
- (изменение поведения) Кадры данных, кэшированные для источников Delta table, теперь становятся недействительными, если источник table перезаписан. Это изменение означает, что все изменения состояния Delta tables теперь аннулируют кэшированные результаты. Используйте
.checkpoint()
для сохранения состояния table в течение всего времени существования кадра данных. - Драйвер JDBC Snowflake обновлен до версии 3.16.1
- Этот выпуск содержит исправление проблемы, которая не позволила правильно отображать вкладку среды пользовательского интерфейса Spark при запуске в службах контейнеров Databricks.
- [SPARK-48292][CORE] Возврат [SPARK-39195][SQL] OutputCommitCoordinator Spark должен прервать этап, когда зафиксированный файл не соответствует состоянию задачи
- [SPARK-48273][SQL] Исправление последней перезаписи PlanWithUnresolvedIdentifier
- [SPARK-48503][SQL] Исправлены недопустимые скалярные вложенные запросы с группировкой по неэквивалентным columns, которые были допущены ошибочно.
- [SPARK-48481][SQL][SS] Не применяйте OptimizeOneRowPlan к потоковому набору данных
- [SPARK-48475][PYTHON] Optimize _get_jvm_function в PySpark.
- [SPARK-48100][SQL] Устранение проблем при пропуске вложенных полей структуры, не выбранных в schema
- [SPARK-48445][SQL] Не встраивайте пользовательские функции с дорогими дочерними объектами
- [SPARK-48383][SS] Создание более эффективной ошибки для несовпадений секций в параметре startOffset в Kafka
- Обновления системы безопасности операционной системы.
- (изменение поведения) Кадры данных, кэшированные для источников Delta table, теперь становятся недействительными, если источник table перезаписан. Это изменение означает, что все изменения состояния Delta tables теперь аннулируют кэшированные результаты. Используйте
- 17 июня 2024 г.
- Исправлена ошибка в оптимизации ранжирования wherewindow с помощью Photon TopK, которая неправильно обрабатывала разделы со структурами.
-
[SPARK-48276][PYTHON][CONNECT] Добавление отсутствующих
__repr__
методов дляSQLExpression
- [SPARK-48277] Улучшение сообщения об ошибке для ErrorClassesJsonReader.getErrorMessage
- Обновления системы безопасности операционной системы.
- 21 мая 2024 г.
- (изменение поведения)
dbutils.widgets.getAll()
теперь поддерживается для get всех мини-приложений values в ноутбуке. - [SPARK-48173][SQL] CheckAnalysis должен видеть весь план запроса
- [SPARK-48197][SQL] Избегайте ошибки утверждения для недопустимой лямбда-функции
- [SPARK-47994][SQL] Исправлена ошибка с фильтрацией CASE WHEN column в SQL Server
- [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
- Обновления системы безопасности операционной системы.
- (изменение поведения)
- 9 мая 2024 г.
-
[SPARK-48044][PYTHON][CONNECT] Тайник
DataFrame.isStreaming
- [SPARK-47956][SQL] Проверка работоспособности для неразрешенной ссылки на LCA
- [SPARK-47371] [SQL] XML: игнорировать теги строк, найденные в CDATA
- [SPARK-47812][CONNECT] Поддержка сериализации SparkSession для рабочей роли ForEachBatch
- [SPARK-47895]Группа [SQL] по всем должна быть идемпотентной
- [SPARK-47973][CORE] Сайт вызова журнала в SparkContext.stop() и более поздних версиях в SparkContext.assertNotStopped()
- Обновления системы безопасности операционной системы.
-
[SPARK-48044][PYTHON][CONNECT] Тайник
- 25 апреля 2024 г.
- [SPARK-47704][SQL] Синтаксический анализ JSON завершается ошибкой "java.lang.ClassCastException", если включен параметр spark.sql.json.enablePartialResults
-
[SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
сбой с недопустимым планом - Обновления системы безопасности операционной системы.
- 11 апреля 2024 г.
- [SPARK-47309][SQL][XML] Добавление модульных тестов для проверки вывода schema
- [SPARK-46990][SQL] Исправлена загрузка пустых файлов Avro, создаваемых центрами событий
- [SPARK-47638][PS][CONNECT] Пропустить проверку имени column в PS
- [SPARK-47509][SQL] Блокировать выражения вложенных запросов в лямбда-функциях и функциях более высокого порядка
- [SPARK-38708][SQL] Обновление клиента хранилища метаданных Hive до версии 3.1.3 для Hive 3.1
- Обновления системы безопасности операционной системы.
- 1 апреля 2024 г.
-
[SPARK-47322][PYTHON][CONNECT] Сделать обработку дублирования имен
withColumnsRenamed
column согласованной сwithColumnRenamed
- [SPARK-47385] Исправьте кодировщики кортежей с помощью входных данных Option.
- [SPARK-47070] Исправлена недопустимая агрегирование после перезаписи вложенных запросов
- [SPARK-47218] [SQL] XML: изменена схемаOfXml для сбоя в режиме DROPMALFORMED
- [SPARK-47305][SQL] Исправление PruneFilters, чтобы пометить флаг isStreaming LocalRelation правильно, когда план содержит пакетную и потоковую передачу.
- [SPARK-47218][SQL] XML: игнорировать закомментированные теги строк в xml-токенизаторе
- Возврат "[SPARK-46861][CORE] Избегайте взаимоблокировки в DAGScheduler"
-
[SPARK-47300][SQL]
quoteIfNeeded
должен процитировать identifier начинается с цифр - [SPARK-47368][SQL] Remove проверка настройки inferTimestampNTZ в ParquetRowConverter
- Обновления системы безопасности операционной системы.
-
[SPARK-47322][PYTHON][CONNECT] Сделать обработку дублирования имен
- 14 марта 2024 г.
- [SPARK-47035][SS][CONNECT] Протокол для прослушивателя на стороне клиента
- [SPARK-47121][CORE] Избегайте отклоненийExecutionExceptions во время завершения работы StandaloneSchedulerBackend
- [SPARK-47145][SQL] Передайте tableidentifier в выполнение сканирования источника данных строк для стратегии V2.
- [SPARK-47176][SQL] Функция вспомогательного средства ResolveAllExpressionsUpWithPruning
- [SPARK-47167][SQL] Добавление конкретного класса для анонимного отношения JDBC
-
[SPARK-47129][CONNECT][SQL] Правильное подключение
ResolveRelations
к кэшу - [SPARK-47044][SQL] Добавить выполненный запрос для внешних источников данных JDBC в explain вывод
- Обновления системы безопасности операционной системы.
- 29 февраля 2024 г.
- Исправлена проблема where: использование локальной коллекции в качестве источника в команде MERGE может привести к тому, что метрика numSourceRows сообщает о двойном количестве строк по сравнению с правильным значением.
- Для создания schema с определенным расположением теперь требуется, чтобы пользователь имел привилегии SELECT и ИЗМЕНЕНИЕ на ЛЮБОЙ ФАЙЛ.
- Теперь вы можете получать XML-файлы с помощью автозагрузчика, read_files, COPY INTO, DLT и DBSQL. Поддержка XML-файлов может автоматически выводить и развивать schema, восстанавливать данные при несоответствиях типов, проверять XML с помощью XSD, поддерживать выражения SQL, такие как from_xml, schema_of_xml и to_xml. Дополнительные сведения см . в статье о поддержке XML-файла. Если вы ранее использовали внешний пакет spark-xml, ознакомьтесь с инструкциями по миграции.
- [SPARK-46954][SQL] XML: оболочка InputStreamReader с помощью bufferedReader
- [SPARK-46630][SQL] XML: проверка имени XML-элемента при записи
- [SPARK-46248][SQL] XML: поддержка параметров ignoreCorruptFiles и ignoreMissingFiles
- [SPARK-46954][SQL] XML: поиск индекса Optimizeschema
- [SPARK-47059][SQL] Присоединить контекст ошибки для команды ALTER COLUMN v1
- [SPARK-46993][SQL] Исправление свертывания констант для переменных сеанса
- 8 февраля 2024 г.
- Запросы веб-канала изменений (CDF) в Unity Catalog материализованные views не поддерживаются, и попытка запустить запрос CDF с Catalog материализованным представлением возвращает ошибку. Unity Catalog поддержка потоковой передачи tables будет поддерживать запросы CDF для не-
APPLY CHANGES
tables в Databricks Runtime 14.1 и более поздних версиях. Запросы CDF не поддерживаются в версии Unity Catalog Stream tables совместно с Databricks Runtime 14.0 и более ранними версиями. - [SPARK-46930] Добавьте поддержку настраиваемого префикса для полей типа Union в Avro.
- [SPARK-46822] Уважение spark.sql.legacy.charVarcharAsString при приведение типа jdbc к типу катализатора в jdbc.
- [SPARK-46952] XML: Limit размер поврежденной записи.
- [SPARK-46644] Измените добавление и слияние в SQLMetric для использования isZero.
- [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
- [SPARK-46794]Remove подзапросы из ограничений LogicalRDD.
- [SPARK-46941] не удается insertwindow группировать limit узел для вычислений top-k, если он содержит SizeBasedWindowFunction.
- [SPARK-46933] Добавьте метрику времени выполнения запроса в соединители, использующие JDBCRDD.
- Обновления системы безопасности операционной системы.
- Запросы веб-канала изменений (CDF) в Unity Catalog материализованные views не поддерживаются, и попытка запустить запрос CDF с Catalog материализованным представлением возвращает ошибку. Unity Catalog поддержка потоковой передачи tables будет поддерживать запросы CDF для не-
- 31 января 2024 г.
-
[SPARK-46382] XML: Update документ для
ignoreSurroundingSpaces
. - [SPARK-46382] XML: запись values чередуется между элементами.
- [SPARK-46763] Исправлена ошибка утверждения в ReplaceDeduplicateWithAggregate для повторяющихся атрибутов.
- Откат [SPARK-46769] исправление вывода, связанного с меткой времени schema.
-
[SPARK-46677] Исправление
dataframe["*"]
разрешения. - [SPARK-46382] XML: по умолчанию игнорируется Значение true ДляSurroundingSpaces.
- [SPARK-46633] Исправление средства чтения Avro для обработки блоков нулевой длины.
- [SPARK-45964]Remove частный метод доступа sql в пакете XML и JSON под пакетом катализатора.
- [SPARK-46581]Update комментарий о isZero в AccumulatorV2.
- [SPARK-45912] Усовершенствование API XSDToSchema: переход на API HDFS для специальных возможностей облачного хранилища.
- [SPARK-45182] Игнорировать завершение задачи из старой стадии после повторного выполнения родительского этапа, определяемого контрольной суммой.
- [SPARK-46660] Запросы reattachExecute обновляют состояние активности sessionHolder.
- [SPARK-46610] Create table должно вызывать исключение, если нет значения для ключа в параметрах.
-
[SPARK-46383] Сокращение использования кучи драйверов путем уменьшения срока существования
TaskInfo.accumulables()
. - [SPARK-46769] Улучшение определения, связанного с метками времени schema.
- [SPARK-46684] Исправьте coGroup.applyInPandas/Arrow, чтобы правильно передать аргументы.
- [SPARK-46676] dropDuplicatesWithinWatermark не должен завершать ошибку канонизации плана.
-
[SPARK-45962]Remove
treatEmptyValuesAsNulls
и используйте вместо этого параметрnullValue
в XML. - [SPARK-46541] Исправьте неоднозначную ссылку column в self join.
- [SPARK-46599] XML: используйте TypeCoercion.findTightestCommonType для проверки совместимости.
- Обновления системы безопасности операционной системы.
-
[SPARK-46382] XML: Update документ для
- 17 января 2024 г.
- Узел
shuffle
плана explain, возвращаемого запросом Photon, обновляется для добавления флагаcausedBroadcastJoinBuildOOM=true
при возникновении ошибки нехватки памяти во время перемешивания, которое является частью широковещательной операции join. - Чтобы избежать повышенной задержки при обмене данными по протоколу TLSv1.3, этот выпуск обслуживания включает исправление для установки JDK 8, чтобы устранить ошибку JDK-8293562.
-
[SPARK-46261]
DataFrame.withColumnsRenamed
должен хранить упорядочение диктовки или карты. -
[SPARK-46538] Исправлена неоднозначная проблема со ссылкой column в
ALSModel.transform
. - [spark-46145] spark.catalog.listTables не вызывает исключение, если table или представление не найдено.
-
[SPARK-46484] Чтобы
resolveOperators
вспомогательные функции сохраняли идентификатор плана. -
[SPARK-46394] Исправить spark.catalog.listDatabases() проблемы со схемами со специальными символами, когда
spark.sql.legacy.keepCommandOutputSchema
set равно true. - [SPARK-46609] Избегайте экспоненциального взрыва в PartitioningPreservingUnaryExecNode.
- [SPARK-46446] Отключить вложенные запросы с коррелированной OFFSET для исправления ошибки правильности.
- [SPARK-46152] XML: добавление поддержки DecimalType в инференции XML schema.
-
[SPARK-46602] распространение
allowExisting
в представлении при наличии представления илиtable. - [SPARK-45814] Сделайте стрелкуConverters.createEmptyArrowBatch вызов close(), чтобы избежать утечки памяти.
- [SPARK-46058] Добавьте отдельный флаг для privateKeyPassword.
- [SPARK-46132] Поддержка пароля ключа для ключей JKS для ПРОТОКОЛА SSL RPC.
- [SPARK-46600] Переместите общий код между SqlConf и SqlApiConf в SqlApiConfHelper.
- [SPARK-46478] Вернуть SPARK-43049 для использования oracle varchar(255) для строки.
- [SPARK-46417] Не завершайте ошибку при вызове hive.getTable и throwException имеет значение false.
- [SPARK-46153] XML: добавление поддержки TimestampNTZType.
- [SPARK-46056][BACKPORT] Исправление векторного вектора Parquet чтения NPE с значением по умолчанию byteArrayDecimalType.
- [SPARK-46466] Векторное средство чтения parquet никогда не должно делать перебазу для метки времени ntz.
-
[SPARK-46260]
DataFrame.withColumnsRenamed
должен соблюдать порядок диктовки. - [SPARK-46036] Удаление класса ошибок из функции raise_error.
- [SPARK-46294] Очистка семантики инициализации и нуля значений.
- [SPARK-46173] Пропуск вызова trimAll во время синтаксического анализа даты.
- [SPARK-46250] Deflake test_parity_listener.
- [SPARK-46587] XML: исправлено преобразование большого целочисленного числа XSD.
- [SPARK-46396] Вывод метки времени не должен вызывать исключение.
- [SPARK-46241] Исправьте подпрограмму обработки ошибок, чтобы она не падала в бесконечное рекурсии.
- [SPARK-46355] XML: закройте InputStreamReader при завершении чтения.
- [SPARK-46370] Исправлена ошибка при запросе из table после изменения значений column по умолчанию.
- [SPARK-46265] Утверждения в AddArtifact RPC делают клиент подключения несовместимыми со старыми кластерами.
- [SPARK-46308] Запретить рекурсивную обработку ошибок.
-
[SPARK-46337] Сохраните
CTESubstitution
PLAN_ID_TAG
.
- Узел
- 14 декабря 2023 г.
- [SPARK-46141] Измените значение по умолчанию для spark.sql.legacy.ctePrecedencePolicy на CORRECTED.
- [SPARK-45730] Сделайте reloadingX509TrustManagerSuite меньше пламени.
- [SPARK-45852] Грациозно справиться с ошибкой рекурсии во время ведения журнала.
- [SPARK-45808] Улучшена обработка ошибок для исключений SQL.
- [SPARK-45920] группа по порядковой номеру должна быть идемпотентной.
- Вернуть "[SPARK-45649] Объединить платформу подготовки для
OffsetWindowFunctionFrame
". - [SPARK-45733] Поддержка нескольких политик повторных попыток.
- [SPARK-45509] Исправить поведение ссылок df column для Spark Connect.
- [SPARK-45655] Разрешить недетерминированные выражения внутри AggregateFunctions в CollectMetrics.
- [SPARK-45905] Наименее распространенный тип между десятичными типами должен хранить целочисленные цифры в первую очередь.
- [SPARK-45136] Улучшена поддержка ЗакрытияCleaner с поддержкой Ammonite.
- [SPARK-46255] Поддержка сложного типа —> преобразование строк.
- [SPARK-45859] Сделайте объекты UDF в ml.functions ленивыми.
-
[SPARK-46028] Настроить
Column.__getitem__
для приема входных данных column. - [SPARK-45798] Утверждение идентификатора сеанса на стороне сервера.
-
[SPARK-45892] Проверка плана оптимизатора рефакторинга для развязки
validateSchemaOutput
иvalidateExprIdUniqueness
. - [SPARK-45844] Реализуйте нечувствительность регистра для XML.
-
[SPARK-45770] Общие сведения о
DataFrameDropColumns
планеDataframe.drop
. - [SPARK-44790] XML: to_xml реализацию и привязки для Python, connect и SQL.
- [SPARK-45851] Поддержка нескольких политик в клиенте Scala.
- Обновления системы безопасности операционной системы.
- 29 ноября 2023 г.
- Установите новый пакет,
pyarrow-hotfix
чтобы устранить уязвимость PyArrow RCE. - Исправлена проблема, когда экранированные символы подчеркивания where в операциях
getColumns
, исходящих от клиентов JDBC или ODBC, были неправильно интерпретированы как подстановочные знаки. -
[SPARK-45730] Улучшенные ограничения времени для
ReloadingX509TrustManagerSuite
. - [SPARK-45852] Клиент Python для Spark Connect теперь перехватывает ошибки рекурсии во время преобразования текста.
- [SPARK-45808] Улучшена обработка ошибок для исключений SQL.
-
[SPARK-45920]
GROUP BY
Порядковый номер не заменяет порядковый номер. - Возврат [SPARK-45649].
- [SPARK-45733] Добавлена поддержка нескольких политик повторных попыток.
-
[SPARK-45509] исправлено
df
column поведение ссылок для Spark Connect. -
[SPARK-45655] Разрешить недетерминированные выражения внутри
AggregateFunctions
CollectMetrics
. - [SPARK-45905] Наименьший распространенный тип между десятичными типами теперь сохраняет целочисленные цифры в первую очередь.
-
[SPARK-45136] Улучшена
ClosureCleaner
поддержка Ammonite. -
[SPARK-45859] Сделал объекты UDF ленивым
ml.functions
. -
[SPARK-46028]
Column.__getitem__
принимает входные данные columns. - [SPARK-45798] Утверждение идентификатора сеанса на стороне сервера.
-
[SPARK-45892] Проверка плана оптимизатора рефакторинга для развязки
validateSchemaOutput
иvalidateExprIdUniqueness
. - [SPARK-45844] Реализуйте нечувствительность регистра для XML.
-
[SPARK-45770] исправлено разрешение column с
DataFrameDropColumns
дляDataframe.drop
. -
[SPARK-44790] Добавлена
to_xml
реализация и привязки для Python, Spark Connect и SQL. - [SPARK-45851] Добавлена поддержка нескольких политик в клиенте Scala.
- Обновления системы безопасности операционной системы.
- Установите новый пакет,
Databricks Runtime 14.0
См. раздел Databricks Runtime 14.0 (EoS).
- 8 февраля 2024 г.
- [SPARK-46396] Вывод метки времени не должен вызывать исключение.
- [SPARK-46794]Remove подзапросы из ограничений LogicalRDD.
- [SPARK-45182] Игнорировать завершение задачи из старой стадии после повторного выполнения родительского этапа, определяемого контрольной суммой.
- [SPARK-46933] Добавьте метрику времени выполнения запроса в соединители, использующие JDBCRDD.
- [SPARK-45957] Избегайте создания плана выполнения для не исполняемых команд.
- [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
- [SPARK-46930] Добавьте поддержку настраиваемого префикса для полей типа Union в Avro.
- [SPARK-46941] не удается insertwindow группировать limit узел для вычислений top-k, если он содержит SizeBasedWindowFunction.
- [SPARK-45582] Убедитесь, что экземпляр хранилища не используется после вызова фиксации в режиме потоковой передачи потоковой передачи.
- Обновления системы безопасности операционной системы.
- 31 января 2024 г.
- [SPARK-46541] Исправьте неоднозначную ссылку column в self join.
- [SPARK-46676] dropDuplicatesWithinWatermark не должен завершать ошибку канонизации плана.
- [SPARK-46769] Улучшение определения, связанного с метками времени schema.
- [SPARK-45498] Дальнейшие действия. Пропустить завершение задачи из старых попыток этапа.
- Откат [SPARK-46769] исправление вывода, связанного с меткой времени schema.
-
[SPARK-46383] Сокращение использования кучи драйверов путем уменьшения срока существования
TaskInfo.accumulables()
. - [SPARK-46633] Исправление средства чтения Avro для обработки блоков нулевой длины.
-
[SPARK-46677] Исправление
dataframe["*"]
разрешения. - [SPARK-46684] Исправьте coGroup.applyInPandas/Arrow, чтобы правильно передать аргументы.
- [SPARK-46763] Исправлена ошибка утверждения в ReplaceDeduplicateWithAggregate для повторяющихся атрибутов.
- [SPARK-46610] Create table должно вызывать исключение, если нет значения для ключа в параметрах.
- Обновления системы безопасности операционной системы.
- 17 января 2024 г.
- Узел
shuffle
плана explain, возвращаемого запросом Photon, обновляется для добавления флагаcausedBroadcastJoinBuildOOM=true
при возникновении ошибки нехватки памяти во время перемешивания, которое является частью широковещательной операции join. - Чтобы избежать повышенной задержки при обмене данными по протоколу TLSv1.3, этот выпуск обслуживания включает исправление для установки JDK 8, чтобы устранить ошибку JDK-8293562.
-
[SPARK-46394] Исправить spark.catalog.listDatabases() проблемы со схемами со специальными символами, когда
spark.sql.legacy.keepCommandOutputSchema
set равно true. - [SPARK-46250] Deflake test_parity_listener.
- [SPARK-45814] Сделайте стрелкуConverters.createEmptyArrowBatch вызов close(), чтобы избежать утечки памяти.
- [SPARK-46173] Пропуск вызова trimAll во время синтаксического анализа даты.
-
[SPARK-46484] Чтобы
resolveOperators
вспомогательные функции сохраняли идентификатор плана. - [SPARK-46466] Векторное средство чтения parquet никогда не должно делать перебазу для метки времени ntz.
- [SPARK-46056] Исправление векторного вектора Parquet чтения NPE с значением по умолчанию byteArrayDecimalType.
- [SPARK-46058] Добавьте отдельный флаг для privateKeyPassword.
- [SPARK-46478] Вернуть SPARK-43049 для использования oracle varchar(255) для строки.
- [SPARK-46132] Поддержка пароля ключа для ключей JKS для ПРОТОКОЛА SSL RPC.
- [SPARK-46417] Не завершайте ошибку при вызове hive.getTable и throwException имеет значение false.
-
[SPARK-46261]
DataFrame.withColumnsRenamed
должен хранить упорядочение диктовки или карты. - [SPARK-46370] Исправлена ошибка при запросе из table после изменения значений column по умолчанию.
- [SPARK-46609] Избегайте экспоненциального взрыва в PartitioningPreservingUnaryExecNode.
- [SPARK-46600] Переместите общий код между SqlConf и SqlApiConf в SqlApiConfHelper.
-
[SPARK-46538] Исправлена неоднозначная проблема со ссылкой column в
ALSModel.transform
. -
[SPARK-46337] Сохраните
CTESubstitution
PLAN_ID_TAG
. -
[SPARK-46602] распространение
allowExisting
в представлении при наличии представления илиtable. -
[SPARK-46260]
DataFrame.withColumnsRenamed
должен соблюдать порядок диктовки. - [spark-46145] spark.catalog.listTables не вызывает исключение, если table или представление не найдено.
- Узел
- 14 декабря 2023 г.
- Исправлена проблема, where экранированных символов подчеркивания в операциях getColumns, исходящих из клиентов JDBC или ODBC, обрабатывались неправильно и интерпретировались как подстановочные знаки.
- [SPARK-46255] Поддержка сложного типа —> преобразование строк.
-
[SPARK-46028] Настроить
Column.__getitem__
для приема входных данных column. - [SPARK-45920] группа по порядковой номеру должна быть идемпотентной.
- [SPARK-45433] исправление schema CSV/JSON, если метки времени не соответствуют заданной метке времени.
- [SPARK-45509] Исправить поведение ссылок df column для Spark Connect.
- Обновления системы безопасности операционной системы.
- 29 ноября 2023 г.
- Установите новый пакет,
pyarrow-hotfix
чтобы устранить уязвимость PyArrow RCE. - Исправлена проблема, когда экранированные символы подчеркивания where в операциях
getColumns
, исходящих от клиентов JDBC или ODBC, были неправильно интерпретированы как подстановочные знаки. - При приеме данных CSV с помощью автозагрузчика или потоковой передачи tablesбольшие CSV-файлы теперь разделены и могут обрабатываться параллельно во время schema вывода и обработки данных.
- Соединитель Spark-snowflake обновляется до версии 2.12.0.
-
[SPARK-45859] Сделал объекты UDF ленивым
ml.functions
. - Возврат [SPARK-45592].
-
[SPARK-45892] Проверка плана оптимизатора рефакторинга для развязки
validateSchemaOutput
иvalidateExprIdUniqueness
. -
[SPARK-45592] Исправлена проблема с правильностью в AQE.
InMemoryTableScanExec
- [SPARK-45620] API, связанные с UDF Python, теперь используют верблюдьи Регистр.
- [SPARK-44784] Сделал SBT тестирования герметично.
-
[SPARK-45770] исправлено разрешение column с
DataFrameDropColumns
дляDataframe.drop
. -
[SPARK-45544] Встроенная поддержка SSL в
TransportContext
. -
[SPARK-45730] Улучшенные ограничения времени для
ReloadingX509TrustManagerSuite
. - Обновления системы безопасности операционной системы.
- Установите новый пакет,
- 10 ноября 2023 г.
- Измененные запросы веб-канала данных в Unity Catalog потоковой передачи tables и материализованные views для отображения сообщений об ошибках.
-
[SPARK-45545]
SparkTransportConf
наследуетсяSSLOptions
при создании. -
[SPARK-45584] Исправлен сбой выполнения вложенных запросов.
TakeOrderedAndProjectExec
-
[SPARK-45427] Добавлены параметры SSL RPC в
SSLOptions
иSparkTransportConf
. -
[SPARK-45541] Добавлен.
SSLFactory
-
[SPARK-45430]
FramelessOffsetWindowFunction
больше не завершается ошибкой, когдаIGNORE NULLS
иoffset > rowCount
. - [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
- [SPARK-44219] Добавлены дополнительные проверки для каждого правила для перезаписи оптимизации.
-
[SPARK-45543] Исправлена проблема, where
InferWindowGroupLimit
приводила к сбою, если у других функций window нет того же window интервала, как у функций, подобных ранжированию. - Обновления системы безопасности операционной системы.
- 23 октября 2023 г.
-
[SPARK-45426] Добавлена поддержка
ReloadingX509TrustManager
. -
[SPARK-45396] Добавлена запись документа для
PySpark.ml.connect
модуля и добавленаEvaluator
в__all__
ml.connect
нее. -
[SPARK-45256] Исправлена проблема, whereпроизошел сбой
DurationWriter
при попытке записать больше values, чем начальная емкость. -
[SPARK-45279] Присоединено
plan_id
ко всем логическим планам. - [SPARK-45250] Добавлена поддержка профиля ресурсов на уровне стадии для кластеров yarn при отключении динамического выделения.
- [SPARK-45182] Добавлена поддержка отката этапа перетасовки карты, поэтому все задачи этапа можно получить, когда выходные данные этапа не определены.
-
[SPARK-45419] Избегайте повторного использования
rocksdb sst
файлов в другомrocksdb
экземпляре, удалив записи карты версий файлов более крупных версий. -
[SPARK-45386] Исправлена проблема, where
StorageLevel.NONE
неправильно возвращает значение 0. - Обновления системы безопасности операционной системы.
-
[SPARK-45426] Добавлена поддержка
- 13 октября 2023 г.
- Зависимость Snowflake-jdbc обновлена с 3.13.29 до 3.13.33.
- Функция
array_insert
основана на 1 для положительных и отрицательных индексов, в то время как раньше она была основана на 0 для отрицательных индексов. Теперь он вставляет новый элемент в конец входных массивов для индекса -1. Чтобы restore предыдущее поведение, setspark.sql.legacy.negativeIndexInArrayInsert
true
. - Azure Databricks больше не игнорирует поврежденные файлы при выполнении вывода CSV-schema, если включена функция автозагрузчика
ignoreCorruptFiles
. -
[SPARK-45227] Исправлена проблема с тонкой безопасностью
CoarseGrainedExecutorBackend
потока. -
[SPARK-44658]
ShuffleStatus.getMapStatus
должен возвращатьсяNone
вместоSome(null)
. -
[SPARK-44910]
Encoders.bean
не поддерживает суперклассы с аргументами универсального типа. - [SPARK-45346] Parquet schema вывод учитывает флаги с учетом регистра при слиянии schema.
- Возврат [SPARK-42946].
- [SPARK-42205] Обновлен протокол JSON до remove ведения журнала accumulables в событиях запуска задачи или этапа.
-
[SPARK-45360] Построитель сеансов Spark поддерживает инициализацию из
SPARK_REMOTE
. -
[SPARK-45316] Добавить новые parameters
ignoreCorruptFiles
/ignoreMissingFiles
вHadoopRDD
иNewHadoopRDD
. - [SPARK-44909] Пропустите запуск сервера потоковой передачи журнала распространителя факела, если он недоступен.
-
[SPARK-45084]
StateOperatorProgress
теперь использует точное partition число. - [SPARK-45371] Исправлены проблемы с заливки в клиенте Spark Connect Scala.
-
[SPARK-45178] Резервное выполнение одного пакета для
Trigger.AvailableNow
неподдерживаемых источников, а не с помощью оболочки. -
[SPARK-44840] Сделайте
array_insert()
1 на основе отрицательных индексов. - [SPARK-44551] Измененные примечания для sync с OSS.
-
[SPARK-45078] Теперь
ArrayInsert
функция делает явное приведение, если тип элемента не равен производного типа компонента. - [SPARK-45339] PySpark теперь регистрирует ошибки повторных попыток.
-
[SPARK-45057] Избегайте получения блокировки чтения при
keepReadLock
значении false. -
[SPARK-44908] Исправлена функция перекрестного проверки
foldCol
парам. - Обновления системы безопасности операционной системы.
Databricks Runtime 13.1
См. раздел Databricks Runtime 13.1 (EoS).
- 29 ноября 2023 г.
- Исправлена проблема, когда экранированные символы подчеркивания where в операциях
getColumns
, исходящих от клиентов JDBC или ODBC, были неправильно интерпретированы как подстановочные знаки. -
[SPARK-44846] Удалены сложные выражения группировки после
RemoveRedundantAggregates
. - [SPARK-43802] Исправлена проблема, where кодеген для выражений unhex и unbase64 привела к ошибке.
-
[SPARK-43718] Исправлена возможность null для ключей в
USING
соединениях. - Обновления системы безопасности операционной системы.
- Исправлена проблема, когда экранированные символы подчеркивания where в операциях
- 14 ноября 2023 г.
- Partition фильтры в запросах потоковой передачи Delta Lake отправляются вниз до ограничения скорости, чтобы повысить эффективность использования.
- Измененные запросы канала данных в Unity Catalog потоковой передачи tables и материализованные views для отображения сообщений об ошибках.
-
[SPARK-45584] Исправлен сбой выполнения вложенных запросов.
TakeOrderedAndProjectExec
-
[SPARK-45430]
FramelessOffsetWindowFunction
больше не завершается ошибкой, когдаIGNORE NULLS
иoffset > rowCount
. -
[SPARK-45543] Исправлена проблема where
InferWindowGroupLimit
вызвала проблему, если другие функции window не имели того же window кадра, что и функции ранжирования. - Обновления системы безопасности операционной системы.
- 24 октября 2023 г.
-
[SPARK-43799] Добавлен двоичный параметр дескриптора в API PySpark
Protobuf
. - Возврат [SPARK-42946].
- [SPARK-45346] Parquet schema вывод теперь учитывает флаг с учетом регистра при слиянии schema.
- Обновления системы безопасности операционной системы.
-
[SPARK-43799] Добавлен двоичный параметр дескриптора в API PySpark
- 13 октября 2023 г.
- Зависимость Snowflake-jdbc обновлена с 3.13.29 до 3.13.33.
- Больше не игнорируются поврежденные файлы, если
ignoreCorruptFiles
включен во время определения CSV-schema с помощью Auto Loader. -
[SPARK-44658]
ShuffleStatus.getMapStatus
возвращаетсяNone
вместоSome(null)
. -
[SPARK-45178] Резервное выполнение одного пакета для
Trigger.AvailableNow
неподдерживаемых источников, а не с помощью оболочки. - [SPARK-42205] Обновлен протокол JSON до remove ведения журнала accumulables в событиях запуска задачи или этапа.
- Обновления системы безопасности операционной системы.
- 12 сентября 2023 г.
-
[SPARK-44718] Сопоставление
ColumnVector
конфигурации в режиме памяти по умолчанию соOffHeapMemoryMode
значением конфигурации. -
SPARK-44878 Отключена строгая проверка limit в диспетчере записи
RocksDB
, чтобы избежать исключения вставки при полном кэшировании. - Прочие исправления.
-
[SPARK-44718] Сопоставление
- 30 августа 2023 г.
- [SPARK-44871] Исправлено поведение percentile_disc.
- [SPARK-44714] Упрощение ограничения разрешения LCA относительно запросов.
-
[SPARK-44245]
PySpark.sql.dataframe sample()
Тесты doc теперь иллюстрируются только для иллюстрации. -
[SPARK-44818] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации
taskThread
. - Обновления системы безопасности операционной системы.
- 15 августа 2023 г.
-
[SPARK-44485] Оптимизировано
TreeNode.generateTreeString
. -
[SPARK-44643] Исправлено
Row.__repr__
, если строка пуста. - [SPARK-44504] задача обслуживания теперь очищает загруженные providers при ошибке остановки.
-
[SPARK-44479] Исправлено
protobuf
преобразование из пустого типа структуры. -
[SPARK-44464] Изменено
applyInPandasWithStatePythonRunner
, чтобы выходные строкиNull
в качестве первого значения имели column. - Прочие исправления.
-
[SPARK-44485] Оптимизировано
- 27 июля 2023 г.
- Исправлена проблема, where
dbutils.fs.ls()
возвращаласьINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
при вызове пути расположения хранилища, который столкнулся с другим внешним или управляемым расположением хранилища. -
[SPARK-44199]
CacheManager
больше не обновляет ненужныеfileIndex
. -
[SPARK-44448] Исправлена ошибка ошибок результатов из
DenseRankLimitIterator
иInferWindowGroupLimit
. - Обновления системы безопасности операционной системы.
- Исправлена проблема, where
- 24 июля 2023 г.
- Возврат [SPARK-42323].
-
[SPARK-41848] Исправлена проблема
TaskResourceProfile
с превышением расписания задачи. -
[SPARK-44136] Исправлена проблема, where
StateManager
get материализована в исполнителе вместо драйвера вFlatMapGroupsWithStateExec
. -
[SPARK-44337] Исправлена проблема where любой set поля для
Any.getDefaultInstance
вызвали ошибки синтаксического анализа. - Обновления системы безопасности операционной системы.
- 27 июня 2023 г.
- Обновления системы безопасности операционной системы.
- 15 июня 2023 г.
- Фотонализовано
approx_count_distinct
. - Средство синтаксического анализа JSON теперь удаляет запись в
failOnUnknownFields
DROPMALFORMED
режиме и завершается сбоем непосредственно вFAILFAST
режиме. - Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
- Поле
PubSubRecord
атрибутов хранится как JSON вместо строки из карты Scala для более простой сериализации и десериализации. - Теперь команда
EXPLAIN EXTENDED
возвращает право кэша результатов запроса. - Повышение производительности добавочных обновлений с помощью
SHALLOW CLONE
Айсберга и Parquet. - [SPARK-43032] Исправлена ошибка Python SQM.
- [SPARK-43404]Пропустите повторное использовать SST-файл для той же версии хранилища состояний RocksDB, чтобы избежать ошибки несоответствия идентификаторов.
- [SPARK-43340] Обработка отсутствующих полей трассировки стека в журналах событий.
-
[SPARK-43527] Исправлено
catalog.listCatalogs
в PySpark. -
[SPARK-43541] распространять все
Project
теги при разрешении выражений и устранении отсутствующих columns. -
[SPARK-43300]
NonFateSharingCache
оболочка для кэша Guava. -
[SPARK-43378] Правильно закрывайте объекты потока в
deserializeFromChunkedBuffer
. -
[SPARK-42852]
NamedLambdaVariable
Возврат связанных изменений изEquivalentExpressions
. -
[SPARK-43779]
ParseToDate
теперь загружаетсяEvalMode
в основной поток. -
[SPARK-43413] Исправление
IN
допустимости вложенного запросаListQuery
null. -
[SPARK-43889] Добавить проверку имени column для
__dir__()
, чтобы отфильтровать имена column, подверженные ошибкам. -
[SPARK-43043] Улучшена производительность
MapOutputTracker
updateMapOutput - [SPARK-43522] Исправлено создание структуры column имени с индексом массива.
- [SPARK-43457] Расширение агента пользователя с версиями ОС, Python и Spark.
-
[SPARK-43286] Обновлён режим
aes_encrypt
CBC на использование generate случайных IV. -
[SPARK-42851] Guard
EquivalentExpressions.addExpr()
сsupportedExpression()
. - Возврат [SPARK-43183].
- Обновления системы безопасности операционной системы.
- Фотонализовано
Databricks Runtime 12.2 LTS
См. раздел Databricks Runtime 12.2 LTS.
- 29 ноября 2023 г.
- Исправлена проблема, когда экранированные символы подчеркивания where в операциях
getColumns
, исходящих от клиентов JDBC или ODBC, были неправильно интерпретированы как подстановочные знаки. -
[SPARK-42205] Удалены журналы, доступные для ведения журнала, в
Stage
событиях запуска иTask
запуска. -
[SPARK-44846] Удалены сложные выражения группировки после
RemoveRedundantAggregates
. -
[SPARK-43718] Исправлена возможность null для ключей в
USING
соединениях. -
[SPARK-45544] Встроенная поддержка SSL в
TransportContext
. - [SPARK-43973] Структурированный пользовательский интерфейс потоковой передачи теперь отображает неудачные запросы.
-
[SPARK-45730] Улучшенные ограничения времени для
ReloadingX509TrustManagerSuite
. -
[SPARK-45859] Сделал объекты UDF ленивым
ml.functions
. - Обновления системы безопасности операционной системы.
- Исправлена проблема, когда экранированные символы подчеркивания where в операциях
- 14 ноября 2023 г.
- Partition фильтры в запросах потоковой передачи Delta Lake отправляются вниз до ограничения скорости, чтобы повысить эффективность использования.
-
[SPARK-45545]
SparkTransportConf
наследуетсяSSLOptions
при создании. -
[SPARK-45427] Добавлены параметры SSL RPC в
SSLOptions
иSparkTransportConf
. -
[SPARK-45584] Исправлен сбой выполнения вложенных запросов.
TakeOrderedAndProjectExec
-
[SPARK-45541] Добавлен.
SSLFactory
-
[SPARK-45430]
FramelessOffsetWindowFunction
больше не завершается ошибкой, когдаIGNORE NULLS
иoffset > rowCount
. - [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
- Обновления системы безопасности операционной системы.
- 24 октября 2023 г.
-
[SPARK-45426] Добавлена поддержка
ReloadingX509TrustManager
. - Прочие исправления.
-
[SPARK-45426] Добавлена поддержка
- 13 октября 2023 г.
- Зависимость Snowflake-jdbc обновлена с 3.13.29 до 3.13.33.
- [SPARK-42553] Убедитесь, что по крайней мере один единица времени после интервала.
- [SPARK-45346] Parquet schema вывод учитывает флаг конфиденциальности регистра при слиянии schema.
-
[SPARK-45178] Резервное выполнение одного пакета для
Trigger.AvailableNow
неподдерживаемых источников, а не с помощью оболочки. -
[SPARK-45084]
StateOperatorProgress
для использования адекватного и точного номера перемешивания partition.
- 12 сентября 2023 г.
-
[SPARK-44873] Добавлена поддержка
alter view
с вложенными columns в клиенте Hive. -
[SPARK-44718] Сопоставление
ColumnVector
конфигурации в режиме памяти по умолчанию соOffHeapMemoryMode
значением конфигурации. -
[SPARK-43799] Добавлен двоичный параметр дескриптора в API PySpark
Protobuf
. - Прочие исправления.
-
[SPARK-44873] Добавлена поддержка
- 30 августа 2023 г.
-
[SPARK-44485] Оптимизировано
TreeNode.generateTreeString
. -
[SPARK-44818] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации
taskThread
. -
[SPARK-44871][11.3-13.0] Исправлено
percentile_disc
поведение. - [SPARK-44714] Упрощенное ограничение разрешения LCA относительно запросов.
- Обновления системы безопасности операционной системы.
-
[SPARK-44485] Оптимизировано
- 15 августа 2023 г.
- [SPARK-44504] задача обслуживания очищает загруженные providers при ошибке остановки.
-
[SPARK-44464] Изменено
applyInPandasWithStatePythonRunner
, чтобы выходные строкиNull
в качестве первого значения имели column. - Обновления системы безопасности операционной системы.
- 29 июля 2023 г.
- Исправлена проблема, where
dbutils.fs.ls()
возвращаласьINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
при вызове пути расположения хранилища, который столкнулся с другим внешним или управляемым расположением хранилища. -
[SPARK-44199]
CacheManager
больше не обновляет ненужныеfileIndex
. - Обновления системы безопасности операционной системы.
- Исправлена проблема, where
- 24 июля 2023 г.
-
[SPARK-44337] Исправлена проблема where любой set поля для
Any.getDefaultInstance
вызвали ошибки синтаксического анализа. -
[SPARK-44136] Исправлена проблема, where
StateManager
get материализована в исполнителе вместо драйвера вFlatMapGroupsWithStateExec
. - Обновления системы безопасности операционной системы.
-
[SPARK-44337] Исправлена проблема where любой set поля для
- 23 июня 2023 г.
- Обновления системы безопасности операционной системы.
- 15 июня 2023 г.
- Фотонализовано
approx_count_distinct
. - Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
-
[SPARK-43779]
ParseToDate
теперь загружаетсяEvalMode
в основной поток. -
[SPARK-43156][SPARK-43098] Проверка ошибки расширенного скалярного подзаверждения с
decorrelateInnerQuery
отключенным. - Обновления системы безопасности операционной системы.
- Фотонализовано
- 2 июня 2023 г.
- Средство синтаксического анализа JSON в
failOnUnknownFields
режиме удаляет запись вDROPMALFORMED
режиме и завершается сбоем непосредственно в режимеFAILFAST
. - Повышение производительности добавочных обновлений с помощью
SHALLOW CLONE
Айсберга и Parquet. - Исправлена проблема в автозагрузчике where различные форматы исходных файлов были несогласованы, если предоставленные schema не включали выводные секции. Эта проблема может привести к непредвиденным сбоям при чтении файлов с отсутствующими columns в предполагаемом partitionschema.
- [SPARK-43404] Пропустите повторное использовать SST-файл для той же версии хранилища состояний RocksDB, чтобы избежать ошибки несоответствия идентификаторов.
-
[SPARK-43413][11.3-13.0] Исправлена
IN
возможность nullqueryListQuery
. - [SPARK-43522] Исправлено создание структуры column имени с индексом массива.
-
[SPARK-43541] распространять все
Project
теги при разрешении выражений и устранении отсутствующих columns. -
[SPARK-43527] Исправлено
catalog.listCatalogs
в PySpark. - [SPARK-43123] метаданные внутреннего поля больше не просачиваются в catalogs.
- [SPARK-43340] Исправлено отсутствие поля трассировки стека в журналах событий.
-
[SPARK-42444]
DataFrame.drop
теперь обрабатывает повторяющиеся columns правильно. -
[SPARK-42937]
PlanSubqueries
теперь задаетInSubqueryExec#shouldBroadcast
значение true. -
[SPARK-43286] Обновлён режим
aes_encrypt
CBC на использование generate случайных IV. -
[SPARK-43378] Правильно закрывайте объекты потока в
deserializeFromChunkedBuffer
.
- Средство синтаксического анализа JSON в
- 17 мая 2023 г.
- Теперь сканирование Parquet обеспечивает надежную защиту от OOM при сканировании исключительно структурированных файлов путем динамической настройки размера пакета. Метаданные файлов анализируются для предварительного уменьшения размера пакета и снова снижаются при повторных попытках задачи в качестве окончательной сетки безопасности.
- Если файл Avro считывался только с параметром
failOnUnknownFields
или с автозагрузчиком в режиме эволюцииfailOnNewColumns
schema, columns с различными типами данных будут считываться какnull
вместо того, чтобы вызвать ошибку, указывающую, что файл не может быть прочитан. Теперь эти операции чтения завершаются ошибкой и рекомендуют пользователям использовать этотrescuedDataColumn
параметр. - Автозагрузчик теперь выполняет следующие действия.
-
- Правильно считывает и больше не спасает
Integer
Short
, иByte
типы, если предоставлен один из этих типов данных, но файл Avro предлагает один из других двух типов.
- Правильно считывает и больше не спасает
-
- Запрещает чтение типов интервалов в виде типов меток даты или времени, чтобы избежать повреждения дат.
-
- Запрещает
Decimal
чтение типов с более низкой точностью.
- Запрещает
- [SPARK-43172] Предоставляет узел и маркер из клиента Spark connect.
-
[SPARK-43293]
__qualified_access_only
игнорируется в обычной columns. -
[SPARK-43098] Исправлена ошибка правильности
COUNT
при группировке скалярных вложенных запросов по предложению. -
[SPARK-43085] поддержка назначения column
DEFAULT
для имен table нескольких частей. -
[SPARK-43190]
ListQuery.childOutput
теперь согласуется со вторичными выходными данными. - [SPARK-43192] Удалена проверка charset агента пользователя.
- Обновления системы безопасности операционной системы.
- 25 апреля 2023 г.
- Если файл Parquet считывался только с параметром
failOnUnknownFields
или с автозагрузчиком в режиме эволюцииfailOnNewColumns
schema, columns, которые имели разные типы данных, будут считываться какnull
вместо того, чтобы вызвать ошибку, указывающую, что файл не может быть прочитан. Теперь эти операции чтения завершаются ошибкой и рекомендуют пользователям использовать этотrescuedDataColumn
параметр. - Автоматический загрузчик теперь правильно считывает и больше не спасает
Integer
Short
, иByte
типы, если предоставлен один из этих типов данных. Файл Parquet предлагает один из двух других типов. Когда ранее были включены спасенные данные column, несоответствие типа данных приводило к тому, что columns сохранялось, даже если они были доступны для чтения. -
[SPARK-43009] Параметризованный
sql()
сAny
константами - [SPARK-42406] Завершение рекурсивных полей Protobuf путем удаления поля
-
[SPARK-43038] Поддержка режима CBC по
aes_encrypt()
/aes_decrypt()
-
[SPARK-42971] Изменение на печать
workdir
, еслиappDirs
значение NULL при событии рабочего дескриптораWorkDirCleanup
- [SPARK-43018] Исправлена ошибка для команд INSERT с литералом временной метки
- Обновления системы безопасности операционной системы.
- Если файл Parquet считывался только с параметром
- 11 апреля 2023 г.
- Поддержка устаревших форматов источников данных в команде
SYNC
. - Исправлена проблема в поведении %autoreload в записных книжках за пределами репозитория.
- Исправлена проблема, where эволюция автозагрузчика schema может перейти в бесконечный цикл сбоя при обнаружении нового column в schema вложенного объекта JSON.
-
[SPARK-42928] Выполняет
resolvePersistentFunction
синхронизацию. - [SPARK-42936] Устраняет проблему LCan, когда предложение может быть разрешено непосредственно его дочерним агрегатом.
-
[SPARK-42967] Исправления
SparkListenerTaskStart.stageAttemptId
при запуске задачи после отмены этапа. - Обновления системы безопасности операционной системы.
- Поддержка устаревших форматов источников данных в команде
- 29 марта 2023 г.
Databricks SQL теперь поддерживает указание values по умолчанию для columns Delta Lake tablesлибо во время создания table, либо после этого. Последующие команды
INSERT
,UPDATE
,DELETE
иMERGE
могут ссылаться на любое значение columnпо умолчанию с помощью явного ключевого словаDEFAULT
. Кроме того, если какое-либо назначениеINSERT
имеет явный list меньше columns, чем целевой table, соответствующие column по умолчанию values заменяются остальными columns (или NULL, если значение по умолчанию не указано).Например:
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; \> 0, 2023-03-28 1, 2023-03-28z
Автозагрузчик теперь инициирует по крайней мере одну синхронную очистку журнала RocksDB для потоков
Trigger.AvailableNow
, чтобы проверить, что контрольная точка может get регулярно очищается для быстрых потоков автозагрузчика. Это может привести к тому, что некоторые потоки будут занять больше времени до завершения работы, но это позволит сэкономить затраты на хранение и улучшить возможности автозагрузчика в будущих запусках.Теперь можно изменить Delta table, чтобы добавить поддержку функций table с помощью
DeltaTable.addFeatureSupport(feature_name)
.[SPARK-42794] Увеличьте блокировкуAcquireTimeoutMs до 2 минут для получения хранилища состояний RocksDB в службе "Потоковая передача структуры"
[SPARK-42521] добавление NULLs для INSERTs с пользовательскими списками меньше columns, чем целевые table
[SPARK-42702][SPARK-42623] Поддержка параметризованного запроса в вложенных запросах и CTE
[SPARK-42668] Перехват исключения при попытке закрыть сжатый поток в HDFSStateStoreProvider
[SPARK-42403] JsonProtocol должен обрабатывать строки JSON NULL
- 8 марта 2023 г.
- Сообщение об ошибке "Сбой инициализации конфигурации" улучшено, чтобы обеспечить больше контекста для клиента.
- Внесены изменения в терминологию, касающуюся добавления возможностей в Delta table с использованием свойства table. Предпочтительный синтаксис теперь
'delta.feature.featureName'='supported'
вместо'delta.feature.featureName'='enabled'
. Для обеспечения обратной совместимости использование'delta.feature.featureName'='enabled'
по-прежнему работает и продолжит работать. - Начиная с этого выпуска, можно создать или заменить table, используя дополнительное свойство table
delta.ignoreProtocolDefaults
, чтобы игнорировать конфигурации Spark, связанные с протоколом, которые включают версии средства чтения и записи по умолчанию и table функции, поддерживаемые по умолчанию. - [SPARK-42070] Изменение значения по умолчанию аргумента функции Mask с -1 на NULL
- [SPARK-41793] Неверный результат для кадров window, определенных предложением диапазона для значительных десятичных разрядов
- [SPARK-42484] Лучшее сообщение об ошибке unsafeRowUtils
- [SPARK-42516] всегда записывать конфигурацию часового пояса сеанса при создании views
- [SPARK-42635] Исправлено выражение TimestampAdd.
- [SPARK-42622] Отключена подстановка в values
- [SPARK-42534] предложение Fix DB2Dialect Limit
- [SPARK-42121] Добавление встроенных функций table-valued functions posexplode, posexplode_outer, json_tuple и стека
- [SPARK-42045] Режим SQL ANSI: Round/Bround должен возвращать ошибку при крошечном/маленьком или значительном переполнении целых чисел
- Обновления системы безопасности операционной системы.
Databricks Runtime 11.3 LTS
См. раздел Databricks Runtime 11.3 LTS.
- 29 ноября 2023 г.
- Исправлена проблема, когда экранированные символы подчеркивания where в операциях
getColumns
, исходящих от клиентов JDBC или ODBC, были неправильно интерпретированы как подстановочные знаки. - [SPARK-43973] Структурированный пользовательский интерфейс потоковой передачи теперь отображает неудачные запросы.
-
[SPARK-45730] Улучшенные ограничения времени для
ReloadingX509TrustManagerSuite
. -
[SPARK-45544] Встроенная поддержка SSL в
TransportContext
. -
[SPARK-45859] Сделал объекты UDF ленивым
ml.functions
. -
[SPARK-43718] Исправлена возможность null для ключей в
USING
соединениях. -
[SPARK-44846] Удалены сложные выражения группировки после
RemoveRedundantAggregates
. - Обновления системы безопасности операционной системы.
- Исправлена проблема, когда экранированные символы подчеркивания where в операциях
- 14 ноября 2023 г.
- Partition фильтры в запросах потоковой передачи Delta Lake отправляются вниз до ограничения скорости, чтобы повысить эффективность использования.
- [SPARK-42205] Удалены сведения о ведении журнала в событиях запуска этапов и задач.
-
[SPARK-45545]
SparkTransportConf
наследуетсяSSLOptions
при создании. - Возврат [SPARK-33861].
-
[SPARK-45541] Добавлен.
SSLFactory
- [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
-
[SPARK-45584] Исправлен сбой выполнения вложенных запросов.
TakeOrderedAndProjectExec
-
[SPARK-45430]
FramelessOffsetWindowFunction
больше не завершается ошибкой, когдаIGNORE NULLS
иoffset > rowCount
. -
[SPARK-45427] Добавлены параметры SSL RPC в
SSLOptions
иSparkTransportConf
. - Обновления системы безопасности операционной системы.
- 24 октября 2023 г.
-
[SPARK-45426] Добавлена поддержка
ReloadingX509TrustManager
. - Прочие исправления.
-
[SPARK-45426] Добавлена поддержка
- 13 октября 2023 г.
- Зависимость Snowflake-jdbc обновлена с 3.13.29 до 3.13.33.
-
[SPARK-45178] Резервное выполнение одного пакета для
Trigger.AvailableNow
неподдерживаемых источников, а не с помощью оболочки. -
[SPARK-45084]
StateOperatorProgress
для использования адекватного и точного номера перемешивания partition. - [SPARK-45346] Parquet schema вывод теперь учитывает флаг с учетом регистра при слиянии schema.
- Обновления системы безопасности операционной системы.
- 10 сентября 2023 г.
- Прочие исправления.
- 30 августа 2023 г.
-
[SPARK-44818] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации
taskThread
. -
[SPARK-44871][11.3-13.0] Исправлено
percentile_disc
поведение. - Обновления системы безопасности операционной системы.
-
[SPARK-44818] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации
- 15 августа 2023 г.
-
[SPARK-44485] Оптимизировано
TreeNode.generateTreeString
. - [SPARK-44504] задача обслуживания очищает загруженные providers при ошибке остановки.
-
[SPARK-44464] Изменено
applyInPandasWithStatePythonRunner
, чтобы выходные строкиNull
в качестве первого значения имели column. - Обновления системы безопасности операционной системы.
-
[SPARK-44485] Оптимизировано
- 27 июля 2023 г.
- Исправлена проблема, where
dbutils.fs.ls()
возвращаласьINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
при вызове пути расположения хранилища, который столкнулся с другим внешним или управляемым расположением хранилища. -
[SPARK-44199]
CacheManager
больше не обновляет ненужныеfileIndex
. - Обновления системы безопасности операционной системы.
- Исправлена проблема, where
- 24 июля 2023 г.
- [SPARK-44136] Исправлена проблема, из-за которой StateManager может get быть материализованным в исполнителе вместо драйвера в FlatMapGroupsWithStateExec.
- Обновления системы безопасности операционной системы.
- 23 июня 2023 г.
- Обновления системы безопасности операционной системы.
- 15 июня 2023 г.
- Фотонализовано
approx_count_distinct
. - Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
-
[SPARK-43779]
ParseToDate
теперь загружаетсяEvalMode
в основной поток. - [SPARK-40862] Поддержка не агрегированных вложенных запросов в RewriteCorrelatedScalarSubquery
-
[SPARK-43156][SPARK-43098] Расширенный скалярный тест количества
decorrelateInnerQuery
ошибок с отключенным. - [SPARK-43098] Исправлена ошибка COUNT правильности, если скалярный вложенный запрос содержит группу по предложению
- Обновления системы безопасности операционной системы.
- Фотонализовано
- 2 июня 2023 г.
- Средство синтаксического анализа JSON в
failOnUnknownFields
режиме удаляет запись вDROPMALFORMED
режиме и завершается сбоем непосредственно в режимеFAILFAST
. - Повышение производительности добавочных обновлений с помощью
SHALLOW CLONE
Айсберга и Parquet. - Исправлена проблема в автозагрузчике where различные форматы исходных файлов были несогласованы, если предоставленные schema не включали выводные секции. Эта проблема может привести к непредвиденным сбоям при чтении файлов с отсутствующими columns в предполагаемом partitionschema.
- [SPARK-43404]Пропустите повторное использовать SST-файл для той же версии хранилища состояний RocksDB, чтобы избежать ошибки несоответствия идентификаторов.
-
[SPARK-43527] Исправлено
catalog.listCatalogs
в PySpark. -
[SPARK-43413][11.3-13.0] Исправлена
IN
возможность nullqueryListQuery
. - [SPARK-43340] Исправлено отсутствие поля трассировки стека в журналах событий.
- Средство синтаксического анализа JSON в
Databricks Runtime 10.4 LTS
См. Databricks Runtime 10.4 LTS.
- 29 ноября 2023 г.
-
[SPARK-45544] Встроенная поддержка SSL в
TransportContext
. -
[SPARK-45859] Сделал объекты UDF ленивым
ml.functions
. -
[SPARK-43718] Исправлена возможность null для ключей в
USING
соединениях. -
[SPARK-45730] Улучшенные ограничения времени для
ReloadingX509TrustManagerSuite
. - [SPARK-42205] Удалены сведения о ведении журнала в событиях запуска этапов и задач.
-
[SPARK-44846] Удалены сложные выражения группировки после
RemoveRedundantAggregates
. - Обновления системы безопасности операционной системы.
-
[SPARK-45544] Встроенная поддержка SSL в
- 14 ноября 2023 г.
-
[SPARK-45541] Добавлен.
SSLFactory
-
[SPARK-45545]
SparkTransportConf
наследуетсяSSLOptions
при создании. -
[SPARK-45427] Добавлены параметры SSL RPC в
SSLOptions
иSparkTransportConf
. - [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
-
[SPARK-45584] Исправлен сбой выполнения вложенных запросов.
TakeOrderedAndProjectExec
- Возврат [SPARK-33861].
- Обновления системы безопасности операционной системы.
-
[SPARK-45541] Добавлен.
- 24 октября 2023 г.
-
[SPARK-45426] Добавлена поддержка
ReloadingX509TrustManager
. - Обновления системы безопасности операционной системы.
-
[SPARK-45426] Добавлена поддержка
- 13 октября 2023 г.
-
[SPARK-45084]
StateOperatorProgress
для использования адекватного и точного номера перемешивания partition. -
[SPARK-45178] Резервное выполнение одного пакета для
Trigger.AvailableNow
неподдерживаемых источников, а не с помощью оболочки. - Обновления системы безопасности операционной системы.
-
[SPARK-45084]
- 10 сентября 2023 г.
- Прочие исправления.
- 30 августа 2023 г.
-
[SPARK-44818] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации
taskThread
. - Обновления системы безопасности операционной системы.
-
[SPARK-44818] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации
- 15 августа 2023 г.
- [SPARK-44504] задача обслуживания очищает загруженные providers при ошибке остановки.
- [SPARK-43973] Структурированный пользовательский интерфейс потоковой передачи теперь отображается неправильно.
- Обновления системы безопасности операционной системы.
- 23 июня 2023 г.
- Обновления системы безопасности операционной системы.
- 15 июня 2023 г.
- Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
- [SPARK-43098] Исправлена ошибка COUNT правильности, если скалярный вложенный запрос содержит группу по предложению
- [SPARK-40862] Поддержка не агрегированных вложенных запросов в RewriteCorrelatedScalarSubquery
-
[SPARK-43156][SPARK-43098] Расширенный тест скалярного подзапроса с
decorrelateInnerQuery
отключенным. - Обновления системы безопасности операционной системы.
- 2 июня 2023 г.
- Средство синтаксического анализа JSON в
failOnUnknownFields
режиме удаляет запись вDROPMALFORMED
режиме и завершается сбоем непосредственно в режимеFAILFAST
. - Исправлена проблема в синтаксическом анализе данных JSON, чтобы предотвратить
UnknownFieldException
. - Исправлена проблема в автозагрузчике where различные форматы исходных файлов были несогласованы, если предоставленные schema не включали выводные секции. Эта проблема может привести к непредвиденным сбоям при чтении файлов с отсутствующими columns в предполагаемом partitionschema.
- [SPARK-43404] Пропустите повторное использовать SST-файл для той же версии хранилища состояний RocksDB, чтобы избежать ошибки несоответствия идентификаторов.
-
[SPARK-43413] Исправлена
IN
возможность nullqueryListQuery
. - Обновления системы безопасности операционной системы.
- Средство синтаксического анализа JSON в
- 17 мая 2023 г.
- Теперь сканирование Parquet обеспечивает надежную защиту от OOM при сканировании исключительно структурированных файлов путем динамической настройки размера пакета. Метаданные файлов анализируются для предварительного уменьшения размера пакета и снова снижаются при повторных попытках задачи в качестве окончательной сетки безопасности.
-
[SPARK-41520] Разделение
AND_OR
шаблона дерева для разделения иAND
разделенияOR
. -
[SPARK-43190]
ListQuery.childOutput
теперь согласуется со вторичными выходными данными. - Обновления системы безопасности операционной системы.
- 25 апреля 2023 г.
-
[SPARK-42928] Сделайте
resolvePersistentFunction
синхронизированным. - Обновления системы безопасности операционной системы.
-
[SPARK-42928] Сделайте
- 11 апреля 2023 г.
- Исправлена проблема, where эволюция автозагрузчика schema может перейти в бесконечный цикл сбоя при обнаружении нового column в schema вложенного объекта JSON.
-
[SPARK-42937]
PlanSubqueries
теперь задаетInSubqueryExec#shouldBroadcast
значение true. - [SPARK-42967] Исправление SparkListenerTaskStart.stageAttemptId при запуске задачи после отмены этапа.
- 29 марта 2023 г.
- [SPARK-42668] Перехват исключения при попытке закрыть сжатый поток в HDFSStateStoreProvider
- [SPARK-42635] Исправление ...
- Обновления системы безопасности операционной системы.
- 14 марта 2023 г.
- [SPARK-41162] Исправление анти- и полу-join для само-join с агрегациями
- [SPARK-33206] Исправление вычисления веса кэша кэша индексов с перетасовками для небольших файлов индексов
-
[SPARK-42484] Улучшено сообщение об ошибке
UnsafeRowUtils
- Прочие исправления.
- 28 февраля 2023 г.
- Поддержка генерации column для формата даты гггг-ММ-дд. Это изменение поддерживает partition обрезку для гггг-ММ-дд в качестве формата даты в генерируемых columns.
- Теперь пользователи могут читать и записывать специфический Delta tables, который требует Reader версии 3 и Writer версии 7, используя Databricks Runtime 9.1 LTS или более поздние версии. Для успешного выполнения table функции, перечисленные в протоколе tables', должны поддерживаться текущей версией Databricks Runtime.
- Поддержка генерации column для формата даты гггг-ММ-дд. Это изменение поддерживает partition обрезку для гггг-ММ-дд в качестве формата даты в генерируемых columns.
- Обновления системы безопасности операционной системы.
- 16 февраля 2023 г.
- [SPARK-30220] Включение вложенных запросов "Существует" или "В" за пределами узла фильтра
- Обновления системы безопасности операционной системы.
- 31 января 2023 г.
- Table типы JDBC tables теперь по умолчанию внешними.
- 18 января 2023 г.
- Соединитель Azure Synapse возвращает более описательное сообщение об ошибке, если имя column содержит недопустимые символы, такие как пробелы или точки с запятой. В таких случаях будет возвращено следующее сообщение:
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
- [SPARK-38277] Очистка пакета записи после фиксации хранилища состояний RocksDB
- [SPARK-41199] Исправлена проблема с метриками при совместном использовании источника потоковой передачи DSv1 и источника потоковой передачи DSv2.
- [SPARK-41198] Исправление метрик в потоковом запросе having источник потоковой передачи CTE и DSv1
- [SPARK-41339] Закрытие и повторное создание пакета записи RocksDB вместо простой очистки
- [SPARK-41732] Применение обрезки на основе дерева для сеанса правила
- Обновления системы безопасности операционной системы.
- Соединитель Azure Synapse возвращает более описательное сообщение об ошибке, если имя column содержит недопустимые символы, такие как пробелы или точки с запятой. В таких случаях будет возвращено следующее сообщение:
- 29 ноября 2022 г.
- Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пробелов:
-
csvignoreleadingwhitespace
, когда set доtrue
, удаляет начальные пробелы из values во время записи, еслиtempformat
это set доCSV
илиCSV GZIP
. Пробелы сохраняются, если конфигурация в диапазоне от set доfalse
. Значение по умолчанию —true
. -
csvignoretrailingwhitespace
, когда set доtrue
, удаляет конечные пробелы из values при записи, еслиtempformat
равно set доCSV
илиCSV GZIP
. Пробелы сохраняются, если конфигурация в диапазоне от set доfalse
. Значение по умолчанию —true
.
-
- Исправлена проблема синтаксического анализа JSON в автозагрузчике, когда все columns оставались строками (
cloudFiles.inferColumnTypes
не был set или set в отношенииfalse
), и JSON содержал вложенные объекты. - Обновления системы безопасности операционной системы.
- Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пробелов:
- 15 ноября 2022 г.
- Обновление Apache commons-text до версии 1.10.0.
-
[SPARK-40646] синтаксический анализ JSON для структур, карт и массивов был исправлен, поэтому, если часть записи не соответствует schema, остальная часть записи по-прежнему может быть правильно проанализирована, а не возвращать значения NULL. Чтобы выбрать улучшенное поведение, set
spark.sql.json.enablePartialResults
true
. Флаг отключен по умолчанию, чтобы сохранить исходное поведение. -
[SPARK-40292] Исправление имен column в функции
arrays_zip
при ссылке на массивы из вложенных структур - Обновления системы безопасности операционной системы.
- 1 ноября 2022 г.
- Исправлена проблема, where, если table Delta column с именем
_change_type
, но веб-канал изменений отключен в этом table, данные в этом column неправильно заполняют значение NULL values при запускеMERGE
. - Исправлена проблема с автозагрузчиком where, файл можно дублировать в одном и том же микробатче при включении
allowOverwrites
. - [SPARK-40697] Добавление заполнения на стороне чтения для покрытия внешних файлов данных
- [SPARK-40596] Заполнение объекта ExecutorDecommission сообщениями в ExecutorDecommissionInfo
- Обновления системы безопасности операционной системы.
- Исправлена проблема, where, если table Delta column с именем
- 18 октября 2022 г.
- Обновления системы безопасности операционной системы.
- 5 октября 2022 г.
-
[SPARK-40468] исправление column обрезки в CSV при выборе
_corrupt_record
. - Обновления системы безопасности операционной системы.
-
[SPARK-40468] исправление column обрезки в CSV при выборе
- 22 сентября 2022 г.
- Пользователи могут set spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled
,true
) для повторного включения встроенного списка для автозагрузчика в ADLS 2-го поколения. Встроенное описание было ранее отключено из-за проблем с производительностью, но может быть вызвано увеличением затрат на хранение для клиентов. - [SPARK-40315] Добавление hashCode() для литерала ArrayBasedMapData
- [SPARK-40213] Поддержка преобразования значений ASCII для символов Latin-1
- [SPARK-40380] Исправление константного свертывания InvokeLike, чтобы избежать несериализируемых литерала, внедренных в план
- [SPARK-38404] Улучшение разрешения CTE, когда вложенный CTE ссылается на внешний CTE
- [SPARK-40089] Исправление сортировки для некоторых десятичных типов
- [SPARK-39887] RemoveRedundantAliases должен сохранять псевдонимы, которые делают выходные данные узлов проекции уникальными
- Пользователи могут set spark.conf.set(
- 6 сентября 2022 г.
- [SPARK-40235] Используйте прерванную блокировку вместо синхронизированной в Executor.updateDependencies()
- [SPARK-40218] GROUPING SETS должно сохранять группирование columns
- [SPARK-39976] ArrayIntersect должен правильно обрабатывать значение NULL в левом выражении
-
[SPARK-40053] Добавление в динамические случаи отмены, для которых требуется
assume
среда выполнения Python - [SPARK-35542] Исправление: контейнеризатор, созданный для нескольких columns с разделением parameters SplitsArray, inputCols и outputCols невозможно загрузить после сохранения.
- [SPARK-40079] Добавление проверки ввода Imputer InputCols для пустого регистра ввода
- 24 августа 2022 г.
- [SPARK-39983] Не кэшируйте несериализированные отношения вещания на драйвере
- [SPARK-39775] Отключить проверку values по умолчанию при анализе схем Avro
- [SPARK-39962] Применение проекции при пустых атрибутах группы
- [SPARK-37643] Если charVarcharAsString имеет значение true, для запроса предиката типа char следует пропустить правило rpadding
- Обновления системы безопасности операционной системы.
- 9 августа 2022 г.
- [SPARK-39847] Исправьте состояние гонки в RocksDBLoader.loadLibrary(), если вызывающий поток прерван
- [SPARK-39731] Исправлена проблема в источниках данных CSV и JSON при синтаксическом анализе дат в формате yyMMddd с политикой синтаксического анализа времени CORRECTED.
- Обновления системы безопасности операционной системы.
- 27 июля 2022 г.
- [SPARK-39625] Добавление Dataset.as(StructType)
-
[SPARK-39689]Поддержка 2-chars в источнике
lineSep
данных CSV - [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded должен быть потокобезопасной
- [SPARK-39570] Встроенные table должны разрешать выражения с псевдонимом
- [SPARK-39702] Сокращение расходов на память в TransportCipher$EncryptedMessage с помощью общей байтовойRawChannel
- [SPARK-39575] добавить ByteBuffer#rewind после ByteBuffer#get в AvroDeserializer
- [SPARK-39476] Отключить Unwrap приведение optimize при преобразовании из Long в Float/Double или из Integer в Float
- [SPARK-38868] Не распространяйте исключения из предиката фильтра при оптимизации внешних соединений
- Обновления системы безопасности операционной системы.
- 20 июля 2022 г.
- Результаты операции Delta MERGE согласованы, если источник не детерминирован.
- [SPARK-39355] Single column использует кавычки для создания UnresolvedAttribute
- [SPARK-39548] CreateView Command с запросом по предложению window и ошибкой неверного определения window не найдена проблема
- [SPARK-39419] Исправление ArraySort для создания исключения, когда компратор возвращает значение NULL
- Отключено использование встроенных облачных API-интерфейсов автозагрузчика для перечисления каталогов в Azure.
- Обновления системы безопасности операционной системы.
- 5 июля 2022 г.
- [SPARK-39376] Скрытие повторяющихся columns в расширении с помощью звездочки псевдонима подзапроса из NATURAL/USING JOIN
- Обновления системы безопасности операционной системы.
- 15 июня 2022 г.
- [SPARK-39283] Исправлена взаимоблокировка между TaskMemoryManager и UnsafeExternalSorter.SpillableIterator
- [SPARK-39285] Spark не должен проверять имена полей при чтении файлов
- [SPARK-34096] Повысить производительность nth_value, игнорируя значения NULL, offsetwindow
-
[SPARK-36718] Исправление
isExtractOnly
проверки в CollapseProject
- 2 июня 2022 г.
- [SPARK-39093] Избегайте ошибки компиляции кодегена при делении интервалов годовых или дневных интервалов по целочисленным
- [SPARK-38990] Избегайте nullPointerException при оценке формата date_trunc/усечения в качестве привязанной ссылки
- Обновления системы безопасности операционной системы.
- 18 мая 2022 г.
- Устраняет потенциальную утечку встроенной памяти в автозагрузчике.
- [SPARK-38918] Вложенная column обрезка должна отфильтровать атрибуты, которые не относятся к текущему отношению
- [SPARK-37593] Уменьшите размер страницы по умолчанию LONG_ARRAY_OFFSET, если используется G1GC и ON_HEAP
- [SPARK-39084] Исправление df.rdd.isEmpty() с помощью TaskContext для остановки итератора при завершении задачи
- [SPARK-32268] Добавление ColumnPruning в injectBloomFilter
- [SPARK-38974] Фильтр зарегистрированных функций с указанным именем базы данных в функциях list
- [SPARK-38931] Создание корневого каталога dfs для RocksDBFileManager с неизвестным числом ключей на 1-й контрольной точке
- Обновления системы безопасности операционной системы.
- 19 апреля 2022 г.
- Пакет SDK AWS для Java обновлен с версии 1.11.655 до версии 1.12.1899.
- Исправлена проблема, из-за которой библиотеки с областью записной книжки не работали в заданиях пакетной потоковой передачи.
- [SPARK-38616] Отслеживание текста sql-запроса в Приложении Catalyst TreeNode
- Обновления системы безопасности операционной системы.
- 6 апреля 2022 г.
- Следующие функции SQL Spark теперь доступны в этом выпуске:
-
timestampadd()
иdateadd()
: добавьте длительность времени в указанное единицу в выражение метки времени. -
timestampdiff()
иdatediff()
: вычислите разницу времени между двумя выражениями меток в заданной единице.
-
- Parquet-MR обновлен до версии 1.12.2.
- Улучшена поддержка комплексных схем в файлах Parquet
- [SPARK-38631] Использует реализацию на основе Java для отмены таринга в Utils.unpack
-
[SPARK-38509][SPARK-38481] Вишни выбрать три
timestmapadd/diff
изменения. - [SPARK-38523] Исправление, ссылающееся на поврежденную запись column из CSV
-
[SPARK-38237] Разрешить
ClusteredDistribution
требовать полные ключи кластеризации - [SPARK-38437] Сериализация даты и времени из источника данных
- [SPARK-38180] Разрешить безопасные выражения приведения в коррелированных предикатах равенства
- [SPARK-38155] Запретить отдельный агрегат в боковом вложенных запросах с неподдерживаемые предикаты
- Обновления системы безопасности операционной системы.
- Следующие функции SQL Spark теперь доступны в этом выпуске:
Databricks Runtime 9.1 LTS
См. Databricks Runtime 9.1 LTS.
- 29 ноября 2023 г.
-
[SPARK-45859] Сделал объекты UDF ленивым
ml.functions
. -
[SPARK-45544] Встроенная поддержка SSL в
TransportContext
. -
[SPARK-45730] Улучшенные ограничения времени для
ReloadingX509TrustManagerSuite
. - Обновления системы безопасности операционной системы.
-
[SPARK-45859] Сделал объекты UDF ленивым
- 14 ноября 2023 г.
-
[SPARK-45545]
SparkTransportConf
наследуетсяSSLOptions
при создании. - [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
-
[SPARK-45427] Добавлены параметры SSL RPC в
SSLOptions
иSparkTransportConf
. -
[SPARK-45584] Исправлен сбой выполнения вложенных запросов.
TakeOrderedAndProjectExec
-
[SPARK-45541] Добавлен.
SSLFactory
- [SPARK-42205] Удалены сведения о ведении журнала в событиях запуска этапов и задач.
- Обновления системы безопасности операционной системы.
-
[SPARK-45545]
- 24 октября 2023 г.
-
[SPARK-45426] Добавлена поддержка
ReloadingX509TrustManager
. - Обновления системы безопасности операционной системы.
-
[SPARK-45426] Добавлена поддержка
- 13 октября 2023 г.
- Обновления системы безопасности операционной системы.
- 10 сентября 2023 г.
- Прочие исправления.
- 30 августа 2023 г.
- Обновления системы безопасности операционной системы.
- 15 августа 2023 г.
- Обновления системы безопасности операционной системы.
- 23 июня 2023 г.
- Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
- Обновления системы безопасности операционной системы.
- 15 июня 2023 г.
- [SPARK-43098] Исправлена ошибка COUNT правильности, если скалярный вложенный запрос содержит группу по предложению
-
[SPARK-43156][SPARK-43098] Расширение скалярного теста количества ошибок счетчика ошибок с
decorrelateInnerQuery
отключенным. - [SPARK-40862] Поддержка не агрегированных вложенных запросов в RewriteCorrelatedScalarSubquery
- Обновления системы безопасности операционной системы.
- 2 июня 2023 г.
- Средство синтаксического анализа JSON в
failOnUnknownFields
режиме удаляет запись вDROPMALFORMED
режиме и завершается сбоем непосредственно в режимеFAILFAST
. - Исправлена проблема в синтаксическом анализе данных JSON, чтобы предотвратить
UnknownFieldException
. - Исправлена проблема в автозагрузчике where различные форматы исходных файлов были несогласованы, если предоставленные schema не включали выводные секции. Эта проблема может привести к непредвиденным сбоям при чтении файлов с отсутствующими columns в предполагаемом partitionschema.
-
[SPARK-37520]
startswith()
Добавление функций иendswith()
строковых функций -
[SPARK-43413] Исправлена
IN
возможность nullqueryListQuery
. - Обновления системы безопасности операционной системы.
- Средство синтаксического анализа JSON в
- 17 мая 2023 г.
- Обновления системы безопасности операционной системы.
- 25 апреля 2023 г.
- Обновления системы безопасности операционной системы.
- 11 апреля 2023 г.
- Исправлена проблема, where эволюция автозагрузчика schema может перейти в бесконечный цикл сбоя при обнаружении нового column в schema вложенного объекта JSON.
- [SPARK-42967] Исправление SparkListenerTaskStart.stageAttemptId при запуске задачи после отмены этапа.
- 29 марта 2023 г.
- Обновления системы безопасности операционной системы.
- 14 марта 2023 г.
-
[SPARK-42484] Улучшено сообщение об ошибке для
UnsafeRowUtils
. - Прочие исправления.
-
[SPARK-42484] Улучшено сообщение об ошибке для
- 28 февраля 2023 г.
- Теперь пользователи могут читать и записывать специфический Delta tables, который требует Reader версии 3 и Writer версии 7, используя Databricks Runtime 9.1 LTS или более поздние версии. Для успешного выполнения table функции, перечисленные в протоколе tables', должны поддерживаться текущей версией Databricks Runtime.
- Обновления системы безопасности операционной системы.
- 16 февраля 2023 г.
- Обновления системы безопасности операционной системы.
- 31 января 2023 г.
- Table типы JDBC tables теперь по умолчанию внешними.
- 18 января 2023 г.
- Обновления системы безопасности операционной системы.
- 29 ноября 2022 г.
- Исправлена проблема синтаксического анализа JSON в автозагрузчике, когда все columns оставались строками (
cloudFiles.inferColumnTypes
не был set или set в отношенииfalse
), и JSON содержал вложенные объекты. - Обновления системы безопасности операционной системы.
- Исправлена проблема синтаксического анализа JSON в автозагрузчике, когда все columns оставались строками (
- 15 ноября 2022 г.
- Обновление Apache commons-text до версии 1.10.0.
- Обновления системы безопасности операционной системы.
- Прочие исправления.
- 1 ноября 2022 г.
- Исправлена проблема, where, если table Delta column с именем
_change_type
, но веб-канал изменений отключен в этом table, данные в этом column неправильно заполняют значение NULL values при запускеMERGE
. - Исправлена проблема с автозагрузчиком where, файл можно дублировать в одном и том же микробатче при включении
allowOverwrites
. - [SPARK-40596] Заполнение объекта ExecutorDecommission сообщениями в ExecutorDecommissionInfo
- Обновления системы безопасности операционной системы.
- Исправлена проблема, where, если table Delta column с именем
- 18 октября 2022 г.
- Обновления системы безопасности операционной системы.
- 5 октября 2022 г.
- Прочие исправления.
- Обновления системы безопасности операционной системы.
- 22 сентября 2022 г.
- Пользователи могут set spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true"), чтобы повторно включить встроенное отображение для Auto Loader на ADLS Gen2. Встроенное описание было ранее отключено из-за проблем с производительностью, но может быть вызвано увеличением затрат на хранение для клиентов.
- [SPARK-40315] Добавление hashCode() для литерала ArrayBasedMapData
- [SPARK-40089] Исправление сортировки для некоторых десятичных типов
- [SPARK-39887] RemoveRedundantAliases должен сохранять псевдонимы, которые делают выходные данные узлов проекции уникальными
- 6 сентября 2022 г.
- [SPARK-40235] Используйте прерванную блокировку вместо синхронизированной в Executor.updateDependencies()
- [SPARK-35542] Исправление: контейнеризатор, созданный для нескольких columns с разделением parameters SplitsArray, inputCols и outputCols невозможно загрузить после сохранения.
- [SPARK-40079] Добавление проверки ввода Imputer InputCols для пустого регистра ввода
- 24 августа 2022 г.
-
[SPARK-39666] Использование unsafeProjection.create для уважения
spark.sql.codegen.factoryMode
в ExpressionEncoder - [SPARK-39962] Применение проекции при пустых атрибутах группы
- Обновления системы безопасности операционной системы.
-
[SPARK-39666] Использование unsafeProjection.create для уважения
- 9 августа 2022 г.
- Обновления системы безопасности операционной системы.
- 27 июля 2022 г.
- Результаты операции Delta MERGE согласованы, если источник не детерминирован.
-
[SPARK-39689] Поддержка 2-chars в источнике
lineSep
данных CSV -
[SPARK-39575] Добавлено
ByteBuffer#rewind
послеByteBuffer#get
этого вAvroDeserializer
. - [SPARK-37392] Исправлена ошибка производительности для оптимизатора катализатора.
- Обновления системы безопасности операционной системы.
- 13 июля 2022 г.
-
[SPARK-39419]
ArraySort
создает исключение, когда средство сравнения возвращает значение NULL. - Отключено использование встроенных облачных API-интерфейсов автозагрузчика для перечисления каталогов в Azure.
- Обновления системы безопасности операционной системы.
-
[SPARK-39419]
- 5 июля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления.
- 15 июня 2022 г.
-
[SPARK-39283] Исправлена взаимоблокировка между
TaskMemoryManager
иUnsafeExternalSorter.SpillableIterator
.
-
[SPARK-39283] Исправлена взаимоблокировка между
- 2 июня 2022 г.
-
[SPARK-34554]
copy()
Реализуйте метод вColumnarMap
. - Обновления системы безопасности операционной системы.
-
[SPARK-34554]
- 18 мая 2022 г.
- Исправлена потенциальная утечка встроенной памяти в автозагрузчике.
- Версия пакета SDK AWS обновлена с 1.11.655 до 1.11.678.
- [SPARK-38918] Вложенная column обрезка должна отфильтровать атрибуты, которые не относятся к текущему отношению
-
[SPARK-39084] Исправление
df.rdd.isEmpty()
с помощьюTaskContext
итератора при завершении задачи - Обновления системы безопасности операционной системы.
- 19 апреля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления.
- 6 апреля 2022 г.
- [SPARK-38631] Использует реализацию на основе Java для отмены таринга в Utils.unpack
- Обновления системы безопасности операционной системы.
- 22 марта 2022 г.
- Изменен текущий рабочий каталог записных книжек в кластерах высокой параллельности с включенными функциями управления доступом table или сквозной передачи учетных данных на домашний каталог пользователя. Ранее active directory был
/databricks/driver
. - [SPARK-38437] Сериализация даты и времени из источника данных
- [SPARK-38180] Разрешить безопасные выражения приведения в коррелированных предикатах равенства
- [SPARK-38155] Запретить отдельный агрегат в боковом вложенных запросах с неподдерживаемые предикаты
- [SPARK-27442] Удалено поле проверки при чтении или записи данных в паркете.
- Изменен текущий рабочий каталог записных книжек в кластерах высокой параллельности с включенными функциями управления доступом table или сквозной передачи учетных данных на домашний каталог пользователя. Ранее active directory был
- 14 марта 2022 г.
- [SPARK-38236] Абсолютные пути к файлам, указанным в инструкции создания/изменения table, интерпретируются как относительные.
-
[SPARK-34069] поток задач прерывания, если локальное свойство
SPARK_JOB_INTERRUPT_ON_CANCEL
set значение true.
- 23 февраля 2022 г.
- [SPARK-37859] SQL tables, созданных с помощью JDBC с Spark 3.1, недоступны для чтения с помощью Spark 3.2.
- 8 февраля 2022 г.
- [SPARK-27442] Удалено поле проверки при чтении или записи данных в паркете.
- Обновления системы безопасности операционной системы.
- 1 февраля 2022 г.
- Обновления системы безопасности операционной системы.
- 26 января 2022 г.
- Исправлена проблема, когда where одновременных транзакций в Delta tables могли быть зафиксированы в несериализуемом порядке в редких случаях.
- Исправлена проблема, where команда
OPTIMIZE
может завершиться ошибкой при включении диалекта SQL ANSI.
- 19 января 2022 г.
- Незначительные исправления и улучшения безопасности.
- Обновления системы безопасности операционной системы.
- 4 ноября 2021 г.
- Исправлена проблема, из-за которой структурированные потоки потоковой передачи завершаются ошибкой
ArrayIndexOutOfBoundsException
. - Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: No FileSystem for scheme
, или привести к тому, что изменения вsparkContext.hadoopConfiguration
не вступят в силу в запросах. - Соединитель Apache Spark для разностного доступа был обновлен до 0.2.0.
- Исправлена проблема, из-за которой структурированные потоки потоковой передачи завершаются ошибкой
- 20 октября 2021 г.
- Обновлен соединитель BigQuery с версии 0.18.1 до версии 0.22.2. Это добавляет поддержку типа BigNumeric.
Databricks Runtime 13.0 (EoS)
См. раздел Databricks Runtime 13.0 (EoS).
13 октября 2023 года
- Зависимость Snowflake-jdbc обновлена с 3.13.29 до 3.13.33.
- [SPARK-42553][SQL] Убедитесь, что по крайней мере один единица времени после интервала.
-
[SPARK-45178] Резервное выполнение одного пакета для
Trigger.AvailableNow
неподдерживаемых источников, а не с помощью оболочки. -
[SPARK-44658][CORE]
ShuffleStatus.getMapStatus
возвращаетсяNone
вместоSome(null)
. -
[SPARK-42205][CORE] Remove ведение журналов для Accumulables при начале выполнения задач и этапов в
JsonProtocol
. - Обновления системы безопасности операционной системы.
12 сентября 2023 г.
-
[SPARK-44485][SQL] Optimize
TreeNode.generateTreeString
. -
[SPARK-44718][SQL] Сопоставление
ColumnVector
конфигурации в режиме памяти по умолчанию соOffHeapMemoryMode
значением конфигурации. - Прочие исправления ошибок.
-
[SPARK-44485][SQL] Optimize
30 августа 2023 г.
-
[SPARK-44818][Backport] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации
taskThread
. - [SPARK-44714] Упрощение ограничения разрешения LCA относительно запросов.
-
[SPARK-44245][PYTHON]
pyspark.sql.dataframe sample()
doctests теперь является иллюстрирующей только. -
[SPARK-44871][11.3-13.0][SQL] Исправлено
percentile_disc
поведение. - Обновления системы безопасности операционной системы.
-
[SPARK-44818][Backport] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации
15 августа 2023 г.
-
[SPARK-44643][SQL][PYTHON] Исправление
Row.__repr__
, когда строка пуста. - [SPARK-44504]задача обслуживания [Backport] очищает загруженные providers при ошибке остановки.
-
[SPARK-44479][CONNECT][PYTHON] Исправлено
protobuf
преобразование из пустого типа структуры. -
[SPARK-44464][SS] Исправлено
applyInPandasWithStatePythonRunner
, чтобы выходные строки имелиNull
в качестве первого значения column. - Прочие исправления ошибок.
-
[SPARK-44643][SQL][PYTHON] Исправление
29 июля 2023 г.
- Исправлена ошибка, where
dbutils.fs.ls()
возвращенаINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
при обращении к пути местоположения хранилища, которое конфликтует с другим внешним или управляемым местоположением хранилища. -
[SPARK-44199]
CacheManager
больше не обновляет ненужныеfileIndex
. - Обновления системы безопасности операционной системы.
- Исправлена ошибка, where
24 июля 2023 г.
-
[SPARK-44337][PROTOBUF] Исправлена проблема, where любой set поля, чтобы
Any.getDefaultInstance
вызвали ошибки синтаксического анализа. -
[SPARK-44136] [SS] Исправлена проблема, where
StateManager
get материализована в исполнителе, а не драйвером вFlatMapGroupsWithStateExec
. -
Вернуть [SPARK-42323][SQL] Назначить имя
_LEGACY_ERROR_TEMP_2332
. - Обновления системы безопасности операционной системы.
-
[SPARK-44337][PROTOBUF] Исправлена проблема, where любой set поля, чтобы
23 июня 2023 г.
- Обновления системы безопасности операционной системы.
15 июня 2023 г.
- Фотонализовано
approx_count_distinct
. - Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
- [SPARK-43156][SPARK-43098][SQL] Расширение тестовой ошибки скалярного подзаверха с отключенным decorrelateInnerQuery
-
[SPARK-43779][SQL]
ParseToDate
теперь загружаетсяEvalMode
в основной поток. -
[SPARK-42937][SQL]
PlanSubqueries
должен setInSubqueryExec#shouldBroadcast
true - Обновления системы безопасности операционной системы.
- Фотонализовано
2 июня 2023 г.
- Средство синтаксического анализа JSON в
failOnUnknownFields
режиме удаляет запись вDROPMALFORMED
режиме и завершается сбоем непосредственно в режимеFAILFAST
. - Улучшение производительности инкрементального update с использованием
SHALLOW CLONE
технологии Айсберг и Parquet. - Исправлена проблема в автозагрузчике where различные форматы исходных файлов были несогласованы, если предоставленные schema не включали выводные секции. Эта проблема может привести к непредвиденным сбоям при чтении файлов с отсутствующими columns в предполагаемом partitionschema.
- [SPARK-43404][Backport] Пропустите повторное использовать SST-файл для той же версии хранилища состояний RocksDB, чтобы избежать ошибки несоответствия идентификаторов.
- [SPARK-43340][CORE] Исправлено отсутствие поля трассировки стека в журналах событий.
-
[SPARK-43300][CORE]
NonFateSharingCache
оболочка для кэша Guava. -
[SPARK-43378][CORE] Правильно закрывайте объекты потока в
deserializeFromChunkedBuffer
. - [SPARK-16484][SQL] Используйте 8-разрядные регистры для представления DataSketches.
- [SPARK-43522][SQL] Исправлено создание имени структуры column с индексом массива.
-
[SPARK-43413][11.3-13.0][SQL] Исправлена
IN
возможность nullqueryListQuery
. -
[SPARK-43043][CORE] Улучшенная
MapOutputTracker.updateMapOutput
производительность. - [SPARK-16484][SQL] Добавлена поддержка DataSketches HllSketch.
- [SPARK-43123][SQL] Внутренние метаданные полей больше не просачиваются в catalogs.
-
[SPARK-42851][SQL] Guard
EquivalentExpressions.addExpr()
сsupportedExpression()
. -
[SPARK-43336][SQL] Приведение между
Timestamp
иTimestampNTZ
требует timezone. -
[SPARK-43286][SQL] Обновлен режим CBC
aes_encrypt
на generate случайные инициализационные векторы (IV). -
[SPARK-42852][SQL] Отменены
NamedLambdaVariable
связанные изменения изEquivalentExpressions
. -
[SPARK-43541][SQL] Распространение всех
Project
тегов при разрешении выражений и отсутствии columns.. -
[SPARK-43527][PYTHON] Исправлено
catalog.listCatalogs
в PySpark. - Обновления системы безопасности операционной системы.
- Средство синтаксического анализа JSON в
31 мая 2023 г.
- Поддержка оптимизированной записи по умолчанию для Delta tables, зарегистрированной в Unity Catalog, расширена, чтобы включать инструкции
CTAS
и операцииINSERT
для разделённых tables. Это поведение соответствует значениям по умолчанию в хранилищах SQL. См . оптимизированные записи для Delta Lake в Azure Databricks.
- Поддержка оптимизированной записи по умолчанию для Delta tables, зарегистрированной в Unity Catalog, расширена, чтобы включать инструкции
17 мая 2023 г.
- Исправлена ошибка регрессии, из-за которой where,
_metadata.file_path
и_metadata.file_name
возвращались неправильно отформатированные строки. Например, теперь путь с пробелами будет представленs3://test-bucket/some%20directory/some%20data.csv
вместоs3://test-bucket/some directory/some data.csv
. - Теперь сканирование Parquet обеспечивает надежную защиту от OOM при сканировании исключительно структурированных файлов путем динамической настройки размера пакета. Метаданные файлов анализируются для предварительного уменьшения размера пакета и снова снижаются при повторных попытках задачи в качестве окончательной сетки безопасности.
-
- Если файл Avro считывался только с параметром
failOnUnknownFields
или с автозагрузчиком в режиме эволюцииfailOnNewColumns
schema, columns с различными типами данных будут считываться какnull
вместо того, чтобы вызвать ошибку, указывающую, что файл не может быть прочитан. Теперь эти операции чтения завершаются ошибкой и рекомендуют пользователям использовать этотrescuedDataColumn
параметр.
- Если файл Avro считывался только с параметром
- Автозагрузчик теперь выполняет следующие действия.
-
- Правильно считывает и больше не спасает
Integer
типы,Short
Byte
если предоставляется один из этих типов данных, но avro-файл предлагает один из других двух типов.
- Правильно считывает и больше не спасает
-
- Запрещает типы интервалов чтения как типы меток даты и времени, чтобы избежать повреждения дат.
-
- Запрещает
Decimal
чтение типов с более низкой точностью.
- Запрещает
- [SPARK-43172] [CONNECT] Предоставляет узел и маркер из клиента Spark connect.
-
[SPARK-43293][SQL]
__qualified_access_only
игнорируется в обычном columns. -
[SPARK-43098][SQL] Исправлена ошибка правильности
COUNT
при группировке скалярных вложенных запросов по предложению. -
[SPARK-43085][SQL] Поддержка присваивания column
DEFAULT
для многокомпонентных имён table. -
[SPARK-43190][SQL]
ListQuery.childOutput
теперь согласуется со вторичными выходными данными. - [SPARK-43192] [CONNECT] Удалена проверка charset агента пользователя.
- Исправлена ошибка регрессии, из-за которой where,
25 апреля 2023 г.
- Можно изменить Delta table, чтобы добавить поддержку функции Delta table с помощью
DeltaTable.addFeatureSupport(feature_name)
. - Теперь команда
SYNC
поддерживает устаревшие форматы источников данных. - Исправлена ошибка where, которая могла возникать при использовании средства форматирования Python перед запуском любых других команд в записной книжке Python, что могло привести к отсутствию пути к записной книжке из
sys.path.
. - Azure Databricks теперь поддерживает задавание values по умолчанию для columns Delta tables. Команды
INSERT
,UPDATE
,DELETE
иMERGE
могут ссылаться на значение по умолчанию для columnс помощью явного ключевого словаDEFAULT
. Для командINSERT
с явным list меньше columns, чем целевой table, соответствующие columnvalues по умолчанию заменяются остальными columns (илиNULL
если значение по умолчанию не указано).
- Можно изменить Delta table, чтобы добавить поддержку функции Delta table с помощью
Для некоторых пользователей исправлена ошибка where, в результате которой веб терминал не мог быть использован для доступа к файлам на
/Workspace
.- Если файл Parquet считывался только с параметром
failOnUnknownFields
или с автозагрузчиком в режиме эволюцииfailOnNewColumns
schema, columns, которые имели разные типы данных, будут считываться какnull
вместо того, чтобы вызвать ошибку, указывающую, что файл не может быть прочитан. Теперь эти операции чтения завершаются ошибкой и рекомендуют пользователям использовать этотrescuedDataColumn
параметр. - Автоматический загрузчик теперь правильно считывает и больше не спасает
Integer
,Short
типы,Byte
если предоставляется один из этих типов данных. Файл Parquet предлагает один из двух других типов. Когда ранее спасенные данные column были активированы, несоответствие типа данных могло привести к спасению columns, даже если они уже были доступны для чтения. - Исправлена ошибка, где автозагрузчик where с эволюцией schema может войти в бесконечный цикл сбоев, когда новый column обнаружен в schema вложенного объекта JSON.
- [SPARK-42794][SS] Увеличьте блокировкуAcquireTimeoutMs до 2 минут для получения хранилища состояний RocksDB в службе "Потоковая передача структуры".
- [SPARK-39221][SQL] Правильное редактирование конфиденциальной информации для задания или этапа задания сервера thrift.
-
[SPARK-42971][CORE] Измените значение на печать
workdir
, еслиappDirs
значение NULL при событии рабочего дескриптораWorkDirCleanup
. - [SPARK-42936][SQL] Исправьте ошибку LCA, если предложение having можно разрешить непосредственно его дочерним агрегатом.
-
[SPARK-43018][SQL] Исправлена ошибка для
INSERT
команд с литералом метки времени. - Возврат [SPARK-42754][SQL][пользовательский интерфейс] Исправлена проблема с обратной совместимостью в вложенном запуске SQL.
- Возврат [SPARK-41498] Распространение метаданных через объединение.
-
[SPARK-43038][SQL] Поддержка режима CBC по
aes_encrypt()
/aes_decrypt()
. -
[SPARK-42928][SQL] Сделайте
resolvePersistentFunction
синхронизированным. -
[SPARK-42521][SQL] Добавление
NULL
values дляINSERT
с пользовательскими списками, содержащими меньше columns, чем целевые table. -
[SPARK-41391][SQL] Выходное column имя
groupBy.agg(count_distinct)
было неверным. -
[SPARK-42548][SQL] Добавьте
ReferenceAllColumns
, чтобы пропустить перезапись атрибутов. - [SPARK-42423][SQL] Добавление метаданных column начала и длины блока файлов.
-
[SPARK-42796][SQL] Поддержка доступа к
TimestampNTZ
columns вCachedBatch
. - [SPARK-42266][PYTHON] Remove родительский каталог в shell.py используется при запуске IPython.
-
[SPARK-43011][SQL]
array_insert
должен завершиться ошибкой с индексом 0. -
[SPARK-41874][CONNECT][PYTHON] Поддержка
SameSemantics
в Spark Connect. - [SPARK-42702][SPARK-42623][SQL] Поддержка параметризованного запроса в вложенных запросах и CTE.
-
[SPARK-42967][CORE] Исправление
SparkListenerTaskStart.stageAttemptId
при запуске задачи после отмены этапа. - Обновления системы безопасности операционной системы.
- Если файл Parquet считывался только с параметром
Databricks Runtime 12.1 (EoS)
См. раздел Databricks Runtime 12.1 (EoS).
23 июня 2023 г.
- Обновления системы безопасности операционной системы.
15 июня 2023 г.
- Фотонализовано
approx_count_distinct
. - Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
-
[SPARK-43779][SQL]
ParseToDate
теперь загружаетсяEvalMode
в основной поток. - [SPARK-43156][SPARK-43098][SQL] Расширение тестовой ошибки скалярного подзаверха с отключенным decorrelateInnerQuery
- Обновления системы безопасности операционной системы.
- Фотонализовано
2 июня 2023 г.
- Средство синтаксического анализа JSON в
failOnUnknownFields
режиме удаляет запись вDROPMALFORMED
режиме и завершается сбоем непосредственно в режимеFAILFAST
. - Улучшение производительности инкрементального update с использованием
SHALLOW CLONE
технологии Айсберг и Parquet. - Исправлена проблема в автозагрузчике where различные форматы исходных файлов были несогласованы, если предоставленные schema не включали выводные секции. Эта проблема может привести к непредвиденным сбоям при чтении файлов с отсутствующими columns в предполагаемом partitionschema.
- [SPARK-43404][Backport] Пропустите повторное использовать SST-файл для той же версии хранилища состояний RocksDB, чтобы избежать ошибки несоответствия идентификаторов.
-
[SPARK-43413][11.3-13.0][SQL] Исправлена
IN
возможность nullqueryListQuery
. - [SPARK-43522][SQL] Исправлено создание имени структуры column с индексом массива.
-
[SPARK-42444][PYTHON]
DataFrame.drop
теперь обрабатывает повторяющиеся columns правильно. -
[SPARK-43541][SQL] Распространение всех
Project
тегов при разрешении выражений и отсутствии columns.. - [SPARK-43340][CORE] Исправлено отсутствие поля трассировки стека в журналах событий.
-
[SPARK-42937][SQL]
PlanSubqueries
теперь задаетInSubqueryExec#shouldBroadcast
значение true. -
[SPARK-43527][PYTHON] Исправлено
catalog.listCatalogs
в PySpark. -
[SPARK-43378][CORE] Правильно закрывайте объекты потока в
deserializeFromChunkedBuffer
.
- Средство синтаксического анализа JSON в
17 мая 2023 г.
- Теперь сканирование Parquet обеспечивает надежную защиту от OOM при сканировании исключительно структурированных файлов путем динамической настройки размера пакета. Метаданные файлов анализируются для предварительного уменьшения размера пакета и снова снижаются при повторных попытках задачи в качестве окончательной сетки безопасности.
- Если файл Avro считывался только с параметром
failOnUnknownFields
или с автозагрузчиком в режиме эволюцииfailOnNewColumns
schema, columns с различными типами данных будут считываться какnull
вместо того, чтобы вызвать ошибку, указывающую, что файл не может быть прочитан. Теперь эти операции чтения завершаются ошибкой и рекомендуют пользователям использовать этотrescuedDataColumn
параметр. - Автозагрузчик теперь выполняет следующие действия.
-
- Правильно считывает и больше не спасает
Integer
типы,Short
Byte
если предоставляется один из этих типов данных, но avro-файл предлагает один из других двух типов.
- Правильно считывает и больше не спасает
-
- Запрещает типы интервалов чтения как типы меток даты и времени, чтобы избежать повреждения дат.
-
- Запрещает
Decimal
чтение типов с более низкой точностью.
- Запрещает
-
[SPARK-43098][SQL] Исправлена ошибка правильности
COUNT
при группировке скалярных вложенных запросов по предложению. -
[SPARK-43190][SQL]
ListQuery.childOutput
теперь согласуется со вторичными выходными данными. - Обновления системы безопасности операционной системы.
25 апреля 2023 г.
- Если файл Parquet считывался только с параметром
failOnUnknownFields
или с автозагрузчиком в режиме эволюцииfailOnNewColumns
schema, columns, которые имели разные типы данных, будут считываться какnull
вместо того, чтобы вызвать ошибку, указывающую, что файл не может быть прочитан. Теперь эти операции чтения завершаются ошибкой и рекомендуют пользователям использовать этотrescuedDataColumn
параметр. - Автоматический загрузчик теперь правильно считывает и больше не спасает
Integer
,Short
типы,Byte
если предоставляется один из этих типов данных. Файл Parquet предлагает один из двух других типов. Когда ранее спасенные данные column были активированы, несоответствие типа данных могло привести к спасению columns, даже если они уже были доступны для чтения. -
[SPARK-43009][SQL] Параметризовано
sql()
константамиAny
. -
[SPARK-42971][CORE] Измените значение на печать
workdir
, еслиappDirs
значение NULL при событии рабочего дескриптораWorkDirCleanup
. - Обновления системы безопасности операционной системы.
- Если файл Parquet считывался только с параметром
11 апреля 2023 г.
- Поддержка устаревших форматов источников данных в SYNC команде.
- Исправлена ошибка в поведении %autoreload в записных книжках, которые находятся за пределами репозитория.
- Исправлена ошибка, где автозагрузчик where с эволюцией schema может войти в бесконечный цикл сбоев, когда новый column обнаружен в schema вложенного объекта JSON.
-
[SPARK-42928][SQL] Выполняет
resolvePersistentFunction
синхронизацию. -
[SPARK-42967][CORE] Исправляет
SparkListenerTaskStart.stageAttemptId
, когда задача начинается после отмены этапа. - Обновления системы безопасности операционной системы.
29 марта 2023 г.
- Автозагрузчик теперь активирует по крайней мере одну синхронную очистку журнала RocksDB для потоков
Trigger.AvailableNow
, чтобы контрольная точка могла get регулярно очищаться для быстродействующих потоков автозагрузчика. Это может привести к тому, что некоторые потоки будут занимать больше времени, прежде чем они завершаются, но при этом будут сохранены затраты на хранение и улучшены возможности автозагрузчика в будущих запусках. - Теперь можно изменить Delta table, чтобы добавить поддержку функций table с помощью
DeltaTable.addFeatureSupport(feature_name)
. - [SPARK-42702][SPARK-42623][SQL] Поддержка параметризованного запроса в вложенных запросах и CTE
- [SPARK-41162][SQL] Исправление защиты отjoin для самостоятельногоjoin с агрегатами
- [SPARK-42403][CORE] JsonProtocol должен обрабатывать строки JSON NULL
- [SPARK-42668][SS] Перехват исключения при попытке закрыть сжатый поток в HDFSStateStoreProvider
- [SPARK-42794][SS] Увеличьте блокировкуAcquireTimeoutMs до 2 минут для получения хранилища состояний RocksDB в службе "Потоковая передача структуры"
- Автозагрузчик теперь активирует по крайней мере одну синхронную очистку журнала RocksDB для потоков
14 марта 2023 г.
- Внесены изменения в терминологию, касающуюся добавления возможностей в Delta table с использованием свойства table. Предпочтительный синтаксис теперь
'delta.feature.featureName'='supported'
вместо'delta.feature.featureName'='enabled'
. Для обратной совместимости использование'delta.feature.featureName'='enabled'
по-прежнему работает и продолжит работать. - [SPARK-42622][CORE] Отключить подстановку в values
- [SPARK-42534][SQL] Исправление предложения Limit в DB2Dialect
- [SPARK-42635][SQL] Исправлено выражение TimestampAdd.
- [SPARK-42516][SQL] Всегда фиксирует конфигурацию часового пояса сеанса при создании views
- [SPARK-42484] [SQL] Лучшее сообщение об ошибке unsafeRowUtils
- [SPARK-41793][SQL] Неправильный результат для кадров window, определенных предложением диапазона для больших десятичных чисел
- Обновления системы безопасности операционной системы.
- Внесены изменения в терминологию, касающуюся добавления возможностей в Delta table с использованием свойства table. Предпочтительный синтаксис теперь
24 февраля 2023
- Теперь можно использовать унифицированный set опций (
host
,port
,database
,user
,password
) для подключения к источникам данных, поддерживаемым в рамках федерации запросов (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Обратите внимание, чтоport
это необязательно и использует номер порта по умолчанию для каждого источника данных, если он не указан.
Пример конфигурации подключения PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Пример конфигурации подключения Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
- [SPARK-41989][PYTHON] Избегайте критической конфигурации ведения журнала из pyspark.pandas
- [SPARK-42346][SQL] Перезапись отдельных статистических выражений после слияния вложенного запроса
-
[SPARK-41990][SQL]
FieldReference.column
Вместоapply
преобразования фильтра версии 1 в версию 2 - Возврат [SPARK-41848][CORE] Исправление задачи с превышением расписания с помощью TaskResourceProfile
- [SPARK-42162] Введение выражения MultiCommutativeOp в качестве оптимизации памяти для канонизации больших деревьев коммутативных выражений
- Обновления системы безопасности операционной системы.
- Теперь можно использовать унифицированный set опций (
16 февраля 2023 г.
- команда SYNC поддерживает синхронизацию повторно созданного хранилища метаданных Hive tables. Если table HMS был ранее синхронизирован с Unity Catalog, но затем удален и создан заново, последующая повторная операцияsync будет успешной вместо выдачи кода состояния TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] Целочисленная идентификатора использует десятичную (1, 0) для представления 0
- [SPARK-36173][CORE] Поддержка получения номера ЦП в TaskContext
- [SPARK-41848][CORE] Исправление задачи с превышением расписания с помощью TaskResourceProfile
- [SPARK-42286][SQL] Резервный путь к предыдущему пути кода codegen для сложного экспра с помощью CAST
31 января 2023 г.
- Для создания schema с определенным расположением теперь требуется, чтобы пользователь имел привилегии SELECT и ИЗМЕНЕНИЕ на ЛЮБОЙ ФАЙЛ.
- [SPARK-41581][SQL] Назначение имени _LEGACY_ERROR_TEMP_1230
- [SPARK-41996][SQL][SS] Исправление теста kafka, чтобы проверить потерянные секции для учета медленных операций Kafka
- [SPARK-41580][SQL] Назначение имени _LEGACY_ERROR_TEMP_2137
-
[SPARK-41666][PYTHON] Поддержка параметризованного SQL по
sql()
- [SPARK-41579][SQL] Назначение имени _LEGACY_ERROR_TEMP_1249
- [SPARK-41573][SQL] Назначение имени _LEGACY_ERROR_TEMP_2136
- [SPARK-41574][SQL] Назначение имени _LEGACY_ERROR_TEMP_2009
- [SPARK-41049][Отслеживание] Исправление sync регрессии для ConvertToLocalRelation
- [SPARK-41576][SQL] Назначение имени _LEGACY_ERROR_TEMP_2051
- [SPARK-41572][SQL] Назначение имени _LEGACY_ERROR_TEMP_2149
- [SPARK-41575][SQL] Назначение имени _LEGACY_ERROR_TEMP_2054
- Обновления системы безопасности операционной системы.
Databricks Runtime 12.0 (EoS)
См. раздел Databricks Runtime 12.0 (EoS).
15 июня 2023 г.
- Фотонализовано
approx_count_distinct
. - Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
- [SPARK-43156][SPARK-43098][SQL] Расширение тестовой ошибки скалярного подзаверха с отключенным decorrelateInnerQuery
-
[SPARK-43779][SQL]
ParseToDate
теперь загружаетсяEvalMode
в основной поток. - Обновления системы безопасности операционной системы.
- Фотонализовано
2 июня 2023 г.
- Средство синтаксического анализа JSON в
failOnUnknownFields
режиме удаляет запись вDROPMALFORMED
режиме и завершается сбоем непосредственно в режимеFAILFAST
. - Улучшение производительности инкрементального update с использованием
SHALLOW CLONE
технологии Айсберг и Parquet. - Исправлена проблема в автозагрузчике where различные форматы исходных файлов были несогласованы, если предоставленные schema не включали выводные секции. Эта проблема может привести к непредвиденным сбоям при чтении файлов с отсутствующими columns в предполагаемом partitionschema.
-
[SPARK-42444][PYTHON]
DataFrame.drop
теперь обрабатывает повторяющиеся columns правильно. - [SPARK-43404][Backport] Пропустите повторное использовать SST-файл для той же версии хранилища состояний RocksDB, чтобы избежать ошибки несоответствия идентификаторов.
-
[SPARK-43413][11.3-13.0][SQL] Исправлена
IN
возможность nullqueryListQuery
. -
[SPARK-43527][PYTHON] Исправлено
catalog.listCatalogs
в PySpark. - [SPARK-43522][SQL] Исправлено создание имени структуры column с индексом массива.
-
[SPARK-43541][SQL] Распространение всех
Project
тегов при разрешении выражений и отсутствии columns.. - [SPARK-43340][CORE] Исправлено отсутствие поля трассировки стека в журналах событий.
-
[SPARK-42937][SQL]
PlanSubqueries
setInSubqueryExec#shouldBroadcast
— значение true.
- Средство синтаксического анализа JSON в
17 мая 2023 г.
- Теперь сканирование Parquet обеспечивает надежную защиту от OOM при сканировании исключительно структурированных файлов путем динамической настройки размера пакета. Метаданные файлов анализируются для предварительного уменьшения размера пакета и снова снижаются при повторных попытках задачи в качестве окончательной сетки безопасности.
- Если файл Avro считывался только с параметром
failOnUnknownFields
или с автозагрузчиком в режиме эволюцииfailOnNewColumns
schema, columns с различными типами данных будут считываться какnull
вместо того, чтобы вызвать ошибку, указывающую, что файл не может быть прочитан. Теперь эти операции чтения завершаются ошибкой и рекомендуют пользователям использовать этотrescuedDataColumn
параметр. - Автозагрузчик теперь выполняет следующие действия.
-
- Правильно считывает и больше не спасает
Integer
типы,Short
Byte
если предоставляется один из этих типов данных, но avro-файл предлагает один из других двух типов.
- Правильно считывает и больше не спасает
-
- Запрещает типы интервалов чтения как типы меток даты и времени, чтобы избежать повреждения дат.
-
- Запрещает
Decimal
чтение типов с более низкой точностью.
- Запрещает
- [SPARK-43172] [CONNECT] Предоставляет узел и маркер из клиента Spark connect.
-
[SPARK-41520][SQL] Разделение
AND_OR
шаблона дерева для разделения иAND
разделенияOR
. -
[SPARK-43098][SQL] Исправлена ошибка правильности
COUNT
при группировке скалярных вложенных запросов по предложению. -
[SPARK-43190][SQL]
ListQuery.childOutput
теперь согласуется со вторичными выходными данными. - Обновления системы безопасности операционной системы.
25 апреля 2023 г.
- Если файл Parquet считывался только с параметром
failOnUnknownFields
или с автозагрузчиком в режиме эволюцииfailOnNewColumns
schema, columns, которые имели разные типы данных, будут считываться какnull
вместо того, чтобы вызвать ошибку, указывающую, что файл не может быть прочитан. Теперь эти операции чтения завершаются ошибкой и рекомендуют пользователям использовать этотrescuedDataColumn
параметр. - Автоматический загрузчик теперь правильно считывает и больше не спасает
Integer
,Short
типы,Byte
если предоставляется один из этих типов данных. Файл Parquet предлагает один из двух других типов. Когда ранее спасенные данные column были активированы, несоответствие типа данных могло привести к спасению columns, даже если они уже были доступны для чтения. -
[SPARK-42971][CORE] Изменение на печать
workdir
, еслиappDirs
значение NULL при событии рабочего дескриптораWorkDirCleanup
- Обновления системы безопасности операционной системы.
- Если файл Parquet считывался только с параметром
11 апреля 2023 г.
- Поддержка устаревших форматов источников данных в
SYNC
команде. - Исправлена ошибка в поведении %autoreload в записных книжках, которые находятся за пределами репозитория.
- Исправлена ошибка, где автозагрузчик where с эволюцией schema может войти в бесконечный цикл сбоев, когда новый column обнаружен в schema вложенного объекта JSON.
-
[SPARK-42928][SQL] Выполняет
resolvePersistentFunction
синхронизацию. -
[SPARK-42967][CORE] Исправляет
SparkListenerTaskStart.stageAttemptId
, когда задача начинается после отмены этапа. - Обновления системы безопасности операционной системы.
- Поддержка устаревших форматов источников данных в
29 марта 2023 г.
- [SPARK-42794][SS] Увеличьте блокировкуAcquireTimeoutMs до 2 минут для получения хранилища состояний RocksDB в службе "Потоковая передача структуры"
- [SPARK-41162][SQL] Исправление защиты отjoin для самостоятельногоjoin с агрегатами
- [SPARK-42403][CORE] JsonProtocol должен обрабатывать строки JSON NULL
- [SPARK-42668][SS] Перехват исключения при попытке закрыть сжатый поток в HDFSStateStoreProvider
- Прочие исправления ошибок.
14 марта 2023 г.
- [SPARK-42534][SQL] Исправление предложения Limit в DB2Dialect
- [SPARK-42622][CORE] Отключить подстановку в values
- [SPARK-41793][SQL] Неправильный результат для кадров window, определенных предложением диапазона для больших десятичных чисел
- [SPARK-42484] [SQL] Лучшее сообщение об ошибке unsafeRowUtils
- [SPARK-42635][SQL] Исправлено выражение TimestampAdd.
- [SPARK-42516][SQL] Всегда фиксирует конфигурацию часового пояса сеанса при создании views
- Обновления системы безопасности операционной системы.
24 февраля 2023
Стандартные параметры подключения для федерации запросов
Теперь можно использовать унифицированный set опций (
host
,port
,database
,user
,password
) для подключения к источникам данных, поддерживаемым в рамках федерации запросов (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Обратите внимание, чтоport
это необязательно и будет использовать номер порта по умолчанию для каждого источника данных, если он не указан.Пример конфигурации подключения PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Пример конфигурации подключения Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
Возврат [SPARK-41848][CORE] Исправление задачи с превышением расписания с помощью TaskResourceProfile
[SPARK-42162] Введение выражения MultiCommutativeOp в качестве оптимизации памяти для канонизации больших деревьев коммутативных выражений
[SPARK-41990][SQL]
FieldReference.column
Вместоapply
преобразования фильтра версии 1 в версию 2[SPARK-42346][SQL] Перезапись отдельных статистических выражений после слияния вложенного запроса
Обновления системы безопасности операционной системы.
16 февраля 2023 г.
- Теперь пользователи могут читать и записывать определенные Delta tables, требующие версию 3 для чтения и версию 7 для записи, с помощью Databricks Runtime 9.1 или более поздней. Для успешного выполнения table функции, перечисленные в протоколе tables', должны поддерживаться текущей версией Databricks Runtime.
- команда SYNC поддерживает синхронизацию повторно созданного хранилища метаданных Hive tables. Если table HMS был ранее синхронизирован с Unity Catalog, но затем удален и создан заново, последующая повторная операцияsync будет успешной вместо выдачи кода состояния TABLE_ALREADY_EXISTS.
- [SPARK-36173][CORE] Поддержка получения номера ЦП в TaskContext
- [SPARK-42286][SQL] Резервный путь к предыдущему пути кода codegen для сложного экспра с помощью CAST
- [SPARK-41848][CORE] Исправление задачи с превышением расписания с помощью TaskResourceProfile
- [SPARK-41219][SQL] Целочисленная идентификатора использует десятичную (1, 0) для представления 0
25 января 2023 г.
- [SPARK-41660][SQL] Распространять метаданные только columns, если они используются
- [SPARK-41379][SS][PYTHON] Предоставление клонированного сеанса Spark в DataFrame в пользовательской функции для приемника foreachBatch в PySpark
- [SPARK-41669][SQL] Ранняя обрезка в canCollapseExpressions
- Обновления системы безопасности операционной системы.
18 января 2023 г.
-
REFRESH FUNCTION
команда SQL теперь поддерживает функции SQL и функции SQL Table. Например, можно использовать команду для refresh персистентной функции SQL, которая была обновлена в другом сеансе SQL. - Источник данных Java Database Connectivity (JDBC) версии 1 теперь поддерживает отправку предложения LIMIT для повышения производительности запросов. Эта функция включена по умолчанию и может быть отключена с помощью
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
set доfalse
. - В кластерах устаревших списков управления доступом Table теперь требуется привилегия
MODIFY_CLASSPATH
для создания функций, ссылающихся на классы JVM. - Источник данных Java Database Connectivity (JDBC) версии 1 теперь поддерживает отправку предложения LIMIT для повышения производительности запросов. Эта функция включена по умолчанию и может быть отключена с помощью spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled set значение false.
- Соединитель Azure Synapse теперь возвращает более описательное сообщение об ошибке, если имя column содержит недопустимые символы, такие как пробелы или точки с запятой. В таких случаях будет возвращено следующее сообщение:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
- Структурированная потоковая передача Spark теперь работает с форматом ("deltasharing") в качестве источника на платформе Delta Sharing table.
- [SPARK-38277][SS] Очистка пакета записи после фиксации хранилища состояний RocksDB
- [SPARK-41733][SQL][SS] Применение обрезки на основе дерева для правила ResolveWindowTime
- [SPARK-39591][SS] Асинхронное отслеживание хода выполнения
- [SPARK-41339][SQL] Закрытие и повторное создание пакета записи RocksDB вместо простой очистки
- [SPARK-41198][SS] Исправьте метрики в потоковом запросе having источник потоковой передачи CTE и DSv1
- [SPARK-41539][SQL] Remap stats and constraints against output in logical plan for LogicalRDD
- [SPARK-41732][SQL][SS] Применение обрезки на основе дерева для сеанса правила
- [SPARK-41862][SQL] Исправлена ошибка правильности, связанная с values DEFAULT в средстве чтения Orc
- [SPARK-41199][SS] Исправлена проблема с метриками при совместном использовании источника потоковой передачи DSv1 и источника потоковой передачи DSv2.
- [SPARK-41261][PYTHON][SS] Исправлена проблема с функцией applyInPandasWithState, когда columns ключи группировки не расположены в порядке с самого раннего времени
- Обновления системы безопасности операционной системы.
-
17 мая 2023 г.
- Теперь сканирование Parquet обеспечивает надежную защиту от OOM при сканировании исключительно структурированных файлов путем динамической настройки размера пакета. Метаданные файлов анализируются для предварительного уменьшения размера пакета и снова снижаются при повторных попытках задачи в качестве окончательной сетки безопасности.
- Исправлена регрессия, из-за которой задания Azure Databricks сохранялись после сбоя подключения к хранилищу метаданных во время инициализации кластера.
-
[SPARK-41520][SQL] Разделение
AND_OR
шаблона дерева для разделения иAND
разделенияOR
. -
[SPARK-43190][SQL]
ListQuery.childOutput
теперь согласуется со вторичными выходными данными. - Обновления системы безопасности операционной системы.
25 апреля 2023 г.
- Если файл Parquet считывался только с параметром
failOnUnknownFields
или с автозагрузчиком в режиме эволюцииfailOnNewColumns
schema, columns, которые имели разные типы данных, будут считываться какnull
вместо того, чтобы вызвать ошибку, указывающую, что файл не может быть прочитан. Теперь эти операции чтения завершаются ошибкой и рекомендуют пользователям использовать этотrescuedDataColumn
параметр. - Автоматический загрузчик теперь правильно считывает и больше не спасает
Integer
,Short
типы,Byte
если предоставляется один из этих типов данных. Файл Parquet предлагает один из двух других типов. Когда ранее спасенные данные column были активированы, несоответствие типа данных могло привести к спасению columns, даже если они уже были доступны для чтения. -
[SPARK-42937][SQL]
PlanSubqueries
теперь задаетInSubqueryExec#shouldBroadcast
значение true. - Обновления системы безопасности операционной системы.
- Если файл Parquet считывался только с параметром
11 апреля 2023 г.
- Поддержка устаревших форматов источников данных в SYNC команде.
- Исправлена ошибка в поведении %autoreload в записных книжках, которые находятся за пределами репозитория.
- Исправлена ошибка, где автозагрузчик where с эволюцией schema может войти в бесконечный цикл сбоев, когда новый column обнаружен в schema вложенного объекта JSON.
- [SPARK-42928][SQL] Выполните синхронизацию resolvePersistentFunction.
- [SPARK-42967][CORE] Исправление SparkListenerTaskStart.stageAttemptId при запуске задачи после отмены этапа.
29 марта 2023 г.
- [SPARK-42794][SS] Увеличьте блокировкуAcquireTimeoutMs до 2 минут для получения хранилища состояний RocksDB в службе "Потоковая передача структуры"
- [SPARK-42403][CORE] JsonProtocol должен обрабатывать строки JSON NULL
- [SPARK-42668][SS] Перехват исключения при попытке закрыть сжатый поток в HDFSStateStoreProvider
- Обновления системы безопасности операционной системы.
14 марта 2023 г.
- [SPARK-42635][SQL] Исправлено выражение TimestampAdd.
- [SPARK-41793][SQL] Неправильный результат для кадров window, определенных предложением диапазона для больших десятичных чисел
- [SPARK-42484] [SQL] Лучшее сообщение об ошибке unsafeRowUtils
- [SPARK-42534][SQL] Исправление предложения Limit в DB2Dialect
- [SPARK-41162][SQL] Исправление защиты отjoin для самостоятельногоjoin с агрегатами
- [SPARK-42516][SQL] Всегда фиксирует конфигурацию часового пояса сеанса при создании views
- Прочие исправления ошибок.
28 февраля 2023 г.
Стандартные параметры подключения для федерации запросов
Теперь можно использовать унифицированный set опций (
host
,port
,database
,user
,password
) для подключения к источникам данных, поддерживаемым в рамках федерации запросов (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Обратите внимание, чтоport
это необязательно и использует номер порта по умолчанию для каждого источника данных, если он не указан.Пример конфигурации подключения PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Пример конфигурации подключения Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
[SPARK-42286][SQL] Резервный путь к предыдущему пути кода codegen для сложного экспра с помощью CAST
[SPARK-41989][PYTHON] Избегайте критической конфигурации ведения журнала из pyspark.pandas
[SPARK-42346][SQL] Перезапись отдельных статистических выражений после слияния вложенного запроса
[SPARK-41360][CORE] Избегайте повторной регистрации BlockManager, если исполнитель был потерян
[SPARK-42162] Введение выражения MultiCommutativeOp в качестве оптимизации памяти для канонизации больших деревьев коммутативных выражений
[SPARK-41990][SQL]
FieldReference.column
Вместоapply
преобразования фильтра версии 1 в версию 2Обновления системы безопасности операционной системы.
16 февраля 2023 г.
- Теперь пользователи могут читать и записывать определенные Delta tables, требующие версию 3 для чтения и версию 7 для записи, с помощью Databricks Runtime 9.1 или более поздней. Для успешного выполнения table функции, перечисленные в протоколе tables', должны поддерживаться текущей версией Databricks Runtime.
- команда SYNC поддерживает синхронизацию повторно созданного хранилища метаданных Hive tables. Если table HMS был ранее синхронизирован с Unity Catalog, но затем удален и создан заново, последующая повторная операцияsync будет успешной вместо выдачи кода состояния TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] Целочисленная идентификатора использует десятичную (1, 0) для представления 0
-
[SPARK-40382][SQL] Группировать отдельные статистические выражения по семантически эквивалентным дочерним элементам
RewriteDistinctAggregates
- Обновления системы безопасности операционной системы.
25 января 2023 г.
- [SPARK-41379][SS][PYTHON] Предоставление клонированного сеанса Spark в DataFrame в пользовательской функции для приемника foreachBatch в PySpark
- [SPARK-41660][SQL] Распространять метаданные только columns, если они используются
- [SPARK-41669][SQL] Ранняя обрезка в canCollapseExpressions
- Прочие исправления ошибок.
18 января 2023 г.
-
REFRESH FUNCTION
команда SQL теперь поддерживает функции SQL и функции SQL Table. Например, можно использовать команду для refresh персистентной функции SQL, которая была обновлена в другом сеансе SQL. - Источник данных Java Database Connectivity (JDBC) версии 1 теперь поддерживает отправку предложения LIMIT для повышения производительности запросов. Эта функция включена по умолчанию и может быть отключена с помощью
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
set доfalse
. - Источник данных Java Database Connectivity (JDBC) версии 1 теперь поддерживает отправку предложения LIMIT для повышения производительности запросов. Эта функция включена по умолчанию и может быть отключена с помощью spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled set значение false.
- Соединитель Azure Synapse теперь возвращает более описательное сообщение об ошибке, если имя column содержит недопустимые символы, такие как пробелы или точки с запятой. В таких случаях будет возвращено следующее сообщение:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
- [SPARK-41198][SS] Исправьте метрики в потоковом запросе having источник потоковой передачи CTE и DSv1
- [SPARK-41862][SQL] Исправлена ошибка правильности, связанная с values DEFAULT в средстве чтения Orc
- [SPARK-41539][SQL] Remap stats and constraints against output in logical plan for LogicalRDD
- [SPARK-39591][SS] Асинхронное отслеживание хода выполнения
- [SPARK-41199][SS] Исправлена проблема с метриками при совместном использовании источника потоковой передачи DSv1 и источника потоковой передачи DSv2.
- [SPARK-41261][PYTHON][SS] Исправлена проблема с функцией applyInPandasWithState, когда columns ключи группировки не расположены в порядке с самого раннего времени
- [SPARK-41339][SQL] Закрытие и повторное создание пакета записи RocksDB вместо простой очистки
- [SPARK-41732][SQL][SS] Применение обрезки на основе дерева для сеанса правила
- [SPARK-38277][SS] Очистка пакета записи после фиксации хранилища состояний RocksDB
- Обновления системы безопасности операционной системы.
-
29 ноября 2022 г.
- Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пробелов:
-
csvignoreleadingwhitespace
, когда set доходит доtrue
, удаляет ведущие пробелы из values во время записи, еслиtempformat
set доCSV
илиCSV GZIP
. Пробелы сохраняются, если конфигурация в диапазоне от set доfalse
. Значение по умолчанию —true
. -
csvignoretrailingwhitespace
, когда set доtrue
, удаляет конечные пробелы из values во время записи, когдаtempformat
от set доCSV
илиCSV GZIP
. Пробелы сохраняются, если конфигурация в диапазоне от set доfalse
. Значение по умолчанию —true
.
-
- Исправлена ошибка синтаксического анализа JSON в автозагрузчике, когда все columns остаются в виде строк (
cloudFiles.inferColumnTypes
не было set или set дляfalse
) и JSON содержит вложенные объекты. - Обновление
snowflake-jdbc
зависимости до версии 3.13.22. - Table типы JDBC tables теперь по умолчанию внешними.
-
[SPARK-40906][SQL]
Mode
следует копировать ключи перед вставками в карту - Обновления системы безопасности операционной системы.
- Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пробелов:
15 ноября 2022 г.
- Table списки управления доступом и общие кластеры UC теперь позволяют методу Dataset.toJSON из Python.
-
[SPARK-40646] синтаксический анализ JSON для структур, карт и массивов был исправлен, поэтому, если часть записи не соответствует schema, остальная часть записи по-прежнему может быть правильно проанализирована, а не возвращать значения NULL. Чтобы выбрать улучшенный набор
spark.sql.json.enablePartialResults
true
поведения. Флаг отключен по умолчанию, чтобы сохранить исходное поведение. - [SPARK-40903][SQL] Избегайте переупорядочения десятичного добавления для канонизации, если тип данных изменен
- [SPARK-40618][SQL] Исправлена ошибка в правиле MergeScalarSubqueries с вложенными запросами с помощью отслеживания ссылок
- [SPARK-40697][SQL] Добавление заполнения на стороне чтения для покрытия внешних файлов данных
- Обновления системы безопасности операционной системы.
1 ноября 2022 г.
- Структурированная потоковая передача в Unity Catalog теперь поддерживает обновление временных маркеров доступа. Потоковая передача рабочих нагрузок, выполняемых с помощью Unity Catalog в кластерах общего назначения или для задач, больше не завершается сбоем после истечения срока действия первоначального токена.
- Исправлена проблема, where, если table Delta column с именем
_change_type
, но веб-канал изменений был отключен в этом table, данные в этом column неправильно заполняют значение NULL values при выполненииMERGE
. - При устранении проблемы where, запуске
MERGE
и использовании ровно 99 columns из источника в условии может привести кjava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
. - Исправлена проблема с Auto Loader where: файл может быть дублирован в одном микропакете, когда
allowOverwrites
включен. - Обновление Apache commons-text до версии 1.10.0.
- [SPARK-38881][DSTREAMS][KINESIS][PYSPARK] Добавлена поддержка конфигурации CloudWatch MetricsLevel
- [SPARK-40596][CORE] Заполнение объекта ExecutorDecommission сообщениями в ExecutorDecommissionInfo
- [SPARK-40670][SS][PYTHON] Исправить NPE в applyInPandasWithState, если входной schema имеет «не допускающий null» column(ы)
- Обновления системы безопасности операционной системы.
Databricks Runtime 11.2 (EoS)
См. раздел Databricks Runtime 11.2 (EoS).
- 28 февраля 2023 г.
- [SPARK-42286][SQL] Резервный путь к предыдущему пути кода codegen для сложного экспра с помощью CAST
- [SPARK-42346][SQL] Перезапись отдельных статистических выражений после слияния вложенного запроса
- Обновления системы безопасности операционной системы.
- 16 февраля 2023 г.
- Теперь пользователи могут читать и записывать определенные Delta tables, требующие версию 3 для чтения и версию 7 для записи, с помощью Databricks Runtime 9.1 или более поздней. Для успешного выполнения table функции, перечисленные в протоколе tables', должны поддерживаться текущей версией Databricks Runtime.
- команда SYNC поддерживает синхронизацию повторно созданного хранилища метаданных Hive tables. Если table HMS был ранее синхронизирован с Unity Catalog, но затем удален и создан заново, последующая повторная операцияsync будет успешной вместо выдачи кода состояния TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] Целочисленная идентификатора использует десятичную (1, 0) для представления 0
- Обновления системы безопасности операционной системы.
- 31 января 2023 г.
- Table типы JDBC tables теперь по умолчанию внешними.
- [SPARK-41379][SS][PYTHON] Предоставление клонированного сеанса Spark в DataFrame в пользовательской функции для приемника foreachBatch в PySpark
- 18 января 2023 г.
- Соединитель Azure Synapse теперь возвращает более описательное сообщение об ошибке, если имя column содержит недопустимые символы, такие как пробелы или точки с запятой. В таких случаях будет возвращено следующее сообщение:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
- [SPARK-41198][SS] Исправьте метрики в потоковом запросе having источник потоковой передачи CTE и DSv1
- [SPARK-41862][SQL] Исправлена ошибка правильности, связанная с values DEFAULT в средстве чтения Orc
- [SPARK-41539][SQL] Remap stats and constraints against output in logical plan for LogicalRDD
- [SPARK-41199][SS] Исправлена проблема с метриками при совместном использовании источника потоковой передачи DSv1 и источника потоковой передачи DSv2.
- [SPARK-41339][SQL] Закрытие и повторное создание пакета записи RocksDB вместо простой очистки
- [SPARK-41732][SQL][SS] Применение обрезки на основе дерева для сеанса правила
- [SPARK-38277][SS] Очистка пакета записи после фиксации хранилища состояний RocksDB
- Обновления системы безопасности операционной системы.
- Соединитель Azure Synapse теперь возвращает более описательное сообщение об ошибке, если имя column содержит недопустимые символы, такие как пробелы или точки с запятой. В таких случаях будет возвращено следующее сообщение:
- 29 ноября 2022 г.
- Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пробелов:
-
csvignoreleadingwhitespace
, когда set доходит доtrue
, удаляет ведущие пробелы из values во время записи, еслиtempformat
set доCSV
илиCSV GZIP
. Пробелы сохраняются, если конфигурация в диапазоне от set доfalse
. Значение по умолчанию —true
. -
csvignoretrailingwhitespace
, когда set доtrue
, удаляет конечные пробелы из values во время записи, когдаtempformat
от set доCSV
илиCSV GZIP
. Пробелы сохраняются, если конфигурация в диапазоне от set доfalse
. Значение по умолчанию —true
.
-
- Исправлена ошибка синтаксического анализа JSON в автозагрузчике, когда все columns остаются в виде строк (
cloudFiles.inferColumnTypes
не было set или set дляfalse
) и JSON содержит вложенные объекты. -
[SPARK-40906][SQL]
Mode
следует копировать ключи перед вставками в карту - Обновления системы безопасности операционной системы.
- Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пробелов:
- 15 ноября 2022 г.
-
[SPARK-40646] синтаксический анализ JSON для структур, карт и массивов был исправлен, поэтому, если часть записи не соответствует schema, остальная часть записи по-прежнему может быть правильно проанализирована, а не возвращать значения NULL. Чтобы выбрать улучшенное поведение, set
spark.sql.json.enablePartialResults
true
. Флаг отключен по умолчанию, чтобы сохранить исходное поведение. - [SPARK-40618][SQL] Исправлена ошибка в правиле MergeScalarSubqueries с вложенными запросами с помощью отслеживания ссылок
- [SPARK-40697][SQL] Добавление заполнения на стороне чтения для покрытия внешних файлов данных
- Обновления системы безопасности операционной системы.
-
[SPARK-40646] синтаксический анализ JSON для структур, карт и массивов был исправлен, поэтому, если часть записи не соответствует schema, остальная часть записи по-прежнему может быть правильно проанализирована, а не возвращать значения NULL. Чтобы выбрать улучшенное поведение, set
- 1 ноября 2022 г.
- Обновление Apache commons-text до версии 1.10.0.
- Исправлена проблема, where, если table Delta column с именем
_change_type
, но веб-канал изменений был отключен в этом table, данные в этом column неправильно заполняют значение NULL values при выполненииMERGE
. - При устранении проблемы where, запуске
MERGE
и использовании ровно 99 columns из источника в условии может привести кjava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
. - Исправлена проблема с автозагрузчиком where, файл можно дублировать в одном и том же микробатче при включении
allowOverwrites
. - [SPARK-40596][CORE] Заполнение объекта ExecutorDecommission сообщениями в ExecutorDecommissionInfo
- Обновления системы безопасности операционной системы.
- 19 октября 2022 г.
- Исправлена проблема с использованием COPY INTO с временным credentials в кластерах и хранилищах с включённой Unity Catalog.
- [SPARK-40213][SQL] Поддержка преобразования значений ASCII для символов Latin-1
- Обновления системы безопасности операционной системы.
- 5 октября 2022 г.
- Пользователи могут set spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") для повторного включения собственного перечисления для Автозагрузчика в ADLS Gen2. Собственный листинг ранее был отключен из-за проблем с производительностью, но, возможно, привел к увеличению затрат на хранение для клиентов. Это изменение было развернуто в DBR 10.4 и 9.1 во время предыдущего обслуживания update.
- [SPARK-40315][SQL]Поддержка кодирования и декодирования URL-адресов в виде встроенной функции и функции, связанные с URL-адресом
-
[SPARK-40156][SQL]
url_decode()
Значение, если возвращается класс ошибок - [SPARK-40169] не нажимайте фильтры Parquet без ссылки на данные schema
-
[SPARK-40460][SS] Исправление метрик потоковой передачи при выборе
_metadata
- [SPARK-40468][SQL] Исправить column обрезку в CSV при выборе _corrupt_record
- [SPARK-40055][SQL] listCatalogs также должен возвращать spark_catalog даже если реализация spark_catalog используется по умолчаниюSessionCatalog
- Обновления системы безопасности операционной системы.
- 22 сентября 2022 г.
- [SPARK-40315][SQL] Добавление hashCode() для литерала ArrayBasedMapData
- [SPARK-40389][SQL] Десятичные знаки не могут переадресироваться как целочисленные типы, если приведение может переполнение
- [SPARK-40380][SQL] Исправление константного свертывания InvokeLike, чтобы избежать несериализируемых литерала, внедренных в план
- [SPARK-40066][SQL][ОТСЛЕЖИВАНИЕ] Проверьте, разрешен ли ЭлементAt перед получением типа данных
- [SPARK-40109][SQL] Новая функция SQL: get()
- [SPARK-40066][SQL] РЕЖИМ ANSI: всегда возвращает значение NULL для недопустимого доступа к карте column
- [SPARK-40089][SQL] Исправление сортировки для некоторых десятичных типов
- [SPARK-39887][SQL] RemoveRedundantAliases должен сохранять псевдонимы, которые делают выходные данные узлов проекции уникальными
- [SPARK-40152][SQL] Исправлена проблема компиляции кодегена split_part
- [SPARK-40235][CORE] Использование прерываемой блокировки вместо синхронизированной в Executor.updateDependencies()
- [SPARK-40212][SQL] SparkSQL castPartValue неправильно обрабатывает байт, короткий или с плавающей точкой
- [SPARK-40218][SQL] GROUPING SETS должен сохранить группирование columns
- [SPARK-35542][ML] Исправление: Бакетизатор, созданный для нескольких columns с parameters
- [SPARK-40079] Добавление проверки ввода Imputer InputCols для пустого регистра ввода
- [SPARK-39912]SPARK-39828[SQL] Уточнение catalogImpl
Databricks Runtime 11.1 (EoS)
См. раздел Databricks Runtime 11.1 (EoS).
31 января 2023 г.
- [SPARK-41379][SS][PYTHON] Предоставление клонированного сеанса Spark в DataFrame в пользовательской функции для приемника foreachBatch в PySpark
- Прочие исправления ошибок.
18 января 2023 г.
- Соединитель Azure Synapse теперь возвращает более описательное сообщение об ошибке, если имя column содержит недопустимые символы, такие как пробелы или точки с запятой. В таких случаях будет возвращено следующее сообщение:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
- [SPARK-41198][SS] Исправьте метрики в потоковом запросе having источник потоковой передачи CTE и DSv1
- [SPARK-41862][SQL] Исправлена ошибка правильности, связанная с values DEFAULT в средстве чтения Orc
- [SPARK-41199][SS] Исправлена проблема с метриками при совместном использовании источника потоковой передачи DSv1 и источника потоковой передачи DSv2.
- [SPARK-41339][SQL] Закрытие и повторное создание пакета записи RocksDB вместо простой очистки
- [SPARK-41732][SQL][SS] Применение обрезки на основе дерева для сеанса правила
- [SPARK-38277][SS] Очистка пакета записи после фиксации хранилища состояний RocksDB
- Обновления системы безопасности операционной системы.
- Соединитель Azure Synapse теперь возвращает более описательное сообщение об ошибке, если имя column содержит недопустимые символы, такие как пробелы или точки с запятой. В таких случаях будет возвращено следующее сообщение:
29 ноября 2022 г.
- Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пробелов:
-
csvignoreleadingwhitespace
, когда set доходит доtrue
, удаляет ведущие пробелы из values во время записи, еслиtempformat
set доCSV
илиCSV GZIP
. Пробелы сохраняются, если конфигурация в диапазоне от set доfalse
. Значение по умолчанию —true
. -
csvignoretrailingwhitespace
, когда set доtrue
, удаляет конечные пробелы из values во время записи, когдаtempformat
от set доCSV
илиCSV GZIP
. Пробелы сохраняются, если конфигурация в диапазоне от set доfalse
. Значение по умолчанию —true
.
-
- Исправлена ошибка синтаксического анализа JSON в автозагрузчике, когда все columns остаются в виде строк (
cloudFiles.inferColumnTypes
не было set или set дляfalse
) и JSON содержит вложенные объекты. - [SPARK-39650][SS] Исправить неверное значение schema в дедупликации потоковой передачи с обратной совместимостью
- Обновления системы безопасности операционной системы.
- Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пробелов:
15 ноября 2022 г.
-
[SPARK-40646] синтаксический анализ JSON для структур, карт и массивов был исправлен, поэтому, если часть записи не соответствует schema, остальная часть записи по-прежнему может быть правильно проанализирована, а не возвращать значения NULL. Чтобы выбрать улучшенное поведение, set
spark.sql.json.enablePartialResults
true
. Флаг отключен по умолчанию, чтобы сохранить исходное поведение. - Обновления системы безопасности операционной системы.
-
[SPARK-40646] синтаксический анализ JSON для структур, карт и массивов был исправлен, поэтому, если часть записи не соответствует schema, остальная часть записи по-прежнему может быть правильно проанализирована, а не возвращать значения NULL. Чтобы выбрать улучшенное поведение, set
1 ноября 2022 г.
- Обновление Apache commons-text до версии 1.10.0.
- Исправлена проблема, where, если table Delta column с именем
_change_type
, но веб-канал изменений был отключен в этом table, данные в этом column неправильно заполняют значение NULL values при выполненииMERGE
. - При устранении проблемы where, запуске
MERGE
и использовании ровно 99 columns из источника в условии может привести кjava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
. - Исправлена проблема с автозагрузчиком where, файл можно дублировать в одном и том же микробатче при включении
allowOverwrites
. - [SPARK-40697][SQL] Добавление заполнения на стороне чтения для покрытия внешних файлов данных
- [SPARK-40596][CORE] Заполнение объекта ExecutorDecommission сообщениями в ExecutorDecommissionInfo
- Обновления системы безопасности операционной системы.
18 октября 2022 г.
- Исправлена проблема с использованием COPY INTO с временным credentials в кластерах и хранилищах с включённой Unity Catalog.
- [SPARK-40213][SQL] Поддержка преобразования значений ASCII для символов Latin-1
- Обновления системы безопасности операционной системы.
5 октября 2022 г.
- Пользователи могут set spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") для повторного включения собственного перечисления для Автозагрузчика в ADLS Gen2. Собственный листинг ранее был отключен из-за проблем с производительностью, но, возможно, привел к увеличению затрат на хранение для клиентов. Это изменение было развернуто в DBR 10.4 и 9.1 во время предыдущего обслуживания update.
- [SPARK-40169] не нажимайте фильтры Parquet без ссылки на данные schema
-
[SPARK-40460][SS] Исправление метрик потоковой передачи при выборе
_metadata
- [SPARK-40468][SQL] Исправить column обрезку в CSV при выборе _corrupt_record
- [SPARK-40055][SQL] listCatalogs также должен возвращать spark_catalog даже если реализация spark_catalog используется по умолчаниюSessionCatalog
- Обновления системы безопасности операционной системы.
22 сентября 2022 г.
- [SPARK-40315][SQL] Добавление hashCode() для литерала ArrayBasedMapData
- [SPARK-40380][SQL] Исправление константного свертывания InvokeLike, чтобы избежать несериализируемых литерала, внедренных в план
- [SPARK-40089][SQL] Исправление сортировки для некоторых десятичных типов
- [SPARK-39887][SQL] RemoveRedundantAliases должен сохранять псевдонимы, которые делают выходные данные узлов проекции уникальными
- [SPARK-40152][SQL] Исправлена проблема компиляции кодегена split_part
6 сентября 2022 г.
- Мы обновили модель разрешений в Table управления доступом (Table списки управления доступом), чтобы для изменения свойств table или schema у tableс помощью ALTER TABLEтребовались только разрешения на ИЗМЕНЕНИЕ. Ранее эти операции требовали, чтобы пользователь владел table. Право собственности по-прежнему требуется для получения grant разрешений на table, изменение владельца, изменение его расположения или переименование. Это изменение сделало модель разрешений для списков управления доступом Table более согласованной с Unity Catalog.
- [SPARK-40235][CORE] Использование прерываемой блокировки вместо синхронизированной в Executor.updateDependencies()
- [SPARK-40212][SQL] SparkSQL castPartValue неправильно обрабатывает байт, короткий или с плавающей точкой
- [SPARK-40218][SQL] GROUPING SETS должен сохранить группирование columns
- [SPARK-39976][SQL] ArrayIntersect должен правильно обрабатывать значение NULL в левом выражении
-
[SPARK-40053][CORE][SQL][TESTS] Добавление
assume
в динамические случаи отмены, для которых требуется среда выполнения Python - [SPARK-35542][CORE][ML] Исправление: Bucketizer, созданный для нескольких columns с parameters splitsArray, inputCols и outputCols, нельзя загрузить после его сохранения.
- [SPARK-40079][CORE] Добавление проверки Imputer inputCols для пустого варианта ввода
24 августа 2022 г.
- Shares, providersи recipients теперь поддерживают команды SQL для изменения владельцев, комментариев, переименования
- [SPARK-39983][CORE][SQL] Не следует кэшировать несериализированные отношения широковещательной рассылки в драйвере
- [SPARK-39912][SPARK-39828][SQL] Уточнение CatalogImpl
- [SPARK-39775][CORE][AVRO] Отключить проверку values по умолчанию при синтаксическом анализе схем Avro
- [SPARK-39806] Исправлена проблема со сбоями при выполнении запросов, обращающихся к структуре МЕТАДАННЫх, на секционированных данных tables
- [SPARK-39867][SQL] Глобальный limit не должно наследовать OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] Применение проекции, если атрибуты группы пустые
- [SPARK-39839][SQL] Обработка особого случая нулевого десятичного числа переменной длины с ненулевым значением offsetAndSize в проверке структурной целостности UnsafeRow
- [SPARK-39713][SQL] Режим ANSI: добавление предложения использования try_element_at для исправления ошибки INVALID_ARRAY_INDEX
- [SPARK-39847][SS] Исправление состояния гонки в RocksDBLoader.loadLibrary(), если вызывающий поток прерван
- [SPARK-39731][SQL] Исправлена проблема в источниках данных CSV и JSON при синтаксическом анализе дат в формате "yyyyMdd" с помощью исправленной политики синтаксического анализа времени
- Обновления системы безопасности операционной системы.
10 августа 2022 г.
- Для Delta tables с table контроля доступа автоматическая schema эволюция с помощью инструкций DML, таких как
INSERT
иMERGE
, теперь доступна для всех пользователей, имеющихMODIFY
разрешения на такие tables. Кроме того, разрешения, необходимые для выполнения schema эволюции сCOPY INTO
, теперь снижаются сOWNER
доMODIFY
для согласованности с другими командами. Эти изменения делают модель безопасности ACL table более согласованной с моделью безопасности Catalog Unity, а также с другими операциями, такими как замена table. - [SPARK-39889] Улучшение сообщения об ошибке при делении на 0
- [SPARK-39795] [SQL] Новая функция SQL: try_to_timestamp
- [SPARK-39749] Всегда используйте простое строковое представление при преобразовании десятичного числа в строку в режиме ANSI
- [SPARK-39625] Переименование df.as в df.to
- [SPARK-39787] [SQL] Используйте класс error при ошибке синтаксического анализа функции to_timestamp
- [SPARK-39625] [SQL] Добавление Dataset.as(StructType)
-
[SPARK-39689] Поддержка двухсимвольных конструкций
lineSep
в источнике данных CSV - [SPARK-39579] [SQL][PYTHON][R] Обеспечение совместимости ListFunctions/getFunction/functionExists с пространством имен уровня 3
- [SPARK-39702] [CORE] Сокращение объема памяти, требуемого TransportCipher$EncryptedMessage, за счет использования общего byteRawChannel
- [SPARK-39575] [AVRO] добавьте ByteBuffer#rewind послеget ByteBuffer# в AvroDeserializer
- [SPARK-39265] [SQL] Исправление в случае сбоя теста при включении SPARK_ANSI_SQL_MODE
- [SPARK-39441] [SQL] Ускорение DeduplicateRelations
- [SPARK-39497] [SQL] Улучшение исключения анализа отсутствующих ключей карты column
- [SPARK-39476] [SQL] Отключить распаковку приведения optimize при преобразовании из Long в Float/Double или из Integer в Float
- [SPARK-39434] [SQL] Предоставление контекста запроса для ошибки среды выполнения при выходе индекса за границы массива
- Для Delta tables с table контроля доступа автоматическая schema эволюция с помощью инструкций DML, таких как
Databricks Runtime 11.0 (EoS)
См. раздел Databricks Runtime 11.0 (EoS).
- 29 ноября 2022 г.
- Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пробелов:
-
csvignoreleadingwhitespace
, когда set доходит доtrue
, удаляет ведущие пробелы из values во время записи, еслиtempformat
set доCSV
илиCSV GZIP
. Пробелы сохраняются, если конфигурация в диапазоне от set доfalse
. Значение по умолчанию —true
. -
csvignoretrailingwhitespace
, когда set доtrue
, удаляет конечные пробелы из values во время записи, когдаtempformat
от set доCSV
илиCSV GZIP
. Пробелы сохраняются, если конфигурация в диапазоне от set доfalse
. Значение по умолчанию —true
.
-
- Исправлена ошибка синтаксического анализа JSON в автозагрузчике, когда все columns остаются в виде строк (
cloudFiles.inferColumnTypes
не было set или set дляfalse
) и JSON содержит вложенные объекты. - [SPARK-39650][SS] Исправить неверное значение schema в дедупликации потоковой передачи с обратной совместимостью
- Обновления системы безопасности операционной системы.
- Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пробелов:
- 15 ноября 2022 г.
-
[SPARK-40646] синтаксический анализ JSON для структур, карт и массивов был исправлен, поэтому, если часть записи не соответствует schema, остальная часть записи по-прежнему может быть правильно проанализирована, а не возвращать значения NULL. Чтобы выбрать улучшенное поведение, set
spark.sql.json.enablePartialResults
true
. Флаг отключен по умолчанию, чтобы сохранить исходное поведение.
-
[SPARK-40646] синтаксический анализ JSON для структур, карт и массивов был исправлен, поэтому, если часть записи не соответствует schema, остальная часть записи по-прежнему может быть правильно проанализирована, а не возвращать значения NULL. Чтобы выбрать улучшенное поведение, set
- 1 ноября 2022 г.
- Обновление Apache commons-text до версии 1.10.0.
- Исправлена проблема, where, если table Delta column с именем
_change_type
, но веб-канал изменений был отключен в этом table, данные в этом column неправильно заполняют значение NULL values при выполненииMERGE
. - Исправлена проблема с автозагрузчиком where, файл можно дублировать в одном и том же микробатче при включении
allowOverwrites
. - [SPARK-40697][SQL] Добавление заполнения на стороне чтения для покрытия внешних файлов данных
- [SPARK-40596][CORE] Заполнение объекта ExecutorDecommission сообщениями в ExecutorDecommissionInfo
- Обновления системы безопасности операционной системы.
- 18 октября 2022 г.
- [SPARK-40213][SQL] Поддержка преобразования значений ASCII для символов Latin-1
- Обновления системы безопасности операционной системы.
- 5 октября 2022 г.
- Пользователи могут set spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") для повторного включения собственного перечисления для Автозагрузчика в ADLS Gen2. Собственный листинг ранее был отключен из-за проблем с производительностью, но, возможно, привел к увеличению затрат на хранение для клиентов. Это изменение было развернуто в DBR 10.4 и 9.1 во время предыдущего обслуживания update.
- [SPARK-40169] не нажимайте фильтры Parquet без ссылки на данные schema
-
[SPARK-40460][SS] Исправление метрик потоковой передачи при выборе
_metadata
- [SPARK-40468][SQL] Исправить column обрезку в CSV при выборе _corrupt_record
- Обновления системы безопасности операционной системы.
- 22 сентября 2022 г.
- [SPARK-40315][SQL] Добавление hashCode() для литерала ArrayBasedMapData
- [SPARK-40380][SQL] Исправление константного свертывания InvokeLike, чтобы избежать несериализируемых литерала, внедренных в план
- [SPARK-40089][SQL] Исправление сортировки для некоторых десятичных типов
- [SPARK-39887][SQL] RemoveRedundantAliases должен сохранять псевдонимы, которые делают выходные данные узлов проекции уникальными
- [SPARK-40152][SQL] Исправлена проблема компиляции кодегена split_part
- 6 сентября 2022 г.
- [SPARK-40235][CORE] Использование прерываемой блокировки вместо синхронизированной в Executor.updateDependencies()
- [SPARK-40212][SQL] SparkSQL castPartValue неправильно обрабатывает байт, короткий или с плавающей точкой
- [SPARK-40218][SQL] GROUPING SETS должен сохранить группирование columns
- [SPARK-39976][SQL] ArrayIntersect должен правильно обрабатывать значение NULL в левом выражении
-
[SPARK-40053][CORE][SQL][TESTS] Добавление
assume
в динамические случаи отмены, для которых требуется среда выполнения Python - [SPARK-35542][CORE][ML] Исправление: Bucketizer, созданный для нескольких columns с parameters splitsArray, inputCols и outputCols, нельзя загрузить после его сохранения.
- [SPARK-40079][CORE] Добавление проверки Imputer inputCols для пустого варианта ввода
- 24 августа 2022 г.
- [SPARK-39983][CORE][SQL] Не следует кэшировать несериализированные отношения широковещательной рассылки в драйвере
- [SPARK-39775][CORE][AVRO] Отключить проверку values по умолчанию при синтаксическом анализе схем Avro
- [SPARK-39806] Исправлена проблема со сбоями при выполнении запросов, обращающихся к структуре МЕТАДАННЫх, на секционированных данных tables
- [SPARK-39867][SQL] Глобальный limit не должно наследовать OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] Применение проекции, если атрибуты группы пустые
- Обновления системы безопасности операционной системы.
- 9 августа 2022 г.
- [SPARK-39713][SQL] Режим ANSI: добавление предложения использования try_element_at для исправления ошибки INVALID_ARRAY_INDEX
- [SPARK-39847] Исправление состояния гонки в RocksDBLoader.loadLibrary(), если вызывающий поток прерван
- [SPARK-39731][SQL] Исправлена проблема в источниках данных CSV и JSON при синтаксическом анализе дат в формате "yyyyMdd" с помощью исправленной политики синтаксического анализа времени
- [SPARK-39889] Улучшение сообщения об ошибке при делении на 0
- [SPARK-39795][SQL] Новая функция SQL: try_to_timestamp
- [SPARK-39749] Всегда используйте простое строковое представление при преобразовании десятичного числа в строку в режиме ANSI
- [SPARK-39625][SQL] Добавление Dataset.as(StructType)
- [SPARK-39787][SQL] Использование класса error при ошибке синтаксического анализа функции to_timestamp
- Обновления системы безопасности операционной системы.
- 27 июля 2022 г.
-
[SPARK-39689]Поддержка двухсимвольных конструкций
lineSep
в источнике данных CSV - [SPARK-39104][SQL] Потокобезопасность для InMemoryRelation#isCachedColumnBuffersLoaded
- [SPARK-39702][CORE] Сокращение объема памяти, требуемого TransportCipher$EncryptedMessage, за счет использования общего byteRawChannel
- [SPARK-39575][AVRO] добавьте ByteBuffer#rewind послеget ByteBuffer# в AvroDeserializer
- [SPARK-39497][SQL] Улучшение исключения анализа отсутствующих ключей карты column
- [SPARK-39441][SQL] Ускорение DeduplicateRelations
- [SPARK-39476][SQL] Отключить optimize при приведения от long к float/ Double или из целого числа в Float
- [SPARK-39434][SQL] Предоставление контекста запроса для ошибки среды выполнения при выходе индекса за границы массива
- [SPARK-39570][SQL] Встроенные table должны разрешать выражения с псевдонимом
- Обновления системы безопасности операционной системы.
-
[SPARK-39689]Поддержка двухсимвольных конструкций
- 13 июля 2022 г.
- Убедитесь, что результаты операции MERGE Delta согласованы, если источник является недетерминированным.
- Исправлена проблема с TVF cloud_files_state при выполнении с использованием путей, отличных от DBFS.
- Отключено использование автозагрузчика собственных облачных API для перечисления каталогов в Azure.
- [SPARK-38796][SQL] Update to_number и функции try_to_number, чтобы разрешить PR с положительными числами
- [SPARK-39272][SQL] Увеличение начальной позиции контекста запроса на 1.
- [SPARK-39419][SQL] Исправление для ArraySort, чтобы возникало исключение когда блок сравнения возвращает значение NULL.
- Обновления системы безопасности операционной системы.
- 5 июля 2022 г.
- Улучшение сообщений об ошибках для различных классов ошибок.
- [SPARK-39451][SQL] Поддержка интервалов приведения к интегралам в режиме ANSI.
- [SPARK-39361] Не используйте расширенный шаблон Log4J2 преобразования объекта типа throwable в конфигурациях ведения журнала по умолчанию.
-
[SPARK-39354][SQL] Убедитесь, что отображается
Table or view not found
, даже при появлении ошибкиdataTypeMismatchError
, связанной сFilter
, в это же время. - [SPARK-38675][CORE] Исправление ошибки гонки при разблокировке в BlockInfoManager.
- [SPARK-39392][SQL] Уточнение сообщений об ошибках ANSI для указаний функций try_*.
- [SPARK-39214][SQL][3.3] Улучшения в обработке ошибок, связанных с CAST.
- [SPARK-37939][SQL] Классы ошибок теперь используются в ошибках анализа свойств.
-
[SPARK-39085][SQL] Перемещение сообщения об ошибке
INCONSISTENT_BEHAVIOR_CROSS_VERSION
в файл error-classes.json. - [SPARK-39376][SQL] Скрытие повторяющихся columns в расширении подзапроса из NATURAL/USING JOIN
- [SPARK-39283][CORE] Исправлена взаимоблокировка между TaskMemoryManager и UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] В Spark не должны проверяться имена полей при чтении файлов
- Обновления системы безопасности операционной системы.
Databricks Runtime 10.5 (EoS)
См. раздел Databricks Runtime 10.5 (EoS).
- 1 ноября 2022 г.
- Исправлена проблема, where, если table Delta column с именем
_change_type
, но веб-канал изменений был отключен в этом table, данные в этом column неправильно заполняют значение NULL values при выполненииMERGE
. - [SPARK-40697][SQL] Добавление заполнения на стороне чтения для покрытия внешних файлов данных
- [SPARK-40596][CORE] Заполнение объекта ExecutorDecommission сообщениями в ExecutorDecommissionInfo
- Обновления системы безопасности операционной системы.
- Исправлена проблема, where, если table Delta column с именем
- 18 октября 2022 г.
- Обновления системы безопасности операционной системы.
- 5 октября 2022 г.
- Пользователи могут set spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") для повторного включения собственного перечисления для Автозагрузчика в ADLS Gen2. Собственный листинг ранее был отключен из-за проблем с производительностью, но, возможно, привел к увеличению затрат на хранение для клиентов. Это изменение было развернуто в DBR 10.4 и 9.1 во время предыдущего обслуживания update.
- Reload4j обновлен до версии 1.2.19, чтобы устранить уязвимости.
-
[SPARK-40460][SS] Исправление метрик потоковой передачи при выборе
_metadata
- [SPARK-40468][SQL] Исправить column обрезку в CSV при выборе _corrupt_record
- Обновления системы безопасности операционной системы.
- 22 сентября 2022 г.
- [SPARK-40315][SQL] Добавление hashCode() для литерала ArrayBasedMapData
- [SPARK-40213][SQL] Поддержка преобразования значений ASCII для символов Latin-1
- [SPARK-40380][SQL] Исправление константного свертывания InvokeLike, чтобы избежать несериализируемых литерала, внедренных в план
- [SPARK-38404][SQL] Улучшение разрешения CTE, когда вложенный CTE ссылается на внешний CTE
- [SPARK-40089][SQL] Исправление сортировки для некоторых десятичных типов
- [SPARK-39887][SQL] RemoveRedundantAliases должен сохранять псевдонимы, которые делают выходные данные узлов проекции уникальными
- Обновления системы безопасности операционной системы.
- 6 сентября 2022 г.
- [SPARK-40235][CORE] Использование прерываемой блокировки вместо синхронизированной в Executor.updateDependencies()
- [SPARK-39976][SQL] ArrayIntersect должен правильно обрабатывать значение NULL в левом выражении
-
[SPARK-40053][CORE][SQL][TESTS] Добавление
assume
в динамические случаи отмены, для которых требуется среда выполнения Python - [SPARK-35542][CORE][ML] Исправление: Bucketizer, созданный для нескольких columns с parameters splitsArray, inputCols и outputCols, нельзя загрузить после его сохранения.
- [SPARK-40079][CORE] Добавление проверки Imputer inputCols для пустого варианта ввода
- 24 августа 2022 г.
- [SPARK-39983][CORE][SQL] Не следует кэшировать несериализированные отношения широковещательной рассылки в драйвере
- [SPARK-39775][CORE][AVRO] Отключить проверку values по умолчанию при синтаксическом анализе схем Avro
- [SPARK-39806] Исправлена проблема со сбоями при выполнении запросов, обращающихся к структуре МЕТАДАННЫх, на секционированных данных tables
- [SPARK-39962][PYTHON][SQL] Применение проекции, если атрибуты группы пустые
- [SPARK-37643][SQL] Когда charVarcharAsString имеет значение true, для запроса предиката типа данных char следует пропустить правило rpadding
- Обновления системы безопасности операционной системы.
- 9 августа 2022 г.
- [SPARK-39847] Исправление состояния гонки в RocksDBLoader.loadLibrary(), если вызывающий поток прерван
- [SPARK-39731][SQL] Исправлена проблема в источниках данных CSV и JSON при синтаксическом анализе дат в формате "yyyyMdd" с помощью исправленной политики синтаксического анализа времени
- Обновления системы безопасности операционной системы.
- 27 июля 2022 г.
- [SPARK-39625][SQL] Добавление Dataset.as(StructType)
-
[SPARK-39689]Поддержка двухсимвольных конструкций
lineSep
в источнике данных CSV - [SPARK-39104][SQL] Потокобезопасность для InMemoryRelation#isCachedColumnBuffersLoaded
- [SPARK-39570][SQL] Встроенные table должны разрешать выражения с псевдонимом
- [SPARK-39702][CORE] Сокращение объема памяти, требуемого TransportCipher$EncryptedMessage, за счет использования общего byteRawChannel
- [SPARK-39575][AVRO] добавьте ByteBuffer#rewind послеget ByteBuffer# в AvroDeserializer
- [SPARK-39476][SQL] Отключить optimize при приведения от long к float/ Double или из целого числа в Float
- Обновления системы безопасности операционной системы.
- 13 июля 2022 г.
- Убедитесь, что результаты операции MERGE Delta согласованы, если источник является недетерминированным.
- [SPARK-39355][SQL] Single column использует кавычки для конструирования НеразрешённогоАтрибута
- [SPARK-39548][SQL] Команда CreateView с запросом в секции window вызвала ошибку: определение window не найдено
- [SPARK-39419][SQL] Исправление для ArraySort, чтобы возникало исключение когда блок сравнения возвращает значение NULL.
- Отключено использование автозагрузчика собственных облачных API для перечисления каталогов в Azure.
- Обновления системы безопасности операционной системы.
- 5 июля 2022 г.
- [SPARK-39376][SQL] Скрытие повторяющихся columns в расширении подзапроса из NATURAL/USING JOIN
- Обновления системы безопасности операционной системы.
- 15 июня 2022 г.
- [SPARK-39283][CORE] Исправлена взаимоблокировка между TaskMemoryManager и UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] В Spark не должны проверяться имена полей при чтении файлов
- [SPARK-34096][SQL] Повышение производительности для nth_value с игнорированием значений NULL offsetwindow
-
[SPARK-36718][SQL][FOLLOWUP] Исправлена проверка
isExtractOnly
в CollapseProject
- 2 июня 2022 г.
- [SPARK-39166][SQL] Теперь возвращается ошибка времени выполнения с предупреждением о контексте запроса для двоичной арифметики при отключенном WSCG
- [SPARK-39093][SQL] Устранена ошибка компиляции при создании кода для деления интервалов типа "год и месяц" или "день и время дня" на целое число
- [SPARK-38990][SQL] Устранено исключение NullPointerException при оценке формата date_trunc/trunc в качестве привязанной ссылки
- Обновления системы безопасности операционной системы.
- 18 мая 2022 г.
- Устранена потенциальная собственная утечка памяти в Автозагрузчике.
- [SPARK-38868][SQL]Больше не выполняется распространение исключений из предиката фильтра при оптимизации внешних соединений.
- [SPARK-38796][SQL] Реализованы функции SQL to_number и try_to_number в соответствии с новой спецификацией.
- [SPARK-38918][SQL] Вложенное column обрезание должно отфильтровывать атрибуты, которые не относятся к текущей таблице
- [SPARK-38929][SQL] Улучшены сообщения об ошибках для сбоев приведений в ANSI.
- [SPARK-38926][SQL] Выходные типы в сообщениях об ошибках реализованы в стиле SQL.
- [SPARK-39084][PYSPARK] Исправлена df.rdd.isEmpty() с использованием TaskContext для остановки итератора при завершении задачи.
- [SPARK-32268][SQL] Добавлено ColumnPruning в injectBloomFilter.
- [SPARK-38908][SQL] Предоставлен контекст запроса в ошибке выполнения при приведении из String в Number/Date/Timestamp/Boolean.
- [SPARK-39046][SQL] Возвращает пустую строку контекста, если TreeNode.origin определён неправильно set
- [SPARK-38974][SQL] Фильтрация зарегистрированных функций с заданным именем базы данных в функциях list
- [SPARK-38762][SQL] Предоставлен контекст запроса в ошибках переполнения десятичных значений.
- [SPARK-38931][SS] Создан корневой каталог dfs для RocksDBFileManager с неизвестным числом ключей на первой контрольной точке.
- [SPARK-38992][CORE] Теперь следует избегать использования bash -c в ShellBasedGroupsMappingProvider.
- [SPARK-38716][SQL] Предоставлен контекст запроса в ошибке "Ключ сопоставления не существует".
- [SPARK-38889][SQL] Компилировать логические фильтры column для использования типа "бит" для источника данных MSSQL
- [SPARK-38698][SQL] Предоставлен контекст запроса в ошибке выполнения Divide/Div/Reminder/Pmod.
-
[SPARK-38823][SQL]
NewInstance
больше не свертывается, чтобы исправить проблему с повреждением буфера агрегирования. - [SPARK-38809][SS] Реализовать опцию пропуска null values в симметричной хеш-реализации соединений поток-поток
- [SPARK-38676][SQL] Предоставлен контекст запроса SQL в сообщении ошибки выполнения Add/Subtract/Multiply.
- [SPARK-38677][PYSPARK] Python MonitorThread должен обнаруживать взаимоблокировку из-за блокировки ввода-вывода.
- Обновления системы безопасности операционной системы.
Databricks Runtime 10.3 (EoS)
См. раздел Databricks Runtime 10.3 (EoS).
- 27 июля 2022 г.
-
[SPARK-39689]Поддержка двухсимвольных конструкций
lineSep
в источнике данных CSV - [SPARK-39104][SQL] Потокобезопасность для InMemoryRelation#isCachedColumnBuffersLoaded
- [SPARK-39702][CORE] Сокращение объема памяти, требуемого TransportCipher$EncryptedMessage, за счет использования общего byteRawChannel
- Обновления системы безопасности операционной системы.
-
[SPARK-39689]Поддержка двухсимвольных конструкций
- 20 июля 2022 г.
- Убедитесь, что результаты операции MERGE Delta согласованы, если источник является недетерминированным.
- [SPARK-39476][SQL] Отключить optimize при приведения от long к float/ Double или из целого числа в Float
- [SPARK-39548][SQL] Команда CreateView с запросом в секции window вызвала ошибку: определение window не найдено
- [SPARK-39419][SQL] Исправление для ArraySort, чтобы возникало исключение когда блок сравнения возвращает значение NULL.
- Обновления системы безопасности операционной системы.
- 5 июля 2022 г.
- [SPARK-39376][SQL] Скрытие повторяющихся columns в расширении подзапроса из NATURAL/USING JOIN
- Обновления системы безопасности операционной системы.
- 15 июня 2022 г.
- [SPARK-39283][CORE] Исправлена взаимоблокировка между TaskMemoryManager и UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] В Spark не должны проверяться имена полей при чтении файлов
- [SPARK-34096][SQL] Повышение производительности для nth_value с игнорированием значений NULL offsetwindow
-
[SPARK-36718][SQL][FOLLOWUP] Исправлена проверка
isExtractOnly
в CollapseProject
- 2 июня 2022 г.
- [SPARK-38990][SQL] Устранено исключение NullPointerException при оценке формата date_trunc/trunc в качестве привязанной ссылки
- Обновления системы безопасности операционной системы.
- 18 мая 2022 г.
- Устранена потенциальная собственная утечка памяти в Автозагрузчике.
- [SPARK-38918][SQL] Вложенное column обрезание должно отфильтровывать атрибуты, которые не относятся к текущей таблице
- [SPARK-37593][CORE] Уменьшен размер страницы по умолчанию на LONG_ARRAY_OFFSET, если используются G1GC и ON_HEAP.
- [SPARK-39084][PYSPARK] Исправлена df.rdd.isEmpty() с использованием TaskContext для остановки итератора при завершении задачи.
- [SPARK-32268][SQL] Добавлено ColumnPruning в injectBloomFilter.
- [SPARK-38974][SQL] Фильтрация зарегистрированных функций с заданным именем базы данных в функциях list
- [SPARK-38889][SQL] Компилировать логические фильтры column для использования типа "бит" для источника данных MSSQL
- Обновления системы безопасности операционной системы.
- 4 мая 2022 г.
- Пакет SDK AWS для Java обновлен с версии 1.11.655 до версии 1.12.1899.
- 19 апреля 2022 г.
- [SPARK-38616] [SQL] Отслеживание текста запроса SQL в Catalyst TreeNode.
- Обновления системы безопасности операционной системы.
- 6 апреля 2022 г.
- [SPARK-38631][CORE]: использование реализации на основе Java для распаковки файлов .tar в Utils.unpack.
- Обновления системы безопасности операционной системы.
- 22 марта 2022 г.
- Изменен текущий рабочий каталог записных книжек в кластерах высокой параллельности с включенными функциями управления доступом table или сквозной передачи учетных данных на домашний каталог пользователя. Ранее рабочим каталогом был
/databricks/driver
. - [SPARK-38437][SQL]: гибкая сериализация даты и времени из источника данных.
- [SPARK-38180][SQL]: разрешение безопасных приведенных выражений в скоррелированных предикатах равенства.
- [SPARK-38155][SQL]: запрет на явное объединение во вторичных вложенных запросах с неподдерживаемыми предикатами.
- [SPARK-38325][SQL] режим ANSI: предотвращение потенциальной ошибки среды выполнения в HashJoin.extractKeyExprAt().
- Изменен текущий рабочий каталог записных книжек в кластерах высокой параллельности с включенными функциями управления доступом table или сквозной передачи учетных данных на домашний каталог пользователя. Ранее рабочим каталогом был
- 14 марта 2022 г.
- Улучшено обнаружение конфликтов транзакций для пустых транзакций в Delta Lake.
- [SPARK-38185][SQL] Исправление некорректных данных, если агрегатная функция пуста
- [SPARK-38318][SQL] Регрессия при замене представления набора данных
- [SPARK-38236][SQL] Абсолютные пути к файлам, указанным в create/alter table рассматриваются как относительные
- [SPARK-35937][SQL] Извлечение поля даты из метки времени должно работать в режиме ANSI
-
[SPARK-34069][SQL] Задачи барьера заверения должны соответствовать
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Разрешение назначения хранилища между TimestampNTZ и Date/Timestamp
- 23 февраля 2022 г.
- [SPARK-27442][SQL] Remove проверить имя поля при чтении и записи данных в Parquet
Databricks Runtime 10.2 (EoS)
См. раздел Databricks Runtime 10.2 (EoS).
- 15 июня 2022 г.
- [SPARK-39283][CORE] Исправлена взаимоблокировка между TaskMemoryManager и UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] В Spark не должны проверяться имена полей при чтении файлов
- [SPARK-34096][SQL] Повышение производительности для nth_value с игнорированием значений NULL offsetwindow
- 2 июня 2022 г.
- [SPARK-38918][SQL] Вложенное column обрезание должно отфильтровывать атрибуты, которые не относятся к текущей таблице
- [SPARK-38990][SQL] Устранено исключение NullPointerException при оценке формата date_trunc/trunc в качестве привязанной ссылки
- Обновления системы безопасности операционной системы.
- 18 мая 2022 г.
- Устранена потенциальная собственная утечка памяти в Автозагрузчике.
- [SPARK-39084][PYSPARK] Исправлена df.rdd.isEmpty() с использованием TaskContext для остановки итератора при завершении задачи.
- [SPARK-38889][SQL] Компилировать логические фильтры column для использования типа "бит" для источника данных MSSQL
- [SPARK-38931][SS] Создан корневой каталог dfs для RocksDBFileManager с неизвестным числом ключей на первой контрольной точке.
- Обновления системы безопасности операционной системы.
- 4 мая 2022 г.
- Пакет SDK AWS для Java обновлен с версии 1.11.655 до версии 1.12.1899.
- 19 апреля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
- 6 апреля 2022 г.
- [SPARK-38631][CORE]: использование реализации на основе Java для распаковки файлов .tar в Utils.unpack.
- Обновления системы безопасности операционной системы.
- 22 марта 2022 г.
- Изменен текущий рабочий каталог записных книжек в кластерах высокой параллельности с включенными функциями управления доступом table или сквозной передачи учетных данных на домашний каталог пользователя. Ранее рабочим каталогом был
/databricks/driver
. - [SPARK-38437][SQL]: гибкая сериализация даты и времени из источника данных.
- [SPARK-38180][SQL]: разрешение безопасных приведенных выражений в скоррелированных предикатах равенства.
- [SPARK-38155][SQL]: запрет на явное объединение во вторичных вложенных запросах с неподдерживаемыми предикатами.
- [SPARK-38325][SQL] режим ANSI: предотвращение потенциальной ошибки среды выполнения в HashJoin.extractKeyExprAt().
- Изменен текущий рабочий каталог записных книжек в кластерах высокой параллельности с включенными функциями управления доступом table или сквозной передачи учетных данных на домашний каталог пользователя. Ранее рабочим каталогом был
- 14 марта 2022 г.
- Улучшено обнаружение конфликтов транзакций для пустых транзакций в Delta Lake.
- [SPARK-38185][SQL] Исправление некорректных данных, если агрегатная функция пуста
- [SPARK-38318][SQL] Регрессия при замене представления набора данных
- [SPARK-38236][SQL] Абсолютные пути к файлам, указанным в create/alter table рассматриваются как относительные
- [SPARK-35937][SQL] Извлечение поля даты из метки времени должно работать в режиме ANSI
-
[SPARK-34069][SQL] Задачи барьера заверения должны соответствовать
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Разрешение назначения хранилища между TimestampNTZ и Date/Timestamp
- 23 февраля 2022 г.
- [SPARK-37577][SQL] Исправление ClassCastException: ArrayType нельзя привести к StructType для Generate очистки
- 8 февраля 2022 г.
- [SPARK-27442][SQL] Remove проверить имя поля при чтении и записи данных в Parquet.
- Обновления системы безопасности операционной системы.
- 1 февраля 2022 г.
- Обновления системы безопасности операционной системы.
- 26 января 2022 г.
- Исправлена ошибка, при которой where параллельных транзакций в Delta tables могли фиксироваться в несериализуемом порядке при определенных редких условиях.
- Исправлена ошибка, когда команда whereOPTIMIZE завершалась ошибкой при включенном диалекте SQL ANSI.
- 19 января 2022 г.
- Внедрена поддержка встраивания временных credentials в COPY INTO для загрузки исходных данных без необходимости разрешений SQL ANY_FILE
- Исправления ошибок и доработки средств безопасности.
- 20 декабря 2021 г.
- Исправлена редкая ошибка с фильтрацией на основе индекса Parquet column.
Databricks Runtime 10.1 (EoS)
См. раздел Databricks Runtime 10.1 (EoS).
- 15 июня 2022 г.
- [SPARK-39283][CORE] Исправлена взаимоблокировка между TaskMemoryManager и UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] В Spark не должны проверяться имена полей при чтении файлов
- [SPARK-34096][SQL] Повышение производительности для nth_value с игнорированием значений NULL offsetwindow
- 2 июня 2022 г.
- Обновления системы безопасности операционной системы.
- 18 мая 2022 г.
- Устранена потенциальная собственная утечка памяти в Автозагрузчике.
- [SPARK-39084][PYSPARK] Исправлена df.rdd.isEmpty() с использованием TaskContext для остановки итератора при завершении задачи.
- [SPARK-38889][SQL] Компилировать логические фильтры column для использования типа "бит" для источника данных MSSQL
- Обновления системы безопасности операционной системы.
- 19 апреля 2022 г.
- [SPARK-37270] [SQL] Исправление отправки свертываемых выражений в ветви CaseWhen, если elseValue является пустым.
- Обновления системы безопасности операционной системы.
- 6 апреля 2022 г.
- [SPARK-38631][CORE]: использование реализации на основе Java для распаковки файлов .tar в Utils.unpack.
- Обновления системы безопасности операционной системы.
- 22 марта 2022 г.
- [SPARK-38437][SQL]: гибкая сериализация даты и времени из источника данных.
- [SPARK-38180][SQL]: разрешение безопасных приведенных выражений в скоррелированных предикатах равенства.
- [SPARK-38155][SQL]: запрет на явное объединение во вторичных вложенных запросах с неподдерживаемыми предикатами.
- [SPARK-38325][SQL] режим ANSI: предотвращение потенциальной ошибки среды выполнения в HashJoin.extractKeyExprAt().
- 14 марта 2022 г.
- Улучшено обнаружение конфликтов транзакций для пустых транзакций в Delta Lake.
- [SPARK-38185][SQL] Исправление некорректных данных, если агрегатная функция пуста
- [SPARK-38318][SQL] Регрессия при замене представления набора данных
- [SPARK-38236][SQL] Абсолютные пути к файлам, указанным в create/alter table рассматриваются как относительные
- [SPARK-35937][SQL] Извлечение поля даты из метки времени должно работать в режиме ANSI
-
[SPARK-34069][SQL] Задачи барьера заверения должны соответствовать
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Разрешение назначения хранилища между TimestampNTZ и Date/Timestamp
- 23 февраля 2022 г.
- [SPARK-37577][SQL] Исправление ClassCastException: ArrayType нельзя привести к StructType для Generate очистки
- 8 февраля 2022 г.
- [SPARK-27442][SQL] Remove проверить имя поля при чтении и записи данных в Parquet.
- Обновления системы безопасности операционной системы.
- 1 февраля 2022 г.
- Обновления системы безопасности операционной системы.
- 26 января 2022 г.
- Исправлена ошибка, при которой where параллельных транзакций в Delta tables могли фиксироваться в несериализуемом порядке при определенных редких условиях.
- Исправлена ошибка, когда команда whereOPTIMIZE завершалась ошибкой при включенном диалекте SQL ANSI.
- 19 января 2022 г.
- Внедрена поддержка встраивания временных credentials в COPY INTO для загрузки исходных данных без необходимости разрешений SQL ANY_FILE
- Исправлена проблема нехватки памяти при кэшировании результатов запроса при определенных условиях.
- Исправлена проблема с
USE DATABASE
, когда пользователь переключает текущую catalog на catalog, отличающуюся от стандартной. - Исправления ошибок и доработки средств безопасности.
- Обновления системы безопасности операционной системы.
- 20 декабря 2021 г.
- Исправлена редкая ошибка с фильтрацией на основе индекса Parquet column.
Databricks Runtime 10.0 (EoS)
См. раздел Databricks Runtime 10.0 (EoS).
- 19 апреля 2022 г.
- [SPARK-37270] [SQL] Исправление отправки свертываемых выражений в ветви CaseWhen, если elseValue является пустым.
- Обновления системы безопасности операционной системы.
- 6 апреля 2022 г.
- [SPARK-38631][CORE]: использование реализации на основе Java для распаковки файлов .tar в Utils.unpack.
- Обновления системы безопасности операционной системы.
- 22 марта 2022 г.
- [SPARK-38437][SQL]: гибкая сериализация даты и времени из источника данных.
- [SPARK-38180][SQL]: разрешение безопасных приведенных выражений в скоррелированных предикатах равенства.
- [SPARK-38155][SQL]: запрет на явное объединение во вторичных вложенных запросах с неподдерживаемыми предикатами.
- [SPARK-38325][SQL] режим ANSI: предотвращение потенциальной ошибки среды выполнения в HashJoin.extractKeyExprAt().
- 14 марта 2022 г.
- Улучшено обнаружение конфликтов транзакций для пустых транзакций в Delta Lake.
- [SPARK-38185][SQL] Исправление некорректных данных, если агрегатная функция пуста
- [SPARK-38318][SQL] Регрессия при замене представления набора данных
- [SPARK-38236][SQL] Абсолютные пути к файлам, указанным в create/alter table рассматриваются как относительные
- [SPARK-35937][SQL] Извлечение поля даты из метки времени должно работать в режиме ANSI
-
[SPARK-34069][SQL] Задачи барьера заверения должны соответствовать
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Разрешение назначения хранилища между TimestampNTZ и Date/Timestamp
- 23 февраля 2022 г.
- [SPARK-37577][SQL] Исправление ClassCastException: ArrayType нельзя привести к StructType для Generate очистки
- 8 февраля 2022 г.
- [SPARK-27442][SQL] Remove проверить имя поля при чтении и записи данных в Parquet.
- [SPARK-36905][SQL] Исправление чтения hive без указания имен viewscolumn
- [SPARK-37859][SQL] Исправлена проблема, связанная с тем, что sql tables, созданные с помощью JDBC с Spark 3.1, недоступны для чтения с 3.2.
- Обновления системы безопасности операционной системы.
- 1 февраля 2022 г.
- Обновления системы безопасности операционной системы.
- 26 января 2022 г.
- Исправлена ошибка, при которой where параллельных транзакций в Delta tables могли фиксироваться в несериализуемом порядке при определенных редких условиях.
- Исправлена ошибка, когда команда whereOPTIMIZE завершалась ошибкой при включенном диалекте SQL ANSI.
- 19 января 2022 г.
- Исправления ошибок и доработки средств безопасности.
- Обновления системы безопасности операционной системы.
- 20 декабря 2021 г.
- Исправлена редкая ошибка с фильтрацией на основе индекса Parquet column.
- 9 ноября 2021 г.
- Появились дополнительные флаги конфигурации для обеспечения точного детального контроля над расширениями функциональности ANSI.
- 4 ноября 2021 г.
- Исправлена ошибка, которая могла привести к сбою структурированных потоков передачи с использованием ArrayIndexOutOfBoundsException
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: No FileSystem for scheme
, или привести к тому, что изменения вsparkContext.hadoopConfiguration
не вступят в силу в запросах. - Соединитель Apache Spark для разностного доступа был обновлен до 0.2.0.
- 30 ноября 2021 г.
- Исправлена проблема в синтаксическом анализе метки времени: строка формата where и timezone без двоеточия считалась недействительной.
- Исправлена проблема нехватки памяти при кэшировании результатов запроса при определенных условиях.
- Исправлена проблема с
USE DATABASE
, когда пользователь переключает текущую catalog на catalog, отличающуюся от стандартной.
Databricks Runtime 9.0 (EoS)
См. раздел Databricks Runtime 9.0 (EoS).
- 8 февраля 2022 г.
- Обновления системы безопасности операционной системы.
- 1 февраля 2022 г.
- Обновления системы безопасности операционной системы.
- 26 января 2022 г.
- Исправлена ошибка, когда команда whereOPTIMIZE завершалась ошибкой при включенном диалекте SQL ANSI.
- 19 января 2022 г.
- Исправления ошибок и доработки средств безопасности.
- Обновления системы безопасности операционной системы.
- 4 ноября 2021 г.
- Исправлена ошибка, которая могла привести к сбою структурированных потоков передачи с использованием ArrayIndexOutOfBoundsException
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: No FileSystem for scheme
, или привести к тому, что изменения вsparkContext.hadoopConfiguration
не вступят в силу в запросах. - Соединитель Apache Spark для разностного доступа был обновлен до 0.2.0.
- 22 сентября 2021 г.
- Исправлена ошибка в массиве cast Spark со значением null для строки
- 15 сентября 2021 г.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
- 8 сентября 2021 г.
- Добавлена поддержка имени schema (формата
databaseName.schemaName.tableName
) в качестве целевого имени table для Azure Synapse Connector. - Добавлена поддержка геометрических и географических типов JDBC, для SQL Spark.
- [SPARK-33527][SQL] Расширена функция декодирования, которая будет соответствовать широко используемым базам данных.
-
[SPARK-36532][CORE] [3.1] Исправлена взаимоблокировка в
CoarseGrainedExecutorBackend.onDisconnected
во избежаниеexecutorsconnected
для предотвращения зависания завершения работы исполнителя.
- Добавлена поддержка имени schema (формата
- 25 августа 2021 г.
- Библиотека драйверов SQL Server обновлена до версии 9.2.1.jre8.
- Соединитель Snowflake обновлен до версии 2.9.0.
- Исправлена неработающая ссылка на лучшую пробную версию записной книжки на странице эксперимента AutoML.
Databricks Runtime 8.4 (EoS)
См. раздел Databricks Runtime 8.4 (EoS).
- 19 января 2022 г.
- Обновления системы безопасности операционной системы.
- 4 ноября 2021 г.
- Исправлена ошибка, которая могла привести к сбою структурированных потоков передачи с использованием ArrayIndexOutOfBoundsException
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: No FileSystem for scheme
, или привести к тому, что изменения вsparkContext.hadoopConfiguration
не вступят в силу в запросах. - Соединитель Apache Spark для разностного доступа был обновлен до 0.2.0.
- 22 сентября 2021 г.
- Драйвер JDBC для Spark обновлен до версии 2.6.19.1030
- [SPARK-36734][SQL] Обновление ORC до версии 1.5.1
- 15 сентября 2021 г.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
. - Обновления системы безопасности операционной системы.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
- 8 сентября 2021 г.
-
[SPARK-36532][CORE] [3.1] Исправлена взаимоблокировка в
CoarseGrainedExecutorBackend.onDisconnected
во избежаниеexecutorsconnected
для предотвращения зависания завершения работы исполнителя.
-
[SPARK-36532][CORE] [3.1] Исправлена взаимоблокировка в
- 25 августа 2021 г.
- Библиотека драйверов SQL Server обновлена до версии 9.2.1.jre8.
- Соединитель Snowflake обновлен до версии 2.9.0.
- Исправлена ошибка в сквозной передаче учетных данных, вызванной новой оптимизацией предварительной выборки Parquet, учетные данные пользователя where могут не определяться во время доступа к файлам.
- 11 августа 2021 г.
- Устранена проблема несовместимости RocksDB, которая не позволяет выполнять операции более старой версии Databricks Runtime 8.4. Это исправляет прямую совместимость для Auto Loader,
COPY INTO
, с приложениями потоковой передачи с отслеживанием состояния. - Устранена ошибка при использовании Auto Loader для чтения CSV-файлов с несовпадающими заголовками файлов. Если имена column не совпадают, column будут заполнены значениями NULL. Теперь, если указана schema, предполагается, что schema совпадает и будет сохранять только несоответствия column, если включены восстановленные данные columns.
- Добавляет новый параметр с именем
externalDataSource
в коннектор Azure Synapse для remove требования разрешений наCONTROL
базе данных для чтения с использованием PolyBase.
- Устранена проблема несовместимости RocksDB, которая не позволяет выполнять операции более старой версии Databricks Runtime 8.4. Это исправляет прямую совместимость для Auto Loader,
- 29 июля 2021 г.
- [SPARK-36034][BUILD] Перемещение даты и времени в помещенных в стек фильтрах на Parquet
-
[SPARK-36163][BUILD] Распространение правильных свойств JDBC в поставщике соединителя JDBC и добавление параметра
connectionProvider
Databricks Runtime 8.3 (EoS)
См. раздел Databricks Runtime 8.3 (EoS).
- 19 января 2022 г.
- Обновления системы безопасности операционной системы.
- 4 ноября 2021 г.
- Исправлена ошибка, которая могла привести к сбою структурированных потоков передачи с использованием ArrayIndexOutOfBoundsException
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: No FileSystem for scheme
, или привести к тому, что изменения вsparkContext.hadoopConfiguration
не вступят в силу в запросах.
- 22 сентября 2021 г.
- Драйвер JDBC для Spark обновлен до версии 2.6.19.1030
- 15 сентября 2021 г.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
. - Обновления системы безопасности операционной системы.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
- 8 сентября 2021 г.
- [SPARK-35700][SQL][WARMFIX] Чтение char/varchar orc table, созданных и записанных внешними системами.
-
[SPARK-36532][CORE] [3.1] Исправлена взаимоблокировка в
CoarseGrainedExecutorBackend.onDisconnected
во избежаниеexecutorsconnected
для предотвращения зависания завершения работы исполнителя.
- 25 августа 2021 г.
- Библиотека драйверов SQL Server обновлена до версии 9.2.1.jre8.
- Соединитель Snowflake обновлен до версии 2.9.0.
- Исправлена ошибка в сквозной передаче учетных данных, вызванной новой оптимизацией предварительной выборки Parquet, учетные данные пользователя where могут не определяться во время доступа к файлам.
- 11 августа 2021 г.
- Устранена ошибка при использовании Auto Loader для чтения CSV-файлов с несовпадающими заголовками файлов. Если имена column не совпадают, column будут заполнены значениями NULL. Теперь, если указана schema, предполагается, что schema совпадает и будет сохранять только несоответствия column, если включены восстановленные данные columns.
- 29 июля 2021 г.
- Обновление соединителя Databricks Snowflake Spark до версии 2.9.0-spark-3.1
- [SPARK-36034][BUILD] Перемещение даты и времени в помещенных в стек фильтрах на Parquet
-
[SPARK-36163][BUILD] Распространение правильных свойств JDBC в поставщике соединителя JDBC и добавление параметра
connectionProvider
- 14 июля 2021 г.
- Исправлена проблема при использовании имен column с точками в соединителе Azure Synapse.
- Представлен формат
database.schema.table
для соединителя Synapse. - Добавлена поддержка использования формата
databaseName.schemaName.tableName
в качестве целевого table, а не толькоschemaName.tableName
илиtableName
.
- 15 июня 2021 г.
- Исправлена ошибка
NoSuchElementException
в оптимизированных операциях записи Delta Lake, которые могут произойти при записи больших объемов данных и при возникновении потерь исполнителя - Добавляет команды SQL
CREATE GROUP
,DROP GROUP
,ALTER GROUP
,SHOW GROUPS
, иSHOW USERS
. Дополнительные сведения см. в разделах Инструкции по безопасности и Инструкции отображения.
- Исправлена ошибка
Databricks Runtime 8.2 (EoS)
См. раздел Databricks Runtime 8.2 (EoS).
22 сентября 2021 г.
- Обновления системы безопасности операционной системы.
15 сентября 2021 г.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
8 сентября 2021 г.
- [SPARK-35700][SQL][WARMFIX] Чтение char/varchar orc table, созданных и записанных внешними системами.
-
[SPARK-36532][CORE] [3.1] Исправлена взаимоблокировка в
CoarseGrainedExecutorBackend.onDisconnected
во избежаниеexecutorsconnected
для предотвращения зависания завершения работы исполнителя.
25 августа 2021 г.
- Соединитель Snowflake обновлен до версии 2.9.0.
11 августа 2021 г.
- [SPARK-36034][SQL] Перемещение даты и времени в помещенных в стек фильтрах на Parquet.
29 июля 2021 г.
- Обновление соединителя Databricks Snowflake Spark до версии 2.9.0-spark-3.1
-
[SPARK-36163][BUILD] Распространение правильных свойств JDBC в поставщике соединителя JDBC и добавление параметра
connectionProvider
14 июля 2021 г.
- Исправлена проблема при использовании имен column с точками в соединителе Azure Synapse.
- Представлен формат
database.schema.table
для соединителя Synapse. - Добавлена поддержка использования формата
databaseName.schemaName.tableName
в качестве целевого table, а не толькоschemaName.tableName
илиtableName
. - Исправлена ошибка, которая запрещает пользователям путешествовать во времени к более старым доступным версиям с Delta tables.
15 июня 2021 г.
- Исправляет ошибку
NoSuchElementException
в оптимизированных операциях записи Delta Lake, которые могут произойти при записи больших объемов данных и при возникновении потерь исполнителя
- Исправляет ошибку
26 мая 2021 г.
- Обновлен Python с обновлением для системы безопасности для устранения уязвимости системы безопасности Python (CVE-2021-3177).
30 апреля 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-35227][BUILD] Update сопоставитель для пакетов spark в SparkSubmit
- [SPARK-34245][CORE] Обеспечение при помощи Master удаления исполнителей, которым не удалось отправить завершенное состояние
- Устранена проблема нехватки памяти, когда Auto Loader передает метрики хода выполнения структурированной потоковой передачи.
Databricks Runtime 8.1 (EoS)
См. раздел Databricks Runtime 8.1 (EoS).
22 сентября 2021 г.
- Обновления системы безопасности операционной системы.
15 сентября 2021 г.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
8 сентября 2021 г.
- [SPARK-35700][SQL][WARMFIX] Чтение char/varchar orc table, созданных и записанных внешними системами.
-
[SPARK-36532][CORE] [3.1] Исправлена взаимоблокировка в
CoarseGrainedExecutorBackend.onDisconnected
во избежаниеexecutorsconnected
для предотвращения зависания завершения работы исполнителя.
25 августа 2021 г.
- Соединитель Snowflake обновлен до версии 2.9.0.
11 августа 2021 г.
- [SPARK-36034][SQL] Перемещение даты и времени в помещенных в стек фильтрах на Parquet.
29 июля 2021 г.
- Обновление соединителя Databricks Snowflake Spark до версии 2.9.0-spark-3.1
-
[SPARK-36163][BUILD] Распространение правильных свойств JDBC в поставщике соединителя JDBC и добавление параметра
connectionProvider
14 июля 2021 г.
- Исправлена проблема при использовании имен column с точками в соединителе Azure Synapse.
- Исправлена ошибка, которая запрещает пользователям путешествовать во времени к более старым доступным версиям с Delta tables.
15 июня 2021 г.
- Исправляет ошибку
NoSuchElementException
в оптимизированных операциях записи Delta Lake, которые могут произойти при записи больших объемов данных и при возникновении потерь исполнителя
- Исправляет ошибку
26 мая 2021 г.
- Обновлен Python с обновлением для системы безопасности для устранения уязвимости системы безопасности Python (CVE-2021-3177).
30 апреля 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-35227][BUILD] Update сопоставитель для пакетов spark в SparkSubmit
- Устранена проблема нехватки памяти, когда Auto Loader передает метрики хода выполнения структурированной потоковой передачи.
27 апреля 2021 г.
- [SPARK-34245][CORE] Обеспечение при помощи Master удаления исполнителей, которым не удалось отправить завершенное состояние
- [SPARK-34856][SQL] режим ANSI: разрешить приведение сложных типов в качестве строкового типа
- [SPARK-35014] Исправлен шаблон PhysicalAggregation, чтобы он не переписывал свертываемые выражения
- [SPARK-34769][SQL] AnsiTypeCoercion: возвращение самого узкого преобразуемого типа среди TypeCollection
- [SPARK-34614][SQL] Режим ANSI: приведение строки к логическому типу вызовет создание исключения при ошибке синтаксического анализа
- [SPARK-33794][SQL] Режим ANSI: исправление выражения NextDay для создания среды выполнения IllegalArgumentException при получении недопустимых входных данных
Databricks Runtime 8.0 (EoS)
См. раздел Databricks Runtime 8.0 (EoS).
15 сентября 2021 г.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
25 августа 2021 г.
- Соединитель Snowflake обновлен до версии 2.9.0.
11 августа 2021 г.
- [SPARK-36034][SQL] Перемещение даты и времени в помещенных в стек фильтрах на Parquet.
29 июля 2021 г.
-
[SPARK-36163][BUILD] Распространение правильных свойств JDBC в поставщике соединителя JDBC и добавление параметра
connectionProvider
-
[SPARK-36163][BUILD] Распространение правильных свойств JDBC в поставщике соединителя JDBC и добавление параметра
14 июля 2021 г.
- Исправлена проблема при использовании имен column с точками в соединителе Azure Synapse.
- Исправлена ошибка, которая запрещает пользователям путешествовать во времени к более старым доступным версиям с Delta tables.
26 мая 2021 г.
- Обновлен Python с обновлением для системы безопасности для устранения уязвимости системы безопасности Python (CVE-2021-3177).
30 апреля 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-35227][BUILD] Update сопоставитель для пакетов spark в SparkSubmit
- [SPARK-34245][CORE] Обеспечение при помощи Master удаления исполнителей, которым не удалось отправить завершенное состояние
24 марта 2021 г.
- [SPARK-34681][SQL] Исправлена ошибка полного перетасовки хэша join при построении левой стороны с не равным условием
- [SPARK-34534] Исправлен порядок blockId при использовании FetchShuffleBlocks для получения блоков
- [SPARK-34613][SQL] Исправлена ошибка, при которой представление на соответствует настройке отключении подсказки
9 марта 2021 г.
-
[SPARK-34543][SQL] Уважайте конфигурацию
spark.sql.caseSensitive
при разрешении спецификации partition версии 1SET LOCATION
- [SPARK-34392][SQL] Поддержка ZoneOffset +ч:мм в DateTimeUtils. getZoneId
- [пользовательский интерфейс] Исправление ссылки href визуализации Spark DAG
- [SPARK-34436][SQL] DPP поддерживает выражение LIKE ANY/ALL
-
[SPARK-34543][SQL] Уважайте конфигурацию
Databricks Runtime 7.6 (EoS)
См. раздел Databricks Runtime 7.6 (EoS).
- 11 августа 2021 г.
- [SPARK-36034][SQL] Перемещение даты и времени в помещенных в стек фильтрах на Parquet.
- 29 июля 2021 г.
- [SPARK-32998][BUILD] Добавьте возможность переопределения удаленных репозиториев по умолчанию только внутренними репозиториями
- 14 июля 2021 г.
- Исправлена ошибка, которая запрещает пользователям путешествовать во времени к более старым доступным версиям с Delta tables.
- 26 мая 2021 г.
- Обновлен Python с обновлением для системы безопасности для устранения уязвимости системы безопасности Python (CVE-2021-3177).
- 30 апреля 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-35227][BUILD] Update сопоставитель для пакетов spark в SparkSubmit
- [SPARK-34245][CORE] Обеспечение при помощи Master удаления исполнителей, которым не удалось отправить завершенное состояние
- 24 марта 2021 г.
- [SPARK-34768][SQL] Соблюдение размера входного буфера по умолчанию в Univocity
- [SPARK-34534] Исправлен порядок blockId при использовании FetchShuffleBlocks для получения блоков
- 9 марта 2021 г.
- (Только для Azure) Исправлена ошибка автозагрузчика, которая может вызвать NullPointerException при использовании Databricks Runtime 7.6 для запуска старого потока автозагрузчика, созданного в Databricks Runtime 7.2
- [пользовательский интерфейс] Исправление ссылки href визуализации Spark DAG
- Неизвестный листовой узел SparkPlan неверно обрабатывается в SizeInBytesOnlyStatsSparkPlanVisitor
-
Restore выходных данных schema
SHOW DATABASES
- [Delta][8.0, 7.6] Исправлена ошибка вычислений в логике автоматической настройки размера файла
- Отключение проверки устаревших данных для файлов Delta table в кэше дисков
- [SQL] Используйте правильный ключ динамической обрезки построения при наличии указания диапазона join
- Отключение поддержки типа char в пути кода, отличного от SQL
- Избегайте NPE в DataFrameReader.schema
- Исправление NPE, если в ответе EventGridClient нет объекта
- Устранение ошибки чтения закрытого потока чтения в автозагрузчике Azure
- [SQL] Не generate перетасовка partition числового совета при включении AOS
- 24 февраля 2021 г.
- Обновлен соединитель Spark BigQuery до версии v0.18, в которой введены различные исправления ошибок, а также поддержка итераторов Arrow и Avro.
- Исправлена проблема правильности, из-за которой Spark возвращала неверные результаты, если десятичная точность и масштаб файла Parquet отличаются от schemaSpark.
- Исправлена проблема с сбоем чтения в Microsoft SQL Server tables, содержащем типы пространственных данных, добавлением поддержки типов JDBC geometry и geography для Spark SQL.
- Введена новая конфигурация
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Эта конфигурация управляет встроенной инициализацией Hive. Если set равно true, Azure Databricks перезагрузит все функции из всех баз данных, которыми располагают пользователи, в рамкахFunctionRegistry
. Это — действия по умолчанию в хранилище метаданных Hive. При установке set в значение false, Azure Databricks отключает этот процесс для оптимизации. - [SPARK-34212] Исправлены проблемы, связанные с чтением десятичных данных из файлов Parquet.
- [SPARK-34260][SQL] Исправлено UnresolvedException при создании временного представления дважды.
Databricks Runtime 7.5 (EoS)
См. раздел Databricks Runtime 7.5 (EoS).
- 26 мая 2021 г.
- Обновлен Python с обновлением для системы безопасности для устранения уязвимости системы безопасности Python (CVE-2021-3177).
- 30 апреля 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-35227][BUILD] Update сопоставитель для пакетов spark в SparkSubmit
- [SPARK-34245][CORE] Обеспечение при помощи Master удаления исполнителей, которым не удалось отправить завершенное состояние
- 24 марта 2021 г.
- [SPARK-34768][SQL] Соблюдение размера входного буфера по умолчанию в Univocity
- [SPARK-34534] Исправлен порядок blockId при использовании FetchShuffleBlocks для получения блоков
- 9 марта 2021 г.
- (Только для Azure) Исправлена ошибка автозагрузчика, которая может вызвать NullPointerException при использовании Databricks Runtime 7.5 для запуска старого потока автозагрузчика, созданного в Databricks Runtime 7.2.
- [пользовательский интерфейс] Исправление ссылки href визуализации Spark DAG
- Неизвестный листовой узел SparkPlan неверно обрабатывается в SizeInBytesOnlyStatsSparkPlanVisitor
-
Restore выходных данных schema
SHOW DATABASES
- Отключение проверки устаревших данных для файлов Delta table в кэше дисков
- [SQL] Используйте правильный ключ динамической обрезки построения при наличии указания диапазона join
- Отключение поддержки типа char в пути кода, отличного от SQL
- Избегайте NPE в DataFrameReader.schema
- Исправление NPE, если в ответе EventGridClient нет объекта
- Устранение ошибки чтения закрытого потока чтения в автозагрузчике Azure
- 24 февраля 2021 г.
- Обновлен соединитель Spark BigQuery до версии v0.18, в которой введены различные исправления ошибок, а также поддержка итераторов Arrow и Avro.
- Исправлена проблема правильности, из-за которой Spark возвращала неверные результаты, если десятичная точность и масштаб файла Parquet отличаются от schemaSpark.
- Исправлена проблема с сбоем чтения в Microsoft SQL Server tables, содержащем типы пространственных данных, добавлением поддержки типов JDBC geometry и geography для Spark SQL.
- Введена новая конфигурация
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Эта конфигурация управляет встроенной инициализацией Hive. Если set равно true, Azure Databricks перезагрузит все функции из всех баз данных, которыми располагают пользователи, в рамкахFunctionRegistry
. Это — действия по умолчанию в хранилище метаданных Hive. При установке set в значение false, Azure Databricks отключает этот процесс для оптимизации. - [SPARK-34212] Исправлены проблемы, связанные с чтением десятичных данных из файлов Parquet.
- [SPARK-34260][SQL] Исправлено UnresolvedException при создании временного представления дважды.
- 4 февраля 2021 г.
- Исправлена регрессия, которая предотвращает добавочное выполнение запроса, которое задает глобальный limit, например
SELECT * FROM table LIMIT nrows
. Эта регрессия была вызвана тем, что пользователи, выполняющие запросы через ODBC/JDBC, поддерживают сериализацию с помощью Arrow. - Введена проверка времени записи для клиента Hive, чтобы предотвратить повреждение метаданных в хранилище метаданных Hive для Delta tables.
- Исправлена регрессия, из-за которой DBFS FUSE не запускается, если конфигурации переменных среды кластера содержат недопустимый синтаксис bash.
- Исправлена регрессия, которая предотвращает добавочное выполнение запроса, которое задает глобальный limit, например
- 20 января 2021 г.
- Исправлена регрессия в выпуске обслуживания от 12 января 2021 г., которая может вызвать неправильную AnalysisException и сообщать, что column является неоднозначным в контексте self join. Эта регрессия происходит, когда пользователь присоединяется к кадру данных с производным кадром данных (так называемым самозаверяющейjoin) со следующими условиями:
- Эти два кадра данных имеют общие columns, но выходные данные самостоятельного join не имеют общих columns. Например:
df.join(df.select($"col" as "new_col"), cond)
- Производный DataFrame исключает некоторые columns с помощью select, groupBy или window.
- Условие join или следующее преобразование после присоединенного кадра данных относится к нераспространенным columns. Например:
df.join(df.drop("a"), df("a") === 1)
- Эти два кадра данных имеют общие columns, но выходные данные самостоятельного join не имеют общих columns. Например:
- Исправлена регрессия в выпуске обслуживания от 12 января 2021 г., которая может вызвать неправильную AnalysisException и сообщать, что column является неоднозначным в контексте self join. Эта регрессия происходит, когда пользователь присоединяется к кадру данных с производным кадром данных (так называемым самозаверяющейjoin) со следующими условиями:
- 12 января 2021 г.
- Обновление Azure Storage SDK с версии 2.3.8 до версии 2.3.9.
- [SPARK-33593][SQL] Средство чтения векторов получило неверные данные с двоичным значением partition
- [SPARK-33480][SQL] обновляет сообщение об ошибке проверки длины вставки для char/varchar table
Databricks Runtime 7.3 LTS (EoS)
См. раздел Databricks Runtime 7.3 LTS (EoS).
10 сентября 2023 г.
- Прочие исправления ошибок.
30 августа 2023 г.
- Обновления системы безопасности операционной системы.
15 августа 2023 г.
- Обновления системы безопасности операционной системы.
23 июня 2023 г.
- Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
- Обновления системы безопасности операционной системы.
15 июня 2023 г.
-
[SPARK-43413][SQL] Исправление
IN
допустимости вложенного запросаListQuery
null. - Обновления системы безопасности операционной системы.
-
[SPARK-43413][SQL] Исправление
2 июня 2023 г.
- Исправлена проблема в автозагрузчике where различные форматы исходных файлов были несогласованы, если предоставленные schema не включали выводные секции. Эта проблема может привести к непредвиденным сбоям при чтении файлов с отсутствующими columns в предполагаемом partitionschema.
17 мая 2023 г.
- Обновления системы безопасности операционной системы.
25 апреля 2023 г.
- Обновления системы безопасности операционной системы.
11 апреля 2023 г.
- [SPARK-42967][CORE] Исправление SparkListenerTaskStart.stageAttemptId при запуске задачи после отмены этапа.
- Прочие исправления ошибок.
29 марта 2023 г.
- Обновления системы безопасности операционной системы.
14 марта 2023 г.
- Прочие исправления ошибок.
28 февраля 2023 г.
- Обновления системы безопасности операционной системы.
16 февраля 2023 г.
- Обновления системы безопасности операционной системы.
31 января 2023 г.
- Table типы JDBC tables теперь по умолчанию внешними.
18 января 2023 г.
- Обновления системы безопасности операционной системы.
29 ноября 2022 г.
- Прочие исправления ошибок.
15 ноября 2022 г.
- Обновление Apache commons-text до версии 1.10.0.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
1 ноября 2022 г.
- [SPARK-38542][SQL] UnsafeHashedRelation должен сериализовать numKeys out
18 октября 2022 г.
- Обновления системы безопасности операционной системы.
5 октября 2022 г.
- Прочие исправления ошибок.
- Обновления системы безопасности операционной системы.
22 сентября 2022 г.
- [SPARK-40089][SQL] Исправление сортировки для некоторых десятичных типов
6 сентября 2022 г.
- [SPARK-35542][CORE][ML] Исправление: Bucketizer, созданный для нескольких columns с parameters splitsArray, inputCols и outputCols, нельзя загрузить после его сохранения.
- [SPARK-40079][CORE] Добавление проверки Imputer inputCols для пустого варианта ввода
24 августа 2022 г.
- [SPARK-39962][PYTHON][SQL] Применение проекции, если атрибуты группы пустые
- Обновления системы безопасности операционной системы.
9 августа 2022 г.
- Обновления системы безопасности операционной системы.
27 июля 2022 г.
- Убедитесь, что результаты операции MERGE Delta согласованы, если источник является недетерминированным.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
13 июля 2022 г.
- [SPARK-32680][SQL] Предварительная обработка V2 CTAS с неразрешенным запросом не выполняется.
- Отключено использование автозагрузчика собственных облачных API для перечисления каталогов в Azure.
- Обновления системы безопасности операционной системы.
5 июля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
2 июня 2022 г.
- [SPARK-38918][SQL] Вложенное column обрезание должно отфильтровывать атрибуты, которые не относятся к текущей таблице
- Обновления системы безопасности операционной системы.
18 мая 2022 г.
- Версия пакета SDK AWS обновлена с 1.11.655 до 1.11.678.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
19 апреля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
6 апреля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
14 марта 2022 г.
- Remove уязвимые классы из библиотеки log4j версии 1.2.17
- Прочие исправления ошибок.
23 февраля 2022 г.
- [SPARK-37859][SQL] Не проверяйте метаданные во время сравнения schema
8 февраля 2022 г.
- Обновление Ubuntu JDK до 1.8.0.312.
- Обновления системы безопасности операционной системы.
1 февраля 2022 г.
- Обновления системы безопасности операционной системы.
26 января 2022 г.
- Исправлена ошибка, когда команда whereOPTIMIZE завершалась ошибкой при включенном диалекте SQL ANSI.
19 января 2022 г.
- Канал Conda по умолчанию удален из версии ML LTS 7.3
- Обновления системы безопасности операционной системы.
7 декабря 2021 г.
- Обновления системы безопасности операционной системы.
4 ноября 2021 г.
- Исправлена ошибка, которая могла привести к сбою структурированных потоков передачи с использованием ArrayIndexOutOfBoundsException
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: No FileSystem for scheme
, или привести к тому, что изменения вsparkContext.hadoopConfiguration
не вступят в силу в запросах.
15 сентября 2021 г.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
. - Обновления системы безопасности операционной системы.
- Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например,
8 сентября 2021 г.
- [SPARK-35700][SQL][WARMFIX] Чтение char/varchar orc table, созданных и записанных внешними системами.
-
[SPARK-36532][CORE] [3.1] Исправлена взаимоблокировка в
CoarseGrainedExecutorBackend.onDisconnected
во избежаниеexecutorsconnected
для предотвращения зависания завершения работы исполнителя.
25 августа 2021 г.
- Соединитель Snowflake обновлен до версии 2.9.0.
29 июля 2021 г.
- [SPARK-36034][BUILD] Перемещение даты и времени в помещенных в стек фильтрах на Parquet
-
[SPARK-34508][BUILD] Пропустить
HiveExternalCatalogVersionsSuite
, если сеть не работает
14 июля 2021 г.
- Представлен формат
database.schema.table
для соединителя Azure Synapse. - Добавлена поддержка использования формата
databaseName.schemaName.tableName
в качестве целевого table, а не толькоschemaName.tableName
илиtableName
. - Исправлена ошибка, которая запрещает пользователям путешествовать во времени к более старым доступным версиям с Delta tables.
- Представлен формат
15 июня 2021 г.
- Исправляет ошибку
NoSuchElementException
в оптимизированных операциях записи Delta Lake, которые могут произойти при записи больших объемов данных и при возникновении потерь исполнителя - Обновлен Python с обновлением для системы безопасности для устранения уязвимости системы безопасности Python (CVE-2021-3177).
- Исправляет ошибку
30 апреля 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-35227][BUILD] Update сопоставитель для пакетов spark в SparkSubmit
- [SPARK-34245][CORE] Обеспечение при помощи Master удаления исполнителей, которым не удалось отправить завершенное состояние
- [SPARK-35045][SQL] Добавлен внутренний параметр для управления входным буфером однозначным образом
24 марта 2021 г.
- [SPARK-34768][SQL] Соблюдение размера входного буфера по умолчанию в Univocity
- [SPARK-34534] Исправлен порядок blockId при использовании FetchShuffleBlocks для получения блоков
- [SPARK-33118][SQL]CREATE TEMPORARY TABLE вызывает ошибку, связанную с расположением
9 марта 2021 г.
- Обновленный драйвер файловой системы Blob-объектов Azure для Azure Data Lake Storage 2-го поколения теперь включен по умолчанию. Он обеспечивает несколько улучшений стабильности.
- Исправлен разделитель пути в Windows для
databricks-connect get-jar-dir
- [пользовательский интерфейс] Исправление ссылки href визуализации Spark DAG
- [DBCONNECT] Добавлена поддержка FlatMapCoGroupsInPandas в Databricks Connect 7.3
-
Restore выходных данных schema
SHOW DATABASES
- [SQL] Используйте правильный ключ динамической обрезки построения при наличии указания диапазона join
- Отключение проверки устаревших данных для файлов Delta table в кэше дисков
- [SQL] Не generate перетасовка partition числового совета при включении AOS
24 февраля 2021 г.
- Обновлен соединитель Spark BigQuery до версии v0.18, в которой введены различные исправления ошибок, а также поддержка итераторов Arrow и Avro.
- Исправлена проблема правильности, из-за которой Spark возвращала неверные результаты, если десятичная точность и масштаб файла Parquet отличаются от schemaSpark.
- Исправлена проблема с сбоем чтения в Microsoft SQL Server tables, содержащем типы пространственных данных, добавлением поддержки типов JDBC geometry и geography для Spark SQL.
- Введена новая конфигурация
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Эта конфигурация управляет встроенной инициализацией Hive. Если set равно true, Azure Databricks перезагрузит все функции из всех баз данных, которыми располагают пользователи, в рамкахFunctionRegistry
. Это — действия по умолчанию в хранилище метаданных Hive. При установке set в значение false, Azure Databricks отключает этот процесс для оптимизации. - [SPARK-34212] Исправлены проблемы, связанные с чтением десятичных данных из файлов Parquet.
- [SPARK-33579][UI] Исправлена пустая страница исполнителя вслед за прокси-сервером.
- [SPARK-20044][UI] Добавлена поддержка пользовательского интерфейса Spark вслед за внешним обратным прокси-сервером с использованием префикса пути.
- [SPARK-33277][PYSPARK][SQL] ContextAwareIterator используется для прекращения потребления после выполнения задачи.
4 февраля 2021 г.
- Исправлена регрессия, которая предотвращает добавочное выполнение запроса, которое задает глобальный limit, например
SELECT * FROM table LIMIT nrows
. Эта регрессия была вызвана тем, что пользователи, выполняющие запросы через ODBC/JDBC, поддерживают сериализацию с помощью Arrow. - Исправлена регрессия, из-за которой DBFS FUSE не запускается, если конфигурации переменных среды кластера содержат недопустимый синтаксис bash.
- Исправлена регрессия, которая предотвращает добавочное выполнение запроса, которое задает глобальный limit, например
20 января 2021 г.
- Исправлена регрессия в выпуске обслуживания от 12 января 2021 г., которая может вызвать неправильную AnalysisException и сообщать, что column является неоднозначным в контексте self join. Эта регрессия происходит, когда пользователь присоединяется к кадру данных с производным кадром данных (так называемым самозаверяющейjoin) со следующими условиями:
- Эти два кадра данных имеют общие columns, но выходные данные самостоятельного join не имеют общих columns. Например:
df.join(df.select($"col" as "new_col"), cond)
- Производный DataFrame исключает некоторые columns с помощью select, groupBy или window.
- Условие join или следующее преобразование после присоединенного кадра данных относится к нераспространенным columns. Например:
df.join(df.drop("a"), df("a") === 1)
- Эти два кадра данных имеют общие columns, но выходные данные самостоятельного join не имеют общих columns. Например:
- Исправлена регрессия в выпуске обслуживания от 12 января 2021 г., которая может вызвать неправильную AnalysisException и сообщать, что column является неоднозначным в контексте self join. Эта регрессия происходит, когда пользователь присоединяется к кадру данных с производным кадром данных (так называемым самозаверяющейjoin) со следующими условиями:
12 января 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-33593][SQL] Средство чтения векторов получило неверные данные с двоичным значением partition
- [SPARK-33677][SQL] Правило LikeSimplification пропускается, если шаблон содержит какие-либо escape-символы (escapeChar)
- [SPARK-33592][ML][PYTHON] Параметры Pyspark ML Validator в estimatorParamMaps могут быть утеряны после сохранения и перезагрузки
- [SPARK-33071][SPARK-33536][SQL] Избегать изменения dataset_id в логическом плане внутри join(), чтобы не прерывать обнаружение неоднозначных самоподключений.
8 декабря 2020 г.
- [SPARK-33587] [CORE] Исполнитель теперь завершает работу при вложенных неустранимых ошибках
- [SPARK-27421][SQL] Исправлен фильтр для класса int column и класса value java.lang.String при обрезке partitioncolumn
- [SPARK-33316][SQL] Поддержка пользователя, предоставив schema значение NULL для ненулевого катализатора schema в записи Avro
- Здания Spark, запущенные с помощью Databricks Connect, могут зависнуть в течение неограниченного времени с
Executor$TaskRunner.$anonfun$copySessionState
трассировки стека исполнителя - Обновления системы безопасности операционной системы.
1 декабря 2020 г.
-
[SPARK-33404][SQL] [3.0] Исправлены неверные результаты в выражении
date_trunc
- [SPARK-33339][PYTHON] Приложение Pyspark теперь не зависает из-за ошибки, не связанной с исключением
- [SPARK-33183][SQL][HOTFIX] Исправьте правило оптимизатора и добавьте физическое правило для remove избыточных сортировки
- [SPARK-33371][PYTHON][3.0] Update setup.py и тесты для Python 3.9
- [SPARK-33391][SQL] element_at с CreateArray не учитывает индекс на основе единицы.
- [SPARK-33306][SQL]Timezone необходимо при приведении даты к строке
- [SPARK-33260][SQL] Исправлены неверные результаты из SortExec, если sortOrder имеет значение Stream
-
[SPARK-33404][SQL] [3.0] Исправлены неверные результаты в выражении
5 ноября 2020 г.
- Исправление блокировки ABFS и WASB в отношении
UserGroupInformation.getCurrentUser()
. - Устранение ошибки бесконечного цикла, когда читатель Avro считывает МАГИЧЕСКИЕ байты.
- Добавлена поддержка для привилегий ИСПОЛЬЗОВАНИЯ.
- Улучшения производительности в проверке привилегий table в контроле доступа.
- Исправление блокировки ABFS и WASB в отношении
13 октября 2020 г.
- Обновления системы безопасности операционной системы.
- Вы можете читать и записывать данные из DBFS с помощью подключения FUSE в /dbfs/, если используется кластер с поддержкой транзитных учетных данных с высоким уровнем параллелизма. Поддерживаются регулярные подключения, но подключения, необходимые для сквозного credentials, пока не поддерживаются.
- [SPARK-32999][SQL] используется Utils.getSimpleName, чтобы избежать попадания на неправильное имя класса в TreeNode
- [SPARK-32585][SQL] Поддержка перечисления scala в ScalaReflection
- Исправлены каталоги списков в подсоединении FUSE, содержащие имена файлов с недопустимыми XML-символами
- Для соединения FUSE больше не используется ListMultipartUploads
29 сентября 2020 г.
- [SPARK-32718][SQL] Remove ненужные ключевые слова для единиц интервала
- [SPARK-32635][SQL] Исправление свертываемого распространения
- Добавлен новый файл конфигурации
spark.shuffle.io.decoder.consolidateThreshold
. Set значение конфигурации наLong.MAX_VALUE
, чтобы пропустить консолидацию netty FrameBuffers, что предотвращаетjava.lang.IndexOutOfBoundsException
в крайних случаях.
25 апреля 2023 г.
- Обновления системы безопасности операционной системы.
11 апреля 2023 г.
- Прочие исправления ошибок.
29 марта 2023 г.
- Прочие исправления ошибок.
14 марта 2023 г.
- Обновления системы безопасности операционной системы.
28 февраля 2023 г.
- Обновления системы безопасности операционной системы.
16 февраля 2023 г.
- Обновления системы безопасности операционной системы.
31 января 2023 г.
- Прочие исправления ошибок.
18 января 2023 г.
- Обновления системы безопасности операционной системы.
29 ноября 2022 г.
- Обновления системы безопасности операционной системы.
15 ноября 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
1 ноября 2022 г.
- Обновления системы безопасности операционной системы.
18 октября 2022 г.
- Обновления системы безопасности операционной системы.
- 5 октября 2022 г.
- Обновления системы безопасности операционной системы.
- 24 августа 2022 г.
- Обновления системы безопасности операционной системы.
- 9 августа 2022 г.
- Обновления системы безопасности операционной системы.
- 27 июля 2022 г.
- Обновления системы безопасности операционной системы.
- 5 июля 2022 г.
- Обновления системы безопасности операционной системы.
- 2 июня 2022 г.
- Обновления системы безопасности операционной системы.
- 18 мая 2022 г.
- Обновления системы безопасности операционной системы.
- 19 апреля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
- 6 апреля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
- 14 марта 2022 г.
- Прочие исправления ошибок.
- 23 февраля 2022 г.
- Прочие исправления ошибок.
- 8 февраля 2022 г.
- Обновление Ubuntu JDK до 1.8.0.312.
- Обновления системы безопасности операционной системы.
- 1 февраля 2022 г.
- Обновления системы безопасности операционной системы.
- 19 января 2022 г.
- Обновления системы безопасности операционной системы.
- 22 сентября 2021 г.
- Обновления системы безопасности операционной системы.
- 30 апреля 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-35227][BUILD] Update сопоставитель для пакетов spark в SparkSubmit
- 12 января 2021 г.
- Обновления системы безопасности операционной системы.
- 8 декабря 2020 г.
- [SPARK-27421][SQL] Исправлен фильтр для класса int column и класса value java.lang.String при обрезке partitioncolumn
- Обновления системы безопасности операционной системы.
- 1 декабря 2020 г.
- [SPARK-33260][SQL] Исправлены неверные результаты из SortExec, если sortOrder имеет значение Stream
- 3 ноября 2020 г.
- Обновлена версия Java с версии 1.8.0 _252 до версии 1.8.0 _265.
- Исправление блокировки АБФС и WASB в отношении UserGroupInformation.getCurrentUser()
- 13 октября 2020 г.
- Обновления системы безопасности операционной системы.
Расширенная поддержка Databricks Runtime 6.4 (EoS)
См. статью Databricks Runtime 6.4 (EoS) и Databricks Runtime 6.4 Extended Support (EoS).
5 июля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
2 июня 2022 г.
- Обновления системы безопасности операционной системы.
18 мая 2022 г.
- Обновления системы безопасности операционной системы.
19 апреля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
6 апреля 2022 г.
- Обновления системы безопасности операционной системы.
- Прочие исправления ошибок.
14 марта 2022 г.
- Remove уязвимые классы из библиотеки log4j версии 1.2.17
- Прочие исправления ошибок.
23 февраля 2022 г.
- Прочие исправления ошибок.
8 февраля 2022 г.
- Обновление Ubuntu JDK до 1.8.0.312.
- Обновления системы безопасности операционной системы.
1 февраля 2022 г.
- Обновления системы безопасности операционной системы.
26 января 2022 г.
- Исправлена ошибка, когда команда whereOPTIMIZE завершалась ошибкой при включенном диалекте SQL ANSI.
19 января 2022 г.
- Обновления системы безопасности операционной системы.
8 декабря 2021 г.
- Обновления системы безопасности операционной системы.
22 сентября 2021 г.
- Обновления системы безопасности операционной системы.
15 июня 2021 г.
- [SPARK-35576][SQL] Редактовать конфиденциальную информацию в результате команды Set
7 июня 2021 г.
- Добавьте новый файл конфигурации под названием
spark.sql.maven.additionalRemoteRepositories
, разделенный запятыми строкой конфигурации дополнительного удаленного зеркала maven. По умолчанию это значение равноhttps://maven-central.storage-download.googleapis.com/maven2/
.
- Добавьте новый файл конфигурации под названием
30 апреля 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-35227][BUILD] Update сопоставитель для пакетов spark в SparkSubmit
9 марта 2021 г.
- Порт HADOOP-17215 для драйвера файловой системы BLOB-объектов Azure (поддержка условной перезаписи).
- Исправлен разделитель пути в Windows для
databricks-connect get-jar-dir
- Добавлена поддержка хранилища метаданных Hive версий 2.3.5, 2.3.6 и 2.3.7
- Указатель "totalResultsCollected" выводится ошибочно после сброса.
24 февраля 2021 г.
- Введена новая конфигурация
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Эта конфигурация управляет встроенной инициализацией Hive. Если set равно true, Azure Databricks перезагрузит все функции из всех баз данных, которыми располагают пользователи, в рамкахFunctionRegistry
. Это — действия по умолчанию в хранилище метаданных Hive. При установке set в значение false, Azure Databricks отключает этот процесс для оптимизации.
- Введена новая конфигурация
4 февраля 2021 г.
- Исправлена регрессия, которая предотвращает добавочное выполнение запроса, которое задает глобальный limit, например
SELECT * FROM table LIMIT nrows
. Эта регрессия была вызвана тем, что пользователи, выполняющие запросы через ODBC/JDBC, поддерживают сериализацию с помощью Arrow. - Исправлена регрессия, из-за которой DBFS FUSE не запускается, если конфигурации переменных среды кластера содержат недопустимый синтаксис bash.
- Исправлена регрессия, которая предотвращает добавочное выполнение запроса, которое задает глобальный limit, например
12 января 2021 г.
- Обновления системы безопасности операционной системы.
8 декабря 2020 г.
- [SPARK-27421][SQL] Исправлен фильтр для класса int column и класса value java.lang.String при обрезке partitioncolumn
- [SPARK-33183][SQL] Исправление правила оптимизатора EliminateSorts и добавление физического правила для remove избыточных сортировок
- [Runtime 6.4 ML GPU] Ранее нами была установлена неправильная версия (2.7.8-1 + cuda 11.1) NCCL. В этом выпуске исправления проведены до версии 2.4.8-1 + cuda 10.0, что совместимо с CUDA 10.0.
- Обновления системы безопасности операционной системы.
1 декабря 2020 г.
- [SPARK-33260][SQL] Исправлены неверные результаты из SortExec, если sortOrder имеет значение Stream
- [SPARK-32635][SQL] Исправление свертываемого распространения
3 ноября 2020 г.
- Обновлена версия Java с версии 1.8.0 _252 до версии 1.8.0 _265.
- Исправление блокировки АБФС и WASB в отношении UserGroupInformation.getCurrentUser()
- Устранение ошибки бесконечного цикла чтения Avro при чтении МАГИЧЕСКИХ байтов.
13 октября 2020 г.
- Обновления системы безопасности операционной системы.
- [SPARK-32999][SQL][2.4] используется Utils.getSimpleName, чтобы избежать попадания на неправильное имя класса в TreeNode
- Исправлены каталоги списков в подсоединении FUSE, содержащие имена файлов с недопустимыми XML-символами
- Для соединения FUSE больше не используется ListMultipartUploads
24 сентября 2020 г.
- Исправлено предыдущее ограничение: несмотря на сквозную передачу where в стандартном кластере, пользователи по-прежнему сталкиваются с ограничениями в реализации файловой системы. Теперь пользователи смогут получать доступ к локальной файловой системе без ограничений.
- Обновления системы безопасности операционной системы.
8 сентября 2020 г.
- Для Azure Synapse Analytics был создан новый параметр
maxbinlength
. Этот параметр используется для управления длиной column BinaryType columnsи переводится какVARBINARY(maxbinlength)
. Его можно set с помощью.option("maxbinlength", n)
, where 0 < n <= 8000. - Update обновите SDK Azure Storage до версии 8.6.4 и включите поддержку TCP keep alive с помощью драйвера WASB на connections.
- Для Azure Synapse Analytics был создан новый параметр
25 августа 2020 г.
- Исправлено неоднозначное разрешение атрибутов в самослиянии
18 августа 2020 г.
- [SPARK-32431][SQL] Проверка повторяющихся вложенных columns при чтении из встроенных источников данных
- Исправлено состояние гонки в соединителе АКС при использовании Trigger.Once.
11 августа 2020 г.
- [SPARK-28676][CORE] Избежание чрезмерного ведения журнала из ContextCleaner
3 августа 2020 г.
- Теперь можно использовать функцию преобразования LDA в кластере с транзитным включением.
- Обновления системы безопасности операционной системы.
7 июля 2020 г.
- Обновлена версия Java с версии 1.8.0_232 до версии 1.8.0_252.
21 апреля 2020 г.
- [SPARK-31312][SQL] Экземпляр класса кэша для экземпляра UDF в HiveFunctionWrapper
7 апреля 2020 г.
- Чтобы устранить проблему с Pandas UDF, которая не работает с PyArrow 0.15.0 и выше, мы добавили переменную среды (
ARROW_PRE_0_15_IPC_FORMAT=1
), чтобы обеспечить поддержку этих версий PyArrow. См. инструкции в [SPARK-29367].
- Чтобы устранить проблему с Pandas UDF, которая не работает с PyArrow 0.15.0 и выше, мы добавили переменную среды (
10 марта 2020 г.
- Оптимизированное автомасштабирование теперь используется по умолчанию в интерактивных кластерах в плане безопасности.
- Соединитель Snowflake (
spark-snowflake_2.11
), включенный в Databricks Runtime, обновляется до версии 2.5.9.snowflake-jdbc
обновлен до версии 3.12.0.
Databricks Runtime 5.5 LTS (EoS)
См. статью Databricks Runtime 5.5 LTS (EoS) и Databricks Runtime 5.5 Extended Support (EoS).
8 декабря 2021 г.
- Обновления системы безопасности операционной системы.
22 сентября 2021 г.
- Обновления системы безопасности операционной системы.
25 августа 2021 г.
- Произведен переход на использование более ранней версии некоторых ранее обновленных пакетов Python в 5.5 ML (расширенная поддержка) для поддержания лучшего паритета с версией 5.5 ML LTS (в настоящее время устарела). Обновленные различия между двумя версиями см. в [_]/Release-Notes/Runtime/5.5xml.md).
15 июня 2021 г.
- [SPARK-35576][SQL] Редактовать конфиденциальную информацию в результате команды Set
7 июня 2021 г.
- Добавьте новый файл конфигурации под названием
spark.sql.maven.additionalRemoteRepositories
, разделенный запятыми строкой конфигурации дополнительного удаленного зеркала maven. По умолчанию это значение равноhttps://maven-central.storage-download.googleapis.com/maven2/
.
- Добавьте новый файл конфигурации под названием
30 апреля 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-35227][BUILD] Update сопоставитель для пакетов spark в SparkSubmit
9 марта 2021 г.
- Порт HADOOP-17215 для драйвера файловой системы BLOB-объектов Azure (поддержка условной перезаписи).
24 февраля 2021 г.
- Введена новая конфигурация
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Эта конфигурация управляет встроенной инициализацией Hive. Если set равно true, Azure Databricks перезагрузит все функции из всех баз данных, которыми располагают пользователи, в рамкахFunctionRegistry
. Это — действия по умолчанию в хранилище метаданных Hive. При установке set в значение false, Azure Databricks отключает этот процесс для оптимизации.
- Введена новая конфигурация
12 января 2021 г.
- Обновления системы безопасности операционной системы.
- Исправление для [HADOOP-17130].
8 декабря 2020 г.
- [SPARK-27421][SQL] Исправлен фильтр для класса int column и класса value java.lang.String при обрезке partitioncolumn
- Обновления системы безопасности операционной системы.
1 декабря 2020 г.
- [SPARK-33260][SQL] Исправлены неверные результаты из SortExec, если sortOrder имеет значение Stream
- [SPARK-32635][SQL] Исправление свертываемого распространения
29 октября 2020 г.
- Обновлена версия Java с версии 1.8.0 _252 до версии 1.8.0 _265.
- Исправление блокировки АБФС и WASB в отношении UserGroupInformation.getCurrentUser()
- Устранение ошибки бесконечного цикла чтения Avro при чтении МАГИЧЕСКИХ байтов.
13 октября 2020 г.
- Обновления системы безопасности операционной системы.
- [SPARK-32999][SQL][2.4] используется Utils.getSimpleName, чтобы избежать попадания на неправильное имя класса в TreeNode
24 сентября 2020 г.
- Обновления системы безопасности операционной системы.
8 сентября 2020 г.
- Для Azure Synapse Analytics был создан новый параметр
maxbinlength
. Этот параметр используется для управления длиной column BinaryType columnsи переводится какVARBINARY(maxbinlength)
. Его можно set с помощью.option("maxbinlength", n)
, where 0 < n <= 8000.
- Для Azure Synapse Analytics был создан новый параметр
18 августа 2020 г.
- [SPARK-32431][SQL] Проверка повторяющихся вложенных columns при чтении из встроенных источников данных
- Исправлено состояние гонки в соединителе АКС при использовании Trigger.Once.
11 августа 2020 г.
- [SPARK-28676][CORE] Избежание чрезмерного ведения журнала из ContextCleaner
3 августа 2020 г.
- Обновления системы безопасности операционной системы
7 июля 2020 г.
- Обновлена версия Java с версии 1.8.0_232 до версии 1.8.0_252.
21 апреля 2020 г.
- [SPARK-31312][SQL] Экземпляр класса кэша для экземпляра UDF в HiveFunctionWrapper
7 апреля 2020 г.
- Чтобы устранить проблему с Pandas UDF, которая не работает с PyArrow 0.15.0 и выше, мы добавили переменную среды (
ARROW_PRE_0_15_IPC_FORMAT=1
), чтобы обеспечить поддержку этих версий PyArrow. См. инструкции в [SPARK-29367].
- Чтобы устранить проблему с Pandas UDF, которая не работает с PyArrow 0.15.0 и выше, мы добавили переменную среды (
25 марта 2020 г.
- Соединитель Snowflake (
spark-snowflake_2.11
), включенный в Databricks Runtime, обновляется до версии 2.5.9.snowflake-jdbc
обновлен до версии 3.12.0.
- Соединитель Snowflake (
10 марта 2020 г.
- Выходные данные задания, такие как выходные данные журнала, созданные в stdout, подвергаются limitразмером 20 МБ. Если общий объем выходных данных имеет больший размер, выполнение будет отменено и помечено как неудавшееся. Чтобы избежать возникновения этой limit, можно предотвратить возврат stdout от драйвера, задав конфигурацию
spark.databricks.driver.disableScalaOutput
Spark в значениеtrue
. По умолчанию флаг имеет значениеfalse
. Флаг контролирует выходные данные ячейки для заданий JAR Scala и записных книжек Scala. Если флаг включен, Spark не возвращает клиенту результаты выполнения задания. Флаг не влияет на данные, записываемые в файлы журналов кластера. Установка этого флага рекомендуется только для автоматических кластеров для заданий JAR, так как это приведет к отключению результатов записной книжки.
- Выходные данные задания, такие как выходные данные журнала, созданные в stdout, подвергаются limitразмером 20 МБ. Если общий объем выходных данных имеет больший размер, выполнение будет отменено и помечено как неудавшееся. Чтобы избежать возникновения этой limit, можно предотвратить возврат stdout от драйвера, задав конфигурацию
18 февраля 2020 г.
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 должно вызывать исключение
- Транзитная передача учетных данных с ADLS 2-го поколения имеет снижение производительности из-за неправильной локальной обработки цепочки, когда включена предварительная выборка клиентов ADLS. В этом выпуске отключена предварительная выборка ADLS 2-го поколения при включенной транзитной учетной записи, пока не будет установлено надлежащее исправление.
28 января 2020 г.
- [SPARK-30447][SQL] Постоянная проблема обнуляемости распространения.
14 января 2020 г.
- Обновлена версия Java с 1.8.0 _222 до 1.8.0 _232.
19 ноября 2019 г.
- [SPARK-29743] [SQL] образец должен set needCopyResult, чтобы иметь значение true, если требуется для дочернего объектаCopyResult
- Версия R была непредвиденно обновлена до версии 3.6.1 с версии 3.6.0. Мы перешли на использование более ранней версии 3.6.0.
5 ноября 2019 г.
- Обновлена версия Java с 1.8.0 _212 до 1.8.0 _222.
23 октября 2019 г.
- [SPARK-29244][CORE] Предотвращение повторного освобождения страницы в BytesToBytesMap
8 октября 2019 г.
- Изменения на стороне сервера, позволяющие драйверу Simba Apache Spark ODBC повторно подключаться и продолжать работу после сбоя подключения во время получения результатов (требуется драйвер Simba Apache Spark ODBC версии 2.6.10).
- Исправлена проблема, влияющая на использование команды
Optimize
с кластерами с поддержкой ACL table. - Исправлена проблема, в которой библиотеки where
pyspark.ml
завершались неудачей из-за ошибки, вызванной запрещенной операцией Scala UDF, в кластерах с включенными table ACL и передачей учетных данных. - Добавлены в список разрешений методы SerDe и SerDeUtil для передачи учетных данных.
- Внесены исправления в NullPointerException при проверке кода ошибки в клиенте WASB.
24 сентября 2019 г.
- Улучшена стабильность модуля записи Parquet.
- Исправлена проблема, из-за которой запрос Thrift, отмененный до начала его выполнения, мог зависнуть в состоянии STARTED.
10 сентября 2019 г.
- Добавить потокобезопасный итератор в BytesToBytesMap
- [SPARK-27992][SPARK-28881]Разрешить Python join с потоком подключения для распространения ошибок
- Исправлена ошибка, влияющая на определенные глобальные запросы на агрегирование.
- Улучшено исправление учетных данных.
- [SPARK-27330][SS] Поддержка прерывания задачи в средстве записи foreach
- [SPARK-28642]скрыть credentials в SHOW CREATE TABLE
- [SPARK-28699][SQL] Отключение использования сортировки системы счисления для ShuffleExchangeExec в случае повторного секционирования
27 августа 2019 г.
- [SPARK-20906][SQL]Разрешить schema, указанные пользователем, в to_avro API с реестром schema
- [SPARK-27838][SQL] Поддержка пользовательского avro schema, не допускающего значения NULL, для катализатора schema, допускающего значение NULL, без записей NULL.
- Доработка перехода по времени на Delta Lake
- Исправлена проблема, влияющая на определенное выражение
transform
- Поддерживает широковещательные переменные при включенной изоляции процессов
13 августа 2019 г.
- Источник потоковой передачи Delta должен проверить последний протокол table
- [SPARK-28260] Добавление состояние CLOSED в ExecutionState
- [SPARK-28489][SS]Исправлена ошибка, при которой KafkaOffsetRangeCalculator.getRanges мог не учитывать смещения
30 июля 2019 г.
- [SPARK-28015][SQL] Проверка stringToDate() использует все входные данные для форматов гггг и гггг-[м]м.
- [SPARK-28308][CORE] Часть CalendarInterval менее секунды должна быть увеличена перед анализом
- [SPARK-27485]EnsureRequirements.reorder теперь корректно обрабатывает дубликаты выражений
- [SPARK-28355][CORE] [PYTHON] Использование конфигурации Spark для порога, при котором UDF сжимается с помощью трансляции
Databricks Light 2.4 (расширенная поддержка)
См. раздел Databricks Light 2.4 (EoS) и Databricks Light 2.4 Extended Support (EoS).
Databricks Runtime 7.4 (EoS)
См. раздел Databricks Runtime 7.4 (EoS).
30 апреля 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-35227][BUILD] Update сопоставитель для пакетов spark в SparkSubmit
- [SPARK-34245][CORE] Обеспечение при помощи Master удаления исполнителей, которым не удалось отправить завершенное состояние
- [SPARK-35045][SQL] Добавление внутреннего параметра для управления входным буфером в univocity и конфигурацией для размера входного буфера CSV
24 марта 2021 г.
- [SPARK-34768][SQL] Соблюдение размера входного буфера по умолчанию в Univocity
- [SPARK-34534] Исправлен порядок blockId при использовании FetchShuffleBlocks для получения блоков
9 марта 2021 г.
- Обновленный драйвер файловой системы Blob-объектов Azure для Azure Data Lake Storage 2-го поколения теперь включен по умолчанию. Он обеспечивает несколько улучшений стабильности.
- [ES-67926][UI] Исправление ссылки href визуализации Spark DAG
- [ES-65064] Restore выход schema
SHOW DATABASES
- [SC-70522][SQL] Используйте правильный ключ динамического устранения при наличии подсказки диапазона join.
- [SC-35081] Отключение проверки устаревших данных для файлов Delta table в кэше дисков
- [SC-70640] Исправление NPE, если в ответе EventGridClient нет объекта
- [SC-70220][SQL] Не generate перемещайте partition числовые рекомендации при включении AOS
24 февраля 2021 г.
- Обновлен соединитель Spark BigQuery до версии v0.18, в которой введены различные исправления ошибок, а также поддержка итераторов Arrow и Avro.
- Исправлена проблема правильности, из-за которой Spark возвращала неверные результаты, если десятичная точность и масштаб файла Parquet отличаются от schemaSpark.
- Исправлена проблема с сбоем чтения в Microsoft SQL Server tables, содержащем типы пространственных данных, добавлением поддержки типов JDBC geometry и geography для Spark SQL.
- Введена новая конфигурация
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Эта конфигурация управляет встроенной инициализацией Hive. Если set равно true, Azure Databricks перезагрузит все функции из всех баз данных, которыми располагают пользователи, в рамкахFunctionRegistry
. Это — действия по умолчанию в хранилище метаданных Hive. При установке set в значение false, Azure Databricks отключает этот процесс для оптимизации. - [SPARK-34212] Исправлены проблемы, связанные с чтением десятичных данных из файлов Parquet.
- [SPARK-33579][UI] Исправлена пустая страница исполнителя вслед за прокси-сервером.
- [SPARK-20044][UI] Добавлена поддержка пользовательского интерфейса Spark вслед за внешним обратным прокси-сервером с использованием префикса пути.
- [SPARK-33277][PYSPARK][SQL] ContextAwareIterator используется для прекращения потребления после выполнения задачи.
4 февраля 2021 г.
- Исправлена регрессия, которая предотвращает добавочное выполнение запроса, которое задает глобальный limit, например
SELECT * FROM table LIMIT nrows
. Эта регрессия была вызвана тем, что пользователи, выполняющие запросы через ODBC/JDBC, поддерживают сериализацию с помощью Arrow. - Исправлена регрессия, из-за которой DBFS FUSE не запускается, если конфигурации переменных среды кластера содержат недопустимый синтаксис bash.
- Исправлена регрессия, которая предотвращает добавочное выполнение запроса, которое задает глобальный limit, например
20 января 2021 г.
- Исправлена регрессия в выпуске обслуживания от 12 января 2021 г., которая может вызвать неправильную AnalysisException и сообщать, что column является неоднозначным в контексте self join. Эта регрессия происходит, когда пользователь присоединяется к кадру данных с производным кадром данных (так называемым самозаверяющейjoin) со следующими условиями:
- Эти два кадра данных имеют общие columns, но выходные данные самостоятельного join не имеют общих columns. Например:
df.join(df.select($"col" as "new_col"), cond)
- Производный DataFrame исключает некоторые columns с помощью select, groupBy или window.
- Условие join или следующее преобразование после присоединенного кадра данных относится к нераспространенным columns. Например:
df.join(df.drop("a"), df("a") === 1)
- Эти два кадра данных имеют общие columns, но выходные данные самостоятельного join не имеют общих columns. Например:
- Исправлена регрессия в выпуске обслуживания от 12 января 2021 г., которая может вызвать неправильную AnalysisException и сообщать, что column является неоднозначным в контексте self join. Эта регрессия происходит, когда пользователь присоединяется к кадру данных с производным кадром данных (так называемым самозаверяющейjoin) со следующими условиями:
12 января 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-33593][SQL] Средство чтения векторов получило неверные данные с двоичным значением partition
- [SPARK-33677][SQL] Правило LikeSimplification пропускается, если шаблон содержит какие-либо escape-символы (escapeChar)
- [SPARK-33071][SPARK-33536][SQL] Избегать изменения dataset_id в логическом плане внутри join(), чтобы не прерывать обнаружение неоднозначных самоподключений.
8 декабря 2020 г.
- [SPARK-33587] [CORE] Исполнитель теперь завершает работу при вложенных неустранимых ошибках
- [SPARK-27421][SQL] Исправлен фильтр для класса int column и класса value java.lang.String при обрезке partitioncolumn
- [SPARK-33316][SQL] Поддержка пользователя, предоставив schema значение NULL для ненулевого катализатора schema в записи Avro
- Обновления системы безопасности операционной системы.
1 декабря 2020 г.
-
[SPARK-33404][SQL] [3.0] Исправлены неверные результаты в выражении
date_trunc
- [SPARK-33339][PYTHON] Приложение Pyspark теперь не зависает из-за ошибки, не связанной с исключением
- [SPARK-33183][SQL][HOTFIX] Исправьте правило оптимизатора и добавьте физическое правило для remove избыточных сортировки
- [SPARK-33371][PYTHON][3.0] Update setup.py и тесты для Python 3.9
- [SPARK-33391][SQL] element_at с CreateArray не учитывает индекс на основе единицы.
- [SPARK-33306][SQL]Timezone необходимо при приведении даты к строке
- [SPARK-33260][SQL] Исправлены неверные результаты из SortExec, если sortOrder имеет значение Stream
- [SPARK-33272][SQL] Урезано сопоставление атрибутов в QueryPlan.transformUpWithNewOutput
-
[SPARK-33404][SQL] [3.0] Исправлены неверные результаты в выражении
Databricks Runtime 7.2 (EoS)
См. раздел Databricks Runtime 7.2 (EoS).
4 февраля 2021 г.
- Исправлена регрессия, которая предотвращает добавочное выполнение запроса, которое задает глобальный limit, например
SELECT * FROM table LIMIT nrows
. Эта регрессия была вызвана тем, что пользователи, выполняющие запросы через ODBC/JDBC, поддерживают сериализацию с помощью Arrow. - Исправлена регрессия, из-за которой DBFS FUSE не запускается, если конфигурации переменных среды кластера содержат недопустимый синтаксис bash.
- Исправлена регрессия, которая предотвращает добавочное выполнение запроса, которое задает глобальный limit, например
20 января 2021 г.
- Исправлена регрессия в выпуске обслуживания от 12 января 2021 г., которая может вызвать неправильную AnalysisException и сообщать, что column является неоднозначным в контексте self join. Эта регрессия происходит, когда пользователь присоединяется к кадру данных с производным кадром данных (так называемым самозаверяющейjoin) со следующими условиями:
- Эти два кадра данных имеют общие columns, но выходные данные самостоятельного join не имеют общих columns. Например:
df.join(df.select($"col" as "new_col"), cond)
- Производный DataFrame исключает некоторые columns с помощью select, groupBy или window.
- Условие join или следующее преобразование после присоединенного кадра данных относится к нераспространенным columns. Например:
df.join(df.drop("a"), df("a") === 1)
- Эти два кадра данных имеют общие columns, но выходные данные самостоятельного join не имеют общих columns. Например:
- Исправлена регрессия в выпуске обслуживания от 12 января 2021 г., которая может вызвать неправильную AnalysisException и сообщать, что column является неоднозначным в контексте self join. Эта регрессия происходит, когда пользователь присоединяется к кадру данных с производным кадром данных (так называемым самозаверяющейjoin) со следующими условиями:
12 января 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-33593][SQL] Средство чтения векторов получило неверные данные с двоичным значением partition
- [SPARK-33677][SQL] Правило LikeSimplification пропускается, если шаблон содержит какие-либо escape-символы (escapeChar)
- [SPARK-33071][SPARK-33536][SQL] Избегать изменения dataset_id в логическом плане внутри join(), чтобы не прерывать обнаружение неоднозначных самоподключений.
8 декабря 2020 г.
- [SPARK-27421][SQL] Исправлен фильтр для класса int column и класса value java.lang.String при обрезке partitioncolumn
-
[SPARK-33404][SQL] Исправлены неверные результаты в выражении
date_trunc
- [SPARK-33339][PYTHON] Приложение Pyspark теперь не зависает из-за ошибки, не связанной с исключением
- [SPARK-33183][SQL] Исправление правила оптимизатора EliminateSorts и добавление физического правила для remove избыточных сортировок
- [SPARK-33391][SQL] element_at с CreateArray не учитывает индекс на основе единицы.
- Обновления системы безопасности операционной системы.
1 декабря 2020 г.
- [SPARK-33306][SQL]Timezone необходимо при приведении даты к строке
- [SPARK-33260][SQL] Исправлены неверные результаты из SortExec, если sortOrder имеет значение Stream
3 ноября 2020 г.
- Обновлена версия Java с версии 1.8.0 _252 до версии 1.8.0 _265.
- Исправление блокировки АБФС и WASB в отношении UserGroupInformation.getCurrentUser()
- Устранение ошибки бесконечного цикла чтения Avro при чтении МАГИЧЕСКИХ байтов.
13 октября 2020 г.
- Обновления системы безопасности операционной системы.
- [SPARK-32999][SQL] используется Utils.getSimpleName, чтобы избежать попадания на неправильное имя класса в TreeNode
- Исправлены каталоги списков в подсоединении FUSE, содержащие имена файлов с недопустимыми XML-символами
- Для соединения FUSE больше не используется ListMultipartUploads
29 сентября 2020 г.
- [SPARK-28863][SQL][WARMFIX] Внедрение AlreadyOptimized, чтобы предотвратить повторный анализ V1FallbackWriters
- [SPARK-32635][SQL] Исправление свертываемого распространения
- Добавлен новый файл конфигурации
spark.shuffle.io.decoder.consolidateThreshold
. Set значение конфигурации наLong.MAX_VALUE
, чтобы пропустить консолидацию netty FrameBuffers, что предотвращаетjava.lang.IndexOutOfBoundsException
в крайних случаях.
24 сентября 2020 г.
- [SPARK-32764][SQL] -0,0 должен быть равен 0,0
- [SPARK-32753][SQL] Копирование только тегов в узел без тегов при преобразовании планов
- [SPARK-32659][SQL] Исправлена проблема с данными вставленной динамической Partition обрезки не атомарных типов
- Обновления системы безопасности операционной системы.
8 сентября 2020 г.
- Для Azure Synapse Analytics был создан новый параметр
maxbinlength
. Этот параметр используется для управления длиной column BinaryType columnsи переводится какVARBINARY(maxbinlength)
. Его можно set с помощью.option("maxbinlength", n)
, where 0 < n <= 8000.
- Для Azure Synapse Analytics был создан новый параметр
Databricks Runtime 7.1 (EoS)
См. раздел Databricks Runtime 7.1 (EoS).
4 февраля 2021 г.
- Исправлена регрессия, из-за которой DBFS FUSE не запускается, если конфигурации переменных среды кластера содержат недопустимый синтаксис bash.
20 января 2021 г.
- Исправлена регрессия в выпуске обслуживания от 12 января 2021 г., которая может вызвать неправильную AnalysisException и сообщать, что column является неоднозначным в контексте self join. Эта регрессия происходит, когда пользователь присоединяется к кадру данных с производным кадром данных (так называемым самозаверяющейjoin) со следующими условиями:
- Эти два кадра данных имеют общие columns, но выходные данные самостоятельного join не имеют общих columns. Например:
df.join(df.select($"col" as "new_col"), cond)
- Производный DataFrame исключает некоторые columns с помощью select, groupBy или window.
- Условие join или следующее преобразование после присоединенного кадра данных относится к нераспространенным columns. Например:
df.join(df.drop("a"), df("a") === 1)
- Эти два кадра данных имеют общие columns, но выходные данные самостоятельного join не имеют общих columns. Например:
- Исправлена регрессия в выпуске обслуживания от 12 января 2021 г., которая может вызвать неправильную AnalysisException и сообщать, что column является неоднозначным в контексте self join. Эта регрессия происходит, когда пользователь присоединяется к кадру данных с производным кадром данных (так называемым самозаверяющейjoin) со следующими условиями:
12 января 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-33593][SQL] Средство чтения векторов получило неверные данные с двоичным значением partition
- [SPARK-33677][SQL] Правило LikeSimplification пропускается, если шаблон содержит какие-либо escape-символы (escapeChar)
- [SPARK-33071][SPARK-33536][SQL] Избегать изменения dataset_id в логическом плане внутри join(), чтобы не прерывать обнаружение неоднозначных самоподключений.
8 декабря 2020 г.
- [SPARK-27421][SQL] Исправлен фильтр для класса int column и класса value java.lang.String при обрезке partitioncolumn
- Здания Spark, запущенные с помощью Databricks Connect, могут зависнуть в течение неограниченного времени с
Executor$TaskRunner.$anonfun$copySessionState
трассировки стека исполнителя - Обновления системы безопасности операционной системы.
1 декабря 2020 г.
-
[SPARK-33404][SQL] [3.0] Исправлены неверные результаты в выражении
date_trunc
- [SPARK-33339][PYTHON] Приложение Pyspark теперь не зависает из-за ошибки, не связанной с исключением
- [SPARK-33183][SQL][HOTFIX] Исправьте правило оптимизатора и добавьте физическое правило для remove избыточных сортировки
- [SPARK-33371][PYTHON][3.0] Update setup.py и тесты для Python 3.9
- [SPARK-33391][SQL] element_at с CreateArray не учитывает индекс на основе единицы.
- [SPARK-33306][SQL]Timezone необходимо при приведении даты к строке
-
[SPARK-33404][SQL] [3.0] Исправлены неверные результаты в выражении
3 ноября 2020 г.
- Обновлена версия Java с версии 1.8.0 _252 до версии 1.8.0 _265.
- Исправление блокировки АБФС и WASB в отношении UserGroupInformation.getCurrentUser()
- Устранение ошибки бесконечного цикла чтения Avro при чтении МАГИЧЕСКИХ байтов.
13 октября 2020 г.
- Обновления системы безопасности операционной системы.
- [SPARK-32999][SQL] используется Utils.getSimpleName, чтобы избежать попадания на неправильное имя класса в TreeNode
- Исправлены каталоги списков в подсоединении FUSE, содержащие имена файлов с недопустимыми XML-символами
- Для соединения FUSE больше не используется ListMultipartUploads
29 сентября 2020 г.
- [SPARK-28863][SQL][WARMFIX] Внедрение AlreadyOptimized, чтобы предотвратить повторный анализ V1FallbackWriters
- [SPARK-32635][SQL] Исправление свертываемого распространения
- Добавлен новый файл конфигурации
spark.shuffle.io.decoder.consolidateThreshold
. Set значение конфигурации наLong.MAX_VALUE
, чтобы пропустить консолидацию netty FrameBuffers, что предотвращаетjava.lang.IndexOutOfBoundsException
в крайних случаях.
24 сентября 2020 г.
- [SPARK-32764][SQL] -0,0 должен быть равен 0,0
- [SPARK-32753][SQL] Копирование только тегов в узел без тегов при преобразовании планов
- [SPARK-32659][SQL] Исправлена проблема с данными вставленной динамической Partition обрезки не атомарных типов
- Обновления системы безопасности операционной системы.
8 сентября 2020 г.
- Для Azure Synapse Analytics был создан новый параметр
maxbinlength
. Этот параметр используется для управления длиной column BinaryType columnsи переводится какVARBINARY(maxbinlength)
. Его можно set с помощью.option("maxbinlength", n)
, where 0 < n <= 8000.
- Для Azure Synapse Analytics был создан новый параметр
25 августа 2020 г.
-
[SPARK-32159][SQL] Исправление интеграции между
Aggregator[Array[_], _, _]
иUnresolvedMapObjects
-
[SPARK-32559][SQL] Исправление логики обрезки в
UTF8String.toInt/toLong
, которая неправильно обрабатывала символы, отличные от ASCII -
[SPARK-32543][R] Remove
arrow::as_tibble
использование в SparkR - [SPARK-32091][CORE] Игнорирование ошибки времени ожидания при удалении блоков в потерянном исполнителе
- Исправлена проблема, влияющая на соединитель Azure Synapse с MSI credentials
- Исправлено неоднозначное разрешение атрибутов в самослиянии
-
[SPARK-32159][SQL] Исправление интеграции между
18 августа 2020 г.
- [SPARK-32594][SQL] Исправлена сериализация дат, вставленных в Hive tables
- [SPARK-32237][SQL] Разрешение указания в CTE
- [SPARK-32431][SQL] Проверка повторяющихся вложенных columns при чтении из встроенных источников данных
- [SPARK-32467][UI] Избежание кодирования URL-адреса дважды при перенаправлении https
- Исправлено состояние гонки в соединителе АКС при использовании Trigger.Once.
11 августа 2020 г.
- [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight должен перезаписывать атрибуты только для узлов-предков плана конфликтов
- [SPARK-32234][SQL] Команды Spark SQL завершаются ошибкой при выборе tables ORC
3 августа 2020 г.
- Теперь можно использовать функцию преобразования LDA в кластере с транзитным включением.
Databricks Runtime 7.0 (EoS)
См. раздел Databricks Runtime 7.0 (EoS).
4 февраля 2021 г.
- Исправлена регрессия, из-за которой DBFS FUSE не запускается, если конфигурации переменных среды кластера содержат недопустимый синтаксис bash.
20 января 2021 г.
- Исправлена регрессия в выпуске обслуживания от 12 января 2021 г., которая может вызвать неправильную AnalysisException и сообщать, что column является неоднозначным в контексте self join. Эта регрессия происходит, когда пользователь присоединяется к кадру данных с производным кадром данных (так называемым самозаверяющейjoin) со следующими условиями:
- Эти два кадра данных имеют общие columns, но выходные данные самостоятельного join не имеют общих columns. Например:
df.join(df.select($"col" as "new_col"), cond)
- Производный DataFrame исключает некоторые columns с помощью select, groupBy или window.
- Условие join или следующее преобразование после присоединенного кадра данных относится к нераспространенным columns. Например:
df.join(df.drop("a"), df("a") === 1)
- Эти два кадра данных имеют общие columns, но выходные данные самостоятельного join не имеют общих columns. Например:
- Исправлена регрессия в выпуске обслуживания от 12 января 2021 г., которая может вызвать неправильную AnalysisException и сообщать, что column является неоднозначным в контексте self join. Эта регрессия происходит, когда пользователь присоединяется к кадру данных с производным кадром данных (так называемым самозаверяющейjoin) со следующими условиями:
12 января 2021 г.
- Обновления системы безопасности операционной системы.
- [SPARK-33593][SQL] Средство чтения векторов получило неверные данные с двоичным значением partition
- [SPARK-33677][SQL] Правило LikeSimplification пропускается, если шаблон содержит какие-либо escape-символы (escapeChar)
- [SPARK-33071][SPARK-33536][SQL] Избегать изменения dataset_id в логическом плане внутри join(), чтобы не прерывать обнаружение неоднозначных самоподключений.
8 декабря 2020 г.
- [SPARK-27421][SQL] Исправлен фильтр для класса int column и класса value java.lang.String при обрезке partitioncolumn
-
[SPARK-33404][SQL] Исправлены неверные результаты в выражении
date_trunc
- [SPARK-33339][PYTHON] Приложение Pyspark теперь не зависает из-за ошибки, не связанной с исключением
- [SPARK-33183][SQL] Исправление правила оптимизатора EliminateSorts и добавление физического правила для remove избыточных сортировок
- [SPARK-33391][SQL] element_at с CreateArray не учитывает индекс на основе единицы.
- Обновления системы безопасности операционной системы.
1 декабря 2020 г.
- [SPARK-33306][SQL]Timezone необходимо при приведении даты к строке
3 ноября 2020 г.
- Обновлена версия Java с версии 1.8.0 _252 до версии 1.8.0 _265.
- Исправление блокировки АБФС и WASB в отношении UserGroupInformation.getCurrentUser()
- Устранение ошибки бесконечного цикла чтения Avro при чтении МАГИЧЕСКИХ байтов.
13 октября 2020 г.
- Обновления системы безопасности операционной системы.
- [SPARK-32999][SQL] используется Utils.getSimpleName, чтобы избежать попадания на неправильное имя класса в TreeNode
- Исправлены каталоги списков в подсоединении FUSE, содержащие имена файлов с недопустимыми XML-символами
- Для соединения FUSE больше не используется ListMultipartUploads
29 сентября 2020 г.
- [SPARK-28863][SQL][WARMFIX] Внедрение AlreadyOptimized, чтобы предотвратить повторный анализ V1FallbackWriters
- [SPARK-32635][SQL] Исправление свертываемого распространения
- Добавлен новый файл конфигурации
spark.shuffle.io.decoder.consolidateThreshold
. Set значение конфигурации наLong.MAX_VALUE
, чтобы пропустить консолидацию netty FrameBuffers, что предотвращаетjava.lang.IndexOutOfBoundsException
в крайних случаях.
24 сентября 2020 г.
- [SPARK-32764][SQL] -0,0 должен быть равен 0,0
- [SPARK-32753][SQL] Копирование только тегов в узел без тегов при преобразовании планов
- [SPARK-32659][SQL] Исправлена проблема с данными вставленной динамической Partition обрезки не атомарных типов
- Обновления системы безопасности операционной системы.
8 сентября 2020 г.
- Для Azure Synapse Analytics был создан новый параметр
maxbinlength
. Этот параметр используется для управления длиной column BinaryType columnsи переводится какVARBINARY(maxbinlength)
. Его можно set с помощью.option("maxbinlength", n)
, where 0 < n <= 8000.
- Для Azure Synapse Analytics был создан новый параметр
25 августа 2020 г.
-
[SPARK-32159][SQL] Исправление интеграции между
Aggregator[Array[_], _, _]
иUnresolvedMapObjects
-
[SPARK-32559][SQL] Исправление логики обрезки в
UTF8String.toInt/toLong
, которая неправильно обрабатывала символы, отличные от ASCII -
[SPARK-32543][R] Remove
arrow::as_tibble
использование в SparkR - [SPARK-32091][CORE] Игнорирование ошибки времени ожидания при удалении блоков в потерянном исполнителе
- Исправлена проблема, влияющая на соединитель Azure Synapse с MSI credentials
- Исправлено неоднозначное разрешение атрибутов в самослиянии
-
[SPARK-32159][SQL] Исправление интеграции между
18 августа 2020 г.
- [SPARK-32594][SQL] Исправлена сериализация дат, вставленных в Hive tables
- [SPARK-32237][SQL] Разрешение указания в CTE
- [SPARK-32431][SQL] Проверка повторяющихся вложенных columns при чтении из встроенных источников данных
- [SPARK-32467][UI] Избежание кодирования URL-адреса дважды при перенаправлении https
- Исправлено состояние гонки в соединителе АКС при использовании Trigger.Once.
11 августа 2020 г.
- [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight должен перезаписывать атрибуты только для узлов-предков плана конфликтов
- [SPARK-32234][SQL] Команды Spark SQL завершаются ошибкой при выборе tables ORC
- Теперь можно использовать функцию преобразования LDA в кластере с транзитным включением.
Databricks Runtime 6.6 (EoS)
См. раздел Databricks Runtime 6.6 (EoS).
1 декабря 2020 г.
- [SPARK-33260][SQL] Исправлены неверные результаты из SortExec, если sortOrder имеет значение Stream
- [SPARK-32635][SQL] Исправление свертываемого распространения
3 ноября 2020 г.
- Обновлена версия Java с версии 1.8.0 _252 до версии 1.8.0 _265.
- Исправление блокировки АБФС и WASB в отношении UserGroupInformation.getCurrentUser()
- Устранение ошибки бесконечного цикла чтения Avro при чтении МАГИЧЕСКИХ байтов.
13 октября 2020 г.
- Обновления системы безопасности операционной системы.
- [SPARK-32999][SQL][2.4] используется Utils.getSimpleName, чтобы избежать попадания на неправильное имя класса в TreeNode
- Исправлены каталоги списков в подсоединении FUSE, содержащие имена файлов с недопустимыми XML-символами
- Для соединения FUSE больше не используется ListMultipartUploads
24 сентября 2020 г.
- Обновления системы безопасности операционной системы.
8 сентября 2020 г.
- Для Azure Synapse Analytics был создан новый параметр
maxbinlength
. Этот параметр используется для управления длиной column BinaryType columnsи переводится какVARBINARY(maxbinlength)
. Его можно set с помощью.option("maxbinlength", n)
, where 0 < n <= 8000. - Update обновите SDK Azure Storage до версии 8.6.4 и включите поддержку TCP keep alive с помощью драйвера WASB на connections.
- Для Azure Synapse Analytics был создан новый параметр
25 августа 2020 г.
- Исправлено неоднозначное разрешение атрибутов в самослиянии
18 августа 2020 г.
- [SPARK-32431][SQL] Проверка повторяющихся вложенных columns при чтении из встроенных источников данных
- Исправлено состояние гонки в соединителе АКС при использовании Trigger.Once.
11 августа 2020 г.
- [SPARK-28676][CORE] Избежание чрезмерного ведения журнала из ContextCleaner
- [SPARK-31967][UI] Переход к предыдущей версии vis.js 4.21.0 для исправления регрессии времени загрузки пользовательского интерфейса задания
3 августа 2020 г.
- Теперь можно использовать функцию преобразования LDA в кластере с транзитным включением.
- Обновления системы безопасности операционной системы.
Databricks Runtime 6.5 (EoS)
См. раздел Databricks Runtime 6.5 (EoS).
- 24 сентября 2020 г.
- Исправлено предыдущее ограничение: несмотря на сквозную передачу where в стандартном кластере, пользователи по-прежнему сталкиваются с ограничениями в реализации файловой системы. Теперь пользователи смогут получать доступ к локальной файловой системе без ограничений.
- Обновления системы безопасности операционной системы.
- 8 сентября 2020 г.
- Для Azure Synapse Analytics был создан новый параметр
maxbinlength
. Этот параметр используется для управления длиной column BinaryType columnsи переводится какVARBINARY(maxbinlength)
. Его можно set с помощью.option("maxbinlength", n)
, where 0 < n <= 8000. - Update обновите SDK Azure Storage до версии 8.6.4 и включите поддержку TCP keep alive с помощью драйвера WASB на connections.
- Для Azure Synapse Analytics был создан новый параметр
- 25 августа 2020 г.
- Исправлено неоднозначное разрешение атрибутов в самослиянии
- 18 августа 2020 г.
- [SPARK-32431][SQL] Проверка повторяющихся вложенных columns при чтении из встроенных источников данных
- Исправлено состояние гонки в соединителе АКС при использовании Trigger.Once.
- 11 августа 2020 г.
- [SPARK-28676][CORE] Избежание чрезмерного ведения журнала из ContextCleaner
- 3 августа 2020 г.
- Теперь можно использовать функцию преобразования LDA в кластере с транзитным включением.
- Обновления системы безопасности операционной системы.
- 7 июля 2020 г.
- Обновлена версия Java с 1.8.0 _242 до 1.8.0 _252.
- 21 апреля 2020 г.
- [SPARK-31312][SQL] Экземпляр класса кэша для экземпляра UDF в HiveFunctionWrapper
Databricks Runtime 6.3 (EoS)
См. раздел Databricks Runtime 6.3 (EoS).
- 7 июля 2020 г.
- Обновлена версия Java с версии 1.8.0_232 до версии 1.8.0_252.
- 21 апреля 2020 г.
- [SPARK-31312][SQL] Экземпляр класса кэша для экземпляра UDF в HiveFunctionWrapper
- 7 апреля 2020 г.
- Чтобы устранить проблему с Pandas UDF, которая не работает с PyArrow 0.15.0 и выше, мы добавили переменную среды (
ARROW_PRE_0_15_IPC_FORMAT=1
), чтобы обеспечить поддержку этих версий PyArrow. См. инструкции в [SPARK-29367].
- Чтобы устранить проблему с Pandas UDF, которая не работает с PyArrow 0.15.0 и выше, мы добавили переменную среды (
- 10 марта 2020 г.
- Соединитель Snowflake (
spark-snowflake_2.11
), включенный в Databricks Runtime, обновляется до версии 2.5.9.snowflake-jdbc
обновлен до версии 3.12.0.
- Соединитель Snowflake (
- 18 февраля 2020 г.
- Транзитная передача учетных данных с ADLS 2-го поколения имеет снижение производительности из-за неправильной локальной обработки цепочки, когда включена предварительная выборка клиентов ADLS. В этом выпуске отключена предварительная выборка ADLS 2-го поколения при включенной транзитной учетной записи, пока не будет установлено надлежащее исправление.
- 11 февраля 2020 г.
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 должно вызывать исключение
- [SPARK-30447][SQL] Ошибка при распространении констант, допускающих значения null
- [SPARK-28152][SQL] Добавление устаревшего объекта conf для старого числового сопоставления MsSqlServerDialect
- Добавлена в список разрешений функция перезаписи, чтобы имелась возможность вызвать эту функцию с помощью расширений MLModels MLWriter.
Databricks Runtime 6.2 (EoS)
См. раздел Databricks Runtime 6.2 (EoS).
- 21 апреля 2020 г.
- [SPARK-31312][SQL] Экземпляр класса кэша для экземпляра UDF в HiveFunctionWrapper
- 7 апреля 2020 г.
- Чтобы устранить проблему с Pandas UDF, которая не работает с PyArrow 0.15.0 и выше, мы добавили переменную среды (
ARROW_PRE_0_15_IPC_FORMAT=1
), чтобы обеспечить поддержку этих версий PyArrow. См. инструкции в [SPARK-29367].
- Чтобы устранить проблему с Pandas UDF, которая не работает с PyArrow 0.15.0 и выше, мы добавили переменную среды (
- 25 марта 2020 г.
- Выходные данные задания, такие как выходные данные журнала, созданные в stdout, подвергаются limitразмером 20 МБ. Если общий объем выходных данных имеет больший размер, выполнение будет отменено и помечено как неудавшееся. Чтобы избежать возникновения этой limit, можно предотвратить возврат stdout от драйвера, задав конфигурацию
spark.databricks.driver.disableScalaOutput
Spark в значениеtrue
. По умолчанию флаг имеет значениеfalse
. Флаг контролирует выходные данные ячейки для заданий JAR Scala и записных книжек Scala. Если флаг включен, Spark не возвращает клиенту результаты выполнения задания. Флаг не влияет на данные, записываемые в файлы журналов кластера. Установка этого флага рекомендуется только для автоматических кластеров для заданий JAR, так как это приведет к отключению результатов записной книжки.
- Выходные данные задания, такие как выходные данные журнала, созданные в stdout, подвергаются limitразмером 20 МБ. Если общий объем выходных данных имеет больший размер, выполнение будет отменено и помечено как неудавшееся. Чтобы избежать возникновения этой limit, можно предотвратить возврат stdout от драйвера, задав конфигурацию
- 10 марта 2020 г.
- Соединитель Snowflake (
spark-snowflake_2.11
), включенный в Databricks Runtime, обновляется до версии 2.5.9.snowflake-jdbc
обновлен до версии 3.12.0.
- Соединитель Snowflake (
- 18 февраля 2020 г.
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 должно вызывать исключение
- Транзитная передача учетных данных с ADLS 2-го поколения имеет снижение производительности из-за неправильной локальной обработки цепочки, когда включена предварительная выборка клиентов ADLS. В этом выпуске отключена предварительная выборка ADLS 2-го поколения при включенной транзитной учетной записи, пока не будет установлено надлежащее исправление.
- 28 января 2020 г.
- Внесена в список разрешений функция перезаписи модулей записи моделей ML для кластеров, включенных для передачи учетных данных, чтобы при сохранение модели использовать режим перезаписи для кластеров передачи учетных данных.
- [SPARK-30447][SQL] Постоянная проблема обнуляемости распространения.
- [SPARK-28152][SQL] Добавить устаревший объект conf для старой версии числового сопоставления MsSqlServerDialect.
- 14 января 2020 г.
- Обновлена версия Java с 1.8.0 _222 до 1.8.0 _232.
- 10 декабря 2019 г.
- [SPARK-29904][SQL] Анализ меток времени с точностью до микросекунд по источникам данных JSON / CSV.
Databricks Runtime 6.1 (EoS)
См. раздел Databricks Runtime 6.1 (EoS).
- 7 апреля 2020 г.
- Чтобы устранить проблему с Pandas UDF, которая не работает с PyArrow 0.15.0 и выше, мы добавили переменную среды (
ARROW_PRE_0_15_IPC_FORMAT=1
), чтобы обеспечить поддержку этих версий PyArrow. См. инструкции в [SPARK-29367].
- Чтобы устранить проблему с Pandas UDF, которая не работает с PyArrow 0.15.0 и выше, мы добавили переменную среды (
- 25 марта 2020 г.
- Выходные данные задания, такие как выходные данные журнала, созданные в stdout, подвергаются limitразмером 20 МБ. Если общий объем выходных данных имеет больший размер, выполнение будет отменено и помечено как неудавшееся. Чтобы избежать возникновения этой limit, можно предотвратить возврат stdout от драйвера, задав конфигурацию
spark.databricks.driver.disableScalaOutput
Spark в значениеtrue
. По умолчанию флаг имеет значениеfalse
. Флаг контролирует выходные данные ячейки для заданий JAR Scala и записных книжек Scala. Если флаг включен, Spark не возвращает клиенту результаты выполнения задания. Флаг не влияет на данные, записываемые в файлы журналов кластера. Установка этого флага рекомендуется только для автоматических кластеров для заданий JAR, так как это приведет к отключению результатов записной книжки.
- Выходные данные задания, такие как выходные данные журнала, созданные в stdout, подвергаются limitразмером 20 МБ. Если общий объем выходных данных имеет больший размер, выполнение будет отменено и помечено как неудавшееся. Чтобы избежать возникновения этой limit, можно предотвратить возврат stdout от драйвера, задав конфигурацию
- 10 марта 2020 г.
- Соединитель Snowflake (
spark-snowflake_2.11
), включенный в Databricks Runtime, обновляется до версии 2.5.9.snowflake-jdbc
обновлен до версии 3.12.0.
- Соединитель Snowflake (
- 18 февраля 2020 г.
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 должно вызывать исключение
- Транзитная передача учетных данных с ADLS 2-го поколения имеет снижение производительности из-за неправильной локальной обработки цепочки, когда включена предварительная выборка клиентов ADLS. В этом выпуске отключена предварительная выборка ADLS 2-го поколения при включенной транзитной учетной записи, пока не будет установлено надлежащее исправление.
- 28 января 2020 г.
- [SPARK-30447][SQL] Постоянная проблема обнуляемости распространения.
- [SPARK-28152][SQL] Добавить устаревший объект conf для старой версии числового сопоставления MsSqlServerDialect.
- 14 января 2020 г.
- Обновлена версия Java с 1.8.0 _222 до 1.8.0 _232.
- 7 ноября 2019 г.
- [SPARK-29743][SQL] образец должен set needCopyResult для true, если требуется для дочернего объектаCopyResult.
- Секреты, на которые ссылаются свойства конфигурации и переменные среды Spark в общедоступной предварительной версии. Дополнительные сведения см. в статье Использование секретов в свойстве конфигурации Spark или переменной среды.
- 5 ноября 2019 г.
- Исправлена ошибка в DBFS FUSE для обработки точек подключения having
//
в пути. - [SPARK-29081] Замена вызовов SerializationUtils.clone на свойства с более быстрой реализацией
- [SPARK-29244][CORE] Предотвращение повторного освобождения страницы в BytesToBytesMap
- (6.1 ML) Библиотека mkl версии 2019.4 была установлена непреднамеренно. Мы перешли на использование более ранней версии mkl 2019.3 для соответствия дистрибутиву Anaconda 2019.03.
- Исправлена ошибка в DBFS FUSE для обработки точек подключения having
Databricks Runtime 6.0 (EoS)
См. раздел Databricks Runtime 6.0 (EoS).
- 25 марта 2020 г.
- Выходные данные задания, такие как выходные данные журнала, созданные в stdout, подвергаются limitразмером 20 МБ. Если общий объем выходных данных имеет больший размер, выполнение будет отменено и помечено как неудавшееся. Чтобы избежать возникновения этой limit, можно предотвратить возврат stdout от драйвера, задав конфигурацию
spark.databricks.driver.disableScalaOutput
Spark в значениеtrue
. По умолчанию флаг имеет значениеfalse
. Флаг контролирует выходные данные ячейки для заданий JAR Scala и записных книжек Scala. Если флаг включен, Spark не возвращает клиенту результаты выполнения задания. Флаг не влияет на данные, записываемые в файлы журналов кластера. Установка этого флага рекомендуется только для автоматических кластеров для заданий JAR, так как это приведет к отключению результатов записной книжки.
- Выходные данные задания, такие как выходные данные журнала, созданные в stdout, подвергаются limitразмером 20 МБ. Если общий объем выходных данных имеет больший размер, выполнение будет отменено и помечено как неудавшееся. Чтобы избежать возникновения этой limit, можно предотвратить возврат stdout от драйвера, задав конфигурацию
- 18 февраля 2020 г.
- Транзитная передача учетных данных с ADLS 2-го поколения имеет снижение производительности из-за неправильной локальной обработки цепочки, когда включена предварительная выборка клиентов ADLS. В этом выпуске отключена предварительная выборка ADLS 2-го поколения при включенной транзитной учетной записи, пока не будет установлено надлежащее исправление.
- 11 февраля 2020 г.
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 должно вызывать исключение
- 28 января 2020 г.
- [SPARK-30447][SQL] Постоянная проблема обнуляемости распространения.
- [SPARK-28152][SQL] Добавить устаревший объект conf для старой версии числового сопоставления MsSqlServerDialect.
- 14 января 2020 г.
- Обновлена версия Java с 1.8.0 _222 до 1.8.0 _232.
- 19 ноября 2019 г.
- [SPARK-29743] [SQL] образец должен set needCopyResult, чтобы иметь значение true, если требуется для дочернего объектаCopyResult
- 5 ноября 2019 г.
-
dbutils.tensorboard.start()
теперь поддерживает TensorBoard 2.0 (если установлено вручную). - Исправлена ошибка в DBFS FUSE для обработки точек подключения having
//
в пути. - [SPARK-29081]Замена вызовов SerializationUtils.clone на свойства с более быстрой реализацией
-
- 23 октября 2019 г.
- [SPARK-29244][CORE] Предотвращение повторного освобождения страницы в BytesToBytesMap
- 8 октября 2019 г.
- Изменения на стороне сервера, позволяющие драйверу Simba Apache Spark ODBC повторно подключаться и продолжать работу после сбоя подключения во время получения результатов (требуется драйвер Simba Apache Spark ODBC версии 2.6.10).
- Исправлена проблема, влияющая на использование команды
Optimize
с кластерами с поддержкой ACL table. - Исправлена проблема, в которой библиотеки where
pyspark.ml
завершались неудачей из-за ошибки, вызванной запрещенной операцией Scala UDF, в кластерах с включенными table ACL и передачей учетных данных. - Добавлены в список разрешений методы SerDe/SerDeUtil для транзитной передачи учетных данных.
- Внесены исправления в NullPointerException при проверке кода ошибки в клиенте WASB.
- Исправлена проблема, where пользователя credentials не перенаправили задания, созданные
dbutils.notebook.run()
.
Databricks Runtime 5.4 ML (EoS)
См. раздел Databricks Runtime 5.4 для машинного обучения (EoS).
- 18 июня 2019 г.
- Улучшена обработка активных запусков MLflow в интеграции Hyperopt
- Доработаны сообщения в Hyperopt
- Обновлен пакет
Marchkdown
с версии 3.1 на версию 3.1.1
Databricks Runtime 5.4 (EoS)
См. раздел Databricks Runtime 5.4 (EoS).
- 19 ноября 2019 г.
- [SPARK-29743] [SQL] образец должен set needCopyResult, чтобы иметь значение true, если требуется для дочернего объектаCopyResult
- 8 октября 2019 г.
- Изменения на стороне сервера, позволяющие драйверу ODBC Simba Apache Spark повторно подключаться и продолжать работу после сбоя подключения во время получения результатов (требуется драйвер ODBC для Simba Apache Spark версии 2.6.10, update).
- Внесены исправления в NullPointerException при проверке кода ошибки в клиенте WASB.
- 10 сентября 2019 г.
- Добавить потокобезопасный итератор в BytesToBytesMap
- Исправлена ошибка, влияющая на определенные глобальные запросы на агрегирование.
- [SPARK-27330][SS] Поддержка прерывания задачи в средстве записи foreach
- [SPARK-28642]скрыть credentials в SHOW CREATE TABLE
- [SPARK-28699][SQL] Отключение использования сортировки системы счисления для ShuffleExchangeExec в случае повторного секционирования
- [SPARK-28699][CORE] Исправлен пограничный случай для отмены промежуточного этапа.
- 27 августа 2019 г.
- Исправлена проблема, влияющая на определенные выражения
transform
- Исправлена проблема, влияющая на определенные выражения
- 13 августа 2019 г.
- Источник потоковой передачи Delta должен проверить последний протокол table
- [SPARK-28489][SS]Исправлена ошибка, при которой KafkaOffsetRangeCalculator.getRanges мог не учитывать смещения
- 30 июля 2019 г.
- [SPARK-28015][SQL] Проверка stringToDate() использует все входные данные для форматов гггг и гггг-[м]м.
- [SPARK-28308][CORE] Часть CalendarInterval менее секунды должна быть увеличена перед анализом
- [SPARK-27485]EnsureRequirements.reorder теперь корректно обрабатывает дубликаты выражений
- 2 июля 2019 г.
- Обновленная привязка — Java с версии 1.1.7.1 до версии 1.1.7.3.
- 18 июня 2019 г.
- Улучшена обработка активных запусков MLflow в интеграции MLlib
- Улучшено сообщение помощника по Databricks, связанное с использованием кэша диска
- Исправлена ошибка, влияющая на использование функций более высокого порядка
- Исправлена ошибка, влияющая на запросы разностных метаданных
Databricks Runtime 5.3 (EoS)
См. раздел Databricks Runtime 5.3 (EoS).
- 7 ноября 2019 г.
- [SPARK-29743][SQL] образец должен set needCopyResult быть true, если needCopyResult его дочернего элемента равно true.
- 8 октября 2019 г.
- Изменения на стороне сервера, позволяющие драйверу ODBC Simba Apache Spark повторно подключаться и продолжать работу после сбоя подключения во время получения результатов (требуется драйвер ODBC для Simba Apache Spark версии 2.6.10, update).
- Внесены исправления в NullPointerException при проверке кода ошибки в клиенте WASB.
- 10 сентября 2019 г.
- Добавить потокобезопасный итератор в BytesToBytesMap
- Исправлена ошибка, влияющая на определенные глобальные запросы на агрегирование.
- [SPARK-27330][SS] Поддержка прерывания задачи в средстве записи foreach
- [SPARK-28642]скрыть credentials в SHOW CREATE TABLE
- [SPARK-28699][SQL] Отключение использования сортировки системы счисления для ShuffleExchangeExec в случае повторного секционирования
- [SPARK-28699][CORE] Исправлен пограничный случай для отмены промежуточного этапа.
- 27 августа 2019 г.
- Исправлена проблема, влияющая на определенные выражения
transform
- Исправлена проблема, влияющая на определенные выражения
- 13 августа 2019 г.
- Источник потоковой передачи Delta должен проверить последний протокол table
- [SPARK-28489][SS]Исправлена ошибка, при которой KafkaOffsetRangeCalculator.getRanges мог не учитывать смещения
- 30 июля 2019 г.
- [SPARK-28015][SQL] Проверка stringToDate() использует все входные данные для форматов гггг и гггг-[м]м.
- [SPARK-28308][CORE] Часть CalendarInterval менее секунды должна быть увеличена перед анализом
- [SPARK-27485]EnsureRequirements.reorder теперь корректно обрабатывает дубликаты выражений
- 18 июня 2019 г.
- Улучшено сообщение помощника по Databricks, связанное с использованием кэша диска
- Исправлена ошибка, влияющая на использование функций более высокого порядка
- Исправлена ошибка, влияющая на запросы разностных метаданных
- 28 мая 2019 г.
- Повышена стабильность Delta
- Допустимость операций ввода-вывода при чтении файла Delta LAST_CHECKPOINT
- Добавлена возможность восстановления при сбое установки библиотеки
- 7 мая 2019 г.
- Порт HADOOP-15778 (ABFS: исправление регулирования на стороне клиента для чтения) для соединителя Azure Data Lake Storage 2-го поколения
- Порт HADOOP-16040 (ABFS: исправление ошибки конфигурации tolerateOobAppends) для соединителя Azure Data Lake Storage 2-го поколения
- Исправлена ошибка, влияющая на списки контроля доступа table
- Исправлено состояние гонки при загрузке разностного файла контрольной суммы журнала
- Исправлена логика обнаружения конфликтов, чтобы не определять "insert + перезаписать" как простую операцию добавления.
- Убедитесь, что кэширование дисков не отключено при включении списков управления доступом table
- [SPARK-27494][SS] Ключи NULL/values не работают в источнике Kafka версии 2
- [SPARK-27446][R] При доступности используется существующая конфигурация Spark.
- [SPARK-27454] [SPARK-27454] [ML] [SQL] Сбой источника данных изображения Spark при обнаружении некоторых недопустимых образов
- [SPARK-27160][SQL] Исправлен DecimalType при создании фильтров ORC
- [SPARK-27338][CORE] Исправлена взаимоблокировка между UnsafeExternalSorter и TaskMemoryManager
Databricks Runtime 5.2 (EoS)
См. раздел Databricks Runtime 5.2 (EoS).
- 10 сентября 2019 г.
- Добавить потокобезопасный итератор в BytesToBytesMap
- Исправлена ошибка, влияющая на определенные глобальные запросы на агрегирование.
- [SPARK-27330][SS] Поддержка прерывания задачи в средстве записи foreach
- [SPARK-28642]скрыть credentials в SHOW CREATE TABLE
- [SPARK-28699][SQL] Отключение использования сортировки системы счисления для ShuffleExchangeExec в случае повторного секционирования
- [SPARK-28699][CORE] Исправлен пограничный случай для отмены промежуточного этапа.
- 27 августа 2019 г.
- Исправлена проблема, влияющая на определенные выражения
transform
- Исправлена проблема, влияющая на определенные выражения
- 13 августа 2019 г.
- Источник потоковой передачи Delta должен проверить последний протокол table
- [SPARK-28489][SS]Исправлена ошибка, при которой KafkaOffsetRangeCalculator.getRanges мог не учитывать смещения
- 30 июля 2019 г.
- [SPARK-28015][SQL] Проверка stringToDate() использует все входные данные для форматов гггг и гггг-[м]м.
- [SPARK-28308][CORE] Часть CalendarInterval менее секунды должна быть увеличена перед анализом
- [SPARK-27485]EnsureRequirements.reorder теперь корректно обрабатывает дубликаты выражений
- 2 июля 2019 г.
- Допущение IOExceptions при чтении файла Delta LAST_CHECKPOINT
- 18 июня 2019 г.
- Улучшено сообщение помощника по Databricks, связанное с использованием кэша диска
- Исправлена ошибка, влияющая на использование функций более высокого порядка
- Исправлена ошибка, влияющая на запросы разностных метаданных
- 28 мая 2019 г.
- Добавлена возможность восстановления при сбое установки библиотеки
- 7 мая 2019 г.
- Порт HADOOP-15778 (ABFS: исправление регулирования на стороне клиента для чтения) для соединителя Azure Data Lake Storage 2-го поколения
- Порт HADOOP-16040 (ABFS: исправление ошибки конфигурации tolerateOobAppends) для соединителя Azure Data Lake Storage 2-го поколения
- Исправлено состояние гонки при загрузке разностного файла контрольной суммы журнала
- Исправлена логика обнаружения конфликтов, чтобы не определять "insert + перезаписать" как простую операцию добавления.
- Убедитесь, что кэширование дисков не отключено при включении списков управления доступом table
- [SPARK-27494][SS] Ключи NULL/values не работают в источнике Kafka версии 2
- [SPARK-27454] [SPARK-27454] [ML] [SQL] Сбой источника данных изображения Spark при обнаружении некоторых недопустимых образов
- [SPARK-27160][SQL] Исправлен DecimalType при создании фильтров ORC
- [SPARK-27338][CORE] Исправлена взаимоблокировка между UnsafeExternalSorter и TaskMemoryManager
- 26 марта 2019 г.
- Теперь не допускается встраивание зависящих от платформы смещений прямо в сгенерированный для целого этапа код
- [SPARK-26665][CORE] Исправлена ошибка, которая могла приводить к постоянному зависанию BlockTransferService.fetchBlockSync.
- [SPARK-27134]функция [SQL] array_distinct работает неправильно с columns, содержащим массивы массивов.
- [SPARK-24669][SQL] Инвалидировать tables в случае DROP DATABASE CASCADE.
- [SPARK-26572][SQL] Исправлена агрегированная оценка результатов создания кода.
- Исправлена ошибка, влияющая на определенные PythonUDF.
- 26 февраля 2019 г.
- [SPARK-26864]запрос [SQL] может возвращать неправильный результат, если udf python используется в качестве условия join левой части.
- [SPARK-26887][PYTHON] Теперь создается datetime.date напрямую вместо создания datetime64 в виде промежуточных данных.
- Исправлена ошибка, влияющая на сервер JDBC/ODBC.
- Исправлена ошибка, влияющая на PySpark.
- Исключены скрытые файлы при создании HadoopRDD.
- Исправлена ошибка в Delta, которая привела к проблемам сериализации.
- 12 февраля 2019 г.
- Исправлена проблема, влияющая на использование Delta с точками подключения Azure ADLS 2-го поколения.
- Исправлена проблема, из-за которой сетевой протокол Spark низкого уровня может быть нарушен при отправке больших сообщений об ошибках RPC с включенным шифрованием (если
spark.network.crypto.enabled
set к true).
- 30 января 2019 г.
- Исправлена ошибка StackOverflowError при добавлении подсказки перекоса join в кэшированном отношении.
- Исправлено несоответствие между кэшированным RDD кэша SQL и его физическим планом, который приводит к неправильному результату.
-
[SPARK-26706][SQL] Исправление
illegalNumericPrecedence
для ByteType. - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery теперь правильно обрабатывает пустые записи.
- При определении schemaисточники данных CSV/JSON должны избегать использования глоббинга путей.
- Исправлено вывод constraint в операторе Window.
- Исправлена проблема с установкой egg-библиотек в кластерах с включенным ACL havingtable.
Databricks Runtime 5.1 (EoS)
См. раздел Databricks Runtime 5.1 (EoS).
- 13 августа 2019 г.
- Источник потоковой передачи Delta должен проверить последний протокол table
- [SPARK-28489][SS]Исправлена ошибка, при которой KafkaOffsetRangeCalculator.getRanges мог не учитывать смещения
- 30 июля 2019 г.
- [SPARK-28015][SQL] Проверка stringToDate() использует все входные данные для форматов гггг и гггг-[м]м.
- [SPARK-28308][CORE] Часть CalendarInterval менее секунды должна быть увеличена перед анализом
- [SPARK-27485]EnsureRequirements.reorder теперь корректно обрабатывает дубликаты выражений
- 2 июля 2019 г.
- Допущение IOExceptions при чтении файла Delta LAST_CHECKPOINT
- 18 июня 2019 г.
- Исправлена ошибка, влияющая на использование функций более высокого порядка
- Исправлена ошибка, влияющая на запросы разностных метаданных
- 28 мая 2019 г.
- Добавлена возможность восстановления при сбое установки библиотеки
- 7 мая 2019 г.
- Порт HADOOP-15778 (ABFS: исправление регулирования на стороне клиента для чтения) для соединителя Azure Data Lake Storage 2-го поколения
- Порт HADOOP-16040 (ABFS: исправление ошибки конфигурации tolerateOobAppends) для соединителя Azure Data Lake Storage 2-го поколения
- Исправлено состояние гонки при загрузке разностного файла контрольной суммы журнала
- Исправлена логика обнаружения конфликтов, чтобы не определять "insert + перезаписать" как простую операцию добавления.
- [SPARK-27494][SS] Ключи NULL/values не работают в источнике Kafka версии 2
- [SPARK-27454] [SPARK-27454] [ML] [SQL] Сбой источника данных изображения Spark при обнаружении некоторых недопустимых образов
- [SPARK-27160][SQL] Исправлен DecimalType при создании фильтров ORC
- [SPARK-27338][CORE] Исправлена взаимоблокировка между UnsafeExternalSorter и TaskMemoryManager
- 26 марта 2019 г.
- Теперь не допускается встраивание зависящих от платформы смещений прямо в сгенерированный для целого этапа код
- Исправлена ошибка, влияющая на определенные PythonUDF.
- 26 февраля 2019 г.
- [SPARK-26864]запрос [SQL] может возвращать неправильный результат, если udf python используется в качестве условия join левой части.
- Исправлена ошибка, влияющая на сервер JDBC/ODBC.
- Исключены скрытые файлы при создании HadoopRDD.
- 12 февраля 2019 г.
- Исправлена проблема с установкой egg-библиотек в кластерах с включенным ACL havingtable.
- Исправлено несоответствие между кэшированным RDD кэша SQL и его физическим планом, который приводит к неправильному результату.
-
[SPARK-26706][SQL] Исправление
illegalNumericPrecedence
для ByteType. - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery теперь правильно обрабатывает пустые записи.
- Исправлено вывод constraint в операторе Window.
- Исправлена проблема, из-за которой сетевой протокол Spark низкого уровня может быть нарушен при отправке больших сообщений об ошибках RPC с включенным шифрованием (если
spark.network.crypto.enabled
set к true).
- 30 января 2019 г.
- Исправлена проблема, которая может привести к
df.rdd.count()
с UDT, чтобы происходил возврат неверного ответа в некоторых случаях. - Исправлена проблема, влияющая на установку wheelhouses.
- [SPARK-26267]Реализованы повторные попытки при обнаружении неверных смещений из Kafka.
- Исправлена ошибка, влияющая на несколько источников файловых потоков в потоковой передаче.
- Исправлена ошибка StackOverflowError при добавлении подсказки перекоса join в кэшированном отношении.
- Исправлено несоответствие между кэшированным RDD кэша SQL и его физическим планом, который приводит к неправильному результату.
- Исправлена проблема, которая может привести к
- 8 января 2019 г.
- Исправлена проблема, которая вызывает ошибку
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - [SPARK-26352]join переупорядочение не должно изменять порядок выходных атрибутов.
- [SPARK-26366]В ReplaceExceptWithFilter NULL должно расцениваться как False.
- Улучшение стабильности для Delta Lake.
- Delta Lake включена.
- Исправлена проблема, из-за которой произошел сбой Azure Data Lake Storage 2-го поколения доступа при включенном сквозном руководстве учетных данных Microsoft Entra ID для Azure Data Lake Storage 1-го поколения.
- Кэш ввода-вывода Databricks теперь включен для типов рабочих экземпляров серии Ls для всех ценовых категорий.
- Исправлена проблема, которая вызывает ошибку
Databricks Runtime 5.0 (EoS)
См. раздел Databricks Runtime 5.0 (EoS).
- 18 июня 2019 г.
- Исправлена ошибка, влияющая на использование функций более высокого порядка
- 7 мая 2019 г.
- Исправлено состояние гонки при загрузке разностного файла контрольной суммы журнала
- Исправлена логика обнаружения конфликтов, чтобы не определять "insert + перезаписать" как простую операцию добавления.
- [SPARK-27494][SS] Ключи NULL/values не работают в источнике Kafka версии 2
- [SPARK-27454] [SPARK-27454] [ML] [SQL] Сбой источника данных изображения Spark при обнаружении некоторых недопустимых образов
- [SPARK-27160][SQL] Исправление Десятичного типа при создании фильтров orc
- [SPARK-27338][CORE] Исправлена взаимоблокировка между UnsafeExternalSorter и TaskMemoryManager
- 26 марта 2019 г.
- Теперь не допускается встраивание зависящих от платформы смещений прямо в сгенерированный для целого этапа код
- Исправлена ошибка, влияющая на определенные PythonUDF.
- 12 марта 2019 г.
- [SPARK-26864]запрос [SQL] может возвращать неправильный результат, если udf python используется в качестве условия join левой части.
- 26 февраля 2019 г.
- Исправлена ошибка, влияющая на сервер JDBC/ODBC.
- Исключены скрытые файлы при создании HadoopRDD.
- 12 февраля 2019 г.
- Исправлено несоответствие между кэшированным RDD кэша SQL и его физическим планом, который приводит к неправильному результату.
-
[SPARK-26706][SQL] Исправление
illegalNumericPrecedence
для ByteType. - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery теперь правильно обрабатывает пустые записи.
- Исправлено вывод constraint в операторе Window.
- Исправлена проблема, из-за которой сетевой протокол Spark низкого уровня может быть нарушен при отправке больших сообщений об ошибках RPC с включенным шифрованием (если
spark.network.crypto.enabled
set к true).
- 30 января 2019 г.
- Исправлена проблема, которая может привести к
df.rdd.count()
с UDT, чтобы происходил возврат неверного ответа в некоторых случаях. - [SPARK-26267]Реализованы повторные попытки при обнаружении неверных смещений из Kafka.
- Исправлена ошибка, влияющая на несколько источников файловых потоков в потоковой передаче.
- Исправлена ошибка StackOverflowError при добавлении подсказки перекоса join в кэшированном отношении.
- Исправлено несоответствие между кэшированным RDD кэша SQL и его физическим планом, который приводит к неправильному результату.
- Исправлена проблема, которая может привести к
- 8 января 2019 г.
- Исправлена проблема, которая привела к ошибке
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - [SPARK-26352]join переупорядочение не должно изменять порядок выходных атрибутов.
- [SPARK-26366]В ReplaceExceptWithFilter NULL должно расцениваться как False.
- Улучшение стабильности для Delta Lake.
- Delta Lake включена.
- Кэш ввода-вывода Databricks теперь включен для типов рабочих экземпляров серии Ls для всех ценовых категорий.
- Исправлена проблема, которая привела к ошибке
- 18 декабря 2018 г.
- [SPARK-26293]исключение приведения при having Python UDF в вложенном запросе
- Исправлена проблема, затрагивающая некоторые запросы при использовании Join и Limit.
- Имена RDD были удалены как credentials в пользовательском интерфейсе Spark.
- 6 декабря 2018 г.
- Исправлена проблема, которая вызывала неправильный результат запроса при использовании orderBy, за которым сразу же последовал groupBy с ключом group-by в качестве ведущей части ключа сортировки.
- Обновлен соединитель Snowflake для Spark с 2.4.9.2-spark_2.4_pre_release to 2.4.10.
- Игнорировать поврежденные файлы следует только после одной или нескольких повторных попыток, при включенном флаге
spark.sql.files.ignoreCorruptFiles
илиspark.sql.files.ignoreMissingFiles
. - Исправлена проблема, влияющая на некоторые запросы на самообъединение.
- Исправлена ошибка с сервером thrift: сеансы where иногда утекали при отмене.
- [SPARK-26307]ИсправленО CTAS при INSERT секционированного table с помощью Hive SerDe.
- [SPARK-26147]Python UDF в условии join не работает даже при использовании columns только с одной стороны join
- [SPARK-26211] Исправление InSet для двоичных файлов, а также структуры и массива с нулевым значением.
-
[SPARK-26181] метод
hasMinMaxStats
дляColumnStatsMap
является неверным. - Исправлена проблема, связанная с установкой Python Wheels в средах без доступа к Интернету.
- 20 ноября 2018 г.
- Исправлена проблема, из-за которой не удается использовать записную книжку после отмены потокового запроса.
- Исправлена проблема, затрагивающая некоторые запросы с помощью функций window.
- Исправлена проблема, влияющая на поток из Delta с несколькими изменениями schema.
- Исправлена проблема, влияющая на некоторые запросы агрегации с соединениями Left Semi/Anti.
Databricks Runtime 4.3 (EoS)
См. раздел Databricks Runtime 4.3 (EoS).
9 апреля 2019 г.
- [SPARK-26665][CORE] Исправлена ошибка, которая могла вызывать постоянное зависание BlockTransferService.fetchBlockSync.
- [SPARK-24669][SQL] Инвалидировать tables в случае DROP DATABASE CASCADE.
12 марта 2019 г.
- Исправлена ошибка, влияющая на создание кода.
- Исправлена ошибка, влияющая на Delta.
26 февраля 2019 г.
- Исправлена ошибка, влияющая на сервер JDBC/ODBC.
12 февраля 2019 г.
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery теперь правильно обрабатывает пустые записи.
- Исключение скрытых файлов при сборке HadoopRDD.
- Исправлено преобразование фильтра Parquet для предиката IN, когда его значение пусто.
- Исправлена проблема, из-за которой сетевой протокол Spark низкого уровня может быть нарушен при отправке больших сообщений об ошибках RPC с включенным шифрованием (если
spark.network.crypto.enabled
set к true).
30 января 2019 г.
- Исправлена проблема, которая может привести к
df.rdd.count()
с UDT, чтобы происходил возврат неверного ответа в некоторых случаях. - Исправлено несоответствие между кэшированным RDD кэша SQL и его физическим планом, который приводит к неправильному результату.
- Исправлена проблема, которая может привести к
8 января 2019 г.
- Исправлена проблема, которая вызывает ошибку
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - Имена RDD были удалены как credentials в пользовательском интерфейсе Spark.
- [SPARK-26352]join переупорядочение не должно изменять порядок выходных атрибутов.
- [SPARK-26366]В ReplaceExceptWithFilter NULL должно расцениваться как False.
- Delta Lake включена.
- Кэш ввода-вывода Databricks теперь включен для типов рабочих экземпляров серии Ls для всех ценовых категорий.
- Исправлена проблема, которая вызывает ошибку
18 декабря 2018 г.
- [SPARK-25002] Avro: изменить пространство имен выходных записей.
- Исправлена проблема, затрагивающая некоторые запросы при использовании Join и Limit.
- [SPARK-26307]ИсправленО CTAS при INSERT секционированного table с помощью Hive SerDe.
- Игнорировать поврежденные файлы следует только после одной или нескольких повторных попыток, при включенном флаге
spark.sql.files.ignoreCorruptFiles
илиspark.sql.files.ignoreMissingFiles
. -
[SPARK-26181] метод
hasMinMaxStats
дляColumnStatsMap
является неверным. - Исправлена проблема, связанная с установкой Python Wheels в средах без доступа к Интернету.
- Исправлена проблема с производительностью в анализаторе запросов.
- Исправлена проблема в PySpark, которая приводила к сбою действий DataFrame с ошибкой "отказ в подключении".
- Исправлена проблема, влияющая на некоторые запросы на самообъединение.
20 ноября 2018 г.
- [SPARK-17916][SPARK-25241]Исправление пустой строки, анализируемой как null, если значение NULL равно set.
- [SPARK-25387] Исправление для NPE вызвано неверными входными данными CSV.
- Исправлена проблема, влияющая на некоторые запросы агрегации с соединениями Left Semi/Anti.
6 ноября 2018 г.
- [SPARK-25741] Длинные URL-адреса не отображаются должным образом в веб-интерфейсе.
- [SPARK-25714] Исправление обработки нулей в правиле оптимизатора BooleanSimplification.
- Исправлена проблема, влияющая на очистку временных объектов в соединителе Synapse Analytics.
- [SPARK-25816] Исправление разрешения атрибута во вложенных средствах извлечения.
16 октября 2018 г.
- Исправлена ошибка, влияющая на результаты выполнения
SHOW CREATE TABLE
в Delta tables. - Исправлена ошибка, влияющая на работу
Union
.
- Исправлена ошибка, влияющая на результаты выполнения
25 сентября 2018 г.
- [SPARK-25368][SQL] Неправильный вывод constraint возвращает неправильный результат.
- [SPARK-25402][SQL] Обработка значений Null в BooleanSimplification.
- Исправлена
NotSerializableException
в источнике данных Avro.
11 сентября 2018 г.
-
[SPARK-25214][SS] Устранение проблемы, из-за которой источник Kafka v2 может возвращать повторяющиеся записи при
failOnDataLoss=false
. - [SPARK-24987][СС] Исправление утечки объекта-получателя Kafka, когда нет новых смещений для articlePartition.
- При уменьшении фильтра должно правильно обрабатываться значение null.
- Улучшена стабильность подсистемы выполнения.
-
[SPARK-25214][SS] Устранение проблемы, из-за которой источник Kafka v2 может возвращать повторяющиеся записи при
28 августа 2018 г.
- Исправлена ошибка в команде Delta Lake Delete, которая неправильно удалила строки where условие оценивается как null.
-
[SPARK-25142] Добавление сообщения об ошибках, когда рабочей роли Python не удалось открыть сокет в
_load_from_socket
.
23 августа 2018 г.
-
[SPARK-23935]mapEntry создает
org.codehaus.commons.compiler.CompileException
. - Исправлена проблема с картой, допускающей значение null, в модуле чтения Parquet.
- [SPARK-25051][SQL] FixNullability не следует останавливаться на AnalysisBarrier.
- [SPARK-25081]Исправлена ошибка, where ShuffleExternalSorter может получить доступ к странице памяти, уже освобожденной в случае сбоя выделения памяти.
- Исправлено взаимодействие между Databricks Delta и Pyspark, которое могло вызвать временные сбои чтения.
- [SPARK-25084]"распространение по" нескольким columns (оболочка в скобках) может привести к проблеме кодегена.
- [SPARK-25096] Ослабление допустимости значений NULL, если приведение является принудительным, допускающим значение null.
- Снизило число потоков по умолчанию, используемых командой Delta Lake Optimize, уменьшая затраты на память и ускоряя фиксацию данных.
- [SPARK-25114] Исправление RecordBinaryComparator, если результат вычитания между двумя словами делится на значение Integer.MAX_VALUE.
- Исправлено редактирование секретного менеджера при частично успешном завершении команды.
-
[SPARK-23935]mapEntry создает
Databricks Runtime 4.2 (EoS)
См. раздел Databricks Runtime 4.2 (EoS).
26 февраля 2019 г.
- Исправлена ошибка, влияющая на сервер JDBC/ODBC.
12 февраля 2019 г.
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery теперь правильно обрабатывает пустые записи.
- Исключение скрытых файлов при сборке HadoopRDD.
- Исправлено преобразование фильтра Parquet для предиката IN, когда его значение пусто.
- Исправлена проблема, из-за которой сетевой протокол Spark низкого уровня может быть нарушен при отправке больших сообщений об ошибках RPC с включенным шифрованием (если
spark.network.crypto.enabled
set к true).
30 января 2019 г.
- Исправлена проблема, которая может привести к
df.rdd.count()
с UDT, чтобы происходил возврат неверного ответа в некоторых случаях.
- Исправлена проблема, которая может привести к
8 января 2019 г.
- Исправлена проблема, которая вызывает ошибку
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - Имена RDD были удалены как credentials в пользовательском интерфейсе Spark.
- [SPARK-26352]join переупорядочение не должно изменять порядок выходных атрибутов.
- [SPARK-26366]В ReplaceExceptWithFilter NULL должно расцениваться как False.
- Delta Lake включена.
- Кэш ввода-вывода Databricks теперь включен для типов рабочих экземпляров серии Ls для всех ценовых категорий.
- Исправлена проблема, которая вызывает ошибку
18 декабря 2018 г.
- [SPARK-25002] Avro: изменить пространство имен выходных записей.
- Исправлена проблема, затрагивающая некоторые запросы при использовании Join и Limit.
- [SPARK-26307]ИсправленО CTAS при INSERT секционированного table с помощью Hive SerDe.
- Игнорировать поврежденные файлы следует только после одной или нескольких повторных попыток, при включенном флаге
spark.sql.files.ignoreCorruptFiles
илиspark.sql.files.ignoreMissingFiles
. -
[SPARK-26181] метод
hasMinMaxStats
дляColumnStatsMap
является неверным. - Исправлена проблема, связанная с установкой Python Wheels в средах без доступа к Интернету.
- Исправлена проблема с производительностью в анализаторе запросов.
- Исправлена проблема в PySpark, которая приводила к сбою действий DataFrame с ошибкой "отказ в подключении".
- Исправлена проблема, влияющая на некоторые запросы на самообъединение.
20 ноября 2018 г.
- [SPARK-17916][SPARK-25241]Исправление пустой строки, анализируемой как null, если значение NULL равно set.
- Исправлена проблема, влияющая на некоторые запросы агрегации с соединениями Left Semi/Anti.
6 ноября 2018 г.
- [SPARK-25741] Длинные URL-адреса не отображаются должным образом в веб-интерфейсе.
- [SPARK-25714] Исправление обработки нулей в правиле оптимизатора BooleanSimplification.
16 октября 2018 г.
- Исправлена ошибка, влияющая на результаты выполнения
SHOW CREATE TABLE
в Delta tables. - Исправлена ошибка, влияющая на работу
Union
.
- Исправлена ошибка, влияющая на результаты выполнения
25 сентября 2018 г.
- [SPARK-25368][SQL] Неправильный вывод constraint возвращает неправильный результат.
- [SPARK-25402][SQL] Обработка значений Null в BooleanSimplification.
- Исправлена
NotSerializableException
в источнике данных Avro.
11 сентября 2018 г.
-
[SPARK-25214][SS] Устранение проблемы, из-за которой источник Kafka v2 может возвращать повторяющиеся записи при
failOnDataLoss=false
. - [SPARK-24987][СС] Исправление утечки объекта-получателя Kafka, когда нет новых смещений для articlePartition.
- При уменьшении фильтра должно правильно обрабатываться значение null.
-
[SPARK-25214][SS] Устранение проблемы, из-за которой источник Kafka v2 может возвращать повторяющиеся записи при
28 августа 2018 г.
- Исправлена ошибка в команде Delta Lake Delete, которая неправильно удалила строки where условие оценивается как null.
23 августа 2018 г.
- Исправлена ошибка NoClassDefError для разностного моментального снимка
-
[SPARK-23935]mapEntry создает
org.codehaus.commons.compiler.CompileException
. - [SPARK-24957][SQL] Среднее с десятичным значением, за которым следует агрегирование, возвращает неверный результат. Могут возвращаться неверные результаты операции AVERAGE. CAST, добавленный в оператор Average, будет пропущен, если результат Divide будет того же типа, к которому он был приведен.
- [SPARK-25081]Исправлена ошибка, where ShuffleExternalSorter может получить доступ к странице памяти, уже освобожденной в случае сбоя выделения памяти.
- Исправлено взаимодействие между Databricks Delta и Pyspark, которое могло вызвать временные сбои чтения.
- [SPARK-25114] Исправление RecordBinaryComparator, если результат вычитания между двумя словами делится на значение Integer.MAX_VALUE.
- [SPARK-25084]"распространение по" нескольким columns (оболочка в скобках) может привести к проблеме кодегена.
- [SPARK-24934][SQL] явным образом разрешенный список поддерживаемых типов в верхних или нижних границах для partition обрезки в памяти. Если сложные типы данных используются в фильтрах запросов для кэшированных данных, Spark всегда возвращает пустой результат set. Очистка на основе статистики в памяти создает неправильные результаты, так как значение NULL set для верхних и нижних границ для сложных типов. Исправление заключается в том, чтобы не использовать очистку в памяти на основе статистики для сложных типов.
- Исправлено редактирование секретного менеджера при частично успешном завершении команды.
- Исправлена проблема с картой, допускающей значение null, в модуле чтения Parquet.
2 августа, 2018 г.
- Добавлен writeStream.table API в Python.
- Исправлена проблема, затрагивающая разностные контрольные точки.
- [SPARK-24867][SQL] Добавление AnalysisBarrier к DataFrameWriter. Кэш SQL не используется при использовании DataFrameWriter для записи кадра данных с помощью UDF. Это регрессия, вызванная изменениями, внесенными в AnalysisBarrier, так как не все правила анализатора идемпотентны.
- Исправлена проблема, которая могла привести команду
mergeInto
к получению неверных результатов. - Улучшена стабильность при доступе к Azure Data Lake Storage 1-го поколения.
- [Spark-24809] Сериализация LongHashedRelation в исполнителе может привести к ошибке данных.
- [SPARK-24878][SQL] Исправление функции reverse для массива примитивного типа, содержащего значение null.
11 июля 2018 г.
- Исправлена ошибка в выполнении запроса, которая в некоторых случаях приводила к тому, что агрегации на десятичном columns с различной точностью возвращали неправильные результаты.
- Исправлена ошибка
NullPointerException
, возникающая во время сложных операций агрегирования, таких как группирование наборов.
Databricks Runtime 4.1 ML (EoS)
См. статью Databricks Runtime 4.1 ML (EoS).
- 31 июля 2018 г.
- Azure Synapse Analytics добавлена в ML Runtime 4.1
- Исправлена ошибка, которая может вызвать неправильные результаты запроса, если имя partitioncolumn, используемое в предикате, отличается от случая этого column в schematable.
- Исправлена ошибка, влияющая на подсистему выполнения Spark SQL.
- Исправлена ошибка, влияющая на создание кода.
- Исправлена ошибка (
java.lang.NoClassDefFoundError
), влияющая на Delta Lake. - Улучшена обработка ошибок в Delta Lake.
- Исправлена ошибка, из-за которой некорректная статистика пропуска данных собиралась для строковых columns 32 символов или больше.
Databricks Runtime 4.1 (EoS)
См. раздел Databricks Runtime 4.1 (EoS).
8 января 2019 г.
- [SPARK-26366]В ReplaceExceptWithFilter NULL должно расцениваться как False.
- Delta Lake включена.
18 декабря 2018 г.
- [SPARK-25002] Avro: изменить пространство имен выходных записей.
- Исправлена проблема, затрагивающая некоторые запросы при использовании Join и Limit.
- [SPARK-26307]ИсправленО CTAS при INSERT секционированного table с помощью Hive SerDe.
- Игнорировать поврежденные файлы следует только после одной или нескольких повторных попыток, при включенном флаге
spark.sql.files.ignoreCorruptFiles
илиspark.sql.files.ignoreMissingFiles
. - Исправлена проблема, связанная с установкой Python Wheels в средах без доступа к Интернету.
- Исправлена проблема в PySpark, которая приводила к сбою действий DataFrame с ошибкой "отказ в подключении".
- Исправлена проблема, влияющая на некоторые запросы на самообъединение.
20 ноября 2018 г.
- [SPARK-17916][SPARK-25241]Исправление пустой строки, анализируемой как null, если значение NULL равно set.
- Исправлена проблема, влияющая на некоторые запросы агрегации с соединениями Left Semi/Anti.
6 ноября 2018 г.
- [SPARK-25741] Длинные URL-адреса не отображаются должным образом в веб-интерфейсе.
- [SPARK-25714] Исправление обработки нулей в правиле оптимизатора BooleanSimplification.
16 октября 2018 г.
- Исправлена ошибка, влияющая на результаты выполнения
SHOW CREATE TABLE
в Delta tables. - Исправлена ошибка, влияющая на работу
Union
.
- Исправлена ошибка, влияющая на результаты выполнения
25 сентября 2018 г.
- [SPARK-25368][SQL] Неправильный вывод constraint возвращает неправильный результат.
- [SPARK-25402][SQL] Обработка значений Null в BooleanSimplification.
- Исправлена
NotSerializableException
в источнике данных Avro.
11 сентября 2018 г.
-
[SPARK-25214][SS] Устранение проблемы, из-за которой источник Kafka v2 может возвращать повторяющиеся записи при
failOnDataLoss=false
. - [SPARK-24987][СС] Исправление утечки объекта-получателя Kafka, когда нет новых смещений для articlePartition.
- При уменьшении фильтра должно правильно обрабатываться значение null.
-
[SPARK-25214][SS] Устранение проблемы, из-за которой источник Kafka v2 может возвращать повторяющиеся записи при
28 августа 2018 г.
- Исправлена ошибка в команде Delta Lake Delete, которая неправильно удалила строки where условие оценивается как null.
- [SPARK-25084]"распространение по" нескольким columns (оболочка в скобках) может привести к проблеме кодегена.
- [SPARK-25114] Исправление RecordBinaryComparator, если результат вычитания между двумя словами делится на значение Integer.MAX_VALUE.
23 августа 2018 г.
- Исправлена ошибка NoClassDefError для разностного моментального снимка.
- [SPARK-24957][SQL] Среднее с десятичным значением, за которым следует агрегирование, возвращает неверный результат. Могут возвращаться неверные результаты операции AVERAGE. CAST, добавленный в оператор Average, будет пропущен, если результат Divide будет того же типа, к которому он был приведен.
- Исправлена проблема с картой, допускающей значение null, в модуле чтения Parquet.
- [SPARK-24934][SQL] явным образом разрешенный список поддерживаемых типов в верхних или нижних границах для partition обрезки в памяти. Если сложные типы данных используются в фильтрах запросов для кэшированных данных, Spark всегда возвращает пустой результат set. Очистка на основе статистики в памяти создает неправильные результаты, так как значение NULL set для верхних и нижних границ для сложных типов. Исправление заключается в том, чтобы не использовать очистку в памяти на основе статистики для сложных типов.
- [SPARK-25081]Исправлена ошибка, where ShuffleExternalSorter может получить доступ к странице памяти, уже освобожденной в случае сбоя выделения памяти.
- Исправлено взаимодействие между Databricks Delta и Pyspark, которое могло вызвать временные сбои чтения.
- Исправлено редактирование секретного менеджера при частично успешном завершении команды
2 августа, 2018 г.
- [SPARK-24613][SQL] Кэш с UDF не может быть сопоставлен с последующими зависимыми кэшами. Создает оболочку логического плана с помощью AnalysisBarrier для компиляции плана выполнения в CacheManager, чтобы избежать повторного анализа плана. Это также является регрессией Spark 2.3.
- Исправлена проблема соединителя Synapse Analytics, влияющая на процесс преобразования timezone при записи данных типа DateType.
- Исправлена проблема, затрагивающая разностные контрольные точки.
- Исправлена проблема, которая могла привести команду
mergeInto
к получению неверных результатов. - [SPARK-24867][SQL] Добавление AnalysisBarrier к DataFrameWriter. Кэш SQL не используется при использовании DataFrameWriter для записи кадра данных с помощью UDF. Это регрессия, вызванная изменениями, внесенными в AnalysisBarrier, так как не все правила анализатора идемпотентны.
- [Spark-24809] Сериализация LongHashedRelation в исполнителе может привести к ошибке данных.
11 июля 2018 г.
- Исправлена ошибка в выполнении запроса, которая в некоторых случаях приводила к тому, что агрегации на десятичном columns с различной точностью возвращали неправильные результаты.
- Исправлена ошибка
NullPointerException
, возникающая во время сложных операций агрегирования, таких как группирование наборов.
28 июня 2018 г.
- Исправлена ошибка, которая может вызвать неправильные результаты запроса, если имя partitioncolumn, используемое в предикате, отличается от случая этого column в schematable.
7 июня 2018 г.
- Исправлена ошибка, влияющая на подсистему выполнения Spark SQL.
- Исправлена ошибка, влияющая на создание кода.
- Исправлена ошибка (
java.lang.NoClassDefFoundError
), влияющая на Delta Lake. - Улучшена обработка ошибок в Delta Lake.
17 мая 2018 г.
- Исправлена ошибка, из-за которой некорректная статистика пропуска данных собиралась для строковых columns 32 символов или больше.
Databricks Runtime 4.0 (EoS)
См. раздел Databricks Runtime 4.0 (EoS).
6 ноября 2018 г.
- [SPARK-25714] Исправление обработки нулей в правиле оптимизатора BooleanSimplification.
16 октября 2018 г.
- Исправлена ошибка, влияющая на работу
Union
.
- Исправлена ошибка, влияющая на работу
25 сентября 2018 г.
- [SPARK-25368][SQL] Неправильный вывод constraint возвращает неправильный результат.
- [SPARK-25402][SQL] Обработка значений Null в BooleanSimplification.
- Исправлена
NotSerializableException
в источнике данных Avro.
11 сентября 2018 г.
- При уменьшении фильтра должно правильно обрабатываться значение null.
28 августа 2018 г.
- Исправлена ошибка в команде Delta Lake Delete, которая неправильно удалила строки where условие оценивается как null.
23 августа 2018 г.
- Исправлена проблема с картой, допускающей значение null, в модуле чтения Parquet.
- Исправлено редактирование секретного менеджера при частично успешном завершении команды
- Исправлено взаимодействие между Databricks Delta и Pyspark, которое могло вызвать временные сбои чтения.
- [SPARK-25081]Исправлена ошибка, where ShuffleExternalSorter может получить доступ к странице памяти, уже освобожденной в случае сбоя выделения памяти.
- [SPARK-25114] Исправление RecordBinaryComparator, если результат вычитания между двумя словами делится на значение Integer.MAX_VALUE.
2 августа, 2018 г.
- [SPARK-24452] Избежание возможного переполнения в int add или multiple.
- [SPARK-24588]Стриминг join должен требовать хэш-кластерную партировку у дочерних элементов.
- Исправлена проблема, которая могла привести команду
mergeInto
к получению неверных результатов. - [SPARK-24867][SQL] Добавление AnalysisBarrier к DataFrameWriter. Кэш SQL не используется при использовании DataFrameWriter для записи кадра данных с помощью UDF. Это регрессия, вызванная изменениями, внесенными в AnalysisBarrier, так как не все правила анализатора идемпотентны.
- [Spark-24809] Сериализация LongHashedRelation в исполнителе может привести к ошибке данных.
28 июня 2018 г.
- Исправлена ошибка, которая может вызвать неправильные результаты запроса, если имя partitioncolumn, используемое в предикате, отличается от случая этого column в schematable.
7 июня 2018 г.
- Исправлена ошибка, влияющая на подсистему выполнения Spark SQL.
- Улучшена обработка ошибок в Delta Lake.
17 мая 2018 г.
- Исправление ошибок для управления секретами Databricks.
- Повышена стабильность при чтении данных, хранящихся в Azure Data Lake Store.
- Исправлена ошибка, влияющая на кэширование RDD.
- Исправлена ошибка, затрагивающая значение, равное Null, в SQL Spark.
24 апреля 2018 г.
- Обновлен пакет SDK Azure Data Lake Store с версии 2.0.11 до версии 2.2.8 для повышения стабильности доступа к Azure Data Lake Store.
- Исправлена ошибка, влияющая на вставку перезаписей в секционированную структуру Hive tables, когда
spark.databricks.io.hive.fastwriter.enabled
являетсяfalse
. - Исправлена проблема, при которой сериализация задачи не удавалась.
- Улучшена стабильность Delta Lake.
14 марта 2018 г.
- Предотвращение ненужных обновлений метаданных при записи в Delta Lake.
- Исправлена проблема, вызванная состоянием гонки, которое могло в редких обстоятельствах привести к утрате некоторых выходных файлов.
Databricks Runtime 3.5 LTS (EoS)
См. раздел Databricks Runtime 3.5 LTS (EoS).
7 ноября 2019 г.
- [SPARK-29743][SQL] образец должен set needCopyResult быть true, если needCopyResult его дочернего элемента равно true.
8 октября 2019 г.
- Изменения на стороне сервера, позволяющие драйверу ODBC Simba Apache Spark повторно подключаться и продолжать работу после сбоя подключения во время получения результатов (требуется драйвер ODBC для Simba Apache Spark версии 2.6.10, update).
10 сентября 2019 г.
- [SPARK-28699][SQL] Отключение использования сортировки системы счисления для ShuffleExchangeExec в случае повторного секционирования
9 апреля 2019 г.
- [SPARK-26665][CORE] Исправлена ошибка, которая могла вызывать постоянное зависание BlockTransferService.fetchBlockSync.
12 февраля 2019 г.
- Исправлена проблема, из-за которой сетевой протокол Spark низкого уровня может быть нарушен при отправке больших сообщений об ошибках RPC с включенным шифрованием (если
spark.network.crypto.enabled
set к true).
- Исправлена проблема, из-за которой сетевой протокол Spark низкого уровня может быть нарушен при отправке больших сообщений об ошибках RPC с включенным шифрованием (если
30 января 2019 г.
- Исправлена проблема, которая может привести к
df.rdd.count()
с UDT, чтобы происходил возврат неверного ответа в некоторых случаях.
- Исправлена проблема, которая может привести к
18 декабря 2018 г.
- Игнорировать поврежденные файлы следует только после одной или нескольких повторных попыток, при включенном флаге
spark.sql.files.ignoreCorruptFiles
илиspark.sql.files.ignoreMissingFiles
. - Исправлена проблема, влияющая на некоторые запросы на самообъединение.
- Игнорировать поврежденные файлы следует только после одной или нескольких повторных попыток, при включенном флаге
20 ноября 2018 г.
- [SPARK-25816] Исправлены разрешения атрибута во вложенных средствах извлечения.
6 ноября 2018 г.
- [SPARK-25714] Исправление обработки нулей в правиле оптимизатора BooleanSimplification.
16 октября 2018 г.
- Исправлена ошибка, влияющая на работу
Union
.
- Исправлена ошибка, влияющая на работу
25 сентября 2018 г.
- [SPARK-25402][SQL] Обработка значений Null в BooleanSimplification.
- Исправлена
NotSerializableException
в источнике данных Avro.
11 сентября 2018 г.
- При уменьшении фильтра должно правильно обрабатываться значение null.
28 августа 2018 г.
- Исправлена ошибка в команде Delta Lake Delete, которая неправильно удалила строки where условие оценивается как null.
- [SPARK-25114] Исправление RecordBinaryComparator, если результат вычитания между двумя словами делится на значение Integer.MAX_VALUE.
23 августа 2018 г.
- [Spark-24809] Сериализация LongHashedRelation в исполнителе может привести к ошибке данных.
- Исправлена проблема с картой, допускающей значение null, в модуле чтения Parquet.
- [SPARK-25081]Исправлена ошибка, where ShuffleExternalSorter может получить доступ к странице памяти, уже освобожденной в случае сбоя выделения памяти.
- Исправлено взаимодействие между Databricks Delta и Pyspark, которое могло вызвать временные сбои чтения.
28 июня 2018 г.
- Исправлена ошибка, которая может вызвать неправильные результаты запроса, если имя partitioncolumn, используемое в предикате, отличается от случая этого column в schematable.
28 июня 2018 г.
- Исправлена ошибка, которая может вызвать неправильные результаты запроса, если имя partitioncolumn, используемое в предикате, отличается от случая этого column в schematable.
7 июня 2018 г.
- Исправлена ошибка, влияющая на подсистему выполнения Spark SQL.
- Улучшена обработка ошибок в Delta Lake.
17 мая 2018 г.
- Повышена стабильность при чтении данных, хранящихся в Azure Data Lake Store.
- Исправлена ошибка, влияющая на кэширование RDD.
- Исправлена ошибка, затрагивающая значение, равное Null, в SQL Spark.
- Исправлена ошибка, влияющая на определенные процессы агрегирования в потоковых запросах.
24 апреля 2018 г.
- Обновлен пакет SDK Azure Data Lake Store с версии 2.0.11 до версии 2.2.8 для повышения стабильности доступа к Azure Data Lake Store.
- Исправлена ошибка, влияющая на вставку перезаписей в секционированную структуру Hive tables, когда
spark.databricks.io.hive.fastwriter.enabled
являетсяfalse
. - Исправлена проблема, при которой сериализация задачи не удавалась.
9 марта 2018 г.
- Исправлена проблема, вызванная состоянием гонки, которое могло в редких обстоятельствах привести к утрате некоторых выходных файлов.
1 марта 2018 г.
- Повышение эффективности обработки потоков, которые могут занять длительное время до остановки.
- Исправлена проблема, влияющая на автозаполнение Python.
- Применены обновления для системы безопасности Ubuntu.
- Исправлена проблема, влияющая на некоторые запросы с помощью определяемых пользователем функций Python и функций window.
- Исправлена проблема, влияющая на использование определяемых пользователем функций в кластере с включенным контролем доступа table.
29 января 2018 г.
- Исправлена проблема, влияющая на обработку tables, хранящегося в Blob-хранилище Azure.
- Исправлена агрегация после dropDuplicates в пустом DataFrame.
Databricks Runtime 3.4 (EoS)
См. раздел Databricks Runtime 3.4 (EoS).
7 июня 2018 г.
- Исправлена ошибка, влияющая на подсистему выполнения Spark SQL.
- Улучшена обработка ошибок в Delta Lake.
17 мая 2018 г.
- Повышена стабильность при чтении данных, хранящихся в Azure Data Lake Store.
- Исправлена ошибка, влияющая на кэширование RDD.
- Исправлена ошибка, затрагивающая значение, равное Null, в SQL Spark.
24 апреля 2018 г.
- Исправлена ошибка, влияющая на вставку перезаписей в секционированную структуру Hive tables, когда
spark.databricks.io.hive.fastwriter.enabled
являетсяfalse
.
- Исправлена ошибка, влияющая на вставку перезаписей в секционированную структуру Hive tables, когда
9 марта 2018 г.
- Исправлена проблема, вызванная состоянием гонки, которое могло в редких обстоятельствах привести к утрате некоторых выходных файлов.
13 декабря 2017 г.
- Исправлена проблема, затрагивающая UDF в Scala.
- Исправлена проблема, влияющая на использование индекса пропуска данных в источнике данных tables, хранящихся в путях, отличных от DBFS.
7 декабря 2017 г.
- Улучшена стабильность перемешивания.
Неподдерживаемые выпуски Databricks Runtime
Чтобы ознакомиться с исходными заметками о выпуске, перейдите по ссылке под подзаголовком.