Aktualizace údržby pro Databricks Runtime (archivované)
Tato archivovaná stránka obsahuje seznam aktualizací údržby vydaných pro verze Databricks Runtime, které se už nepodporují. Pokud chcete přidat aktualizaci údržby do existujícího clusteru, restartujte cluster.
Důležité
Tato dokumentace byla vyřazena a nemusí být aktualizována. Produkty, služby nebo technologie uvedené v tomto obsahu dosáhly konce podpory. Viz poznámky k verzi databricks Runtime a verze kompatibility.
Poznámka:
Tento článek obsahuje odkazy na seznam povolených termínů, což je termín, který Azure Databricks nepoužívá. Když se termín odebere ze softwaru, odebereme ho z tohoto článku.
Verze Databricks Runtime
Aktualizace údržby podle verze:
- Databricks Runtime 15.3
- Databricks Runtime 15.2
- Databricks Runtime 15.1
- Databricks Runtime 15.0
- Databricks Runtime 14.2
- Databricks Runtime 14.0
- Databricks Runtime 13.1
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS
- Databricks Runtime 9.1 LTS
- Databricks Runtime 13.0 (EoS)
- Databricks Runtime 12.1 (EoS)
- Databricks Runtime 12.0 (EoS)
- Databricks Runtime 11.2 (EoS)
- Databricks Runtime 11.1 (EoS)
- Databricks Runtime 11.0 (EoS)
- Databricks Runtime 10.5 (EoS)
- Databricks Runtime 10.3 (EoS)
- Databricks Runtime 10.2 (EoS)
- Databricks Runtime 10.1 (EoS)
- Databricks Runtime 10.0 (EoS)
- Databricks Runtime 9.0 (EoS)
- Databricks Runtime 8.4 (EoS)
- Databricks Runtime 8.3 (EoS)
- Databricks Runtime 8.2 (EoS)
- Databricks Runtime 8.1 (EoS)
- Databricks Runtime 8.0 (EoS)
- Databricks Runtime 7.6 (EoS)
- Databricks Runtime 7.5 (EoS)
- Databricks Runtime 7.3 LTS (EoS)
- Rozšířená podpora Databricks Runtime 6.4 (EoS)
- Databricks Runtime 5.5 LTS (EoS)
- Rozšířená podpora Databricks Light 2.4
- Databricks Runtime 7.4 (EoS)
- Databricks Runtime 7.2 (EoS)
- Databricks Runtime 7.1 (EoS)
- Databricks Runtime 7.0 (EoS)
- Databricks Runtime 6.6 (EoS)
- Databricks Runtime 6.5 (EoS)
- Databricks Runtime 6.3 (EoS)
- Databricks Runtime 6.2 (EoS)
- Databricks Runtime 6.1 (EoS)
- Databricks Runtime 6.0 (EoS)
- Databricks Runtime 5.4 ML (EoS)
- Databricks Runtime 5.4 (EoS)
- Databricks Runtime 5.3 (EoS)
- Databricks Runtime 5.2 (EoS)
- Databricks Runtime 5.1 (EoS)
- Databricks Runtime 5.0 (EoS)
- Databricks Runtime 4.3 (EoS)
- Databricks Runtime 4.2 (EoS)
- Databricks Runtime 4.1 ML (EoS)
- Databricks Runtime 4.1 (EoS)
- Databricks Runtime 4.0 (EoS)
- Databricks Runtime 3.5 LTS (EoS)
- Databricks Runtime 3.4 (EoS)
Aktualizace údržby v podporovaných verzích Databricks Runtime najdete v tématu Aktualizace údržby Databricks Runtime.
Databricks Runtime 15.3
Vizte Databricks Runtime 15.3 (EoS).
- 26. listopadu 2024
- V této verzi teď můžete dotazovat funkci
vector_search
pomocíquery_text
pro textové zadání neboquery_vector
pro vkládání vstupu. - Aktualizace zabezpečení operačního systému.
- V této verzi teď můžete dotazovat funkci
- 5. listopadu 2024
- [SPARK-49905] Použití vyhrazeného shuffleOrigin pro stavový operátor, aby se zabránilo úpravě náhodného náhodného prohazování z AQE
- [SPARK-49867][SQL] Vylepšete chybovou zprávu, když je index při volání GetColumnByOrdinal mimo hranice
- [SPARK-48843][15.3,15.2] Zabránění nekonečné smyčce pomocí BindParameters
- [SPARK-49829] Revidovat optimalizaci přidávání vstupu do úložiště stavu ve spojení stream-stream (oprava správnosti)
- [SPARK-49863][SQL] Oprava NormalizeFloatingNumbers pro zachování nullability vnořených struktur
- [SPARK-49782][SQL] Pravidlo ResolveDataFrameDropColumns překládá unresolvedAttribute s podřízeným výstupem.
- [SPARK-46632][SQL] Oprava odstranění dílčího výrazu, pokud ekvivalentní ternární výrazy mají různé podřízené výrazy
- Aktualizace zabezpečení operačního systému.
- 22. října 2024
- [SPARK-49905] Použití vyhrazeného shuffleOrigin pro stavový operátor, aby se zabránilo úpravě náhodného náhodného prohazování z AQE
- [SPARK-49867][SQL] Vylepšete chybovou zprávu, když je index při volání GetColumnByOrdinal mimo hranice
- [SPARK-48843][15.3,15.2] Zabránění nekonečné smyčce pomocí BindParameters
- [SPARK-49829] Upravit optimalizaci přidávání vstupu do datového úložiště ve spojení stream-stream (oprava správnosti)
- [SPARK-49863][SQL] Oprava NormalizeFloatingNumbers pro zachování nullability vnořených struktur
- [SPARK-49782][SQL] Pravidlo ResolveDataFrameDropColumns překládá unresolvedAttribute s podřízeným výstupem.
- [SPARK-46632][SQL] Oprava odstranění dílčího výrazu, pokud ekvivalentní ternární výrazy mají různé podřízené výrazy
- Aktualizace zabezpečení operačního systému.
- 10. října 2024
- [SPARK-49688][CONNECT] Oprava datového závodu mezi přerušením a spuštěním plánu
- [SPARK-49743][SQL] OptimizeCsvJsonExpr by při vyřazování Polí GetArrayStructFields neměl měnit pole schématu
- [BACKPORT] [[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Klasifikace třídy chyb pro chyby uživatelské funkce FlatMapGroupsWithState
- Aktualizace zabezpečení operačního systému.
- 25. září 2024
- [SPARK-49492][CONNECT] Pokus o opětovné připojení k neaktivnímu executionHolderu
- [SPARK-49628][SQL] Funkce ConstantFolding by měla před vyhodnocením zkopírovat stavový výraz.
- [SPARK-49000][SQL] Oprava "select count(distinct 1) from t", kde t je prázdná tabulka, rozšířením funkce RewriteDistinctAggregates
- [SPARK-49458][CONNECT][PYTHON] Zadejte ID relace na straně serveru prostřednictvím příkazu ReattachExecute.
-
[SPARK-48719][SQL] Oprava chyby výpočtu
RegrSlope
&RegrIntercept
, když má první parametr hodnotu null - Aktualizace zabezpečení operačního systému.
- 17. září 2024
- [SPARK-49336][CONNECT] Omezte úroveň vnoření při zkrácení zprávy protobuf.
- [SPARK-49526][CONNECT][15.3.5] Podpora cest ve formátu Windows v ArtifactManageru
- [SPARK-49366][CONNECT] Zacházet s uzlem Union jako s listem při rozlišení sloupců data rámce.
- [SPARK-43242][JÁDRO] Oprava způsobující neočekávaný typ BlockId při diagnostice poškození náhodného prohazování
- [SPARK-49409][CONNECT] Úprava výchozí hodnoty CONNECT_SESSION_PLAN_CACHE_SIZE
- Aktualizace zabezpečení operačního systému.
- 29. srpna 2024
- [SPARK-49263][CONNECT] Klient Spark Connect v Pythonu: Konzistentně zpracovává logické možnosti čtečky datového rámce
- [SPARK-49056][SQL] ErrorClassesJsonReader nemůže správně zpracovat hodnotu null
-
[SPARK-48862][PYTHON][CONNECT] Vyhněte se volání
_proto_to_string
, pokud není povolená úroveň INFORMACÍ - [SPARK-49146][SS] Přesunutí chyb kontrolních výrazů souvisejících s chybějícím vodoznakem v dotazech streamování v režimu přidání do rámce pro chyby
- 14. srpna 2024
- [SPARK-48941][SPARK-48970] Opravy zapisovače backportu ML / čtečky
- [SPARK-48706][PYTHON] Funkce definované uživatelem Pythonu ve vyšších pořadí by neměly vyvolat vnitřní chybu.
- [SPARK-48954] try_mod() nahrazuje try_remainder()
- [SPARK-48597][SQL] Zavedení značky pro vlastnost isStreaming v textové reprezentaci logického plánu
- [SPARK-49065][SQL] Opětovné použití starších formátovacích nástrojů nebo analyzátorů musí podporovat jiné než výchozí časová pásma JVM.
- [SPARK-49047][PYTHON][CONNECT] Zkrácení zprávy pro protokolování
- [SPARK-48740][SQL] Včasné zjištění chyby chybějící specifikace okna
- 1. srpna 2024
- [Zásadní změna] Ve službě Databricks Runtime 15.3 a novějších volání libovolné uživatelem definované funkce Pythonu (UDF), uživatelem definované agregační funkce (UDAF) nebo uživatelem definované funkce tabulky (UDTF), která používá typ
VARIANT
jako argument nebo návratovou hodnotu vyvolá výjimku. Tato změna brání problémům, ke kterým může dojít kvůli neplatné hodnotě vrácené některou z těchto funkcí. Další informace o typuVARIANT
najdete v tématu použití VARIANT k ukládání částečně strukturovaných dat. - Na bezserverových výpočetních prostředcích pro poznámkové bloky a úlohy je ve výchozím nastavení povolený režim ANSI SQL. Viz podporované konfigurační parametry Sparku.
- Na výpočetních prostředcích konfigurovaných v režimu sdíleného přístupu mají dávky Kafka čtení a zápisy teď stejná omezení jako vynucovaná pro strukturované streamování. Viz omezení a požadavky pro streamování ve sdíleném režimu katalogu Unity .
- Výstup příkazu
SHOW CREATE TABLE
teď obsahuje všechny filtry řádků nebo masky sloupců definované v materializovaném zobrazení nebo streamovací tabulce. Viz SHOW CREATE TABLE. Další informace o filtrech řádků a maskách sloupců najdete v tématu Filtrování citlivých dat tabulky pomocí filtrů řádků a masek sloupců. - [SPARK-46957][JÁDRO] Vyřazení migrovanýchsouborůch
- [SPARK-48648][PYTHON][CONNECT] Správné nastavení SparkConnectClient.značek threadlocal
- [SPARK-48896][SPARK-48909][SPARK-48883] Opravy zapisovače Spark ML v backportu
- [SPARK-48713][SQL] Přidání kontroly rozsahu indexu pro NezabezpečenéRow.pointTo, pokud je baseObject bajtové pole
- [SPARK-48834][SQL] Zákaz vstupu a výstupu variant do skalárních UDF pythonu, UDTF, UDAF během kompilace dotazů
- [SPARK-48934][SS] Nesprávně převedené typy data a času Pythonu pro nastavení časového limitu v applyInPandasWithState
- [SPARK-48705][PYTHON] Explicitní použití worker_main při spuštění s pyspark
- [SPARK-48544][SQL] Snížení zatížení paměti prázdných bitových sad TreeNode
- [SPARK-48889][SS] testStream pro uvolnění úložišť stavů před dokončením
- [SPARK-49054][SQL] Výchozí hodnota sloupce by měla podporovat funkce current_*
- [SPARK-48653][PYTHON] Oprava neplatných odkazů na chyby zdrojů dat v Pythonu
- [SPARK-48463] Udělat StringIndexer s podporou vnořených vstupních sloupců
- [SPARK-48810][CONNECT] Rozhraní API pro zastavení relace by mělo být idempotentní, a pokud je relace již uzavřena serverem, nemělo by selhat.
- [SPARK-48873][SQL] Použití nezabezpečeného V analyzátoru JSON
- Aktualizace zabezpečení operačního systému.
- [Zásadní změna] Ve službě Databricks Runtime 15.3 a novějších volání libovolné uživatelem definované funkce Pythonu (UDF), uživatelem definované agregační funkce (UDAF) nebo uživatelem definované funkce tabulky (UDTF), která používá typ
- 11. července 2024
- (Změna chování) Datové rámce uložené v mezipaměti oproti zdrojům tabulek Delta jsou nyní zneplatněny, pokud dojde k přepsání zdrojové tabulky. Tato změna znamená, že všechny změny stavu tabulek Delta teď zneplatní výsledky uložené v mezipaměti. Pomocí
.checkpoint()
zachovají stav tabulky po celou dobu životnosti datového rámce. - Ovladač Snowflake JDBC je aktualizován na verzi 3.16.1.
- Tato verze obsahuje opravu problému, který zabránil správnému zobrazení karty Prostředí uživatelského rozhraní Sparku při spuštění ve službě Databricks Container Services.
- Pokud chcete při čtení dat ignorovat neplatné oddíly, zdroje dat založené na souborech, jako jsou Parquet, ORC, CSV nebo JSON, můžete nastavit možnost ignorovat Zdroj dat IgnoreInvalidPartitionPaths na true. Příklad: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...)`. Můžete také použít konfiguraci SQL spark.sql.files.ignoreInvalidPartitionPaths. Možnost zdroje dat má však přednost před konfigurací SQL. Toto nastavení je ve výchozím nastavení false.
- [SPARK-48100][SQL] Oprava problémů při vynechání vnořených polí struktury, která nejsou vybraná ve schématu
- [SPARK-47463][SQL] Použití V2Predicate k zabalení výrazu s návratovým typem logické hodnoty
- [SPARK-48292][JÁDRO] Návrat [SPARK-39195][SQL] Spark OutputCommitCoordinator by měl přerušit fázi, pokud potvrzený soubor není konzistentní se stavem úlohy.
- [SPARK-48475][PYTHON] Optimalizace _get_jvm_function v PySparku.
- [SPARK-48286] Oprava analýzy sloupce s existujícím výchozím výrazem - Přidání chyby zobrazované uživateli
- [SPARK-48481][SQL][SS] Nepoužívejte OptimalOneRowPlan pro streamovací datovou sadu
- Vrátit zpět "[SPARK-47406][SQL] Handle TIMESTAMP and DATETIME in MYSQLDialect"
- [SPARK-48383][SS] Vyvolání lepší chyby pro neshodované oddíly v možnosti startOffset v Kafka
- [SPARK-48503][14.3-15.3][SQL] Oprava neplatných skalárních poddotazů seskupováním podle neshodných sloupců, které neměly být povoleny
- [SPARK-48445][SQL] Nezasílejte uživatelem definované uživatelem s drahými dětmi
- [SPARK-48252][SQL] Aktualizace CommonExpressionRef v případě potřeby
- [SPARK-48273][master][SQL] Oprava opožděného přepsání PlanWithUnresolvedIdentifier
- [SPARK-48566][PYTHON] Oprava chyby, kdy indexy oddílů nejsou správné, když funkce UDTF analyze() používá výběr i sloupec PartitionColumns
- [SPARK-48556][SQL] Oprava nesprávné chybové zprávy odkazující na UNSUPPORTED_GROUPING_EXPRESSION
- Aktualizace zabezpečení operačního systému.
- (Změna chování) Datové rámce uložené v mezipaměti oproti zdrojům tabulek Delta jsou nyní zneplatněny, pokud dojde k přepsání zdrojové tabulky. Tato změna znamená, že všechny změny stavu tabulek Delta teď zneplatní výsledky uložené v mezipaměti. Pomocí
Databricks Runtime 15.2
Viz Databricks Runtime 15.2 (EoS).
- 26. listopadu 2024
- Aktualizace zabezpečení operačního systému.
- 5. listopadu 2024
- [SPARK-49905] Použití vyhrazeného shuffleOrigin pro stavový operátor, aby se zabránilo úpravě náhodného náhodného prohazování z AQE
- [SPARK-48843][15.3,15.2] Zabránění nekonečné smyčce pomocí BindParameters
- [SPARK-49829] Revidovat optimalizaci přidávání vstupu do úložiště stavu ve spojení stream-stream (oprava správnosti)
- [SPARK-49863][SQL] Oprava NormalizeFloatingNumbers pro zachování nullability vnořených struktur
- [SPARK-49782][SQL] Pravidlo ResolveDataFrameDropColumns překládá unresolvedAttribute s podřízeným výstupem.
- [SPARK-46632][SQL] Oprava odstranění dílčího výrazu, pokud ekvivalentní ternární výrazy mají různé podřízené výrazy
- Aktualizace zabezpečení operačního systému.
- 22. října 2024
- [SPARK-49905] Použití vyhrazeného shuffleOrigin pro stavový operátor, aby se zabránilo úpravě náhodného náhodného prohazování z AQE
- [SPARK-48843][15.3,15.2] Zabránění nekonečné smyčce pomocí BindParameters
- [SPARK-49829] Revidovat optimalizaci přidávání vstupu do úložiště stavu ve spojení stream-stream (oprava správnosti)
- [SPARK-49863][SQL] Oprava NormalizeFloatingNumbers pro zachování nullability vnořených struktur
- [SPARK-49782][SQL] Pravidlo ResolveDataFrameDropColumns překládá unresolvedAttribute s podřízeným výstupem.
- [SPARK-46632][SQL] Oprava odstranění dílčího výrazu, pokud ekvivalentní ternární výrazy mají různé podřízené výrazy
- Aktualizace zabezpečení operačního systému.
- 10. října 2024
- [BACKPORT] [[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Klasifikace třídy chyb pro chybu způsobenou uživatelskou funkcí FlatMapGroupsWithState
- [SPARK-49743][SQL] OptimizeCsvJsonExpr by při vyřazování Polí GetArrayStructFields neměl měnit pole schématu
- [SPARK-49688][CONNECT] Oprava datového závodu mezi přerušením a spuštěním plánu
- Aktualizace zabezpečení operačního systému.
- 25. září 2024
- [SPARK-49000][SQL] Oprava "select count(distinct 1) from t", kde t je prázdná tabulka, rozšířením RewriteDistinctAggregates.
- [SPARK-48719][SQL] Oprava chyby výpočtu regrSlope & RegrIntercept při prvním parametru s hodnotou null
- [SPARK-49458][CONNECT][PYTHON] Zadejte ID relace na straně serveru prostřednictvím příkazu ReattachExecute.
- [SPARK-49628][SQL] Funkce ConstantFolding by měla před vyhodnocením zkopírovat stavový výraz.
- [SPARK-49492][CONNECT] Pokus o opětovné připojení k neaktivnímu executionHolderu
- Aktualizace zabezpečení operačního systému.
- 17. září 2024
- [SPARK-49336][CONNECT] Omezte úroveň vnoření při zkrácení zprávy protobuf.
- [SPARK-49526][CONNECT] Podpora cest ve stylu Windows v ArtifactManageru
- [SPARK-49366][CONNECT] Považuje uzel Union za list v rozlišení sloupců datového rámce.
- [SPARK-43242][JÁDRO] Oprava způsobující neočekávaný typ BlockId při diagnostice poškození náhodného prohazování
- [SPARK-49409][CONNECT] Úprava výchozí hodnoty CONNECT_SESSION_PLAN_CACHE_SIZE
- Aktualizace zabezpečení operačního systému.
- 29. srpna 2024
- [SPARK-49056][SQL] ErrorClassesJsonReader nemůže správně zpracovat hodnotu null
- [SPARK-48597][SQL] Zavedení značky pro vlastnost isStreaming v textové reprezentaci logického plánu
-
[SPARK-48862][PYTHON][CONNECT] Vyhněte se volání
_proto_to_string
, pokud není povolená úroveň INFORMACÍ - [SPARK-49263][CONNECT] Klient Spark Connect v Pythonu: Konzistentně zpracovává logické možnosti čtečky datového rámce
- [SPARK-49146][SS] Přesunutí chyb kontrolních výrazů souvisejících s chybějícím vodoznakem v dotazech streamování v režimu připojení do architektury chyb
- 14. srpna 2024
- [SPARK-48941][SPARK-48970] Opravy zapisovače backportu ML / čtečky
- [SPARK-48050][SS] Log logical plan at query start
- [SPARK-48706][PYTHON] Funkce definované uživatelem Pythonu ve vyšších pořadí by neměly vyvolat vnitřní chybu.
- [SPARK-48740][SQL] Zachytávání chyby chybějící specifikace okna v rané fázi
- [SPARK-49065][SQL] Opětovné použití starších formátovacích nástrojů nebo analyzátorů musí podporovat jiné než výchozí časová pásma JVM.
- [SPARK-49047][PYTHON][CONNECT] Zkrácení zprávy pro protokolování
- 1. srpna 2024
- Na bezserverových výpočetních prostředcích pro poznámkové bloky a úlohy je ve výchozím nastavení povolený režim ANSI SQL. Viz podporované konfigurační parametry Sparku.
- Na výpočetních prostředcích konfigurovaných v režimu sdíleného přístupu mají dávky Kafka čtení a zápisy teď stejná omezení jako vynucovaná pro strukturované streamování. Podívejte se na omezení a požadavky na streamování v režimu sdíleného přístupu katalogu Unity (a).
- Výstup příkazu
SHOW CREATE TABLE
teď obsahuje všechny filtry řádků nebo masky sloupců definované v materializovaném zobrazení nebo streamovací tabulce. Viz SHOW CREATE TABLE. Další informace o filtrech řádků a maskách sloupců najdete v tématu Filtrování citlivých dat tabulky pomocí filtrů řádků a masek sloupců. - [SPARK-48705][PYTHON] Explicitní použití worker_main při spuštění s pyspark
- [SPARK-48047][SQL] Snížení zatížení paměti prázdných značek TreeNode
- [SPARK-48810][CONNECT] Rozhraní API pro zastavení relace by mělo být idempotentní, a pokud je relace již uzavřena serverem, nemělo by selhat.
- [SPARK-48873][SQL] Použití nezabezpečeného V analyzátoru JSON
- [SPARK-46957][JÁDRO] Vyřazení migrovanýchsouborůch
- [SPARK-48889][SS] testStream pro uvolnění úložišť stavů před dokončením
- [SPARK-48713][SQL] Přidání kontroly rozsahu indexu pro NezabezpečenéRow.pointTo, pokud je baseObject bajtové pole
- [SPARK-48896][SPARK-48909][SPARK-48883] Opravy zapisovače Spark ML v backportu
- [SPARK-48544][SQL] Snížení zatížení paměti prázdných bitových sad TreeNode
- [SPARK-48934][SS] Nesprávně převedené typy data a času Pythonu pro nastavení časového limitu v applyInPandasWithState
- [SPARK-48463] Nastavit StringIndexer podporující vnořené vstupní sloupce
- Aktualizace zabezpečení operačního systému.
- 11. července 2024
- (Změna chování) Datové rámce se zdroji tabulek Delta uložené v mezipaměti se nyní zneplatní, když je zdrojová tabulka přepsána. Tato změna znamená, že všechny změny stavu tabulek Delta teď zneplatní výsledky uložené v mezipaměti. Pomocí
.checkpoint()
zachovají stav tabulky po celou dobu životnosti datového rámce. - Ovladač Snowflake JDBC je aktualizován na verzi 3.16.1.
- Tato verze obsahuje opravu problému, který zabránil správnému zobrazení karty Prostředí uživatelského rozhraní Sparku při spuštění ve službě Databricks Container Services.
- V bezserverových poznámkových blocích a úlohách bude režim ANSI SQL ve výchozím nastavení povolený a podporuje krátké názvy.
- Pokud chcete při čtení dat ignorovat neplatné oddíly, zdroje dat založené na souborech, jako jsou Parquet, ORC, CSV nebo JSON, můžete nastavit možnost ignorovat Zdroj dat IgnoreInvalidPartitionPaths na true. Příklad: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...)`. Můžete také použít konfiguraci SQL spark.sql.files.ignoreInvalidPartitionPaths. Možnost zdroje dat má však přednost před konfigurací SQL. Toto nastavení je ve výchozím nastavení false.
- [SPARK-48273][SQL] Oprava opožděného přepsání PlanWithUnresolvedIdentifier
- [SPARK-48292][JÁDRO] Návrat [SPARK-39195][SQL] Spark OutputCommitCoordinator by měl přerušit fázi, pokud potvrzený soubor není konzistentní se stavem úlohy.
- [SPARK-48100][SQL] Oprava problémů při vynechání vnořených polí struktury, která nejsou vybraná ve schématu
- [SPARK-48286] Oprava analýzy sloupce s výchozím existujícím výrazem – Přidání chyby zobrazené uživateli
- [SPARK-48294][SQL] Zpracování malých písmen v nestedTypeMissingElementTypeError
- [SPARK-48556][SQL] Oprava nesprávné chybové zprávy odkazující na UNSUPPORTED_GROUPING_EXPRESSION
- [SPARK-48648][PYTHON][CONNECT] Správné nastavení SparkConnectClient.značek threadlocal
- [SPARK-48503][SQL] Oprava neplatných skalárních poddotazů s seskupením podle neekvivalentních sloupců, které byly nesprávně povolené
- [SPARK-48252][SQL] Aktualizace CommonExpressionRef v případě potřeby
- [SPARK-48475][PYTHON] Optimalizace _get_jvm_function v PySparku.
- [SPARK-48566][PYTHON] Oprava chyby, kdy indexy oddílů nejsou správné, když funkce UDTF analyze() používá výběr i sloupec PartitionColumns
- [SPARK-48481][SQL][SS] Nepoužívejte OptimalOneRowPlan pro streamovací datovou sadu
- [SPARK-47463][SQL] Použití V2Predicate k zabalení výrazu s návratovým typem logické hodnoty
- [SPARK-48383][SS] Vyvolání lepší chyby pro neshodované oddíly v možnosti startOffset v Kafka
- [SPARK-48445][SQL] Nezasílejte uživatelem definované uživatelem s drahými dětmi
- Aktualizace zabezpečení operačního systému.
- (Změna chování) Datové rámce se zdroji tabulek Delta uložené v mezipaměti se nyní zneplatní, když je zdrojová tabulka přepsána. Tato změna znamená, že všechny změny stavu tabulek Delta teď zneplatní výsledky uložené v mezipaměti. Pomocí
- 17. června 2024
-
applyInPandasWithState()
je k dispozici ve sdílených clusterech. - Opravili jsme chybu, kdy optimalizace pořadí oken pomocí sady Photon TopK nesprávně zpracovávala oddíly s strukturami.
- Opravili jsme chybu ve funkci try_divide(), kdy vstupy obsahující desetinné čárky způsobily neočekávané výjimky.
- [SPARK-48197][SQL] Vyhněte se chybě assert pro neplatnou funkci lambda
-
[SPARK-48276][PYTHON][CONNECT] Přidání chybějící
__repr__
metody proSQLExpression
- [SPARK-48014][SQL] Změna chyby makeFromJava v EvaluatePython na chybu zobrazenou uživateli
- [SPARK-48016][SQL] Oprava chyby ve funkci try_divide v případě desetinných míst
- [SPARK-47986][CONNECT][PYTHON] Nelze vytvořit novou relaci, pokud je výchozí relace uzavřena serverem.
- [SPARK-48173][SQL] KontrolaAnalysis by měla vidět celý plán dotazu.
- [SPARK-48056][CONNECT][PYTHON] Opětovné spuštění plánu, pokud se vyvolá chyba SESSION_NOT_FOUND a nebyla přijata žádná částečná odpověď
- [SPARK-48172][SQL] Oprava problémů s únikem dat v backportu JDBCDialects na verzi 15.2
- [SPARK-48105][SS] Oprava stavu časování mezi uvolněním úložiště stavu a snímkováním
- [SPARK-48288] Přidání zdrojového datového typu pro výraz přetypování konektoru
- [SPARK-48310][PYTHON][CONNECT] Vlastnosti uložené v mezipaměti musí vracet kopie.
- [SPARK-48277] Zlepšení chybové zprávy pro ErrorClassesJsonReader.getErrorMessage
- [SPARK-47986][CONNECT][PYTHON] Nelze vytvořit novou relaci, pokud je výchozí relace uzavřena serverem.
- Vrátit zpět "[SPARK-47406][SQL] Handle TIMESTAMP and DATETIME in MYSQLDialect"
- [SPARK-47994][SQL] Oprava chyby u optimalizace filtru CASE WHEN pro SQLServer
- [SPARK-47764][JÁDRO][SQL] Vyčištění závislostí náhodného prohazu na základě shuffleCleanupMode
- [SPARK-47921][CONNECT] Oprava vytvoření příkazu ExecuteJobTag v nástroji ExecuteHolder
- [SPARK-48010][SQL] Vyhněte se opakovaným voláním conf.resolver v resolveExpression
- [SPARK-48146][SQL] Oprava agregační funkce ve výrazu podřízený kontrolní výraz
- [SPARK-48180][SQL] Zlepšení chyby, když volání UDTF s TABLE argumentem zapomene závorky kolem více PARTITION/ORDER BY výrazů
- Aktualizace zabezpečení operačního systému.
-
Databricks Runtime 15.1
Viz Databricks Runtime 15.1 (EoS).
- 22. října 2024
- [SPARK-49863][SQL] Oprava NormalizeFloatingNumbers pro zachování nullability vnořených struktur
- [SPARK-46632][SQL] Oprava odstranění dílčího výrazu, pokud ekvivalentní ternární výrazy mají různé podřízené výrazy
- [SPARK-49782][SQL] Pravidlo ResolveDataFrameDropColumns překládá unresolvedAttribute s podřízeným výstupem.
- [SPARK-49905] Použití vyhrazeného shuffleOrigin pro stavový operátor, aby se zabránilo úpravě náhodného náhodného prohazování z AQE
- [SPARK-49829] Revidovat optimalizaci přidávání vstupu do úložiště stavu ve spojení stream-stream (oprava správnosti)
- Aktualizace zabezpečení operačního systému.
- 10. října 2024
- [SPARK-49688][CONNECT] Oprava datového závodu mezi přerušením a spuštěním plánu
- [SPARK-49743][SQL] OptimizeCsvJsonExpr by při vyřazování Polí GetArrayStructFields neměl měnit pole schématu
- [BACKPORT] [[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Klasifikovat třídu chyb pro chybu uživatelské funkce FlatMapGroupsWithState
- Aktualizace zabezpečení operačního systému.
- 25. září 2024
- [SPARK-49628][SQL] Funkce ConstantFolding by měla před vyhodnocením zkopírovat stavový výraz.
- [SPARK-48719][SQL] Oprava chyby výpočtu regrSlope & RegrIntercept při prvním parametru s hodnotou null
- [SPARK-49492][CONNECT] Pokus o opětovné připojení k neaktivnímu executionHolderu
- [SPARK-49000][SQL] Oprava „select count(distinct 1) from t“, kde t je prázdná tabulka, rozšířením RewriteDistinctAggregates.
- [SPARK-49458][CONNECT][PYTHON] Zadejte ID relace na straně serveru prostřednictvím příkazu ReattachExecute.
- Aktualizace zabezpečení operačního systému.
- 17. září 2024
- [SPARK-49336][CONNECT] Omezte úroveň vnoření při zkrácení zprávy protobuf.
- [SPARK-49526][CONNECT] Podpora cest ve stylu Windows v ArtifactManageru
- [SPARK-49409][CONNECT] Úprava výchozí hodnoty CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-43242][JÁDRO] Oprava způsobující neočekávaný typ BlockId při diagnostice poškození náhodného prohazování
- [SPARK-49366][CONNECT] Považuje uzel union za list při řešení sloupců datového rámce.
- 29. srpna 2024
- [SPARK-49263][CONNECT] Klient Spark Connect v Pythonu: Konzistentně zpracovává logické možnosti čtečky datového rámce
- [SPARK-49056][SQL] ErrorClassesJsonReader nemůže správně zpracovat hodnotu null
-
[SPARK-48862][PYTHON][CONNECT] Vyhněte se volání
_proto_to_string
, pokud není povolená úroveň INFORMACÍ - [SPARK-49146][SS] Přesunutí chyb z přetvrzení souvisejících s chybějícím vodoznakem v dotazech streamování v režimu připojování do rámce chyb
- 14. srpna 2024
- [SPARK-48941][SPARK-48970] Opravy zapisovače backportu ML / čtečky
- [SPARK-48050][SS] Log logical plan at query start
- [SPARK-48706][PYTHON] Funkce definované uživatelem Pythonu ve vyšších pořadí by neměly vyvolat vnitřní chybu.
- [SPARK-48597][SQL] Zavedení značky pro vlastnost isStreaming v textové reprezentaci logického plánu
- [SPARK-49065][SQL] Opětovné použití starších formátovacích nástrojů nebo analyzátorů musí podporovat jiné než výchozí časová pásma JVM.
- [SPARK-49047][PYTHON][CONNECT] Zkrácení zprávy pro protokolování
- [SPARK-48740][SQL] Zachytávání chyby chybějící specifikace okna v rané fázi
- 1. srpna 2024
- Na bezserverových výpočetních prostředcích pro poznámkové bloky a úlohy je ve výchozím nastavení povolený režim ANSI SQL. Viz podporované konfigurační parametry Sparku.
- Na výpočetních prostředcích konfigurovaných v režimu sdíleného přístupu mají dávky Kafka čtení a zápisy teď stejná omezení jako vynucovaná pro strukturované streamování. Viz omezení a požadavky na streamování pro sdílený režim přístupu katalogu Unity .
- Výstup příkazu
SHOW CREATE TABLE
teď obsahuje všechny filtry řádků nebo masky sloupců definované v materializovaném zobrazení nebo streamovací tabulce. Viz SHOW CREATE TABLE. Další informace o filtrech řádků a maskách sloupců najdete v tématu Filtrování citlivých dat tabulky pomocí filtrů řádků a masek sloupců. - [SPARK-48544][SQL] Snížení zatížení paměti prázdných bitových sad TreeNode
- [SPARK-46957][JÁDRO] Vyřazení migrovanýchsouborůch
- [SPARK-47202][PYTHON] Oprava překlepu způsobující datum a časy pomocí tzinfo
- [SPARK-48713][SQL] Přidání kontroly rozsahu indexu pro NezabezpečenéRow.pointTo, pokud je baseObject bajtové pole
- [SPARK-48896][SPARK-48909][SPARK-48883] Opravy zapisovače Spark ML v backportu
- [SPARK-48810][CONNECT] Rozhraní API pro zastavení relace by mělo být idempotentní, a pokud je relace již uzavřena serverem, nemělo by selhat.
- [SPARK-48873][SQL] Použití nezabezpečeného V analyzátoru JSON
- [SPARK-48934][SS] Nesprávně převedené typy data a času Pythonu pro nastavení časového limitu v applyInPandasWithState
- [SPARK-48705][PYTHON] Explicitní použití worker_main při spuštění s pyspark
- [SPARK-48889][SS] testStream pro uvolnění úložišť stavů před dokončením
- [SPARK-48047][SQL] Snížení zatížení paměti prázdných značek TreeNode
- [SPARK-48463] Zajistit, aby StringIndexer podporoval vnořené vstupní sloupce
- Aktualizace zabezpečení operačního systému.
- 11. července 2024
- (Změna chování) Datové rámce uložené v mezipaměti se zdroji tabulek Delta nyní zneplatní, pokud je zdrojová tabulka přepsána. Tato změna znamená, že všechny změny stavu tabulek Delta teď zneplatní výsledky uložené v mezipaměti. Pomocí
.checkpoint()
zachovají stav tabulky po celou dobu životnosti datového rámce. - Ovladač Snowflake JDBC je aktualizován na verzi 3.16.1.
- Tato verze obsahuje opravu problému, který zabránil správnému zobrazení karty Prostředí uživatelského rozhraní Sparku při spuštění ve službě Databricks Container Services.
- Na bezserverových výpočetních prostředcích pro poznámkové bloky a úlohy je ve výchozím nastavení povolený režim ANSI SQL. Viz podporované konfigurační parametry Sparku.
- Pokud chcete při čtení dat ignorovat neplatné oddíly, zdroje dat založené na souborech, jako jsou Parquet, ORC, CSV nebo JSON, můžete nastavit možnost ignorovat Zdroj dat IgnoreInvalidPartitionPaths na true. Příklad: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...)`. Můžete také použít konfiguraci SQL spark.sql.files.ignoreInvalidPartitionPaths. Možnost zdroje dat má však přednost před konfigurací SQL. Toto nastavení je ve výchozím nastavení false.
- [SPARK-48383][SS] Vyvolání lepší chyby pro neshodované oddíly v možnosti startOffset v Kafka
- [SPARK-48481][SQL][SS] Nepoužívejte OptimalOneRowPlan pro streamovací datovou sadu
- [SPARK-48100][SQL] Oprava problémů při vynechání vnořených polí struktury, která nejsou vybraná ve schématu
- [SPARK-47463][SQL] Použití V2Predicate k zabalení výrazu s návratovým typem logické hodnoty
- [SPARK-48445][SQL] Nezasílejte uživatelem definované uživatelem s drahými dětmi
- [SPARK-48292][JÁDRO] Návrat [SPARK-39195][SQL] Spark OutputCommitCoordinator by měl přerušit fázi, pokud potvrzený soubor není konzistentní se stavem úlohy.
- [SPARK-48566][PYTHON] Oprava chyby, kdy indexy oddílů nejsou správné, když funkce UDTF analyze() používá výběr i sloupec PartitionColumns
- [SPARK-48648][PYTHON][CONNECT] Správné nastavení SparkConnectClient.značek threadlocal
- [SPARK-48503][SQL] Oprava neplatných skalárních poddotazů s klauzulí GROUP BY na nerovnocenných sloupcích, které byly chybně povolené
- [SPARK-48252][SQL] Aktualizace CommonExpressionRef v případě potřeby
- [SPARK-48475][PYTHON] Optimalizace _get_jvm_function v PySparku.
- [SPARK-48294][SQL] Zpracování malých písmen v nestedTypeMissingElementTypeError
- [SPARK-48286] Oprava analýzy sloupce s existujícím výchozím výrazem – Přidání chyby, kterou vidí uživatel
- [SPARK-47309][SQL] XML: Přidání testů odvozování schématu pro značky hodnot
- [SPARK-47309][SQL][XML] Přidání testů jednotek odvození schématu
- [SPARK-48273][SQL] Oprava opožděného přepsání PlanWithUnresolvedIdentifier
- Aktualizace zabezpečení operačního systému.
- (Změna chování) Datové rámce uložené v mezipaměti se zdroji tabulek Delta nyní zneplatní, pokud je zdrojová tabulka přepsána. Tato změna znamená, že všechny změny stavu tabulek Delta teď zneplatní výsledky uložené v mezipaměti. Pomocí
- 17. června 2024
-
applyInPandasWithState()
je k dispozici ve sdílených clusterech. - Opravili jsme chybu, kdy optimalizace pořadí oken pomocí sady Photon TopK nesprávně zpracovávala oddíly s strukturami.
- [SPARK-48310][PYTHON][CONNECT] Vlastnosti uložené v mezipaměti musí vracet kopie.
-
[SPARK-48276][PYTHON][CONNECT] Přidání chybějící
__repr__
metody proSQLExpression
- [SPARK-48277] Zlepšení chybové zprávy pro ErrorClassesJsonReader.getErrorMessage
- [SPARK-47764][JÁDRO][SQL] Vyčištění závislostí náhodného prohazu na základě shuffleCleanupMode
- Aktualizace zabezpečení operačního systému.
-
- 21. května 2024
- Opravili jsme chybu ve funkci try_divide(), kdy vstupy obsahující desetinné čárky způsobily neočekávané výjimky.
- [SPARK-48173][SQL] KontrolaAnalysis by měla vidět celý plán dotazu.
- [SPARK-48016][SQL] Oprava chyby ve funkci try_divide v případě desetinných míst
- [SPARK-48105][SS] Oprava stavu časování mezi uvolněním úložiště stavu a snímkováním
- [SPARK-48197][SQL] Vyhněte se chybě assert pro neplatnou funkci lambda
- [SPARK-48180][SQL] Zlepšení chyby, když volání UDTF s TABLE argumentem zapomene závorky kolem více PARTITION/ORDER BY výrazů
- [SPARK-48014][SQL] Změna chyby makeFromJava v EvaluatePython na chybu zobrazenou uživateli
- [SPARK-48056][CONNECT][PYTHON] Opětovné spuštění plánu, pokud se vyvolá chyba SESSION_NOT_FOUND a nebyla přijata žádná částečná odpověď
- [SPARK-48146][SQL] Oprava agregační funkce ve výrazu podřízený kontrolní výraz
- [SPARK-47994][SQL] Oprava chyby při prosazení filtru sloupců CASE WHEN v SQL Serveru
- Aktualizace zabezpečení operačního systému.
- 9. května 2024
- [SPARK-47543][CONNECT][PYTHON] Odvození diktování jako MapType z datového rámce Pandas za účelem povolení vytváření datového rámce
- [SPARK-47739][SQL] Registrace logického typu avro
-
[SPARK-48044][PYTHON][CONNECT] Mezipaměť
DataFrame.isStreaming
-
[SPARK-47855][CONNECT] Přidat
spark.sql.execution.arrow.pyspark.fallback.enabled
do seznamu nepodporovaných - [SPARK-48010][SQL] Vyhněte se opakovaným voláním conf.resolver v resolveExpression
- [SPARK-47941] [SS] [Připojit] Šíření chyb inicializace pracovních procesů ForeachBatch uživatelům pro PySpark
- [SPARK-47819][CONNECT][Cherry-pick-15.0] Pro vyčištění provádění použijte asynchronní zpětné volání.
- [SPARK-47956][SQL] Kontrola sanity pro nevyřešený odkaz LCA
- [SPARK-47839][SQL] Oprava agregační chyby v rewriteWithExpression
- [SPARK-48018][SS] Oprava hodnoty null groupId způsobující chybu chybějícího parametru při vyvolání kafkaException.couldNotReadOffsetRange
- [SPARK-47371] [SQL] XML: Ignorování značek řádků nalezených v CDATA
- [SPARK-47907][SQL] Umístěte bang pod konfiguraci.
- [SPARK-47895][SQL] seskupit podle všech by měl být idempotentní.
- [SPARK-47973][JÁDRO] Web volání protokolu ve SparkContext.stop() a novější ve SparkContext.assertNotStopped()
- [SPARK-47986][CONNECT][PYTHON] Nelze vytvořit novou relaci, pokud je výchozí relace uzavřena serverem.
- Aktualizace zabezpečení operačního systému.
Databricks Runtime 15.0
Viz Databricks Runtime 15.0 (EoS)
- 30. května 2024
- (Změna chování)
dbutils.widgets.getAll()
nyní podporuje získání všech hodnot widgetů v poznámkovém bloku.
- (Změna chování)
- 25. dubna 2024
- [SPARK-47786]SELECT DISTINCT () by se nemělo stát SELECT DISTINCT struct() (aby se vrátilo k předchozímu chování)
- [SPARK-47802][SQL] Vrátit () ze struktury významu() zpět ke významu *
- [SPARK-47509][SQL] Blokování výrazů poddotazů ve funkcích lambda a vyšších pořadí
- [SPARK-47722] Před zavřením počkejte, než se dokončí práce na pozadí RocksDB.
- [SPARK-47081][CONNECT][SLEDOVAT] Zlepšení použitelnosti obslužné rutiny průběhu
- [SPARK-47694][CONNECT] Nastavení maximální velikosti zprávy na straně klienta
-
[SPARK-47669][SQL][CONNECT][PYTHON] Přidat
Column.try_cast
- [SPARK-47664][PYTHON][CONNECT][Cherry-pick-15.0] Ověřte název sloupce pomocí schématu uloženého v mezipaměti.
- [SPARK-47818][CONNECT][Cherry-pick-15.0] Zavedení mezipaměti plánu ve SparkConnectPlanneru za účelem zlepšení výkonu žádostí Analyzovat
- [SPARK-47704][SQL] Analýza JSON selže s chybou java.lang.ClassCastException při povolení spark.sql.json.enablePartialResults
- [SPARK-47755][CONNECT] Pivot by měl selhat, pokud je počet jedinečných hodnot příliš velký
- [SPARK-47713][SQL][CONNECT] Oprava selhání samoobslužného připojení
- [SPARK-47812][CONNECT] Podpora serializace SparkSession pro pracovní proces ForEachBatch
-
[SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
selhání s neplatným plánem - [SPARK-47862][PYTHON][CONNECT]Oprava generování souborů proto
- [SPARK-47800][SQL] Vytvořit novou metodu pro převod identifikátoru na tableIdentifier
- Aktualizace zabezpečení operačního systému.
- 3. dubna 2024
- (Změna chování) Aby se zajistilo konzistentní chování napříč typy výpočetních prostředků, budou funkce PySpark UDF ve sdílených clusterech nyní odpovídat chování funkcí definovaných uživatelem v clusterech bez izolace a přiřazených clusterů. Tato aktualizace zahrnuje následující změny, které by mohly narušit stávající kód:
- Funkce definované uživatelem s návratovým typem
string
už implicitně nepřevádějí hodnotystring
na hodnotystring
. Dříve by funkce UDF s návratovým typemstr
zabalila návratovou hodnotu funkcístr()
bez ohledu na skutečný datový typ vrácené hodnoty. - UDF s návratovými
timestamp
typy již implicitně nepoužijí převod stimestamp
timezone
. - Konfigurace clusteru
spark.databricks.sql.externalUDF.*
Spark se už nevztahují na uživatelem definované funkce PySpark ve sdílených clusterech. - Konfigurace
spark.databricks.safespark.externalUDF.plan.limit
clusteru Spark už nemá vliv na uživatelem definované funkce PySpark a odebere omezení verze Public Preview 5 definovaných uživatelem na dotaz pro uživatelem definované uživatelem PySpark. - Konfigurace
spark.databricks.safespark.sandbox.size.default.mib
clusteru Spark už neplatí pro uživatelem definované funkce PySpark ve sdílených clusterech. Místo toho se používá dostupná paměť v systému. Chcete-li omezit paměť UDF PySpark, použijtespark.databricks.pyspark.udf.isolation.memoryLimit
s minimální hodnotou100m
.
- Funkce definované uživatelem s návratovým typem
- Datový typ
TimestampNTZ
je nyní podporován jako sloupec clusteringu s liquid clusteringem. Viz Použijte klastrování liquid pro tabulky Delta. - [SPARK-47218][SQL] XML: Ignorování značek okomentovaných řádků v tokenizátoru XML
- [SPARK-46990][SQL] Oprava načítání prázdných souborů Avro vygenerovaných centrem událostí
- [SPARK-47033][SQL] Oprava EXECUTE IMMEDIATE USING nerozpozná názvy proměnných relací
- [SPARK-47368][SQL] Odebrání kontroly konfigurace inferTimestampNTZ v ParquetRowConverter
- [SPARK-47561][SQL] Oprava problémů s pořadím pravidel analyzátoru u aliasu
- [SPARK-47638][PS][CONNECT] Přeskočení ověření názvu sloupce v PS
- [SPARK-46906][BACKPORT][SS] Přidání změny stavového operátoru pro streamování
- [SPARK-47569][SQL] Nepovoluje porovnání varianty.
- [SPARK-47241][SQL] Oprava problémů s pořadím pravidel pro ExtractGenerator
- [SPARK-47218] [SQL] XML: Změna schématuOfXml na selhání v režimu DROPMALFORMED
-
[SPARK-47300][SQL]
quoteIfNeeded
by měl být identifikátor uvozovek začínající číslicemi. - [SPARK-47009][SQL][Kolace] Povolení podpory vytváření tabulek pro kolace
-
[SPARK-47322][PYTHON][CONNECT] Umožňuje duplikování názvů sloupců
withColumnsRenamed
konzistentně swithColumnRenamed
- [SPARK-47544][PYTHON] Metoda SparkSession Builder není kompatibilní s intellisense editoru Visual Studio Code
- [SPARK-47511][SQL] Canonicalize With expressions by re-assigning ID
- [SPARK-47385] Opravte kodéry řazené kolekce členů pomocí vstupů Option.
- [SPARK-47200][SS] Chyba třídy chyby pro uživatelskou funkci dávkové jímky Foreach
- [SPARK-47135][SS] Implementace tříd chyb pro výjimky ztráty dat Kafka
- [SPARK-38708][SQL] Upgrade klienta metastoru Hive na 3.1.3 pro Hive 3.1
- [SPARK-47305][SQL] Oprava Funkce PruneFilters pro označení příznaku isStreaming localRelation správně, pokud má plán dávku i streamování
- [SPARK-47380][CONNECT] Ujistěte se, že na straně serveru je sparksession stejný.
- Aktualizace zabezpečení operačního systému.
- (Změna chování) Aby se zajistilo konzistentní chování napříč typy výpočetních prostředků, budou funkce PySpark UDF ve sdílených clusterech nyní odpovídat chování funkcí definovaných uživatelem v clusterech bez izolace a přiřazených clusterů. Tato aktualizace zahrnuje následující změny, které by mohly narušit stávající kód:
Databricks Runtime 14.2
Viz Databricks Runtime 14.2 (EoS).
- 22. října 2024
- [SPARK-49782][SQL] Pravidlo ResolveDataFrameDropColumns překládá unresolvedAttribute s podřízeným výstupem.
- [SPARK-49905] Použití vyhrazeného shuffleOrigin pro stavový operátor, aby se zabránilo úpravě náhodného náhodného prohazování z AQE
- Aktualizace zabezpečení operačního systému.
- 10. října 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr by při vyřazování Polí GetArrayStructFields neměl měnit pole schématu
- [BACKPORT] [[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Klasifikovat třídu chyb pro chybu uživatelské funkce FlatMapGroupsWithState
- 25. září 2024
- [SPARK-48719][SQL] Opravte chybu výpočtu regrS...
- [SPARK-49628][SQL] Funkce ConstantFolding by měla před vyhodnocením zkopírovat stavový výraz.
- [SPARK-49000][SQL] Oprava "select count(distinct 1) from t", kde t je prázdná tabulka, rozšířením RewriteDistinctAggregates
- [SPARK-43242][JÁDRO] Oprava způsobující neočekávaný typ BlockId při diagnostice poškození náhodného prohazování
- [SPARK-46601] [JÁDRO] Oprava chyby protokolu v handleStatusMessage
- Aktualizace zabezpečení operačního systému.
- 17. září 2024
- [SPARK-49526][CONNECT] Podpora cest ve stylu Windows v ArtifactManageru
- 29. srpna 2024
- [SPARK-49263][CONNECT] Klient Spark Connect v Pythonu: Konzistentně zpracovává logické možnosti čtečky datového rámce
- [SPARK-49146][SS] Přesunutí chyb kontrolních výrazů souvisejících s chybějícím vodoznakem v dotazech streamování v režimu přidání do rámce chyb
- [SPARK-49056][SQL] ErrorClassesJsonReader nemůže správně zpracovat hodnotu null
- 14. srpna 2024
- [SPARK-48050][SS] Log logical plan at query start
- [SPARK-48597][SQL] Zavedení značky pro vlastnost isStreaming v textové reprezentaci logického plánu
- [SPARK-49065][SQL] Opětovné použití starších formátovacích nástrojů nebo analyzátorů musí podporovat jiné než výchozí časová pásma JVM.
- [SPARK-48706][PYTHON] Funkce definované uživatelem Pythonu ve vyšších pořadí by neměly vyvolat vnitřní chybu.
- 1. srpna 2024
- Tato verze obsahuje opravu chyb pro třídy
ColumnVector
aColumnarArray
třídy v rozhraní Spark Java. Před touto opravou může býtArrayIndexOutOfBoundsException
vyvolán nebo vrácena nesprávná data, pokud instance jedné z těchto tříd obsahovalanull
hodnoty. - Výstup příkazu
SHOW CREATE TABLE
teď obsahuje všechny filtry řádků nebo masky sloupců definované v materializovaném zobrazení nebo streamovací tabulce. Viz SHOW CREATE TABLE. Další informace o filtrech řádků a maskách sloupců najdete v tématu Filtrování citlivých dat tabulky pomocí filtrů řádků a masek sloupců. - [SPARK-47202][PYTHON] Oprava překlepu způsobující datum a časy pomocí tzinfo
- [SPARK-48705][PYTHON] Explicitní použití worker_main při spuštění s pyspark
- Aktualizace zabezpečení operačního systému.
- Tato verze obsahuje opravu chyb pro třídy
- 11. července 2024
- (Změna chování) Datové rámce, které jsou uložené v mezipaměti ve vztahu k zdrojům tabulek Delta, jsou nyní zneplatněny, pokud je zdrojová tabulka přepsána. Tato změna znamená, že všechny změny stavu tabulek Delta teď zneplatní výsledky uložené v mezipaměti. Pomocí
.checkpoint()
zachovají stav tabulky po celou dobu životnosti datového rámce. - Ovladač Snowflake JDBC je aktualizován na verzi 3.16.1.
- Tato verze obsahuje opravu problému, který zabránil správnému zobrazení karty Prostředí uživatelského rozhraní Sparku při spuštění ve službě Databricks Container Services.
- [SPARK-48292][JÁDRO] Návrat [SPARK-39195][SQL] Spark OutputCommitCoordinator by měl přerušit fázi, pokud potvrzený soubor není konzistentní se stavem úlohy.
- [SPARK-48273][SQL] Oprava opožděného přepsání PlanWithUnresolvedIdentifier
- [SPARK-48503][SQL] Oprava neplatných skalárních poddotazů se seskupováním podle neshodných sloupců, které byly nesprávně povoleny
- [SPARK-48481][SQL][SS] Nepoužívejte OptimalOneRowPlan pro streamovací datovou sadu
- [SPARK-48475][PYTHON] Optimalizace _get_jvm_function v PySparku.
- [SPARK-48100][SQL] Oprava problémů při vynechání vnořených polí struktury, která nejsou vybraná ve schématu
- [SPARK-48445][SQL] Nezasílejte uživatelem definované uživatelem s drahými dětmi
- [SPARK-48383][SS] Vyvolání lepší chyby pro neshodované oddíly v možnosti startOffset v Kafka
- Aktualizace zabezpečení operačního systému.
- (Změna chování) Datové rámce, které jsou uložené v mezipaměti ve vztahu k zdrojům tabulek Delta, jsou nyní zneplatněny, pokud je zdrojová tabulka přepsána. Tato změna znamená, že všechny změny stavu tabulek Delta teď zneplatní výsledky uložené v mezipaměti. Pomocí
- 17. června 2024
- Opravili jsme chybu, kdy optimalizace pořadí oken pomocí sady Photon TopK nesprávně zpracovávala oddíly s strukturami.
-
[SPARK-48276][PYTHON][CONNECT] Přidání chybějící
__repr__
metody proSQLExpression
- [SPARK-48277] Zlepšení chybové zprávy pro ErrorClassesJsonReader.getErrorMessage
- Aktualizace zabezpečení operačního systému.
- 21. května 2024
- (změna chování)
dbutils.widgets.getAll()
je nyní podporována, aby získaly všechny hodnoty widgetů v poznámkovém bloku. - [SPARK-48173][SQL] KontrolaAnalysis by měla vidět celý plán dotazu.
- [SPARK-48197][SQL] Vyhněte se chybě assert pro neplatnou funkci lambda
- [SPARK-47994][SQL] Oprava chyby při přenosu filtrování sloupců CASE WHEN v SQL Serveru
- [SPARK-48105][SS] Oprava stavu časování mezi uvolněním úložiště stavu a snímkováním
- Aktualizace zabezpečení operačního systému.
- (změna chování)
- 9. května 2024
-
[SPARK-48044][PYTHON][CONNECT] Mezipaměť
DataFrame.isStreaming
- [SPARK-47956][SQL] Kontrola sanity pro nevyřešený odkaz LCA
- [SPARK-47371] [SQL] XML: Ignorování značek řádků nalezených v CDATA
- [SPARK-47812][CONNECT] Podpora serializace SparkSession pro pracovní proces ForEachBatch
- [SPARK-47895][SQL] seskupit podle všech by měl být idempotentní.
- [SPARK-47973][JÁDRO] Web volání protokolu ve SparkContext.stop() a novější ve SparkContext.assertNotStopped()
- Aktualizace zabezpečení operačního systému.
-
[SPARK-48044][PYTHON][CONNECT] Mezipaměť
- 25. dubna 2024
- [SPARK-47704][SQL] Analýza JSON selže s chybou java.lang.ClassCastException při povolení spark.sql.json.enablePartialResults
-
[SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
selhání s neplatným plánem - Aktualizace zabezpečení operačního systému.
- 11. dubna 2024
- [SPARK-47309][SQL][XML] Přidání testů jednotek odvození schématu
- [SPARK-46990][SQL] Oprava načítání prázdných souborů Avro vygenerovaných centrem událostí
- [SPARK-47638][PS][CONNECT] Přeskočte ověření názvu sloupce v PS
- [SPARK-47509][SQL] Blokování výrazů poddotazů ve funkcích lambda a vyšších pořadí
- [SPARK-38708][SQL] Upgrade klienta metastoru Hive na 3.1.3 pro Hive 3.1
- Aktualizace zabezpečení operačního systému.
- 1. dubna 2024
-
[SPARK-47322][PYTHON][CONNECT] Umožňuje duplikování názvů sloupců
withColumnsRenamed
konzistentně swithColumnRenamed
- [SPARK-47385] Opravte kodéry řazené kolekce členů pomocí vstupů Option.
- [SPARK-47070] Oprava neplatné agregace po přepsání poddotazů
- [SPARK-47218] [SQL] XML: Změna schématuOfXml na selhání v režimu DROPMALFORMED
- [SPARK-47305][SQL] Oprava Funkce PruneFilters pro označení příznaku isStreaming localRelation správně, pokud má plán dávku i streamování
- [SPARK-47218][SQL] XML: Ignorování značek okomentovaných řádků v tokenizátoru XML
- Vrátit zpět "[SPARK-46861][CORE] Vyhněte se zablokování v DAGScheduler"
-
[SPARK-47300][SQL]
quoteIfNeeded
by měl být identifikátor uvozovek začínající číslicemi. - [SPARK-47368][SQL] Odebrání kontroly konfigurace inferTimestampNTZ v ParquetRowConverter
- Aktualizace zabezpečení operačního systému.
-
[SPARK-47322][PYTHON][CONNECT] Umožňuje duplikování názvů sloupců
- 14. března 2024
- [SPARK-47035][SS][CONNECT] Protokol pro naslouchací proces na straně klienta
- [SPARK-47121][JÁDRO] Vyhněte se odmítnutíExecutionExceptions během vypnutí StandaloneSchedulerBackend
- [SPARK-47145][SQL] Předání identifikátoru tabulky do skanování zdroje řádkových dat pro strategii V2.
- [SPARK-47176][SQL] Mít pomocnou funkci ResolveAllExpressionsUpWithPruning
- [SPARK-47167][SQL] Přidání konkrétní třídy pro anonymní vztah JDBC
-
[SPARK-47129][CONNECT][SQL] Správné nastavení
ResolveRelations
plánu připojení k mezipaměti - [SPARK-47044][SQL] Přidání spuštěného dotazu pro externí zdroje dat JDBC pro vysvětlení výstupu
- Aktualizace zabezpečení operačního systému.
- 29. února 2024
- Opravili jsme problém, kdy použití místní kolekce jako zdroje v příkazu MERGE mohlo vést k tomu, že metrika numSourceRows hlásí dvakrát správný počet řádků.
- Vytvoření schématu s definovaným umístěním teď vyžaduje, aby uživatel měl oprávnění k SELECT a právo upravovat libovolný soubor.
- Teď můžete načítat soubory XML pomocí Autoloaderu, read_files, COPY INTO, DLT a DBSQL. Podpora souborů XML může automaticky odvodit a vyvíjet schéma, ukládat data s neshodami typů, ověřovat XML pomocí XSD, podporovat výrazy SQL, jako jsou from_xml, schema_of_xml a to_xml. Další podrobnosti najdete v podpoře souborů XML. Pokud jste dříve používali externí balíček spark-xml, projděte si pokyny k migraci tady .
- [SPARK-46954][SQL] XML: Zabalení inputStreamReader s bufferedReader
- [SPARK-46630][SQL] XML: Ověření názvu elementu XML při zápisu
- [SPARK-46248][SQL] XML: Podpora pro ignoreCorruptFiles a ignorovat MožnostiMissingFiles
- [SPARK-46954][SQL] XML: Optimalizace vyhledávání indexu schématu
- [SPARK-47059][SQL] Připojit kontext chyby pro příkaz ALTER COLUMN v1
- [SPARK-46993][SQL] Oprava skládání konstant pro proměnné relace
- 8. února 2024
- Dotazy na tok dat (CDF) v materializovaných zobrazeních katalogu Unity nejsou podporovány, a pokud se pokusíte spustit dotaz CDF na materializované zobrazení katalogu Unity, zobrazí se chyba. Tabulky pro streamování v katalogu Unity podporují dotazy typu CDF na tabulky, které nejsou
APPLY CHANGES
, v Databricks Runtime ve verzi 14.1 a novější. Dotazy CDF nejsou podporovány v tabulkách streamování katalogu Unity v Databricks Runtime 14.0 a starších verzích. - [SPARK-46930] Přidání podpory vlastní předpony pro pole typu Sjednocení v Avro
- [SPARK-46822] Respektovat spark.sql.legacy.charVarcharAsString při přetypování typu jdbc na typ katalyzátoru v jdbc.
- [SPARK-46952] XML: Omezení velikosti poškozeného záznamu.
- [SPARK-46644] Změna přidání a sloučení v SQLMetric pro použití jeZero.
- [SPARK-46861] Vyhněte se zablokování v DAGScheduler.
- [SPARK-46794] Odeberte poddotazy z omezení logického RDD.
- [SPARK-46941] Nelze vložit uzel omezení skupiny oken pro výpočet top-k, pokud obsahuje SizeBasedWindowFunction.
- [SPARK-46933] Přidejte metriku doby provádění dotazů do konektorů, které používají JDBCRDD.
- Aktualizace zabezpečení operačního systému.
- Dotazy na tok dat (CDF) v materializovaných zobrazeních katalogu Unity nejsou podporovány, a pokud se pokusíte spustit dotaz CDF na materializované zobrazení katalogu Unity, zobrazí se chyba. Tabulky pro streamování v katalogu Unity podporují dotazy typu CDF na tabulky, které nejsou
- 31. ledna 2024
-
[SPARK-46382] XML: Aktualizace dokumentace pro
ignoreSurroundingSpaces
. - [SPARK-46382] XML: Zachytit hodnoty vložené mezi prvky.
- [SPARK-46763] Oprava selhání kontrolního výrazu v replaceDeduplicateWithAggregate pro duplicitní atributy.
- Vrátit [SPARK-46769] zpřesnění odvození schématu souvisejícího s časovým razítkem.
-
[SPARK-46677] Opravte
dataframe["*"]
řešení. - [SPARK-46382] XML: Výchozí ignorovatSurroundingSpaces na true.
- [SPARK-46633] Opravte čtečku Avro pro zpracování bloků nulové délky.
- [SPARK-45964] Odebrání privátního přístupového objektu SQL v balíčku XML a JSON v rámci katalyzátoru.
- [SPARK-46581] Aktualizace komentáře u isZero v AccumulatorV2.
- [SPARK-45912] Vylepšení rozhraní API XSDToSchema: Změna rozhraní API HDFS pro usnadnění přístupu ke cloudovému úložišti
- [SPARK-45182] Po opakovaném pokusu o neurčitou dílčí fázi úkolu podle kontrolního součtu ignorujte dokončení úkolu ze staré fáze.
- [SPARK-46660] ReattachExecute requests updates aliveness of SessionHolder.
- [SPARK-46610] Vytvořit tabulku by měla vyvolat výjimku, pokud v možnostech neexistuje žádná hodnota klíče.
-
[SPARK-46383] Snížit využití haldy řidiče snížením životnosti
TaskInfo.accumulables()
. - [SPARK-46769] Upřesnění odvození schématu týkajícího se časových razítek.
- [SPARK-46684] Oprava funkce CoGroup.applyInPandas/Arrow pro správné předávání argumentů
- [SPARK-46676] dropDuplicatesWithinWatermark by neměl selhat při kanonizaci plánu.
-
[SPARK-45962] Odebrat
treatEmptyValuesAsNulls
a místo toho použít možnostnullValue
ve formátu XML. - [SPARK-46541] Oprava nejednoznačného odkazu na sloupec v samospojení.
- [SPARK-46599] XML: Pro kontrolu kompatibility použijte TypeCoercion.findTightestCommonType.
- Aktualizace zabezpečení operačního systému.
-
[SPARK-46382] XML: Aktualizace dokumentace pro
- 17. ledna 2024
- Uzel
shuffle
plánu vysvětlení vráceného dotazem Photon se aktualizuje, aby se přidal příznakcausedBroadcastJoinBuildOOM=true
, když dojde k chybě nedostatku paměti během náhodného prohazování, které je součástí spojení vysílání. - Aby se zabránilo zvýšené latenci při komunikaci přes TLSv1.3, obsahuje tato verze údržby opravu instalace sady JDK 8, která opraví chybu JDK JDK-8293562.
-
[SPARK-46261]
DataFrame.withColumnsRenamed
by mělo zachovat pořadí diktování a mapování. -
[SPARK-46538] Oprava nejednoznačného problému s odkazem na sloupce v
ALSModel.transform
. - [SPARK-46145] spark.catalog.listTables nevyvolá výjimku, pokud se nenajde tabulka nebo zobrazení.
-
[SPARK-46484] Nastavení
resolveOperators
pomocných funkcí zachová ID plánu. -
[SPARK-46394] Oprava problémů spark.catalog.listDatabases() ve schématech se speciálními znaky, když je
spark.sql.legacy.keepCommandOutputSchema
nastaveno na hodnotu true. - [SPARK-46609] Vyhněte se exponenciální exploze v PartitioningPreservingUnaryExecNode.
- [SPARK-46446] Zakázat poddotazy s korelovanými podmínkami OFFSET k opravě chyby správnosti.
- [SPARK-46152] XML: Přidání podpory DecimalType v odvození schématu XML.
-
[SPARK-46602] Propagovat
allowExisting
při vytváření zobrazení, pokud zobrazení nebo tabulka neexistuje. - [SPARK-45814] Make ArrowConverters.createEmptyArrowBatch volání close(), aby nedošlo k nevrácení paměti.
- [SPARK-46058] Přidejte samostatný příznak pro privateKeyPassword.
- [SPARK-46132] Heslo klíče podpory pro klíče JKS pro PROTOKOL RPC SSL.
- [SPARK-46600] Přesun sdíleného kódu mezi SqlConf a SqlApiConf do SqlApiConfHelper.
- [SPARK-46478] Vraťte spark-43049 k použití orákula varchar(255) pro řetězec.
- [SPARK-46417] Při volání hive.getTable a throwException se nezdaří.
- [SPARK-46153] XML: Přidání podpory TimestampNTZType
- [SPARK-46056][BACKPORT] Oprava vektorizovaného souboru NPE parquet s výchozí hodnotou byteArrayDecimalType.
- [SPARK-46466] Vektorizovaná čtečka parquet by nikdy neměla provádět rebase pro časové razítko ntz.
-
[SPARK-46260]
DataFrame.withColumnsRenamed
by měla respektovat řazení diktů. - [SPARK-46036] Odebrání třídy chyb z funkce raise_error
- [SPARK-46294] Vyčistěte sémantiku inicializační hodnoty vs. nula.
- [SPARK-46173] Přeskočení volání trimAll během analýzy kalendářních dat
- [SPARK-46250] Deflake test_parity_listener.
- [SPARK-46587] XML: Oprava velkého celočíselného převodu XSD
- [SPARK-46396] Odvození časového razítka by nemělo vyvolat výjimku.
- [SPARK-46241] Opravte rutinu zpracování chyb, aby nepřešla do nekonečné rekurze.
- [SPARK-46355] XML: Ukončete InputStreamReader při dokončování čtení.
- [SPARK-46370] Opravit chybu při dotazování z tabulky po změně výchozích hodnot sloupců.
- [SPARK-46265] Kontrolní výrazy v addArtifact RPC činí klienta pro připojení nekompatibilní se staršími clustery.
- [SPARK-46308] Zakázat rekurzivní zpracování chyb.
-
[SPARK-46337] Zachovejte
CTESubstitution
.PLAN_ID_TAG
- Uzel
- 14. prosince 2023
- [SPARK-46141] Změňte výchozí hodnotu pro spark.sql.legacy.ctePrecedencePolicy na OPRAVENO.
- [SPARK-45730] Načtěte reloadingX509TrustManagerSuite méně flaky.
- [SPARK-45852] Během protokolování můžete bez problémů řešit chybu rekurze.
- [SPARK-45808] Lepší zpracování chyb pro výjimky SQL
- [SPARK-45920] skupina podle řad by měla být idempotentní.
- Vraťte se na [SPARK-45649] Sjednocení architektury přípravy pro
OffsetWindowFunctionFrame
". - [SPARK-45733] Podpora více zásad opakování
- [SPARK-45509] Oprava chování odkazu na sloupec df pro Spark Connect.
- [SPARK-45655] Povolte ne deterministické výrazy uvnitř AggregateFunctions v CollectMetrics.
- [SPARK-45905] Nejméně společný typ mezi desetinnými typy by měl jako první zachovat integrální číslice.
- [SPARK-45136] Vylepšení uzavřeníCleaner s podporou Ammonite.
- [SPARK-46255] Podpora komplexního typu –> převod řetězců
- [SPARK-45859] Nastavit objekty UDF v ml.functions opožděně.
-
[SPARK-46028] Nastavit
Column.__getitem__
k přijetí vstupního sloupce. - [SPARK-45798] Id relace na straně serveru.
-
[SPARK-45892] Refaktoring ověřování plánu optimalizátoru
validateSchemaOutput
pro oddělení avalidateExprIdUniqueness
. - [SPARK-45844] Implementujte rozlišování velkých a malých písmen pro XML.
-
[SPARK-45770] Zavést plán
DataFrameDropColumns
proDataframe.drop
. - [SPARK-44790] XML: to_xml implementaci a vazby pro Python, připojení a SQL.
- [SPARK-45851] Podpora více zásad v klientovi scala
- Aktualizace zabezpečení operačního systému.
- 29. listopadu 2023
- Nainstalovali jsme nový balíček,
pyarrow-hotfix
který opraví ohrožení zabezpečení PyArrow RCE. - Opravili jsme problém, kdy byla unikalá podtržítka v operacích
getColumns
pocházejících z klientů JDBC nebo ODBC nesprávně interpretována jako zástupné znaky. -
[SPARK-45730] Vylepšená časová omezení pro
ReloadingX509TrustManagerSuite
. - [SPARK-45852] Klient Pythonu pro Spark Connect teď zachytává chyby rekurze během převodu textu.
- [SPARK-45808] Vylepšené zpracování chyb pro výjimky SQL
-
[SPARK-45920]
GROUP BY
pořadové číslo není nahrazeno pořadovým pořadovým řádem. - Vrátit [SPARK-45649].
- [SPARK-45733] Přidání podpory pro více zásad opakování
-
[SPARK-45509] Opraveno chování odkazu na sloupec
df
pro Spark Connect. -
[SPARK-45655] Povolit ne deterministické výrazy uvnitř
AggregateFunctions
souboruCollectMetrics
. - [SPARK-45905] Nejmenší společný typ mezi desetinnými typy nyní zachovává integrální číslice jako první.
-
[SPARK-45136] Vylepšení
ClosureCleaner
pomocí podpory Ammonite -
[SPARK-45859] Objekty definované uživatelem
ml.functions
byly opožděné. -
[SPARK-46028]
Column.__getitem__
přijímá vstupní sloupce. - [SPARK-45798] Id relace na straně serveru.
-
[SPARK-45892] Refaktoring ověřování plánu optimalizátoru
validateSchemaOutput
pro oddělení avalidateExprIdUniqueness
. - [SPARK-45844] Implementujte rozlišování velkých a malých písmen pro XML.
-
[SPARK-45770] pevné rozlišení sloupců s
DataFrameDropColumns
proDataframe.drop
. -
[SPARK-44790] Přidání
to_xml
implementace a vazeb pro Python, Spark Connect a SQL - [SPARK-45851] Přidání podpory více zásad v klientovi Scala
- Aktualizace zabezpečení operačního systému.
- Nainstalovali jsme nový balíček,
Databricks Runtime 14.0
Viz Databricks Runtime 14.0 (EoS).
- 8. února 2024
- [SPARK-46396] Odvození časového razítka by nemělo vyvolat výjimku.
- [SPARK-46794] Odstranit poddotazy z omezení LogicalRDD.
- [SPARK-45182] Po opakovaném pokusu o neurčitou dílčí fázi úkolu podle kontrolního součtu ignorujte dokončení úkolu ze staré fáze.
- [SPARK-46933] Přidejte metriku doby provádění dotazů do konektorů, které používají JDBCRDD.
- [SPARK-45957] Vyhněte se generování plánu provádění pro nespustitelné příkazy.
- [SPARK-46861] Vyhněte se zablokování v DAGScheduler.
- [SPARK-46930] Přidání podpory vlastní předpony pro pole typu Sjednocení v Avro
- [SPARK-46941] Nejde vložit uzel limitu skupiny oken pro výpočet top-k, pokud obsahuje SizeBasedWindowFunction.
- [SPARK-45582] Ujistěte se, že se instance úložiště nepoužívá po volání potvrzení v agregaci streamování v režimu výstupu.
- Aktualizace zabezpečení operačního systému.
- 31. ledna 2024
- [SPARK-46541] Oprava nejednoznačného odkazu na sloupec v self join.
- [SPARK-46676] dropDuplicatesWithinWatermark by neměl selhat při kanonizaci plánu.
- [SPARK-46769] Upřesnit odvozování schémat v souvislosti s časovými razítky.
- [SPARK-45498] Sledování: Přeskočení dokončení úkolu ze starých pokusů o fázi
- Zvrátit [SPARK-46769] upřesnění odvození schématu souvisejícího s časovým razítkem.
-
[SPARK-46383] Snížit využití haldy řidiče snížením životnosti
TaskInfo.accumulables()
. - [SPARK-46633] Opravte čtečku Avro pro zpracování bloků nulové délky.
-
[SPARK-46677] Opravte
dataframe["*"]
řešení. - [SPARK-46684] Oprava funkce CoGroup.applyInPandas/Arrow pro správné předávání argumentů
- [SPARK-46763] Oprava selhání kontrolního výrazu v replaceDeduplicateWithAggregate pro duplicitní atributy.
- [SPARK-46610] Vytvořit tabulku by měla vyvolat výjimku, pokud v možnostech neexistuje žádná hodnota klíče.
- Aktualizace zabezpečení operačního systému.
- 17. ledna 2024
- Uzel
shuffle
plánu vysvětlení vráceného dotazem Photon se aktualizuje, aby se přidal příznakcausedBroadcastJoinBuildOOM=true
, když dojde k chybě nedostatku paměti během náhodného prohazování, které je součástí spojení vysílání. - Aby se zabránilo zvýšené latenci při komunikaci přes TLSv1.3, obsahuje tato verze údržby opravu instalace sady JDK 8, která opraví chybu JDK JDK-8293562.
- cs-CZ: [SPARK-46394] Oprava problémů spark.catalog.listDatabases() ve schématech se speciálními znaky při
spark.sql.legacy.keepCommandOutputSchema
nastaveném na hodnotu true. - [SPARK-46250] Deflake test_parity_listener.
- [SPARK-45814] Make ArrowConverters.createEmptyArrowBatch volání close(), aby nedošlo k nevrácení paměti.
- [SPARK-46173] Přeskočení volání trimAll během analýzy kalendářních dat
-
[SPARK-46484] Nastavení
resolveOperators
pomocných funkcí zachová ID plánu. - [SPARK-46466] Vektorizovaná čtečka parquet by nikdy neměla provádět rebase pro časové razítko ntz.
- [SPARK-46056] Oprava vektorizovaného souboru NPE parquet s výchozí hodnotou byteArrayDecimalType.
- [SPARK-46058] Přidejte samostatný příznak pro privateKeyPassword.
- [SPARK-46478] Vraťte spark-43049 k použití orákula varchar(255) pro řetězec.
- [SPARK-46132] Heslo klíče podpory pro klíče JKS pro PROTOKOL RPC SSL.
- [SPARK-46417] Při volání hive.getTable a throwException se nezdaří.
-
[SPARK-46261]
DataFrame.withColumnsRenamed
by mělo zachovat pořadí diktování a mapování. - [SPARK-46370] Opravit chybu při dotazování z tabulky po změně výchozích hodnot sloupců.
- [SPARK-46609] Vyhněte se exponenciální exploze v PartitioningPreservingUnaryExecNode.
- [SPARK-46600] Přesun sdíleného kódu mezi SqlConf a SqlApiConf do SqlApiConfHelper.
-
[SPARK-46538] Oprava nejednoznačného problému s odkazem na sloupce v
ALSModel.transform
. -
[SPARK-46337] Zachovejte
CTESubstitution
.PLAN_ID_TAG
-
[SPARK-46602] propagovat
allowExisting
při vytváření zobrazení, pokud zobrazení nebo tabulka neexistuje. -
[SPARK-46260]
DataFrame.withColumnsRenamed
by měla respektovat řazení diktů. - [SPARK-46145] spark.catalog.listTables nevyvolá výjimku, pokud se nenajde tabulka nebo zobrazení.
- Uzel
- 14. prosince 2023
- Opravili jsme problém, kdy se nesprávně zpracovávaly řídicí podtržítka v getColumns operace pocházející z klientů JDBC nebo ODBC a interpretovaly se jako zástupné znaky.
- [SPARK-46255] Podpora komplexního typu –> převod řetězců
-
[SPARK-46028] Umožnit
Column.__getitem__
přijímat vstupní sloupec. - [SPARK-45920] skupina podle řad by měla být idempotentní.
- [SPARK-45433] Oprava odvození schématu CSV/JSON v případech, kdy časová razítka neodpovídají zadanému formátu.
- [SPARK-45509] Opravit chování odkazu na sloupec 'df' pro Spark Connect.
- Aktualizace zabezpečení operačního systému.
- 29. listopadu 2023
- Nainstalovali jsme nový balíček,
pyarrow-hotfix
který opraví ohrožení zabezpečení PyArrow RCE. - Opravili jsme problém, kdy byla escapovaná podtržítka v operacích
getColumns
pocházejících z klientů JDBC nebo ODBC nesprávně interpretována jako zástupné znaky. - Při ingestování dat CSV pomocí Auto Loaderu nebo streamovaných tabulek lze nyní velké soubory CSV dělit a zpracovávat paralelně během odvozování schématu i zpracování dat.
- Konektor Spark-snowflake se upgraduje na verzi 2.12.0.
-
[SPARK-45859] Objekty definované uživatelem
ml.functions
byly opožděné. - Vrátit [SPARK-45592].
-
[SPARK-45892] Refaktoring ověřování plánu optimalizátoru
validateSchemaOutput
pro oddělení avalidateExprIdUniqueness
. -
[SPARK-45592] Opravili jsme problém s správností v AQE s
InMemoryTableScanExec
. - [SPARK-45620] Rozhraní API související s uživatelem definovaného uživatelem Pythonu teď používají camelCase.
- [SPARK-44784] Bylo provedeno testování hermetiky SBT.
-
[SPARK-45770] pevné rozlišení sloupců s
DataFrameDropColumns
proDataframe.drop
. -
[SPARK-45544] Integrovaná podpora SSL do
TransportContext
. -
[SPARK-45730] Vylepšená časová omezení pro
ReloadingX509TrustManagerSuite
. - Aktualizace zabezpečení operačního systému.
- Nainstalovali jsme nový balíček,
- 10. listopadu 2023
- Změněné dotazy datového kanálu v tabulkách streamování katalogu Unity a materializovaných zobrazeních tak, aby zobrazovaly chybové zprávy.
-
[SPARK-45545]
SparkTransportConf
dědíSSLOptions
při vytváření. -
[SPARK-45584] Oprava selhání spuštění poddotazů s chybou
TakeOrderedAndProjectExec
. -
[SPARK-45427] Přidání nastavení PROTOKOLU RPC SSL do
SSLOptions
aSparkTransportConf
. -
[SPARK-45541] Přidáno
SSLFactory
. -
[SPARK-45430]
FramelessOffsetWindowFunction
již selhává, pokudIGNORE NULLS
aoffset > rowCount
. - [SPARK-45429] Přidání pomocných tříd pro komunikaci SSL RPC
- [SPARK-44219] Přidání dalších ověření podle pravidel pro přepsání optimalizace
-
[SPARK-45543] Opravili jsme problém, kdy
InferWindowGroupLimit
vygeneroval chybu, pokud ostatní funkce okna neměly stejný rámeček okna jako funkce podobné hodnosti. - Aktualizace zabezpečení operačního systému.
- 23. října 2023
-
[SPARK-45426] Přidání podpory pro
ReloadingX509TrustManager
. -
[SPARK-45396] Přidání položky dokumentu pro
PySpark.ml.connect
modul a přidáníEvaluator
na__all__
ml.connect
-
[SPARK-45256] Opravili jsme problém, kdy
DurationWriter
při zápisu více hodnot, než je počáteční kapacita, selhal. -
[SPARK-45279] Připojeno
plan_id
ke všem logickým plánům. - [SPARK-45250] Přidání podpory pro profil prostředků úloh na úrovni fáze pro clustery yarn, když je dynamické přidělování vypnuté.
- [SPARK-45182] Byla přidána podpora pro vrácení fáze pro přehazování map, aby se všechny úkoly fáze mohly opakovat, když je výstup fáze neurčitý.
-
[SPARK-45419] Vyhněte se opakovanému použití
rocksdb sst
souborů v jinérocksdb
instanci odebráním položek mapování verzí souborů větších verzí. -
[SPARK-45386] Opravili jsme problém, kdy
StorageLevel.NONE
nesprávně vrátil hodnotu 0. - Aktualizace zabezpečení operačního systému.
-
[SPARK-45426] Přidání podpory pro
- 13. října 2023
- Závislost Snowflake-jdbc se upgradovala z verze 3.13.29 na verzi 3.13.33.
- Funkce
array_insert
je založená na 1 pro kladné a záporné indexy, zatímco předtím byla pro záporné indexy 0. Teď vloží nový prvek na konec vstupních polí pro index -1. Chcete-li obnovit předchozí chování, nastavtespark.sql.legacy.negativeIndexInArrayInsert
natrue
. - Azure Databricks již nebude ignorovat poškozené soubory, pokud bylo povoleno odvozování schématu CSV s Auto Loaderem
ignoreCorruptFiles
. -
[SPARK-45227] Opravili jsme drobný problém s bezpečností vláken.
CoarseGrainedExecutorBackend
-
[SPARK-44658]
ShuffleStatus.getMapStatus
by měla vrátitNone
místoSome(null)
. -
[SPARK-44910]
Encoders.bean
nepodporuje supertřídy s argumenty obecného typu. - [SPARK-45346] Při slučování schémat odvozování schématu Parquet respektuje příznaky citlivé na velikost písmen.
- Vrátit [SPARK-42946].
- [SPARK-42205] Aktualizoval protokol JSON, aby odstranil protokolování pro Accumulables v událostech zahájení úlohy nebo fáze.
-
[SPARK-45360] Tvůrce relací Sparku podporuje inicializaci z
SPARK_REMOTE
. -
[SPARK-45316] Přidání nových parametrů
ignoreCorruptFiles
/ignoreMissingFiles
doHadoopRDD
aNewHadoopRDD
. - [SPARK-44909] Pokud není k dispozici, přeskočte spuštění serveru streamování protokolu torch distributora.
-
[SPARK-45084]
StateOperatorProgress
teď používá přesné číslo shuffle oddílu. - [SPARK-45371] Opravili jsme problémy se stínováním v klientovi Scala pro Spark Connect.
-
[SPARK-45178] Náhradní spuštění jedné dávky pro
Trigger.AvailableNow
nepodporované zdroje místo použití obálky. -
[SPARK-44840] Vytvořte
array_insert()
1 pro záporné indexy. - [SPARK-44551] Upravované komentáře pro synchronizaci s open source softwarem.
-
[SPARK-45078] Funkce
ArrayInsert
nyní vytvoří explicitní přetypování, pokud se typ prvku nerovná odvozeného typu komponenty. - [SPARK-45339] PySpark teď protokoluje chyby opakování.
-
[SPARK-45057] Vyhněte se získání zámku čtení, pokud
keepReadLock
je false. -
[SPARK-44908] Byla opravena funkce paramu křížového validátoru
foldCol
. - Aktualizace zabezpečení operačního systému.
Databricks Runtime 13.1
Viz Databricks Runtime 13.1 (EoS).
- 29. listopadu 2023
- Opravili jsme problém, kdy se escapeované podtržítka v operacích
getColumns
od klientů JDBC nebo ODBC nesprávně interpretovaly jako zástupné znaky. -
[SPARK-44846] Odebrali jsme komplexní seskupovací výrazy za
RemoveRedundantAggregates
. - [SPARK-43802] Opravili jsme problém, kdy funkce codegen pro výrazy unhex a unbase64 selhala.
-
[SPARK-43718] Opravili jsme hodnotu null pro klíče ve
USING
spojeních. - Aktualizace zabezpečení operačního systému.
- Opravili jsme problém, kdy se escapeované podtržítka v operacích
- 14. listopadu 2023
- Filtry oddílů u dotazů streamování Delta Lake se před omezením rychlosti odsunou dolů, aby se dosáhlo lepšího využití.
- Změněné dotazy datového kanálu ve Streaming tabulkách Unity Catalogu a materializovaných zobrazeních tak, aby zobrazovaly chybové zprávy.
-
[SPARK-45584] Oprava selhání spuštění poddotazů s chybou
TakeOrderedAndProjectExec
. -
[SPARK-45430]
FramelessOffsetWindowFunction
již selhává, pokudIGNORE NULLS
aoffset > rowCount
. -
[SPARK-45543] Opravili jsme problém, kdy
InferWindowGroupLimit
způsobil problém, pokud ostatní funkce okna nemají stejný rámec okna jako funkce podobné pořadí. - Aktualizace zabezpečení operačního systému.
- 24. října 2023
-
[SPARK-43799] Přidání binární možnosti popisovače do rozhraní API PySpark
Protobuf
- Vrátit [SPARK-42946].
- [SPARK-45346] Inference schématu Parquet nyní při slučování schématu respektuje příznak rozlišující malá a velká písmena.
- Aktualizace zabezpečení operačního systému.
-
[SPARK-43799] Přidání binární možnosti popisovače do rozhraní API PySpark
- 13. října 2023
- Závislost Snowflake-jdbc se upgradovala z verze 3.13.29 na verzi 3.13.33.
- Pokud je při odvozování schématu CSV s Auto Loader povoleno
ignoreCorruptFiles
, poškozené soubory už se nebudou ignorovat. -
[SPARK-44658]
ShuffleStatus.getMapStatus
vrátíNone
místoSome(null)
. -
[SPARK-45178] Náhradní spuštění jedné dávky pro
Trigger.AvailableNow
nepodporované zdroje místo použití obálky. - [SPARK-42205] aktualizoval protokol JSON tak, aby odstranil záznamy o Accumulables v událostech zahájení úloh nebo fází.
- Aktualizace zabezpečení operačního systému.
- 12. září 2023
-
[SPARK-44718] Porovná
ColumnVector
konfiguraci v režimu paměti sOffHeapMemoryMode
výchozí hodnotou konfigurace. -
SPARK-44878 Vypnul přísný limit pro správce zápisu, aby se zabránilo výjimce vložení při dokončení mezipaměti
RocksDB
. - Různé opravy.
-
[SPARK-44718] Porovná
- 30. srpna 2023
- [SPARK-44871] Opravili jsme chování percentile_disc.
- [SPARK-44714] Snadné omezení překladu LCA v souvislosti s dotazy.
-
[SPARK-44245]
PySpark.sql.dataframe sample()
Testy dokumentu jsou teď ilustrativní. -
[SPARK-44818] Byla opravena doba trvání čekání na přerušení úkolu vystavená před
taskThread
inicializována. - Aktualizace zabezpečení operačního systému.
- 15. srpna 2023
-
[SPARK-44485] Optimalizované
TreeNode.generateTreeString
. -
[SPARK-44643] Opraveno
Row.__repr__
, když je řádek prázdný. - [SPARK-44504] Úloha údržby teď vyčistí načtené zprostředkovatele při chybě zastavení.
-
[SPARK-44479] Oprava
protobuf
převodu z prázdného typu struktury -
[SPARK-44464] Opraveno
applyInPandasWithStatePythonRunner
k výstupu řádků, které majíNull
jako první hodnotu sloupce. - Různé opravy.
-
[SPARK-44485] Optimalizované
- 27. července 2023
- Opravili jsme problém, kdy
dbutils.fs.ls()
vrátilINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
při vyvolání cesty umístění úložiště, která kolidovala s jiným externím nebo spravovaným umístěním úložiště. -
[SPARK-44199]
CacheManager
už se zbytečně neaktualizujefileIndex
. -
[SPARK-44448] Opravili jsme chybnou chybu výsledků z
DenseRankLimitIterator
aInferWindowGroupLimit
. - Aktualizace zabezpečení operačního systému.
- Opravili jsme problém, kdy
- 24. července 2023
- Vrátit [SPARK-42323].
-
[SPARK-41848] Opravili jsme problém s přeplánem úkolu s
TaskResourceProfile
. -
[SPARK-44136] Opravili jsme problém, kdy se
StateManager
materializovaly v exekutoru místo v ovladači vFlatMapGroupsWithStateExec
. -
[SPARK-44337] Opravili jsme problém, kdy jakékoli pole nastavené na
Any.getDefaultInstance
způsobovalo chyby analýzy. - Aktualizace zabezpečení operačního systému.
- 27. června 2023
- Aktualizace zabezpečení operačního systému.
- 15. června 2023
- Fotonizovaná
approx_count_distinct
. - Analyzátor JSON v
failOnUnknownFields
režimu teď záznam zahodí vDROPMALFORMED
režimu a selže přímo vFAILFAST
režimu. - Knihovna Snowflake-jdbc se upgraduje na verzi 3.13.29, aby se vyřešil problém se zabezpečením.
- Pole
PubSubRecord
atributů je uloženo jako JSON místo řetězce z mapy Scala pro jednodušší serializaci a deserializaci. - Příkaz
EXPLAIN EXTENDED
teď vrátí způsobilost dotazu do mezipaměti výsledků. - Zvýšení výkonu přírůstkových aktualizací pomocí
SHALLOW CLONE
Icebergu a Parquetu - [SPARK-43032] Oprava chyby PythonU SQM
- [SPARK-43404]Pokud se chcete vyhnout chybě neshody ID, přeskočte opakované použití souboru sst pro stejnou verzi úložiště stavů RocksDB.
- [SPARK-43340] Zpracování chybějícího pole trasování zásobníku v protokolech událostí
-
[SPARK-43527] Opraveno
catalog.listCatalogs
v PySparku. -
[SPARK-43541] Šířit všechny značky
Project
při řešení výrazů a chybějících sloupců. -
[SPARK-43300]
NonFateSharingCache
obálka pro Guava Cache. -
[SPARK-43378] Správně zavřete objekty streamu v
deserializeFromChunkedBuffer
objektu . -
[SPARK-42852]
NamedLambdaVariable
Vrátit související změny zEquivalentExpressions
. -
[SPARK-43779]
ParseToDate
nyní se načteEvalMode
do hlavního vlákna. -
[SPARK-43413] Oprava
IN
možnosti null poddotaznostiListQuery
. -
[SPARK-43889] Přidat kontrolu názvu sloupce pro
__dir__()
pro filtrování názvů sloupců náchylných k chybám. -
[SPARK-43043] Vylepšení výkonu
MapOutputTracker
.updateMapOutput - [SPARK-43522] Oprava vytvoření názvu sloupce struktury s indexem pole.
- [SPARK-43457] Uživatelský agent Augument s verzemi operačního systému, Pythonu a Sparku
-
[SPARK-43286] Aktualizován režim CBC
aes_encrypt
pro generování náhodných inicializačních vektorů. -
[SPARK-42851] Stráž s
EquivalentExpressions.addExpr()
supportedExpression()
. - Vrátit [SPARK-43183].
- Aktualizace zabezpečení operačního systému.
- Fotonizovaná
Databricks Runtime 12.2 LTS
Viz Databricks Runtime 12.2 LTS.
- 29. listopadu 2023
- Opravili jsme problém, kdy se unikané podtržítka v operacích
getColumns
pocházejících z klientů JDBC nebo ODBC nesprávně interpretovaly jako zástupné znaky. -
[SPARK-42205] Odebrané protokolování je možné v
Stage
událostech aTask
zahájit je. -
[SPARK-44846] Odebrali jsme komplexní seskupovací výrazy za
RemoveRedundantAggregates
. -
[SPARK-43718] Opravili jsme hodnotu null pro klíče ve
USING
spojeních. -
[SPARK-45544] Integrovaná podpora SSL do
TransportContext
. - [SPARK-43973] Uživatelské rozhraní strukturovaného streamování teď zobrazuje neúspěšné dotazy správně.
-
[SPARK-45730] Vylepšená časová omezení pro
ReloadingX509TrustManagerSuite
. -
[SPARK-45859] Objekty definované uživatelem
ml.functions
byly opožděné. - Aktualizace zabezpečení operačního systému.
- Opravili jsme problém, kdy se unikané podtržítka v operacích
- 14. listopadu 2023
- Filtry oddílů u dotazů streamování Delta Lake se před omezením rychlosti odsunou dolů, aby se dosáhlo lepšího využití.
-
[SPARK-45545]
SparkTransportConf
dědíSSLOptions
při vytváření. -
[SPARK-45427] Přidání nastavení PROTOKOLU RPC SSL do
SSLOptions
aSparkTransportConf
. -
[SPARK-45584] Oprava selhání spuštění poddotazů s chybou
TakeOrderedAndProjectExec
. -
[SPARK-45541] Přidáno
SSLFactory
. -
[SPARK-45430]
FramelessOffsetWindowFunction
již selhává, pokudIGNORE NULLS
aoffset > rowCount
. - [SPARK-45429] Přidání pomocných tříd pro komunikaci SSL RPC
- Aktualizace zabezpečení operačního systému.
- 24. října 2023
-
[SPARK-45426] Přidání podpory pro
ReloadingX509TrustManager
. - Různé opravy.
-
[SPARK-45426] Přidání podpory pro
- 13. října 2023
- Závislost Snowflake-jdbc se upgradovala z verze 3.13.29 na verzi 3.13.33.
- [SPARK-42553] Zajistěte alespoň jednu časovou jednotku po intervalu.
- [SPARK-45346] odvozování schématu Parquet respektuje příznak citlivosti na velikost písmen při slučování schémat.
-
[SPARK-45178] Náhradní spuštění jedné dávky pro
Trigger.AvailableNow
nepodporované zdroje místo použití obálky. -
[SPARK-45084]
StateOperatorProgress
použít přesné a vhodné číslo oddílu pro rozdělení.
- 12. září 2023
-
[SPARK-44873] Přidána podpora pro
alter view
v klientovi Hive s vnořenými sloupci. -
[SPARK-44718] Porovná
ColumnVector
konfiguraci v režimu paměti sOffHeapMemoryMode
výchozí hodnotou konfigurace. -
[SPARK-43799] Přidání binární možnosti popisovače do rozhraní API PySpark
Protobuf
- Různé opravy.
-
[SPARK-44873] Přidána podpora pro
- 30. srpna 2023
-
[SPARK-44485] Optimalizované
TreeNode.generateTreeString
. -
[SPARK-44818] Byla opravena doba trvání čekání na přerušení úkolu vystavená před
taskThread
inicializována. -
[SPARK-44871][11.3-13.0] Opravené
percentile_disc
chování. - [SPARK-44714] Zmírnění omezení překladu LCA v souvislosti s dotazy
- Aktualizace zabezpečení operačního systému.
-
[SPARK-44485] Optimalizované
- 15. srpna 2023
- [SPARK-44504] Úloha údržby vyčistí načtené zprostředkovatele v případě chyby při zastavení.
-
[SPARK-44464] Opraveno
applyInPandasWithStatePythonRunner
tak, aby výstupní řádky mělyNull
jako první hodnotu sloupce. - Aktualizace zabezpečení operačního systému.
- 29. července 2023
- Opravili jsme problém, kdy
dbutils.fs.ls()
vrátilINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
při vyvolání cesty umístění úložiště, která kolidovala s jiným externím nebo spravovaným umístěním úložiště. -
[SPARK-44199]
CacheManager
už se zbytečně neaktualizujefileIndex
. - Aktualizace zabezpečení operačního systému.
- Opravili jsme problém, kdy
- 24. července 2023
-
[SPARK-44337] Opravili jsme problém, kdy jakékoli pole nastavené na
Any.getDefaultInstance
způsobovalo chyby analýzy. -
[SPARK-44136] Opravili jsme problém, kdy
StateManager
se místo ovladače vFlatMapGroupsWithStateExec
materializovaly v exekutoru. - Aktualizace zabezpečení operačního systému.
-
[SPARK-44337] Opravili jsme problém, kdy jakékoli pole nastavené na
- 23. června 2023
- Aktualizace zabezpečení operačního systému.
- 15. června 2023
- Fotonizovaná
approx_count_distinct
. - Knihovna Snowflake-jdbc se upgraduje na verzi 3.13.29, aby se vyřešil problém se zabezpečením.
-
[SPARK-43779]
ParseToDate
nyní se načteEvalMode
do hlavního vlákna. -
[SPARK-43156][SPARK-43098] Rozšířený skalární test počtu poddotazů s vypnutým vypnutým testem
decorrelateInnerQuery
počtu poddotazů - Aktualizace zabezpečení operačního systému.
- Fotonizovaná
- 2. června 2023
- Analyzátor JSON v
failOnUnknownFields
režimu zahodí záznam vDROPMALFORMED
režimu a selže přímo vFAILFAST
režimu. - Zvýšení výkonu přírůstkových aktualizací pomocí
SHALLOW CLONE
Icebergu a Parquetu - Opravili jsme problém v Auto Loaderu, kdy byly různé formáty zdrojového souboru nekonzistentní, když zadané schéma neobsahovalo odvozené oddíly. Tento problém může způsobit neočekávané chyby při čtení souborů s chybějícími sloupci ve schématu odvozeného oddílu.
- [SPARK-43404] Pokud se chcete vyhnout chybě neshody ID, přeskočte opakované použití souboru sst pro stejnou verzi úložiště stavů RocksDB.
-
[SPARK-43413][11.3-13.0] Opravili jsme
IN
nulovou hodnotu poddotaznostiListQuery
. - [SPARK-43522] Opraveno vytváření názvů sloupců struktury s indexem pole.
-
[SPARK-43541] Rozšířit všechny značky
Project
při řešení výrazů a chybějících sloupců. -
[SPARK-43527] Opraveno
catalog.listCatalogs
v PySparku. - [SPARK-43123] Metadata interních polí již neproniká do katalogů.
- [SPARK-43340] Opravili jsme chybějící pole trasování zásobníku v protokolech událostí.
-
[SPARK-42444]
DataFrame.drop
teď zpracovává duplicitní sloupce správně. -
[SPARK-42937]
PlanSubqueries
teď se nastavíInSubqueryExec#shouldBroadcast
na true. -
[SPARK-43286] Aktualizovaný režim CBC
aes_encrypt
pro generování náhodných IV. -
[SPARK-43378] Správně zavřete objekty streamu v
deserializeFromChunkedBuffer
objektu .
- Analyzátor JSON v
- 17. května 2023
- Kontroly Parquet jsou nyní robustní vůči OOM při prohledávání mimořádně strukturovaných souborů dynamickým přizpůsobením velikosti dávky. Metadata souborů se analyzují tak, aby se předem snížila velikost dávky a při opakovaných pokusech o úkol je znovu nižší jako konečná bezpečnostní síť.
- Pokud byl soubor Avro přečtený pouze s možností
failOnUnknownFields
nebo s Auto Loaderem v režimu vývoje schématufailOnNewColumns
, budou sloupce s různými datovými typy přečtené jakonull
místo toho, aby vyvolaly chybu oznamující, že soubor nelze přečíst. Tato čtení teď selžou a doporučí uživatelům, aby tuto možnost používalirescuedDataColumn
. - Auto Loader teď provede následující kroky.
-
- Správně čte a již nezachrání
Integer
,Short
aByte
typy, pokud je jeden z těchto datových typů k dispozici, ale soubor Avro navrhne jeden z dalších dvou typů.
- Správně čte a již nezachrání
-
- Zabraňuje čtení typů intervalů jako typů kalendářních dat nebo časových razítek, aby nedocházelo k poškození kalendářních dat.
-
- Zabraňuje typům čtení
Decimal
s nižší přesností.
- Zabraňuje typům čtení
- [SPARK-43172] Zpřístupňuje hostitele a token z klienta pro připojení Sparku.
-
[SPARK-43293]
__qualified_access_only
se v normálních sloupcích ignoruje. -
[SPARK-43098] Opravili jsme chybu správnosti
COUNT
při seskupení skalárních poddotazů podle klauzule. -
[SPARK-43085] Podpora přiřazení
DEFAULT
sloupců pro názvy tabulek s více částmi. -
[SPARK-43190]
ListQuery.childOutput
je teď konzistentní se sekundárním výstupem. - [SPARK-43192] Odebrání ověření znakové sady uživatelského agenta
- Aktualizace zabezpečení operačního systému.
- 25. dubna 2023
- Pokud byl soubor Parquet přečtený pouze s možností
failOnUnknownFields
nebo s automatickým zavaděčem v režimu vývoje schématufailOnNewColumns
, sloupce s různými datovými typy by se četly jakonull
místo vyvolání chyby, že soubor nelze přečíst. Tato čtení teď selžou a doporučí uživatelům, aby tuto možnost používalirescuedDataColumn
. - Auto Loader nyní správně čte a již nezachrání
Integer
Short
, aByte
typy, pokud je k dispozici jeden z těchto datových typů. Soubor Parquet navrhuje jeden z dalších dvou typů. Když byl dříve povolený zachráněný datový sloupec, neshoda datových typů způsobila, že sloupce byly uloženy, i když byly čitelné. -
[SPARK-43009] Parametrizované
sql()
sAny
konstantami - [SPARK-42406] Ukončení rekurzivních polí Protobuf přetažením pole
-
[SPARK-43038] Podpora režimu CBC podle
aes_encrypt()
/aes_decrypt()
-
[SPARK-42971] Změna tisku
workdir
, pokudappDirs
má při události zpracování pracovního procesuWorkDirCleanup
hodnotu null - [SPARK-43018] Oprava chyby pro příkazy INSERT pomocí literálů časového razítka
- Aktualizace zabezpečení operačního systému.
- Pokud byl soubor Parquet přečtený pouze s možností
- 11. dubna 2023
- Podpora starších formátů zdroje dat v
SYNC
příkazu - Řeší problém v chování %automatického načítání v poznámkových blocích mimo úložiště.
- Opravili jsme problém, kdy se vývoj schématu automatického zavaděče může dostat do nekonečné smyčky chyb při zjištění nového sloupce ve schématu vnořeného objektu JSON.
-
[SPARK-42928] Provede
resolvePersistentFunction
synchronizaci. - [SPARK-42936] Opraví problém LCan, když je možné klauzuli vyřešit přímo podřízenou agregací.
-
[SPARK-42967] Opravuje
SparkListenerTaskStart.stageAttemptId
, kdy se úkol spustí po zrušení fáze. - Aktualizace zabezpečení operačního systému.
- Podpora starších formátů zdroje dat v
- 29. března 2023
Databricks SQL teď podporuje zadávání výchozích hodnot pro sloupce tabulek Delta Lake, a to buď při vytváření tabulky, nebo potom. Následující příkazy
INSERT
,UPDATE
,DELETE
aMERGE
můžou odkazovat na výchozí hodnotu libovolného sloupce pomocí explicitního klíčového slovaDEFAULT
. Kromě toho platí, že pokud má přiřazeníINSERT
explicitní seznam méně sloupců než cílová tabulka, nahradí se odpovídající výchozí hodnoty sloupců zbývajícím sloupcům (nebo null, pokud není zadána žádná výchozí hodnota).Příklad:
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; \> 0, 2023-03-28 1, 2023-03-28z
Auto Loader nyní zahájí alespoň jedno synchronní vyčištění protokolů RocksDB pro datové proudy
Trigger.AvailableNow
, aby se zajistilo, že kontrolní bod může být pravidelně vyčištěn pro rychle běžící datové proudy Auto Loader. To může způsobit, že některé datové proudy budou trvat déle, než se vypnou, ale ušetříte náklady na úložiště a zlepšíte prostředí automatického zavaděče v budoucích spuštěních.Teď můžete upravit tabulku Delta a přidat podporu funkcí tabulek pomocí
DeltaTable.addFeatureSupport(feature_name)
.[SPARK-42794] Zvýšení lockAcquireTimeoutMs na 2 minuty pro získání úložiště stavů RocksDB ve streamování struktury
[SPARK-42521] Přidat hodnoty NULL při vkládání s uživatelsky specifikovanými seznamy menšího počtu sloupců než má cílová tabulka
[SPARK-42702][SPARK-42623] Podpora parametrizovaného dotazu v poddotazech a CTE
[SPARK-42668] Zachycení výjimky při pokusu o zavření komprimovaného streamu v zastavení HDFSStateStoreProvider
[SPARK-42403] JsonProtocol by měl zpracovávat řetězce JSON s hodnotou null
- 8. března 2023
- Chybová zpráva "Selhání inicializace konfigurace" byla vylepšena tak, aby poskytovala zákazníkovi více kontextu.
- Existuje změna terminologie pro přidání funkcí do tabulky Delta pomocí vlastnosti tabulky. Upřednostňovaná syntaxe je nyní
'delta.feature.featureName'='supported'
namísto'delta.feature.featureName'='enabled'
. V případě zpětné kompatibility stále funguje používání'delta.feature.featureName'='enabled'
a bude fungovat i nadále. - Od této verze je možné vytvořit nebo nahradit tabulku přidáním další vlastnosti
delta.ignoreProtocolDefaults
k tabulce, která ignoruje konfigurace Spark související s protokolem. To zahrnuje výchozí verze čtečky a zapisovače a funkce tabulek podporované ve výchozím nastavení. - [SPARK-42070] Změna výchozí hodnoty argumentu funkce Mask z -1 na NULL
- [SPARK-41793] Nesprávný výsledek pro okenní rámy definované klauzulí rozsahu u významových desetinných číslic
- [SPARK-42484] Nebezpečná službaRowUtils – lepší chybová zpráva
- [SPARK-42516] Při vytváření zobrazení vždy uchovávat konfiguraci časového pásma relace
- [SPARK-42635] Oprava výrazu TimestampAdd
- [SPARK-42622] Vypnuto nahrazení v hodnotách
- [SPARK-42534] Oprava klauzule DB2Dialect Limit
- [SPARK-42121] Přidat předdefinované funkce hodnotné tabulkou posexplode, posexplode_outer, json_tuple a stack
- [SPARK-42045] Režim ANSI SQL: Zaokrouhlení nebo Bround by mělo vrátit chybu u malého, malého nebo významného celočíselného přetečení
- Aktualizace zabezpečení operačního systému.
Databricks Runtime 11.3 LTS
Viz Databricks Runtime 11.3 LTS.
- 29. listopadu 2023
- Opravili jsme problém, kdy se úniková podtržítka v operacích
getColumns
pocházejících z klientů JDBC nebo ODBC nesprávně vyhodnocovala jako zástupné znaky. - [SPARK-43973] Uživatelské rozhraní strukturovaného streamování teď zobrazuje neúspěšné dotazy správně.
-
[SPARK-45730] Vylepšená časová omezení pro
ReloadingX509TrustManagerSuite
. -
[SPARK-45544] Integrovaná podpora SSL do
TransportContext
. -
[SPARK-45859] Objekty definované uživatelem
ml.functions
byly opožděné. -
[SPARK-43718] Opravili jsme hodnotu null pro klíče ve
USING
spojeních. -
[SPARK-44846] Odebrali jsme komplexní seskupovací výrazy za
RemoveRedundantAggregates
. - Aktualizace zabezpečení operačního systému.
- Opravili jsme problém, kdy se úniková podtržítka v operacích
- 14. listopadu 2023
- Filtry oddílů u dotazů streamování Delta Lake se před omezením rychlosti odsunou dolů, aby se dosáhlo lepšího využití.
- [SPARK-42205] Odebrané protokolování je možné v událostech zahájení fáze a úkolu.
-
[SPARK-45545]
SparkTransportConf
dědíSSLOptions
při vytváření. - Vrátit [SPARK-33861].
-
[SPARK-45541] Přidáno
SSLFactory
. - [SPARK-45429] Přidání pomocných tříd pro komunikaci SSL RPC
-
[SPARK-45584] Oprava selhání spuštění poddotazů s chybou
TakeOrderedAndProjectExec
. -
[SPARK-45430]
FramelessOffsetWindowFunction
již selhává, pokudIGNORE NULLS
aoffset > rowCount
. -
[SPARK-45427] Přidání nastavení PROTOKOLU RPC SSL do
SSLOptions
aSparkTransportConf
. - Aktualizace zabezpečení operačního systému.
- 24. října 2023
-
[SPARK-45426] Přidání podpory pro
ReloadingX509TrustManager
. - Různé opravy.
-
[SPARK-45426] Přidání podpory pro
- 13. října 2023
- Závislost Snowflake-jdbc se upgradovala z verze 3.13.29 na verzi 3.13.33.
-
[SPARK-45178] Náhradní spuštění jedné dávky pro
Trigger.AvailableNow
nepodporované zdroje místo použití obálky. -
[SPARK-45084]
StateOperatorProgress
použít přesné odpovídající číslo pro oddíl náhodného prohazu. - [SPARK-45346] odvození schématu Parquet teď při slučování schématu respektuje příznak rozlišující malá a velká písmena.
- Aktualizace zabezpečení operačního systému.
- 10. září 2023
- Různé opravy.
- 30. srpna 2023
-
[SPARK-44818] Byla opravena doba trvání čekání na přerušení úkolu vystavená před
taskThread
inicializována. -
[SPARK-44871][11.3-13.0] Opravené
percentile_disc
chování. - Aktualizace zabezpečení operačního systému.
-
[SPARK-44818] Byla opravena doba trvání čekání na přerušení úkolu vystavená před
- 15. srpna 2023
-
[SPARK-44485] Optimalizované
TreeNode.generateTreeString
. - [SPARK-44504] Úloha údržby vyčistí načtené zprostředkovatele při chybě zastavení.
-
[SPARK-44464] Opraveno
applyInPandasWithStatePythonRunner
pro výstup řádků, které majíNull
jako první hodnotu sloupce. - Aktualizace zabezpečení operačního systému.
-
[SPARK-44485] Optimalizované
- 27. července 2023
- Opravili jsme problém, kdy
dbutils.fs.ls()
vrátilINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
při vyvolání cesty umístění úložiště, která kolidovala s jiným externím nebo spravovaným umístěním úložiště. -
[SPARK-44199]
CacheManager
už se zbytečně neaktualizujefileIndex
. - Aktualizace zabezpečení operačního systému.
- Opravili jsme problém, kdy
- 24. července 2023
- [SPARK-44136] Opravili jsme problém, kdy se StateManager materializoval v exekutoru místo v řídicí jednotce ve FlatMapGroupsWithStateExec.
- Aktualizace zabezpečení operačního systému.
- 23. června 2023
- Aktualizace zabezpečení operačního systému.
- 15. června 2023
- Fotonizovaná
approx_count_distinct
. - Knihovna Snowflake-jdbc se upgraduje na verzi 3.13.29, aby se vyřešil problém se zabezpečením.
-
[SPARK-43779]
ParseToDate
nyní se načteEvalMode
do hlavního vlákna. - [SPARK-40862] Podpora neagregovaných poddotazů v rewriteCorrelatedScalarSubquery
-
[SPARK-43156][SPARK-43098] Test chyby rozšířeného poddotazového poddotazu s
decorrelateInnerQuery
vypnutým. - [SPARK-43098] Oprava chyby POČET správnosti, pokud skalární poddotaz má klauzuli group by
- Aktualizace zabezpečení operačního systému.
- Fotonizovaná
- 2. června 2023
- Analyzátor JSON v
failOnUnknownFields
režimu zahodí záznam vDROPMALFORMED
režimu a selže přímo vFAILFAST
režimu. - Zvýšení výkonu přírůstkových aktualizací pomocí
SHALLOW CLONE
Icebergu a Parquetu - Opravili jsme problém v Auto Loaderu, kdy různé formáty zdrojového souboru byly nekonzistentní, když zadané schéma neobsahovalo odvozené oddíly. Tento problém může způsobit neočekávané chyby při čtení souborů s chybějícími sloupci ve schématu odvozeného oddílu.
- [SPARK-43404]Pokud se chcete vyhnout chybě neshody ID, přeskočte opakované použití souboru sst pro stejnou verzi úložiště stavů RocksDB.
-
[SPARK-43527] Opraveno
catalog.listCatalogs
v PySparku. -
[SPARK-43413][11.3-13.0] Opravili jsme
IN
nulovou hodnotu poddotaznostiListQuery
. - [SPARK-43340] Opravili jsme chybějící pole trasování zásobníku v protokolech událostí.
- Analyzátor JSON v
Databricks Runtime 10.4 LTS
Viz Databricks Runtime 10.4 LTS.
- 29. listopadu 2023
-
[SPARK-45544] Integrovaná podpora SSL do
TransportContext
. -
[SPARK-45859] Objekty definované uživatelem
ml.functions
byly opožděné. -
[SPARK-43718] Opravili jsme hodnotu null pro klíče ve
USING
spojeních. -
[SPARK-45730] Vylepšená časová omezení pro
ReloadingX509TrustManagerSuite
. - [SPARK-42205] Odebrané protokolování je možné v událostech zahájení fáze a úkolu.
-
[SPARK-44846] Odebrali jsme komplexní seskupovací výrazy za
RemoveRedundantAggregates
. - Aktualizace zabezpečení operačního systému.
-
[SPARK-45544] Integrovaná podpora SSL do
- 14. listopadu 2023
-
[SPARK-45541] Přidáno
SSLFactory
. -
[SPARK-45545]
SparkTransportConf
dědíSSLOptions
při vytváření. -
[SPARK-45427] Přidání nastavení PROTOKOLU RPC SSL do
SSLOptions
aSparkTransportConf
. - [SPARK-45429] Přidání pomocných tříd pro komunikaci SSL RPC
-
[SPARK-45584] Oprava selhání spuštění poddotazů s chybou
TakeOrderedAndProjectExec
. - Vrátit [SPARK-33861].
- Aktualizace zabezpečení operačního systému.
-
[SPARK-45541] Přidáno
- 24. října 2023
-
[SPARK-45426] Přidání podpory pro
ReloadingX509TrustManager
. - Aktualizace zabezpečení operačního systému.
-
[SPARK-45426] Přidání podpory pro
- 13. října 2023
-
[SPARK-45084]
StateOperatorProgress
použít přesné a adekvátní číslo oddílu pro prohazování. -
[SPARK-45178] Náhradní spuštění jedné dávky pro
Trigger.AvailableNow
nepodporované zdroje místo použití obálky. - Aktualizace zabezpečení operačního systému.
-
[SPARK-45084]
- 10. září 2023
- Různé opravy.
- 30. srpna 2023
-
[SPARK-44818] Byla opravena doba trvání čekání na přerušení úkolu vystavená před
taskThread
inicializována. - Aktualizace zabezpečení operačního systému.
-
[SPARK-44818] Byla opravena doba trvání čekání na přerušení úkolu vystavená před
- 15. srpna 2023
- [SPARK-44504] Úkol údržby vyčistí načtené poskytovatele při chybě zastavení systému.
- [SPARK-43973] Uživatelské rozhraní strukturovaného streamování se teď zobrazuje jako neúspěšné dotazy správně.
- Aktualizace zabezpečení operačního systému.
- 23. června 2023
- Aktualizace zabezpečení operačního systému.
- 15. června 2023
- Knihovna Snowflake-jdbc se upgraduje na verzi 3.13.29, aby se vyřešil problém se zabezpečením.
- [SPARK-43098] Oprava chyby POČET správnosti, pokud skalární poddotaz má klauzuli group by
- [SPARK-40862] Podpora neagregovaných poddotazů v rewriteCorrelatedScalarSubquery
-
[SPARK-43156][SPARK-43098] Test počtu rozšířených skalárních poddotazů s
decorrelateInnerQuery
vypnutým vypnutým. - Aktualizace zabezpečení operačního systému.
- 2. června 2023
- Analyzátor JSON v
failOnUnknownFields
režimu zahodí záznam vDROPMALFORMED
režimu a selže přímo vFAILFAST
režimu. - Opravili jsme problém v analýze dat o záchraně JSON, aby se zabránilo .
UnknownFieldException
- Opravili jsme problém v Auto Loaderu, kdy různé formáty zdrojového souboru byly nekonzistentní, když dodané schéma neobsahovalo odvozené oddíly. Tento problém může způsobit neočekávané chyby při čtení souborů s chybějícími sloupci ve schématu odvozeného oddílu.
- [SPARK-43404] Pokud se chcete vyhnout chybě neshody ID, přeskočte opakované použití souboru sst pro stejnou verzi úložiště stavů RocksDB.
-
[SPARK-43413] Byla opravena
IN
možnost nulové hodnoty poddotaznostiListQuery
. - Aktualizace zabezpečení operačního systému.
- Analyzátor JSON v
- 17. května 2023
- Kontroly Parquet jsou nyní robustní vůči OOM při prohledávání mimořádně strukturovaných souborů dynamickým přizpůsobením velikosti dávky. Metadata souborů se analyzují tak, aby se předem snížila velikost dávky a při opakovaných pokusech o úkol je znovu nižší jako konečná bezpečnostní síť.
-
[SPARK-41520] Rozdělte
AND_OR
stromový vzor tak, aby se oddělilAND
aOR
. -
[SPARK-43190]
ListQuery.childOutput
je teď konzistentní se sekundárním výstupem. - Aktualizace zabezpečení operačního systému.
- 25. dubna 2023
-
[SPARK-42928] Proveďte
resolvePersistentFunction
synchronizaci. - Aktualizace zabezpečení operačního systému.
-
[SPARK-42928] Proveďte
- 11. dubna 2023
- Opravili jsme problém, kdy se vývoj schématu automatického zavaděče může dostat do nekonečné smyčky chyb, pokud je zjištěn nový sloupec ve schématu vnořeného objektu JSON.
-
[SPARK-42937]
PlanSubqueries
teď se nastavíInSubqueryExec#shouldBroadcast
na true. - [SPARK-42967] Oprava SparkListenerTaskStart.stageAttemptId při spuštění úlohy po zrušení fáze.
- 29. března 2023
- [SPARK-42668] Zachycení výjimky při pokusu o zavření komprimovaného streamu v zastavení HDFSStateStoreProvider
- [SPARK-42635] Opravte ...
- Aktualizace zabezpečení operačního systému.
- 14. března 2023
- [SPARK-41162] Oprava anti- a semi-spojení pro samospojení s agregacemi
- [SPARK-33206] Oprava výpočtu váhy mezipaměti indexu náhodného prohazování u malých indexových souborů
-
[SPARK-42484] Vylepšená
UnsafeRowUtils
chybová zpráva - Různé opravy.
- 28. února 2023
- Podpora generovaného sloupce pro date_format yyyy-MM-dd. Tato změna podporuje prořezávání oddílů pro formát datumu yyyy-MM-dd ve generovaných sloupcích.
- Uživatelé teď můžou číst a zapisovat konkrétní tabulky Delta vyžadující Čtečku verze 3 a Writer verze 7 pomocí Databricks Runtime 9.1 LTS nebo novější. Aby bylo možné uspět, musí být funkce tabulek uvedené v protokolu tabulek podporovány aktuální verzí databricks Runtime.
- Podpora generovaného sloupce pro date_format yyyy-MM-dd. Tato změna podporuje vyřezávání oddílů pro yyyy-MM-dd jako date_format ve generovaných sloupcích.
- Aktualizace zabezpečení operačního systému.
- 16. února 2023
- [SPARK-30220] Povolení použití poddotazů mimo uzel filtru
- Aktualizace zabezpečení operačního systému.
- 31. ledna 2023
- Ve výchozím nastavení jsou typy tabulek JDBC externí.
- 18. ledna 2023
- Konektor Azure Synapse vrátí popisnější chybovou zprávu, když název sloupce obsahuje neplatné znaky, jako jsou prázdné znaky nebo středníky. V takových případech se vrátí následující zpráva:
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
. - [SPARK-38277] Vymazání dávky zápisu po potvrzení úložiště stavů RocksDB
- [SPARK-41199] Oprava potíží s metrikami při spoluužívaném zdroji streamování DSv1 a zdroje streamování DSv2
- [SPARK-41198] Oprava metrik v dotazu streamování s zdrojem streamování CTE a DSv1
- [SPARK-41339] Zavřete a znovu vytvořte dávku zápisu RocksDB místo pouhého vymazání.
- [SPARK-41732] Použití vyřezávání na základě stromového vzoru pro pravidlo SessionWindowing
- Aktualizace zabezpečení operačního systému.
- Konektor Azure Synapse vrátí popisnější chybovou zprávu, když název sloupce obsahuje neplatné znaky, jako jsou prázdné znaky nebo středníky. V takových případech se vrátí následující zpráva:
- 29. listopadu 2022
- Uživatelé můžou při zápisu dat pomocí konektoru Redshift nakonfigurovat počáteční a koncové chování prázdných znaků. Byly přidány následující možnosti pro řízení zpracování prázdných znaků:
-
csvignoreleadingwhitespace
, pokud je nastavena natrue
, odebere počáteční prázdné znaky z hodnot při zápisu, když jetempformat
nastavena naCSV
neboCSV GZIP
. Prázdné znaky se zachovají, když je nastavení nastaveno nafalse
. Výchozí hodnota jetrue
. -
csvignoretrailingwhitespace
, pokud je nastavena natrue
, odebere koncové prázdné znaky z hodnot při zápisu, když jetempformat
nastavena naCSV
neboCSV GZIP
. Prázdné znaky se zachovají, když je konfigurace nastavená nafalse
. Výchozí hodnota jetrue
.
-
- Opravili jsme problém s parsováním JSON v automatickém zavaděči, když byly všechny sloupce ponechány jako řetězce (
cloudFiles.inferColumnTypes
nebylo nastaveno nebo bylo nastaveno nafalse
) a JSON obsahoval vnořené objekty. - Aktualizace zabezpečení operačního systému.
- Uživatelé můžou při zápisu dat pomocí konektoru Redshift nakonfigurovat počáteční a koncové chování prázdných znaků. Byly přidány následující možnosti pro řízení zpracování prázdných znaků:
- 15. listopadu 2022
- Upgradovali jsme Apache commons-text na verzi 1.10.0.
-
[SPARK-40646] parsování JSON pro struktury, mapy a pole byla opravena, takže pokud část záznamu neodpovídá schématu, zbytek záznamu je možné analyzovat správně místo vrácení hodnot null. Pokud chcete vyjádřit výslovný souhlas s vylepšeným chováním, nastavte
spark.sql.json.enablePartialResults
natrue
. Příznak je ve výchozím nastavení vypnutý, aby se zachovalo původní chování. -
[SPARK-40292] Oprava názvů sloupců ve funkci
arrays_zip
při odkazování polí z vnořených struktur - Aktualizace zabezpečení operačního systému.
- 1. listopadu 2022
- Opravili jsme problém, kdy pokud tabulka Delta měla uživatelem definovaný sloupec s názvem
_change_type
, ale změna datového kanálu byla v této tabulce vypnuta, data v tomto sloupci by při spuštěníMERGE
nesprávně vyplnilo NULL hodnoty. - Opravili jsme problém s Automatickým zavaděčem, kdy může dojít k duplikaci souboru ve stejné mikrodávce, když je
allowOverwrites
povoleno. - [SPARK-40697] Přidání odsazení znaku na straně čtení pro pokrytí externích datových souborů
- [SPARK-40596] Naplnění příkazu ExecutorDecommission zprávami v ExecutorDecommissionInfo
- Aktualizace zabezpečení operačního systému.
- Opravili jsme problém, kdy pokud tabulka Delta měla uživatelem definovaný sloupec s názvem
- 18. října 2022
- Aktualizace zabezpečení operačního systému.
- 5. října 2022
-
[SPARK-40468] Opravit vyřazování sloupců v CSV při výběru
_corrupt_record
. - Aktualizace zabezpečení operačního systému.
-
[SPARK-40468] Opravit vyřazování sloupců v CSV při výběru
- 22. září 2022
- Uživatelé můžou nastavit spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled
,true
) a znovu povolit integrovaný seznam Auto Loader na ADLS Gen2. Předdefinovaný výpis byl dříve vypnutý kvůli problémům s výkonem, ale mohl vést ke zvýšení nákladů na úložiště pro zákazníky. - [SPARK-40315] Přidání hashCode() pro literál ArrayBasedMapData
- [SPARK-40213] Podpora převodu hodnot ASCII pro znaky latinky-1
- [SPARK-40380] Oprava konstantního posouvání InvokeLike, aby se zabránilo ne serializovatelný literál vložený do plánu
- [SPARK-38404] Vylepšení překladu CTE, když vnořený CTE odkazuje na vnější CTE
- [SPARK-40089] Oprava řazení u některých typů desetinných míst
- [SPARK-39887] RemoveRedundantAliases by měly uchovávat aliasy, které tvoří výstup uzlů projekce jedinečným
- Uživatelé můžou nastavit spark.conf.set(
- 6. září 2022
- [SPARK-40235] Místo synchronizace v Executor.updateDependencies() použijte přerušitelný zámek.
- [SPARK-40218] GROUPING SETS by měly zachovat jednotlivé sloupce seskupení.
- [SPARK-39976] ArrayIntersect by měl správně zpracovat hodnotu null v levém výrazu.
-
[SPARK-40053] Přidání
assume
do dynamických případů zrušení, které vyžadují prostředí runtime Pythonu - [SPARK-35542] Oprava: Bucketizer vytvořený pro více sloupců s parametry splitsArray, inputCols a outputCols nelze po uložení načíst.
- [SPARK-40079] Přidání ověření Imputer inputCols pro prázdný vstupní případ
- 24. srpna 2022
- [SPARK-39983] Neupamějte neserializované vztahy vysílání na ovladači.
- [SPARK-39775] Zakázat ověřování výchozích hodnot při analýze schémat Avro
- [SPARK-39962] Použít projekci, pokud jsou atributy skupiny prázdné
- [SPARK-37643] pokud je parametr charVarcharAsString pravdivý, měl by u dotazu predikát datového typu char přeskočit pravidlo rpadding.
- Aktualizace zabezpečení operačního systému.
- 9. srpna 2022
- [SPARK-39847] Oprava stavu časování v RocksDBLoader.loadLibrary(), pokud je vlákno volajícího přerušeno
- [SPARK-39731] Oprava potíží se zdroji dat CSV a JSON při analýze kalendářních dat ve formátu yyyyMDd pomocí zásad analyzátoru opravených času
- Aktualizace zabezpečení operačního systému.
- 27. července 2022
- [SPARK-39625] Přidání Dataset.as(StructType)
-
[SPARK-39689]Podpora 2 znaků
lineSep
ve zdroji dat CSV - [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded by měl být bezpečný pro přístup z více vláken.
- [SPARK-39570] vložená tabulka by měla umožňovat výrazy s aliasem
- [SPARK-39702] Snížení režijních nákladů na paměť transportCipher$EncryptedMessage pomocí sdíleného byteRawChannel
- [SPARK-39575] přidat ByteBuffer#rewind po ByteBuffer#get v AvroDeserializeru
- [SPARK-39476] Zakázat optimalizaci přetypování unwrap při přetypování z Long na Float/ Double nebo z Integer na Float
- [SPARK-38868] Nešíření výjimek z predikátu filtru při optimalizaci vnějších spojení
- Aktualizace zabezpečení operačního systému.
- 20. července 2022
- Zajistit konzistenci výsledků operace Delta MERGE, pokud zdroj není deterministický.
- [SPARK-39355] Sloupec používá uvozovky k vytvoření UnresolvedAttribute
- [SPARK-39548] Příkaz CreateView s dotazem obsahujícím klauzuli okna způsobuje problém s nenalezenou definicí okna.
- [SPARK-39419] Oprava ArraySortu pro vyvolání výjimky, když srovnávací program vrátí hodnotu null
- Vypnuli jste používání integrovaných cloudových rozhraní API automatického zavaděče pro výpis adresářů v Azure.
- Aktualizace zabezpečení operačního systému.
- 5. července 2022
- [SPARK-39376] Skrýt duplicitní sloupce při rozšíření hvězdičky v aliasu poddotazu z JOIN NATURAL/USING
- Aktualizace zabezpečení operačního systému.
- 15. června 2022
- [SPARK-39283] Oprava zablokování mezi TaskMemoryManager a UnsafeExternalSorter.SpillableIterator
- [SPARK-39285] Spark by při čtení souborů neměl kontrolovat názvy polí.
- [SPARK-34096] Zvýšení výkonu pro nth_value ignorovat hodnoty null nad oknem posunu
-
[SPARK-36718] Oprava vrácení se změnami sbalit
isExtractOnly
projekt
- 2. června 2022
- [SPARK-39093] Vyhněte se chybě kompilace codegen při dělení intervalů rok-měsíc nebo denních intervalů integrálem
- [SPARK-38990] Vyhněte se výjimce NullPointerException při vyhodnocování formátu date_trunc/trunc jako vázaného odkazu
- Aktualizace zabezpečení operačního systému.
- 18. května 2022
- Opravuje potenciální nevracení paměti v automatickém zavaděče.
- [SPARK-38918] vyřazení vnořených sloupců by mělo vyfiltrovat atributy, které nepatří do aktuální relace.
- [SPARK-37593] Zmenšení výchozí velikosti stránky LONG_ARRAY_OFFSET, pokud se používají G1GC a ON_HEAP
- [SPARK-39084] Oprava df.rdd.isEmpty() pomocí TaskContext k zastavení iterátoru při dokončení úkolu
- [SPARK-32268] Přidání columnPruningu do injektážeBloomFilter
- [SPARK-38974] Filtrování registrovaných funkcí s daným názvem databáze ve funkcích seznamu
- [SPARK-38931] Vytvoření kořenového adresáře dfs pro RocksDBFileManager s neznámým počtem klíčů na 1. kontrolním bodu
- Aktualizace zabezpečení operačního systému.
- 19. dubna 2022
- Upgradovali jsme sadu Java AWS SDK z verze 1.11.655 na verzi 1.12.1899.
- Opravili jsme problém s nefunkčními knihovnami s vymezenými poznámkovými bloky v úlohách dávkového streamování.
- [SPARK-38616] Sledování textu dotazu SQL ve Catalyst TreeNode
- Aktualizace zabezpečení operačního systému.
- 6. dubna 2022
- V této verzi jsou nyní k dispozici následující funkce Spark SQL:
-
timestampadd()
anddateadd()
: Do výrazu časového razítka přidejte dobu trvání v zadané jednotce. -
timestampdiff()
anddatediff()
: Výpočet časového rozdílu mezi výrazy dvou časových razítek v zadané jednotce.
-
- Parquet-MR byl upgradován na verzi 1.12.2
- Vylepšená podpora komplexních schémat v souborech parquet
- [SPARK-38631] Používá implementaci založenou na Javě pro zrušení tarringu v nástroji Utils.unpack.
-
[SPARK-38509][SPARK-38481] Cherry-pick tři
timestmapadd/diff
změny. - [SPARK-38523] Oprava odkazující na sloupec poškozených záznamů ze souboru CSV
-
[SPARK-38237] Povolit
ClusteredDistribution
vyžadování úplných klíčů clusteringu - [SPARK-38437] Lenient serializace datetime ze zdroje dat
- [SPARK-38180] Povolit bezpečné přetypování výrazů v korelovaných predikátech rovnosti
- [SPARK-38155] Zakázat jedinečné agregace v laterálních poddotazech s nepodporovanými predikáty
- Aktualizace zabezpečení operačního systému.
- V této verzi jsou nyní k dispozici následující funkce Spark SQL:
Databricks Runtime 9.1 LTS
Viz Databricks Runtime 9.1 LTS.
- 29. listopadu 2023
-
[SPARK-45859] Objekty definované uživatelem
ml.functions
byly opožděné. -
[SPARK-45544] Integrovaná podpora SSL do
TransportContext
. -
[SPARK-45730] Vylepšená časová omezení pro
ReloadingX509TrustManagerSuite
. - Aktualizace zabezpečení operačního systému.
-
[SPARK-45859] Objekty definované uživatelem
- 14. listopadu 2023
-
[SPARK-45545]
SparkTransportConf
dědíSSLOptions
při vytváření. - [SPARK-45429] Přidání pomocných tříd pro komunikaci SSL RPC
-
[SPARK-45427] Přidání nastavení PROTOKOLU RPC SSL do
SSLOptions
aSparkTransportConf
. -
[SPARK-45584] Oprava selhání spuštění poddotazů s chybou
TakeOrderedAndProjectExec
. -
[SPARK-45541] Přidáno
SSLFactory
. - [SPARK-42205] Odebrané protokolování je možné v událostech zahájení fáze a úkolu.
- Aktualizace zabezpečení operačního systému.
-
[SPARK-45545]
- 24. října 2023
-
[SPARK-45426] Přidání podpory pro
ReloadingX509TrustManager
. - Aktualizace zabezpečení operačního systému.
-
[SPARK-45426] Přidání podpory pro
- 13. října 2023
- Aktualizace zabezpečení operačního systému.
- 10. září 2023
- Různé opravy.
- 30. srpna 2023
- Aktualizace zabezpečení operačního systému.
- 15. srpna 2023
- Aktualizace zabezpečení operačního systému.
- 23. června 2023
- Knihovna Snowflake-jdbc se upgraduje na verzi 3.13.29, aby se vyřešil problém se zabezpečením.
- Aktualizace zabezpečení operačního systému.
- 15. června 2023
- [SPARK-43098] Oprava chyby POČET správnosti, pokud skalární poddotaz má klauzuli group by
-
[SPARK-43156][SPARK-43098] Rozšíření testu chyb počtu poddotazů skalárních poddotazů s
decorrelateInnerQuery
vypnutým. - [SPARK-40862] Podpora neagregovaných poddotazů v rewriteCorrelatedScalarSubquery
- Aktualizace zabezpečení operačního systému.
- 2. června 2023
- Analyzátor JSON v
failOnUnknownFields
režimu zahodí záznam vDROPMALFORMED
režimu a selže přímo vFAILFAST
režimu. - Opravili jsme problém v analýze dat o záchraně JSON, aby se zabránilo .
UnknownFieldException
- Opravili jsme problém v Auto Loaderu, kdy různé formáty zdrojového souboru byly nekonzistentní, když poskytnuté schéma neobsahovalo odvozené oddíly. Tento problém může způsobit neočekávané chyby při čtení souborů s chybějícími sloupci ve schématu odvozeného oddílu.
-
[SPARK-37520]
startswith()
Přidání funkcí aendswith()
řetězců -
[SPARK-43413] Byla opravena
IN
možnost nulové hodnoty poddotaznostiListQuery
. - Aktualizace zabezpečení operačního systému.
- Analyzátor JSON v
- 17. května 2023
- Aktualizace zabezpečení operačního systému.
- 25. dubna 2023
- Aktualizace zabezpečení operačního systému.
- 11. dubna 2023
- Opravili jsme problém, kdy vývoj schématu automatického zavaděče mohl při zjištění nového sloupce ve schématu vnořeného objektu JSON přecházet do nekonečné smyčky selhání.
- [SPARK-42967] Oprava SparkListenerTaskStart.stageAttemptId při spuštění úlohy po zrušení fáze.
- 29. března 2023
- Aktualizace zabezpečení operačního systému.
- 14. března 2023
-
[SPARK-42484] Vylepšená chybová zpráva pro
UnsafeRowUtils
. - Různé opravy.
-
[SPARK-42484] Vylepšená chybová zpráva pro
- 28. února 2023
- Uživatelé teď můžou pomocí Databricks Runtime 9.1 LTS nebo novější číst a zapisovat konkrétní tabulky Delta, které vyžadují Reader verze 3 a Writer verze 7. Aby bylo možné uspět, musí být funkce tabulek uvedené v protokolu tabulek podporovány aktuální verzí databricks Runtime.
- Aktualizace zabezpečení operačního systému.
- 16. února 2023
- Aktualizace zabezpečení operačního systému.
- 31. ledna 2023
- Ve výchozím nastavení jsou typy tabulek JDBC externí.
- 18. ledna 2023
- Aktualizace zabezpečení operačního systému.
- 29. listopadu 2022
- Opravili jsme problém s parsováním JSON v Automatickém zavaděči, když byly všechny sloupce ponechány jako řetězce (
cloudFiles.inferColumnTypes
nebylo nastaveno nebo bylo nastaveno nafalse
) a JSON obsahoval vnořené objekty. - Aktualizace zabezpečení operačního systému.
- Opravili jsme problém s parsováním JSON v Automatickém zavaděči, když byly všechny sloupce ponechány jako řetězce (
- 15. listopadu 2022
- Upgradovali jsme Apache commons-text na verzi 1.10.0.
- Aktualizace zabezpečení operačního systému.
- Různé opravy.
- 1. listopadu 2022
- Opravili jsme problém, kdy v případě, že tabulka Delta měla uživatelsky definovaný sloupec pojmenovaný
_change_type
, ale byl vypnutý změny datového kanálu, byla data v tomto sloupci při spuštěníMERGE
nesprávně vyplněna hodnotami NULL. - Opravili jsme problém s Auto Loaderem, kdy může být soubor duplikován ve stejné mikrodávce při povolení
allowOverwrites
. - [SPARK-40596] Naplnění příkazu ExecutorDecommission zprávami v ExecutorDecommissionInfo
- Aktualizace zabezpečení operačního systému.
- Opravili jsme problém, kdy v případě, že tabulka Delta měla uživatelsky definovaný sloupec pojmenovaný
- 18. října 2022
- Aktualizace zabezpečení operačního systému.
- 5. října 2022
- Různé opravy.
- Aktualizace zabezpečení operačního systému.
- 22. září 2022
- Uživatelé můžou nastavit spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") pro opětovné povolení vestavěného seznamování pro Auto Loader na ADLS Gen2. Předdefinovaný výpis byl dříve vypnutý kvůli problémům s výkonem, ale mohl vést ke zvýšení nákladů na úložiště pro zákazníky.
- [SPARK-40315] Přidání hashCode() pro literál ArrayBasedMapData
- [SPARK-40089] Oprava řazení u některých typů desetinných míst
- [SPARK-39887] RemoveRedundantAliases by měly uchovávat aliasy, které tvoří výstup uzlů projekce jedinečným
- 6. září 2022
- [SPARK-40235] Místo synchronizace v Executor.updateDependencies() použijte přerušitelný zámek.
- [SPARK-35542] Oprava: Bucketizer vytvořený pro více sloupců s parametry splitsArray, inputCols a outputCols nelze po uložení načíst.
- [SPARK-40079] Přidání ověření Imputer inputCols pro prázdný vstupní případ
- 24. srpna 2022
-
[SPARK-39666] Použití UnsafeProjection.create k respektu
spark.sql.codegen.factoryMode
ve výrazuEncoder - [SPARK-39962] Použít projekci, pokud jsou atributy skupiny prázdné
- Aktualizace zabezpečení operačního systému.
-
[SPARK-39666] Použití UnsafeProjection.create k respektu
- 9. srpna 2022
- Aktualizace zabezpečení operačního systému.
- 27. července 2022
- Zajistit konzistenci výsledků operace Delta MERGE, pokud zdroj není deterministický.
-
[SPARK-39689] Podpora 2 znaků
lineSep
ve zdroji dat CSV -
[SPARK-39575] Přidáno
ByteBuffer#rewind
zaByteBuffer#get
.AvroDeserializer
- [SPARK-37392] Opravili jsme chybu výkonu pro optimalizátor katalyzátoru.
- Aktualizace zabezpečení operačního systému.
- 13. července 2022
-
[SPARK-39419]
ArraySort
vyvolá výjimku, pokud srovnávací program vrátí hodnotu null. - Vypnuli jste používání integrovaných cloudových rozhraní API automatického zavaděče pro výpis adresářů v Azure.
- Aktualizace zabezpečení operačního systému.
-
[SPARK-39419]
- 5. července 2022
- Aktualizace zabezpečení operačního systému.
- Různé opravy.
- 15. června 2022
-
[SPARK-39283] Opravte vzájemné zablokování mezi
TaskMemoryManager
aUnsafeExternalSorter.SpillableIterator
.
-
[SPARK-39283] Opravte vzájemné zablokování mezi
- 2. června 2022
-
[SPARK-34554] Implementujte metodu
copy()
vColumnarMap
. - Aktualizace zabezpečení operačního systému.
-
[SPARK-34554] Implementujte metodu
- 18. května 2022
- Opravili jsme potenciální nevracení paměti v automatickém zavaděče.
- Upgradujte verzi sady AWS SDK z verze 1.11.655 na verzi 1.11.678.
- [SPARK-38918] vyřazení vnořených sloupců by mělo vyfiltrovat atributy, které nepatří do aktuální relace.
-
[SPARK-39084] Oprava
df.rdd.isEmpty()
pomocíTaskContext
zastavení iterátoru při dokončení úkolu - Aktualizace zabezpečení operačního systému.
- 19. dubna 2022
- Aktualizace zabezpečení operačního systému.
- Různé opravy.
- 6. dubna 2022
- [SPARK-38631] Používá implementaci založenou na Javě pro zrušení tarringu v nástroji Utils.unpack.
- Aktualizace zabezpečení operačního systému.
- 22. března 2022
- Změna aktuálního pracovního adresáře poznámkových bloků v clusterech s vysokou souběžností s podporou řízení přístupu k tabulce nebo předáváním přihlašovacích údajů do domovského adresáře uživatele. Dříve byla
/databricks/driver
služba Active Directory . - [SPARK-38437] Lenient serializace datetime ze zdroje dat
- [SPARK-38180] Povolit bezpečné přetypování výrazů v korelovaných predikátech rovnosti
- [SPARK-38155] Zakázat jedinečné agregace v laterálních poddotazech s nepodporovanými predikáty
- [SPARK-27442] Při čtení nebo zápisu dat do parquetu se odebralo zaškrtávací pole.
- Změna aktuálního pracovního adresáře poznámkových bloků v clusterech s vysokou souběžností s podporou řízení přístupu k tabulce nebo předáváním přihlašovacích údajů do domovského adresáře uživatele. Dříve byla
- 14. března 2022
- [SPARK-38236] absolutní cesty k souborům zadaným v tabulce create/alter jsou považovány za relativní.
-
[SPARK-34069] přerušit vlákno úlohy, pokud je místní vlastnost
SPARK_JOB_INTERRUPT_ON_CANCEL
nastavena na hodnotu true.
- 23. února 2022
- [SPARK-37859] tabulky SQL vytvořené pomocí JDBC se Sparkem 3.1 se nedají číst pomocí Sparku 3.2.
- 8. února 2022
- [SPARK-27442] Při čtení nebo zápisu dat do parquetu se odebralo zaškrtávací pole.
- Aktualizace zabezpečení operačního systému.
- 1. února 2022
- Aktualizace zabezpečení operačního systému.
- 26. ledna 2022
- Opravili jsme problém, kdy se souběžné transakce v tabulkách Delta mohly za určitých výjimečných podmínek potvrdit v ne serializovatelném pořadí.
- Opravili jsme problém, kdy
OPTIMIZE
příkaz mohl selhat, když byl povolen dialekt ANSI SQL.
- 19. ledna 2022
- Menší opravy a vylepšení zabezpečení
- Aktualizace zabezpečení operačního systému.
- 4. listopadu 2021
- Opravili jsme problém, který mohl způsobit selhání datových proudů strukturovaného streamování s chybou
ArrayIndexOutOfBoundsException
. - Opravili jsme stav časování, který mohl způsobit selhání dotazu s objektem IOException
java.io.IOException: No FileSystem for scheme
, nebo který by mohl způsobit, že se změnysparkContext.hadoopConfiguration
neprojeví v dotazech. - Konektor Apache Spark pro rozdílové sdílení byl upgradován na verzi 0.2.0.
- Opravili jsme problém, který mohl způsobit selhání datových proudů strukturovaného streamování s chybou
- 20. října 2021
- Upgradovali jsme konektor BigQuery z verze 0.18.1 na 0.22.2. Tím se přidá podpora pro typ BigNumeric.
Databricks Runtime 13.0 (EoS)
Viz Databricks Runtime 13.0 (EoS).
13. října 2023
- Závislost Snowflake-jdbc se upgradovala z verze 3.13.29 na verzi 3.13.33.
- [SPARK-42553][SQL] Zajistěte alespoň jednu časovou jednotku po intervalu.
-
[SPARK-45178] Návrat ke spuštění jedné dávky pro
Trigger.AvailableNow
nepodporované zdroje místo použití obálky. -
[SPARK-44658][JÁDRO]
ShuffleStatus.getMapStatus
vrátíNone
místoSome(null)
. -
[SPARK-42205][CORE] Odeberte protokolování Accumulables v událostech zahájení úlohy/stupně v
JsonProtocol
. - Aktualizace zabezpečení operačního systému.
12. září 2023
-
[SPARK-44485][SQL] Optimalizovat
TreeNode.generateTreeString
. -
[SPARK-44718][SQL] Porovná
ColumnVector
konfiguraci v režimu paměti sOffHeapMemoryMode
výchozí hodnotou konfigurace. - Různé opravy chyb
-
[SPARK-44485][SQL] Optimalizovat
30. srpna 2023
-
[SPARK-44818][Backport] Byla opravena doba trvání čekání na přerušení úkolu vystavená před
taskThread
inicializována. - [SPARK-44714] Snadné omezení překladu LCA v souvislosti s dotazy.
-
[SPARK-44245][PYTHON]
pyspark.sql.dataframe sample()
doctests je teď ilustrativní. -
[SPARK-44871][11.3-13.0][SQL] Opravené
percentile_disc
chování. - Aktualizace zabezpečení operačního systému.
-
[SPARK-44818][Backport] Byla opravena doba trvání čekání na přerušení úkolu vystavená před
15. srpna 2023
-
[SPARK-44643][SQL][PYTHON] Opravte
Row.__repr__
, když je řádek prázdný. - [SPARK-44504][Backport] Úloha údržby vyčistí načtené zprostředkovatele při chybě zastavení.
-
[SPARK-44479][CONNECT][PYTHON] Oprava
protobuf
převodu z prázdného typu struktury -
[SPARK-44464][SS] Opraveno
applyInPandasWithStatePythonRunner
k výstupu řádků, které majíNull
jako první hodnotu sloupce. - Různé opravy chyb
-
[SPARK-44643][SQL][PYTHON] Opravte
29. července 2023
- Opravili jsme chybu, kdy
dbutils.fs.ls()
vrátilINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
při vyvolání cesty umístění úložiště, která kolidovala s jiným externím nebo spravovaným umístěním úložiště. -
[SPARK-44199]
CacheManager
už se zbytečně neaktualizujefileIndex
. - Aktualizace zabezpečení operačního systému.
- Opravili jsme chybu, kdy
24. července 2023
-
[SPARK-44337][PROTOBUF] Opravili jsme problém, kdy jakékoli pole nastavené na
Any.getDefaultInstance
způsobovalo chyby analýzy. -
[SPARK-44136] [SS] Opravili jsme problém, kdy se
StateManager
místo ovladače vFlatMapGroupsWithStateExec
dostaly materializované v exekutoru. -
Vrátit [SPARK-42323][SQL] Přiřadit název
_LEGACY_ERROR_TEMP_2332
. - Aktualizace zabezpečení operačního systému.
-
[SPARK-44337][PROTOBUF] Opravili jsme problém, kdy jakékoli pole nastavené na
23. června 2023
- Aktualizace zabezpečení operačního systému.
15. června 2023
- Fotonizovaná
approx_count_distinct
. - Knihovna Snowflake-jdbc se upgraduje na verzi 3.13.29, aby se vyřešil problém se zabezpečením.
- [SPARK-43156][SPARK-43098][SQL] Rozšíření testu chyb počtu poddotazů skalárního poddotazu se zakázaným dekódovacím dotazem
-
[SPARK-43779][SQL]
ParseToDate
nyní se načteEvalMode
do hlavního vlákna. -
[SPARK-42937][SQL
PlanSubqueries
] by měl nastavitInSubqueryExec#shouldBroadcast
na true - Aktualizace zabezpečení operačního systému.
- Fotonizovaná
2. června 2023
- Analyzátor JSON v
failOnUnknownFields
režimu zahodí záznam vDROPMALFORMED
režimu a selže přímo vFAILFAST
režimu. - Zlepšete výkon přírůstkové aktualizace s
SHALLOW CLONE
Iceberg a Parquet. - Opravili jsme problém v Auto Loaderu, kdy byly různé formáty zdrojových souborů nekonzistentní, pokud zadané schéma neobsahovalo odvozené oddíly. Tento problém může způsobit neočekávané chyby při čtení souborů s chybějícími sloupci ve schématu odvozeného oddílu.
- [SPARK-43404][Backport] Pokud se chcete vyhnout chybě neshody ID, přeskočte opakované použití souboru sst pro stejnou verzi úložiště stavů RocksDB.
- [SPARK-43340][JÁDRO] Opravili jsme chybějící pole trasování zásobníku v protokolech událostí.
-
[SPARK-43300][JÁDRO]
NonFateSharingCache
obálka pro Guava Cache. -
[SPARK-43378][JÁDRO] Správně zavřete objekty streamu v
deserializeFromChunkedBuffer
objektu . - [SPARK-16484][SQL] Pro reprezentaci objektů DataSketch použijte 8bitové registry.
- [SPARK-43522][SQL] Opraven název sloupce struktury s indexem pole.
-
[SPARK-43413][11.3-13.0][SQL] Byla opravena
IN
možnost nulové hodnoty poddotaznostiListQuery
. -
[SPARK-43043][JÁDRO] Lepší
MapOutputTracker.updateMapOutput
výkon. - [SPARK-16484][SQL] Přidání podpory pro DataSketches HllSketch.
- [SPARK-43123][SQL] Interní metadata polí již neunikají do katalogů.
-
[SPARK-42851][SQL] Stráž s
EquivalentExpressions.addExpr()
supportedExpression()
. -
[SPARK-43336][SQL] Přetypování mezi
Timestamp
aTimestampNTZ
vyžaduje časové pásmo. -
[SPARK-43286][SQL] Aktualizovaný režim
aes_encrypt
CBC tak, aby generoval náhodné inicializační vektory. -
[SPARK-42852][SQL] Vráceny
NamedLambdaVariable
související změny zEquivalentExpressions
. -
[SPARK-43541][SQL] Šířit všechny značky
Project
při řešení výrazů a chybějících sloupců. -
[SPARK-43527][PYTHON] Opraveno
catalog.listCatalogs
v PySparku. - Aktualizace zabezpečení operačního systému.
- Analyzátor JSON v
31. května 2023
- Výchozí optimalizovaná podpora zápisu pro tabulky Delta zaregistrované v katalogu Unity se rozšířila tak, aby zahrnovala příkazy
CTAS
a operaceINSERT
pro dělené tabulky. Toto chování odpovídá výchozím nastavením ve skladech SQL. Viz Optimalizované zápisy pro Delta Lake v Azure Databricks.
- Výchozí optimalizovaná podpora zápisu pro tabulky Delta zaregistrované v katalogu Unity se rozšířila tak, aby zahrnovala příkazy
17. května 2023
- Opravili jsme regresi, kdy
_metadata.file_path
a_metadata.file_name
vrátily nesprávně formátované řetězce. Například nyní je cesta s mezerami reprezentována jakos3://test-bucket/some%20directory/some%20data.csv
místos3://test-bucket/some directory/some data.csv
. - Kontroly Parquet jsou nyní robustní vůči OOM při prohledávání mimořádně strukturovaných souborů dynamickým přizpůsobením velikosti dávky. Metadata souborů se analyzují tak, aby se předem snížila velikost dávky a při opakovaných pokusech o úkol je znovu nižší jako konečná bezpečnostní síť.
-
- Pokud byl soubor Avro přečtený pouze s možností
failOnUnknownFields
nebo s automatickým zavaděčem v režimu vývoje schématufailOnNewColumns
, budou sloupce s různými datovými typy přečtené jakonull
místo vyvolání chyby oznamující, že soubor nelze přečíst. Tato čtení teď selžou a doporučí uživatelům, aby tuto možnost používalirescuedDataColumn
.
- Pokud byl soubor Avro přečtený pouze s možností
- Auto Loader teď provede následující kroky.
-
- Správně čte a již nezachrání
Integer
,Short
typyByte
, pokud jsou k dispozici jeden z těchto datových typů, ale soubor Avro navrhne jeden z dalších dvou typů.
- Správně čte a již nezachrání
-
- Zabraňuje typům intervalů čtení jako typům kalendářních dat nebo časových razítek, aby nedocházelo k poškození kalendářních dat.
-
- Zabraňuje typům čtení
Decimal
s nižší přesností.
- Zabraňuje typům čtení
- [SPARK-43172] [CONNECT] Zpřístupňuje hostitele a token z klienta pro připojení Sparku.
-
[SPARK-43293][SQL]
__qualified_access_only
se v normálních sloupcích ignoruje. -
[SPARK-43098][SQL] Opravili jsme chybu správnosti
COUNT
při seskupení skalárních poddotazů podle klauzule. -
[SPARK-43085][SQL] Podpora přiřazení
DEFAULT
sloupců pro názvy tabulek s více částmi. -
[SPARK-43190][SQL]
ListQuery.childOutput
je teď konzistentní se sekundárním výstupem. - [SPARK-43192] [CONNECT] Odebrání ověření znakové sady uživatelského agenta
- Opravili jsme regresi, kdy
25. dubna 2023
- Tabulku Delta můžete upravit a přidat podporu funkce tabulky Delta pomocí
DeltaTable.addFeatureSupport(feature_name)
. - Příkaz
SYNC
teď podporuje starší formáty zdroje dat. - Opravili jsme chybu, kdy použití formátovače Pythonu před spuštěním jiných příkazů v poznámkovém bloku Pythonu mohlo způsobit chybějící cestu k poznámkovému bloku v
sys.path.
- Azure Databricks teď podporuje zadávání výchozích hodnot pro sloupce tabulek Delta. příkazy
INSERT
,UPDATE
,DELETE
aMERGE
můžou odkazovat na výchozí hodnotu sloupce pomocí explicitníhoDEFAULT
klíčového slova. Pro příkazyINSERT
, kde explicitní seznam obsahuje méně sloupců než cílová tabulka, jsou pro zbývající sloupce použity odpovídající výchozí hodnoty (nebo hodnotyNULL
, pokud není zadána žádná výchozí hodnota).
- Tabulku Delta můžete upravit a přidat podporu funkce tabulky Delta pomocí
Opravili jsme chybu, kdy se webový terminál nedá použít pro přístup k souborům v
/Workspace
pro některé uživatele.- Pokud byl soubor Parquet přečtený pouze s možností
failOnUnknownFields
nebo s automatickým zavaděčem v režimu vývoje schématufailOnNewColumns
, sloupce s různými datovými typy by se četly jakonull
místo vyvolání chyby, že soubor nelze přečíst. Tato čtení teď selžou a doporučí uživatelům, aby tuto možnost používalirescuedDataColumn
. - Auto Loader nyní správně čte a již nezachrání
Integer
,Short
,Byte
typy, pokud je k dispozici jeden z těchto datových typů. Soubor Parquet navrhuje jeden z dalších dvou typů. Když byl dříve povolen sloupec pro záchranu dat, neshoda datových typů by způsobila jejich záchranu, i když byly čitelné. - Opravili jsme chybu, kdy se schéma vyvíjející se v Auto Loaderu mohlo ocitnout v nekonečné smyčce selhání, když byl ve schématu vnořeného objektu JSON zjištěn nový sloupec.
- [SPARK-42794][SS] Zvyšte lockAcquireTimeoutMs na 2 minuty pro získání úložiště stavu RocksDB ve streamování struktury.
- [SPARK-39221][SQL] Správně zpřístupnit citlivé informace pro úlohu nebo fázi serveru thrift.
-
[SPARK-42971][JÁDRO] Změna tisku
workdir
, pokudappDirs
má při zpracování události pracovního procesuWorkDirCleanup
hodnotu null. - [SPARK-42936][SQL] Oprava chyby LCA v případě, že klauzuli having lze vyřešit přímo svým podřízeným agregátem.
-
[SPARK-43018][SQL] Oprava chyby pro
INSERT
příkazy s literály časového razítka - Vraťte [SPARK-42754][SQL][UI] Opravte problém se zpětnou kompatibilitou ve vnořeném spuštění SQL.
- Vrátit [SPARK-41498] Rozšířit metadata prostřednictvím Sjednocení.
-
[SPARK-43038][SQL] Podpora CBC režimu podle
aes_encrypt()
/aes_decrypt()
. -
[SPARK-42928][SQL] Proveďte
resolvePersistentFunction
synchronizaci. -
[SPARK-42521][SQL] Přidejte
NULL
hodnoty proINSERT
se seznamy, které obsahují méně sloupců než cílová tabulka. -
[SPARK-41391][SQL] Název výstupního sloupce
groupBy.agg(count_distinct)
byl nesprávný. -
[SPARK-42548][SQL] Přidání
ReferenceAllColumns
pro přeskočení atributů přepisování - [SPARK-42423][SQL] Přidat metadata sloupce o počátku a délce bloku souboru.
-
[SPARK-42796][SQL] Podpora přístupu ke sloupcům
TimestampNTZ
vCachedBatch
. - [SPARK-42266][PYTHON] Odeberte nadřazený adresář v shell.py spustit při použití IPythonu.
-
[SPARK-43011][SQL]
array_insert
by měl selhat s indexem 0. -
[SPARK-41874][CONNECT][PYTHON] Podpora
SameSemantics
ve Spark Connectu - [SPARK-42702][SPARK-42623][SQL] Podpora parametrizovaného dotazu v poddotazech a CTE
-
[SPARK-42967][JÁDRO] Oprava
SparkListenerTaskStart.stageAttemptId
, kdy se úkol spustí po zrušení fáze - Aktualizace zabezpečení operačního systému.
- Pokud byl soubor Parquet přečtený pouze s možností
Databricks Runtime 12.1 (EoS)
Viz Databricks Runtime 12.1 (EoS).
23. června 2023
- Aktualizace zabezpečení operačního systému.
15. června 2023
- Fotonizovaná
approx_count_distinct
. - Knihovna Snowflake-jdbc se upgraduje na verzi 3.13.29, aby se vyřešil problém se zabezpečením.
-
[SPARK-43779][SQL]
ParseToDate
nyní se načteEvalMode
do hlavního vlákna. - [SPARK-43156][SPARK-43098][SQL] Rozšíření testu chyb počtu poddotazů skalárního poddotazu se zakázaným dekódovacím dotazem
- Aktualizace zabezpečení operačního systému.
- Fotonizovaná
2. června 2023
- Analyzátor JSON v
failOnUnknownFields
režimu zahodí záznam vDROPMALFORMED
režimu a selže přímo vFAILFAST
režimu. - Zvýšení výkonu přírůstkové aktualizace pomocí
SHALLOW CLONE
Iceberg a Parquet. - Opravili jsme problém v nástroji Auto Loader, kdy různé formáty zdrojových souborů byly nekonzistentní, když poskytnuté schéma neobsahovalo odvozené oddíly. Tento problém může způsobit neočekávané chyby při čtení souborů s chybějícími sloupci ve schématu odvozeného oddílu.
- [SPARK-43404][Backport] Pokud se chcete vyhnout chybě neshody ID, přeskočte opakované použití souboru sst pro stejnou verzi úložiště stavů RocksDB.
-
[SPARK-43413][11.3-13.0][SQL] Byla opravena
IN
možnost nulové hodnoty poddotaznostiListQuery
. - [SPARK-43522][SQL] Opraveno vytváření názvu sloupec pro strukturu s indexem pole.
-
[SPARK-42444][PYTHON]
DataFrame.drop
teď zpracovává duplicitní sloupce správně. -
[SPARK-43541][SQL] Přenést všechny značky
Project
při řešení výrazů a chybějících sloupců. - [SPARK-43340][JÁDRO] Opravili jsme chybějící pole trasování zásobníku v protokolech událostí.
-
[SPARK-42937][SQL]
PlanSubqueries
teď se nastavíInSubqueryExec#shouldBroadcast
na true. -
[SPARK-43527][PYTHON] Opraveno
catalog.listCatalogs
v PySparku. -
[SPARK-43378][JÁDRO] Správně zavřete objekty streamu v
deserializeFromChunkedBuffer
objektu .
- Analyzátor JSON v
17. května 2023
- Kontroly Parquet jsou nyní robustní vůči OOM při prohledávání mimořádně strukturovaných souborů dynamickým přizpůsobením velikosti dávky. Metadata souborů se analyzují tak, aby se předem snížila velikost dávky a při opakovaných pokusech o úkol je znovu nižší jako konečná bezpečnostní síť.
- Pokud byl soubor Avro přečten pouze s možností
failOnUnknownFields
nebo s Auto Loaderem v režimu vývoje schématufailOnNewColumns
, sloupce s různými datovými typy budou přečteny jakonull
místo vyvolání chyby oznamující, že soubor nelze přečíst. Tato čtení teď selžou a doporučí uživatelům, aby tuto možnost používalirescuedDataColumn
. - Auto Loader teď provede následující kroky.
-
- Správně čte a již nezachrání
Integer
,Short
typyByte
, pokud jsou k dispozici jeden z těchto datových typů, ale soubor Avro navrhne jeden z dalších dvou typů.
- Správně čte a již nezachrání
-
- Zabraňuje typům intervalů čtení jako typům kalendářních dat nebo časových razítek, aby nedocházelo k poškození kalendářních dat.
-
- Zabraňuje typům čtení
Decimal
s nižší přesností.
- Zabraňuje typům čtení
-
[SPARK-43098][SQL] Opravili jsme chybu správnosti
COUNT
při seskupení skalárních poddotazů podle klauzule. -
[SPARK-43190][SQL]
ListQuery.childOutput
je teď konzistentní se sekundárním výstupem. - Aktualizace zabezpečení operačního systému.
25. dubna 2023
- Pokud byl soubor Parquet přečtený pouze s možností
failOnUnknownFields
nebo s automatickým zavaděčem v režimu vývoje schématufailOnNewColumns
, sloupce s různými datovými typy by se četly jakonull
místo vyvolání chyby, že soubor nelze přečíst. Tato čtení teď selžou a doporučí uživatelům, aby tuto možnost používalirescuedDataColumn
. - Auto Loader nyní správně čte a již nezachrání
Integer
,Short
,Byte
typy, pokud je k dispozici jeden z těchto datových typů. Soubor Parquet navrhuje jeden z dalších dvou typů. Když byl záchranný datový sloupec dříve povolen, neshoda datových typů by způsobila, že by se sloupce zachránily, i když byly čitelné. -
[SPARK-43009][SQL] Parametrizován pomocí
sql()
Any
konstant. -
[SPARK-42971][JÁDRO] Změna tisku
workdir
, pokudappDirs
má při zpracování události pracovního procesuWorkDirCleanup
hodnotu null. - Aktualizace zabezpečení operačního systému.
- Pokud byl soubor Parquet přečtený pouze s možností
úterý 11. dubna 2023
- Podpora starších formátů zdroje dat v SYNC příkazu
- Opraví chybu v chování %autoreloadu v poznámkových blocích, které jsou mimo úložiště.
- Opravili jsme chybu, kdy se schéma Auto Loaderu může dostat do nekonečné smyčky chyb, pokud je v schématu vnořeného objektu JSON zjištěn nový sloupec.
-
[SPARK-42928][SQL] Provede
resolvePersistentFunction
synchronizaci. -
[SPARK-42967][JÁDRO] Opravuje
SparkListenerTaskStart.stageAttemptId
, kdy se úkol spustí po zrušení fáze. - Aktualizace zabezpečení operačního systému.
29. března 2023
- Auto Loader teď aktivuje alespoň jedno synchronní čištění protokolu RocksDB pro datové proudy
Trigger.AvailableNow
, aby bylo možné kontrolní bod pravidelně vyčistit pro rychle běžící datové proudy Auto Loaderu. To může způsobit, že některé datové proudy budou trvat déle, než se vypnou, ale ušetříte náklady na úložiště a zlepšíte prostředí automatického zavaděče v budoucích spuštěních. - Teď můžete upravit tabulku Delta a přidat podporu funkcí tabulek pomocí
DeltaTable.addFeatureSupport(feature_name)
. - [SPARK-42702][SPARK-42623][SQL] Podpora parametrizovaného dotazu v poddotazech a CTE
- [SPARK-41162][SQL] Oprava anti-a polovičního spojení pro samoobslužné spojení s agregacemi
- [SPARK-42403][JÁDRO] JsonProtocol by měl zpracovávat řetězce JSON s hodnotou null
- [SPARK-42668][SS] Zachycení výjimky při pokusu o zavření komprimovaného streamu v HDFSStateStoreProvider abort
- [SPARK-42794][SS] Zvýšení lockAcquireTimeoutMs na 2 minuty pro získání úložiště stavů RocksDB ve streamování struktury
- Auto Loader teď aktivuje alespoň jedno synchronní čištění protokolu RocksDB pro datové proudy
14. března 2023
- Existuje změna terminologie pro přidání funkcí do tabulky Delta pomocí vlastnosti tabulky. Upřednostňovaná syntaxe je nyní
'delta.feature.featureName'='supported'
namísto'delta.feature.featureName'='enabled'
. V případě zpětné kompatibility stále funguje používání'delta.feature.featureName'='enabled'
a bude fungovat i nadále. - [SPARK-42622][CORE] Zákaz nahrazení v hodnotách
- [SPARK-42534][SQL] Oprava klauzule Limit pro DB2Dialect
- [SPARK-42635][SQL] Oprava výrazu TimestampAdd
- [SPARK-42516][SQL] Při vytváření zobrazení vždy zachytává konfiguraci časového pásma relace.
- [SPARK-42484] [SQL] Nebezpečná službaRowUtils – lepší chybová zpráva
- [SPARK-41793][SQL] Nesprávný výsledek pro rámečky oken definované klauzulí rozsahu ve velkých desetinných číslech
- Aktualizace zabezpečení operačního systému.
- Existuje změna terminologie pro přidání funkcí do tabulky Delta pomocí vlastnosti tabulky. Upřednostňovaná syntaxe je nyní
24. února 2023
- Teď můžete použít jednotnou sadu možností (
host
,port
,database
,user
,password
) pro připojení ke zdrojům dat podporovaným ve federaci dotazů (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Všimněte si, žeport
je volitelné a pokud není zadané, použije se výchozí číslo portu pro každý zdroj dat.
Příklad konfigurace připojení PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Příklad konfigurace připojení Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
- [SPARK-41989][PYTHON] Vyhněte se konfiguraci protokolování způsobující chybu z pyspark.pandas
- [SPARK-42346][SQL] Přepsání jedinečných agregací po sloučení poddotazů
-
[SPARK-41990][SQL] Místo
FieldReference.column
převoduapply
filtru V1 na V2 - Vrácení [SPARK-41848][CORE] Oprava úkolu nadplánované pomocí taskResourceProfile
- [SPARK-42162] Zavedení výrazu MultiCommutativeOp jako optimalizace paměti pro kanonizaci velkých stromů commutativních výrazů
- Aktualizace zabezpečení operačního systému.
- Teď můžete použít jednotnou sadu možností (
16. února 2023
- SYNC příkaz podporuje synchronizaci znovu vytvořených tabulek metastoru Hive. Pokud byla tabulka HMS dříve synchronizována do katalogu Unity, ale pak byla odstraněna a znovu vytvořena, bude následné opětovné synchronizace fungovat namísto vyvolání stavového kódu TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] IntegralDivide použít desetinné číslo(1, 0) k reprezentaci 0
- [SPARK-36173][JÁDRO] Podpora získání čísla procesoru v TaskContextu
- [SPARK-41848][JÁDRO] Oprava úkolu nadplánované pomocí taskResourceProfile
- [SPARK-42286][SQL] Návrat k předchozí cestě kódu codegen pro komplexní výraz s CAST
31. ledna 2023
- Vytvoření schématu s definovaným umístěním nyní vyžaduje, aby měl uživatel oprávnění k SELECT a k ÚPRAVÁM u jakéhokoliv souboru.
- [SPARK-41581][SQL] Přiřazení názvu _LEGACY_ERROR_TEMP_1230
- [SPARK-41996][SQL][SS] Oprava testu Kafka pro ověření ztracených oddílů pro účet pro pomalé operace Kafka
- [SPARK-41580][SQL] Přiřazení názvu _LEGACY_ERROR_TEMP_2137
-
[SPARK-41666][PYTHON] Podpora parametrizovaného SQL podle
sql()
- [SPARK-41579][SQL] Přiřazení názvu _LEGACY_ERROR_TEMP_1249
- [SPARK-41573][SQL] Přiřazení názvu _LEGACY_ERROR_TEMP_2136
- [SPARK-41574][SQL] Přiřadit název _LEGACY_ERROR_TEMP_2009
- [SPARK-41049][Followup] Oprava regrese synchronizace kódu pro ConvertToLocalRelation
- [SPARK-41576][SQL] Přiřadit název _LEGACY_ERROR_TEMP_2051
- [SPARK-41572][SQL] Přiřazení názvu k _LEGACY_ERROR_TEMP_2149
- [SPARK-41575][SQL] Přiřazení názvu _LEGACY_ERROR_TEMP_2054
- Aktualizace zabezpečení operačního systému.
Databricks Runtime 12.0 (EoS)
Viz Databricks Runtime 12.0 (EoS).
15. června 2023
- Fotonizovaná
approx_count_distinct
. - Knihovna Snowflake-jdbc se upgraduje na verzi 3.13.29, aby se vyřešil problém se zabezpečením.
- [SPARK-43156][SPARK-43098][SQL] Rozšíření testu chyb počtu poddotazů skalárního poddotazu se zakázaným dekódovacím dotazem
-
[SPARK-43779][SQL]
ParseToDate
nyní se načteEvalMode
do hlavního vlákna. - Aktualizace zabezpečení operačního systému.
- Fotonizovaná
2. června 2023
- Analyzátor JSON v
failOnUnknownFields
režimu zahodí záznam vDROPMALFORMED
režimu a selže přímo vFAILFAST
režimu. - Zlepšete výkon přírůstkové aktualizace pomocí
SHALLOW CLONE
Iceberg a Parquet. - Opravili jsme problém v automatickém načítači, kdy různé formáty zdrojových souborů byly nekonzistentní, pokud zadané schéma neobsahovalo odvozené oddíly. Tento problém může způsobit neočekávané chyby při čtení souborů s chybějícími sloupci ve schématu odvozeného oddílu.
-
[SPARK-42444][PYTHON]
DataFrame.drop
teď zpracovává duplicitní sloupce správně. - [SPARK-43404][Backport] Pokud se chcete vyhnout chybě neshody ID, přeskočte opakované použití souboru sst pro stejnou verzi úložiště stavů RocksDB.
-
[SPARK-43413][11.3-13.0][SQL] Byla opravena
IN
možnost nulové hodnoty poddotaznostiListQuery
. -
[SPARK-43527][PYTHON] Opraveno
catalog.listCatalogs
v PySparku. - [SPARK-43522][SQL] Opraveno vytváření názvu strukturovaného sloupce s indexem pole.
-
[SPARK-43541][SQL] Propagovat všechny značky
Project
při vyhodnocení výrazů a chybějících sloupců. - [SPARK-43340][JÁDRO] Opravili jsme chybějící pole trasování zásobníku v protokolech událostí.
-
[SPARK-42937][SQL]
PlanSubqueries
nastavteInSubqueryExec#shouldBroadcast
na true.
- Analyzátor JSON v
17. května 2023
- Kontroly Parquet jsou nyní robustní vůči OOM při prohledávání mimořádně strukturovaných souborů dynamickým přizpůsobením velikosti dávky. Metadata souborů se analyzují tak, aby se předem snížila velikost dávky a při opakovaných pokusech o úkol je znovu nižší jako konečná bezpečnostní síť.
- Pokud byl soubor Avro přečten pouze s možností
failOnUnknownFields
nebo s použitím Auto Loaderu v režimu vývoje schématufailOnNewColumns
, sloupce s různými datovými typy budou místo vyvolání chyby oznamující, že soubor nelze přečíst, přečteny jakonull
. Tato čtení teď selžou a doporučí uživatelům, aby tuto možnost používalirescuedDataColumn
. - Auto Loader teď provede následující kroky.
-
- Správně čte a již nezachrání
Integer
,Short
typyByte
, pokud jsou k dispozici jeden z těchto datových typů, ale soubor Avro navrhne jeden z dalších dvou typů.
- Správně čte a již nezachrání
-
- Zabraňuje typům intervalů čtení jako typům kalendářních dat nebo časových razítek, aby nedocházelo k poškození kalendářních dat.
-
- Zabraňuje typům čtení
Decimal
s nižší přesností.
- Zabraňuje typům čtení
- [SPARK-43172] [CONNECT] Zpřístupňuje hostitele a token z klienta pro připojení Sparku.
-
[SPARK-41520][SQL] Rozdělte
AND_OR
stromový vzor tak, aby se oddělilAND
aOR
. -
[SPARK-43098][SQL] Opravili jsme chybu správnosti
COUNT
při seskupení skalárních poddotazů podle klauzule. -
[SPARK-43190][SQL]
ListQuery.childOutput
je teď konzistentní se sekundárním výstupem. - Aktualizace zabezpečení operačního systému.
25. dubna 2023
- Pokud byl soubor Parquet přečtený pouze s možností
failOnUnknownFields
nebo s automatickým zavaděčem v režimu vývoje schématufailOnNewColumns
, sloupce s různými datovými typy by se četly jakonull
místo vyvolání chyby, že soubor nelze přečíst. Tato čtení teď selžou a doporučí uživatelům, aby tuto možnost používalirescuedDataColumn
. - Auto Loader nyní správně čte a již nezachrání
Integer
,Short
,Byte
typy, pokud je k dispozici jeden z těchto datových typů. Soubor Parquet navrhuje jeden z dalších dvou typů. Když byl dříve povolen sloupec s obnovenými daty, neshoda v datových typech by způsobila, že sloupce byly obnoveny, i když byly čitelné. -
[SPARK-42971][JÁDRO] Změna tisku
workdir
, pokudappDirs
má při události zpracování pracovního procesuWorkDirCleanup
hodnotu null - Aktualizace zabezpečení operačního systému.
- Pokud byl soubor Parquet přečtený pouze s možností
úterý 11. dubna 2023
- Podpora starších formátů zdroje dat v
SYNC
příkazu - Opravili jsme chybu v chování %autoreloadu v poznámkových blocích, které nejsou mimo úložiště.
- Opravili jsme chybu, kdy se vývoj schématu v Auto Loaderu mohl dostat do nekonečné smyčky chyb, když byl ve schématu vnořeného objektu JSON zjištěn nový sloupec.
-
[SPARK-42928][SQL] Provede
resolvePersistentFunction
synchronizaci. -
[SPARK-42967][JÁDRO] Opravuje
SparkListenerTaskStart.stageAttemptId
, kdy se úkol spustí po zrušení fáze. - Aktualizace zabezpečení operačního systému.
- Podpora starších formátů zdroje dat v
29. března 2023
- [SPARK-42794][SS] Zvýšení lockAcquireTimeoutMs na 2 minuty pro získání úložiště stavů RocksDB ve streamování struktury
- [SPARK-41162][SQL] Oprava anti-a polovičního spojení pro samoobslužné spojení s agregacemi
- [SPARK-42403][JÁDRO] JsonProtocol by měl zpracovávat řetězce JSON s hodnotou null
- [SPARK-42668][SS] Zachycení výjimky při pokusu o zavření komprimovaného streamu v HDFSStateStoreProvider abort
- Různé opravy chyb
14. března 2023
- [SPARK-42534][SQL] Oprava klauzule DB2Dialect Limit
- [SPARK-42622][CORE] Zákaz nahrazení v hodnotách
- [SPARK-41793][SQL] Nesprávný výsledek pro rámečky oken definované klauzulí rozsahu ve velkých desetinných číslech
- [SPARK-42484] [SQL] Nebezpečná službaRowUtils – lepší chybová zpráva
- [SPARK-42635][SQL] Oprava výrazu TimestampAdd
- [SPARK-42516][SQL] Při vytváření zobrazení vždy zaznamenávejte konfiguraci časového pásma relace.
- Aktualizace zabezpečení operačního systému.
24. února 2023
Standardizované možnosti připojení pro federaci dotazů
Teď můžete použít jednotnou sadu možností (
host
,port
,database
,user
,password
) pro připojení ke zdrojům dat podporovaným ve federaci dotazů (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Všimněte si, žeport
je volitelné a použije výchozí číslo portu pro každý zdroj dat, pokud není zadaný.Příklad konfigurace připojení PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Příklad konfigurace připojení Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
Vrácení [SPARK-41848][CORE] Oprava úkolu nadplánované pomocí taskResourceProfile
[SPARK-42162] Zavedení výrazu MultiCommutativeOp jako optimalizace paměti pro kanonizaci velkých stromů commutativních výrazů
[SPARK-41990][SQL] Místo
FieldReference.column
převoduapply
filtru V1 na V2[SPARK-42346][SQL] Přepsání jedinečných agregací po sloučení poddotazů
Aktualizace zabezpečení operačního systému.
16. února 2023
- Uživatelé nyní mohou číst a zapisovat určité tabulky Delta, které vyžadují verzi Čtečka 3 a Zapisovač 7, za použití Databricks Runtime 9.1 nebo novější. Aby bylo možné uspět, musí být funkce tabulek uvedené v protokolu tabulek podporovány aktuální verzí databricks Runtime.
- SYNC příkaz podporuje synchronizaci znovu vytvořených tabulek metastoru Hive. Pokud byla tabulka HMS dříve synchronizována do katalogu Unity, ale pak odstraněna a znovu vytvořena, bude následná opětovná synchronizace fungovat místo návratu stavového kódu TABLE_ALREADY_EXISTS.
- [SPARK-36173][JÁDRO] Podpora získání čísla procesoru v TaskContextu
- [SPARK-42286][SQL] Návrat k předchozí cestě kódu codegen pro komplexní výraz s CAST
- [SPARK-41848][JÁDRO] Oprava úkolu nadplánované pomocí taskResourceProfile
- [SPARK-41219][SQL] IntegralDivide použít desetinné číslo(1, 0) k reprezentaci 0
25. ledna 2023
- [SPARK-41660][SQL] Metadata sloupce se šíří jen tehdy, když jsou používány.
- [SPARK-41379][SS][PYTHON] Poskytnutí naklonované relace Sparku v datovém rámci v uživatelské funkci pro jímku foreachBatch v PySparku
- [SPARK-41669][SQL] Předčasné vyřazování v canCollapseExpressions
- Aktualizace zabezpečení operačního systému.
18. ledna 2023
-
REFRESH FUNCTION
příkaz SQL teď podporuje funkce SQL a funkce tabulky SQL. Například příkaz lze použít k aktualizaci trvalé funkce SQL, která byla aktualizována v jiné relaci SQL. - Zdroj dat JDBC (Java Database Connectivity) v1 teď podporuje posun klauzule LIMIT, aby se zlepšil výkon dotazů. Tato funkce je ve výchozím nastavení povolená a lze ji zakázat s
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
nastavenou nafalse
. - V clusterech seznamů ACL starších tabulek nyní vytváření funkcí, které odkazují na třídy JVM, vyžaduje oprávnění
MODIFY_CLASSPATH
. - Zdroj dat JDBC (Java Database Connectivity) v1 teď podporuje posun klauzule LIMIT, aby se zlepšil výkon dotazů. Tato funkce je ve výchozím nastavení povolená a je možné ji zakázat pomocí spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled nastavením na false.
- Konektor Azure Synapse teď vrací popisnější chybovou zprávu, když název sloupce obsahuje neplatné znaky, jako jsou prázdné znaky nebo středníky. V takových případech se vrátí následující zpráva:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - Strukturované streamování Sparku teď funguje s formátem „deltasharing“ na tabulce delta sdílení jako zdroji.
- [SPARK-38277][SS] Vymazání dávky zápisu po potvrzení úložiště stavů RocksDB
- [SPARK-41733][SQL][SS] Použití vyřezávání na základě stromového vzoru pro pravidlo ResolveWindowTime
- [SPARK-39591][SS] Asynchronní sledování průběhu
- [SPARK-41339][SQL] Zavřete a znovu vytvořte dávku zápisu RocksDB místo pouhého vymazání.
- [SPARK-41198][SS] Oprava metrik v dotazech streamování s zdrojem streamování CTE a DSv1
- [SPARK-41539][SQL] Přemapovat statistiky a omezení pro výstup v logickém plánu pro LogRDD
- [SPARK-41732][SQL][SS] Použití vyřezávání na základě stromového vzoru pro pravidlo SessionWindowing
- [SPARK-41862][SQL] Oprava chyby přesnosti související s výchozími hodnotami v ORC čtečce
- [SPARK-41199][SS] Oprava potíží s metrikami při spoluužívaném zdroji streamování DSv1 a zdroje streamování DSv2
- [SPARK-41261][PYTHON][SS] Oprava problému pro applyInPandasWithState, pokud sloupce klíčů seskupení nejsou umístěné v pořadí od nejstaršího
- Aktualizace zabezpečení operačního systému.
-
17. května 2023
- Kontroly Parquet jsou nyní robustní vůči OOM při prohledávání mimořádně strukturovaných souborů dynamickým přizpůsobením velikosti dávky. Metadata souborů se analyzují tak, aby se předem snížila velikost dávky a při opakovaných pokusech o úkol je znovu nižší jako konečná bezpečnostní síť.
- Opravili jsme regresi, která způsobovala zachování úloh Azure Databricks po selhání připojení k metastoru během inicializace clusteru.
-
[SPARK-41520][SQL] Rozdělte
AND_OR
stromový vzor tak, aby se oddělilAND
aOR
. -
[SPARK-43190][SQL]
ListQuery.childOutput
je teď konzistentní se sekundárním výstupem. - Aktualizace zabezpečení operačního systému.
25. dubna 2023
- Pokud byl soubor Parquet přečtený pouze s možností
failOnUnknownFields
nebo s automatickým zavaděčem v režimu evoluce schématufailOnNewColumns
, sloupce s různými datovými typy by se četly jakonull
místo vyvolání chyby oznamující, že soubor nelze přečíst. Tato čtení teď selžou a doporučí uživatelům, aby tuto možnost používalirescuedDataColumn
. - Auto Loader nyní správně čte a již nezachrání
Integer
,Short
,Byte
typy, pokud je k dispozici jeden z těchto datových typů. Soubor Parquet navrhuje jeden z dalších dvou typů. Když byl dříve povolen režim záchrany datového sloupce, neshoda datových typů způsobila záchranu sloupců, i přesto že byly čitelné. -
[SPARK-42937][SQL]
PlanSubqueries
teď se nastavíInSubqueryExec#shouldBroadcast
na true. - Aktualizace zabezpečení operačního systému.
- Pokud byl soubor Parquet přečtený pouze s možností
úterý 11. dubna 2023
- Podpora starších formátů zdroje dat v SYNC příkazu
- Opravili jsme chybu v chování %autoreloadu v poznámkových blocích, které nejsou mimo úložiště.
- Opravili jsme chybu, kdy vývoj schématu Auto Loaderu mohl přecházet do nekonečné smyčky chyb, když se ve schématu vnořeného objektu JSON zjistil nový sloupec.
- [SPARK-42928][SQL] Proveďte synchronizaci funkce resolvePersistentFunction.
- [SPARK-42967][JÁDRO] Oprava SparkListenerTaskStart.stageAttemptId při spuštění úlohy po zrušení fáze.
29. března 2023
- [SPARK-42794][SS] Zvýšení lockAcquireTimeoutMs na 2 minuty pro získání úložiště stavů RocksDB ve streamování struktury
- [SPARK-42403][JÁDRO] JsonProtocol by měl zpracovávat řetězce JSON s hodnotou null
- [SPARK-42668][SS] Zachycení výjimky při pokusu o zavření komprimovaného streamu v HDFSStateStoreProvider abort
- Aktualizace zabezpečení operačního systému.
14. března 2023
- [SPARK-42635][SQL] Oprava výrazu TimestampAdd
- [SPARK-41793][SQL] Nesprávný výsledek pro rámečky oken definované klauzulí rozsahu ve velkých desetinných číslech
- [SPARK-42484] [SQL] Nebezpečná službaRowUtils – lepší chybová zpráva
- [SPARK-42534][SQL] Oprava klauzule Limit v DB2Dialect
- [SPARK-41162][SQL] Oprava anti-a polovičního spojení pro samoobslužné spojení s agregacemi
- [SPARK-42516][SQL] Při vytváření zobrazení vždy zachytává konfiguraci časového pásma relace.
- Různé opravy chyb
28. února 2023
Standardizované možnosti připojení pro federaci dotazů
Teď můžete použít jednotnou sadu možností (
host
,port
,database
,user
,password
) pro připojení ke zdrojům dat podporovaným ve federaci dotazů (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Všimněte si, žeport
je volitelné a pokud není zadané, použije se výchozí číslo portu pro každý zdroj dat.Příklad konfigurace připojení PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Příklad konfigurace připojení Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
[SPARK-42286][SQL] Návrat k předchozí cestě kódu codegen pro komplexní výraz s CAST
[SPARK-41989][PYTHON] Vyhněte se konfiguraci protokolování způsobující chybu z pyspark.pandas
[SPARK-42346][SQL] Přepsání jedinečných agregací po sloučení poddotazů
[SPARK-41360][JÁDRO] Pokud se exekutor ztratil, vyhněte se opětovné registraci objektu BlockManager.
[SPARK-42162] Zavedení výrazu MultiCommutativeOp jako optimalizace paměti pro kanonizaci velkých stromů commutativních výrazů
[SPARK-41990][SQL] Místo
FieldReference.column
převoduapply
filtru V1 na V2Aktualizace zabezpečení operačního systému.
16. února 2023
- Uživatelé teď mohou číst a zapisovat určité tabulky Delta, které vyžadují verzi Čtenáře 3 a verzi Zapisovače 7, když používají Databricks Runtime 9.1 nebo novější. Aby bylo možné uspět, musí být funkce tabulek uvedené v protokolu tabulek podporovány aktuální verzí databricks Runtime.
- SYNC příkaz podporuje synchronizaci znovu vytvořených tabulek metastoru Hive. Pokud byla tabulka HMS dříve synchronizována do katalogu Unity, ale pak byla odstraněna a znovu vytvořena, bude následná synchronizace fungovat bez vyvolání stavového kódu TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] IntegralDivide použít desetinné číslo(1, 0) k reprezentaci 0
-
[SPARK-40382][SQL] Seskupení jedinečných agregačních výrazů podle sémanticky ekvivalentních podřízených výrazů v
RewriteDistinctAggregates
- Aktualizace zabezpečení operačního systému.
25. ledna 2023
- [SPARK-41379][SS][PYTHON] Poskytnutí naklonované relace Sparku v datovém rámci v uživatelské funkci pro jímku foreachBatch v PySparku
- [SPARK-41660][SQL] Sloupce metadat se šíří pouze, pokud jsou používány.
- [SPARK-41669][SQL] Předčasné vyřazování v canCollapseExpressions
- Různé opravy chyb
18. ledna 2023
-
REFRESH FUNCTION
příkaz SQL teď podporuje funkce SQL a funkce tabulky SQL. Například příkaz lze použít k aktualizaci trvalé funkce SQL, která byla aktualizována v jiné relaci SQL. - Zdroj dat JDBC (Java Database Connectivity) v1 teď podporuje posun klauzule LIMIT, aby se zlepšil výkon dotazů. Tato funkce je ve výchozím nastavení povolená a lze ji zakázat s
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
nastavenou nafalse
. - Zdroj dat JDBC (Java Database Connectivity) v1 teď podporuje posun klauzule LIMIT, aby se zlepšil výkon dotazů. Tato funkce je ve výchozím nastavení povolena a je možné ji zakázat nastavením spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled na hodnotu false.
- Konektor Azure Synapse teď vrací popisnější chybovou zprávu, když název sloupce obsahuje neplatné znaky, jako jsou prázdné znaky nebo středníky. V takových případech se vrátí následující zpráva:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - [SPARK-41198][SS] Oprava metrik v dotazech streamování s zdrojem streamování CTE a DSv1
- [SPARK-41862][SQL] Oprava chyby správnosti související s výchozími hodnotami v Orc Readeru
- [SPARK-41539][SQL] Přemapovat statistiky a omezení pro výstup v logickém plánu pro LogRDD
- [SPARK-39591][SS] Asynchronní sledování průběhu
- [SPARK-41199][SS] Oprava potíží s metrikami při spoluužívaném zdroji streamování DSv1 a zdroje streamování DSv2
- [SPARK-41261][PYTHON][SS] Oprava problému pro applyInPandasWithState, když sloupce seskupovacích klíčů nejsou řazeny od nejstaršího
- [SPARK-41339][SQL] Zavřete a znovu vytvořte dávku zápisu RocksDB místo pouhého vymazání.
- [SPARK-41732][SQL][SS] Použití vyřezávání na základě stromového vzoru pro pravidlo SessionWindowing
- [SPARK-38277][SS] Vymazání dávky zápisu po potvrzení úložiště stavů RocksDB
- Aktualizace zabezpečení operačního systému.
-
29. listopadu 2022
- Uživatelé můžou při zápisu dat pomocí konektoru Redshift nakonfigurovat počáteční a koncové chování prázdných znaků. Pro řízení zpracování prázdných znaků byly přidány následující možnosti:
-
csvignoreleadingwhitespace
, pokud je nastavena natrue
, odebere počáteční prázdné znaky z hodnot při zápisu, když jetempformat
nastavena naCSV
neboCSV GZIP
. Mezery se zachovají, když je konfigurace nastavená nafalse
. Výchozí hodnota jetrue
. -
csvignoretrailingwhitespace
, pokud je nastavena natrue
, odebere koncové prázdné znaky z hodnot při zápisu, když jetempformat
nastavena naCSV
neboCSV GZIP
. Prázdné znaky se zachovají, když je konfigurace nastavená nafalse
. Výchozí hodnota jetrue
.
-
- Opravili jsme chybu při analýze JSON v Auto Loaderu, když byly všechny sloupce ponechány jako řetězce (nebyl nastaven
cloudFiles.inferColumnTypes
nebo byl nastaven nafalse
) a JSON obsahoval vnořené objekty. - Upgradujte
snowflake-jdbc
závislost na verzi 3.13.22. - Ve výchozím nastavení jsou typy tabulek JDBC externí.
-
[SPARK-40906][SQL]
Mode
před vložením do mapy by měly kopírovat klíče. - Aktualizace zabezpečení operačního systému.
- Uživatelé můžou při zápisu dat pomocí konektoru Redshift nakonfigurovat počáteční a koncové chování prázdných znaků. Pro řízení zpracování prázdných znaků byly přidány následující možnosti:
15. listopadu 2022
- Seznamy ACL tabulek a sdílené clustery UC nyní umožňují použití metody Dataset.toJSON z jazyka Python.
-
[SPARK-40646] parsování JSON pro struktury, mapy a pole byla opravena, takže pokud část záznamu neodpovídá schématu, zbytek záznamu je možné analyzovat správně místo vrácení hodnot null. Chcete-li vyjádřit výslovný souhlas s vylepšenou sadou
spark.sql.json.enablePartialResults
chování .true
Příznak je ve výchozím nastavení zakázaný, aby se zachovalo původní chování. - [SPARK-40903][SQL] Pokud dojde ke změně datového typu, vyhněte se změně pořadí desetinných míst Přidání desetinné čárky.
- [SPARK-40618][SQL] Oprava chyby v pravidle MergeScalarSubqueries s vnořenými poddotazy pomocí sledování odkazů
- [SPARK-40697][SQL] Přidání odsazení znaku na straně čtení pro pokrytí externích datových souborů
- Aktualizace zabezpečení operačního systému.
1. listopadu 2022
- Strukturované streamování v katalogu Unity teď podporuje aktualizaci dočasných přístupových tokenů. Streamovací úlohy běžící s katalogem Unity na univerzálních nebo pracovních clusterech již neselhávají po vypršení platnosti počátečního tokenu.
- Opravili jsme problém, kdy pokud měla tabulka Delta uživatelem definovaný sloupec s názvem
_change_type
, ale v této tabulce byla zakázána změna datového kanálu , data v tomto sloupci se nesprávně vyplňovala hodnotami NULL při spuštění procesuMERGE
. - Opravili jsme problém, kdy spuštění
MERGE
a použití přesně 99 sloupců ze zdroje v podmínce mohlo způsobitjava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
. - Opravili jsme problém s Auto Loaderem, kdy při povolení
allowOverwrites
může dojít k duplikaci souboru ve stejné mikrodávce. - Upgradovali jsme Apache commons-text na verzi 1.10.0.
- [SPARK-38881][DSTREAMS][KINESIS][PYSPARK] Přidání podpory konfigurace CloudWatch MetricsLevel
- [SPARK-40596][JÁDRO] Naplnění příkazu ExecutorDecommission zprávami v ExecutorDecommissionInfo
- [SPARK-40670][SS][PYTHON] Oprava NPE v applyInPandasWithState, pokud vstupní schéma obsahuje sloupce s nepovolenými nulovými hodnotami.
- Aktualizace zabezpečení operačního systému.
Databricks Runtime 11.2 (EoS)
Viz Databricks Runtime 11.2 (EoS).
- 28. února 2023
- [SPARK-42286][SQL] Návrat k předchozí cestě kódu codegen pro komplexní výraz s CAST
- [SPARK-42346][SQL] Přepsání jedinečných agregací po sloučení poddotazů
- Aktualizace zabezpečení operačního systému.
- 16. února 2023
- Uživatelé nyní mohou číst a zapisovat určité tabulky Delta, které vyžadují Reader verze 3 a Writer verze 7, pomocí Databricks Runtime 9.1 nebo novější. Aby bylo možné uspět, musí být funkce tabulek uvedené v protokolu tabulek podporovány aktuální verzí databricks Runtime.
- SYNC příkaz podporuje synchronizaci znovu vytvořených tabulek metastoru Hive. Pokud byla tabulka HMS dříve synchronizována do katalogu Unity, ale pak odstraněna a znovu vytvořena, následná opětovná synchronizace bude fungovat, aniž by vyvolala stavový kód TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] IntegralDivide použít desetinné číslo(1, 0) k reprezentaci 0
- Aktualizace zabezpečení operačního systému.
- 31. ledna 2023
- Ve výchozím nastavení jsou typy tabulek JDBC externí.
- [SPARK-41379][SS][PYTHON] Poskytnutí naklonované relace Sparku v datovém rámci v uživatelské funkci pro jímku foreachBatch v PySparku
- 18. ledna 2023
- Konektor Azure Synapse teď vrací popisnější chybovou zprávu, když název sloupce obsahuje neplatné znaky, jako jsou prázdné znaky nebo středníky. V takových případech se vrátí následující zpráva:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - [SPARK-41198][SS] Oprava metrik v dotazech streamování s zdrojem streamování CTE a DSv1
- [SPARK-41862][SQL] Oprava chyby přesnosti související s výchozími hodnotami v Orc Readeru
- [SPARK-41539][SQL] Přemapovat statistiky a omezení pro výstup v logickém plánu pro LogRDD
- [SPARK-41199][SS] Oprava potíží s metrikami při spoluužívaném zdroji streamování DSv1 a zdroje streamování DSv2
- [SPARK-41339][SQL] Zavřete a znovu vytvořte dávku zápisu RocksDB místo pouhého vymazání.
- [SPARK-41732][SQL][SS] Použití vyřezávání na základě stromového vzoru pro pravidlo SessionWindowing
- [SPARK-38277][SS] Vymazání dávky zápisu po potvrzení úložiště stavů RocksDB
- Aktualizace zabezpečení operačního systému.
- Konektor Azure Synapse teď vrací popisnější chybovou zprávu, když název sloupce obsahuje neplatné znaky, jako jsou prázdné znaky nebo středníky. V takových případech se vrátí následující zpráva:
- 29. listopadu 2022
- Uživatelé můžou při zápisu dat pomocí konektoru Redshift nakonfigurovat počáteční a koncové chování prázdných znaků. Pro řízení zpracování prázdných znaků byly přidány následující možnosti:
-
csvignoreleadingwhitespace
, pokud je nastavena natrue
, odebere počáteční prázdné znaky z hodnot při zápisu, když jetempformat
nastavena naCSV
neboCSV GZIP
. Mezery jsou zachovány, když je konfigurace nastavena nafalse
. Výchozí hodnota jetrue
. -
csvignoretrailingwhitespace
, pokud je nastavena natrue
, odebere koncové prázdné znaky z hodnot při zápisu, když jetempformat
nastavena naCSV
neboCSV GZIP
. Prázdné znaky se zachovají, pokud je konfigurace nastavena nafalse
. Výchozí hodnota jetrue
.
-
- Opravili jsme chybu při analýze JSON v automatickém zavaděči, když byl
cloudFiles.inferColumnTypes
nesprávně nastaven nebo nastaven nafalse
a všechny sloupce byly ponechány jako řetězce, a JSON obsahoval vnořené objekty. -
[SPARK-40906][SQL]
Mode
před vložením do mapy by měly kopírovat klíče. - Aktualizace zabezpečení operačního systému.
- Uživatelé můžou při zápisu dat pomocí konektoru Redshift nakonfigurovat počáteční a koncové chování prázdných znaků. Pro řízení zpracování prázdných znaků byly přidány následující možnosti:
- 15. listopadu 2022
-
[SPARK-40646] parsování JSON pro struktury, mapy a pole byla opravena, takže pokud část záznamu neodpovídá schématu, zbytek záznamu je možné analyzovat správně místo vrácení hodnot null. Pokud chcete vyjádřit výslovný souhlas s vylepšeným chováním, nastavte
spark.sql.json.enablePartialResults
natrue
. Příznak je ve výchozím nastavení zakázaný, aby se zachovalo původní chování. - [SPARK-40618][SQL] Oprava chyby v pravidle MergeScalarSubqueries s vnořenými poddotazy pomocí sledování odkazů
- [SPARK-40697][SQL] Přidání odsazení znaku na straně čtení pro pokrytí externích datových souborů
- Aktualizace zabezpečení operačního systému.
-
[SPARK-40646] parsování JSON pro struktury, mapy a pole byla opravena, takže pokud část záznamu neodpovídá schématu, zbytek záznamu je možné analyzovat správně místo vrácení hodnot null. Pokud chcete vyjádřit výslovný souhlas s vylepšeným chováním, nastavte
- 1. listopadu 2022
- Upgradovali jsme Apache commons-text na verzi 1.10.0.
- Opravili jsme problém, kdy pokud tabulka Delta měla uživatelem definovaný sloupec s názvem
_change_type
, ale změna datového kanálu v této tabulce byla zakázána, data v tomto sloupci nesprávně vyplnila hodnoty NULL během spuštěníMERGE
. - Opravili jsme problém, kdy spuštění
MERGE
a použití přesně 99 sloupců ze zdrojových dat v rámci podmínky mohlo vést kjava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
. - Opravili jsme problém s Auto Loaderem, kdy může soubor ve stejné mikrodávce být duplikován při povolení
allowOverwrites
. - [SPARK-40596][JÁDRO] Naplnění příkazu ExecutorDecommission zprávami v ExecutorDecommissionInfo
- Aktualizace zabezpečení operačního systému.
- 19. října 2022
- Opravili jsme problém s COPY INTO používáním dočasných přihlašovacích údajů v clusterech nebo skladech s podporou katalogu Unity.
- [SPARK-40213][SQL] Podpora převodu hodnot ASCII pro znaky latinky-1
- Aktualizace zabezpečení operačního systému.
- 5. října 2022
- Uživatelé mohou nastavit spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") a znovu povolit nativní výpis pro Auto Loader na ADLS Gen2. Nativní výpis byl dříve vypnutý kvůli problémům s výkonem, ale mohl vést ke zvýšení nákladů na úložiště pro zákazníky. Tato změna byla v předchozí aktualizaci údržby zahrnuta do DBR 10.4 a 9.1.
- [SPARK-40315][SQL]Podpora kódování nebo dekódování adresy URL jako předdefinované funkce a šifrování funkcí souvisejících s adresou URL
-
[SPARK-40156][SQL]
url_decode()
by měla vrátit třídu chyb. - [SPARK-40169] Neodsouvejte filtry Parquet bez odkazu na schéma dat
-
[SPARK-40460][SS] Oprava metrik streamování při výběru
_metadata
- [SPARK-40468][SQL] Oprava prořezávání sloupců v CSV při výběru _corrupt_record
- [SPARK-40055][SQL] seznamyCatalogs by také měly vracet spark_catalog i v případě, že spark_catalog implementace je výchozíSessionCatalog
- Aktualizace zabezpečení operačního systému.
- 22. září 2022
- [SPARK-40315][SQL] Přidání hashCode() pro literál ArrayBasedMapData
- [SPARK-40389][SQL] Desetinná čísla nemohou přetypovat jako celočíselné typy, pokud přetečení může přetéct.
- [SPARK-40380][SQL] Oprava konstantního posouvání InvokeLike, aby se zabránilo ne serializovatelný literál vložený do plánu
- [SPARK-40066][SQL][ZPRACOVAT] Před získáním datového typu zkontrolujte, jestli je element ElementAt vyřešený.
- [SPARK-40109][SQL] Nová funkce SQL: get()
- [SPARK-40066][SQL] Režim ANSI: Vždy vrátit hodnotu null při neplatném přístupu ke sloupci mapy
- [SPARK-40089][SQL] Oprava řazení u některých typů desetinných míst
- [SPARK-39887][SQL] RemoveRedundantAliases by měly uchovávat aliasy, které tvoří výstup uzlů projekce jedinečným
- [SPARK-40152][SQL] Oprava problému s kompilací split_part codegen
- [SPARK-40235][JÁDRO] Místo synchronizace v Executor.updateDependencies() použijte přerušitelný zámek.
- [SPARK-40212][SQL] SparkSQL castPartValue nezpracuje správně bajt, krátký nebo plovoucí
- [SPARK-40218][SQL] GROUPING SETS by měly zachovat skupinové sloupce.
- [SPARK-35542][ML] Oprava: Bucketizer vytvořený pro více sloupců s parametry
- [SPARK-40079] Přidání ověření Imputer inputCols pro prázdný vstupní případ
- [SPARK-39912]SPARK-39828[SQL] Upřesnit KatalogImpl
Databricks Runtime 11.1 (EoS)
Viz Databricks Runtime 11.1 (EoS).
31. ledna 2023
- [SPARK-41379][SS][PYTHON] Poskytnutí naklonované relace Sparku v datovém rámci v uživatelské funkci pro jímku foreachBatch v PySparku
- Různé opravy chyb
18. ledna 2023
- Konektor Azure Synapse teď vrací popisnější chybovou zprávu, když název sloupce obsahuje neplatné znaky, jako jsou prázdné znaky nebo středníky. V takových případech se vrátí následující zpráva:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - [SPARK-41198][SS] Oprava metrik v dotazech streamování s zdrojem streamování CTE a DSv1
- [SPARK-41862][SQL] Oprava chyby správnosti související s výchozími hodnotami v orc readeru
- [SPARK-41199][SS] Oprava potíží s metrikami při spoluužívaném zdroji streamování DSv1 a zdroje streamování DSv2
- [SPARK-41339][SQL] Zavřete a znovu vytvořte dávku zápisu RocksDB místo pouhého vymazání.
- [SPARK-41732][SQL][SS] Použití vyřezávání na základě stromového vzoru pro pravidlo SessionWindowing
- [SPARK-38277][SS] Vymazání dávky zápisu po potvrzení úložiště stavů RocksDB
- Aktualizace zabezpečení operačního systému.
- Konektor Azure Synapse teď vrací popisnější chybovou zprávu, když název sloupce obsahuje neplatné znaky, jako jsou prázdné znaky nebo středníky. V takových případech se vrátí následující zpráva:
29. listopadu 2022
- Uživatelé můžou při zápisu dat pomocí konektoru Redshift nakonfigurovat počáteční a koncové chování prázdných znaků. Pro řízení zpracování prázdných znaků byly přidány následující možnosti:
-
csvignoreleadingwhitespace
, pokud je nastavena natrue
, odebere počáteční prázdné znaky z hodnot při zápisu, když jetempformat
nastavena naCSV
neboCSV GZIP
. Mezery se zachovají, když je konfigurace nastavena nafalse
. Výchozí hodnota jetrue
. -
csvignoretrailingwhitespace
, pokud je nastavena natrue
, odebere koncové prázdné znaky z hodnot při zápisu, když jetempformat
nastavena naCSV
neboCSV GZIP
. Mezery se zachovají, když je konfigurace nastavená nafalse
. Výchozí hodnota jetrue
.
-
- Opravili jsme chybu při analýze JSON v Automatickém zavaděči, když byly všechny sloupce ponechány jako řetězce (
cloudFiles.inferColumnTypes
nebylo nastaveno nebo nastaveno nafalse
) a JSON obsahoval vnořené objekty. - [SPARK-39650][SS] Oprava nesprávného schématu hodnot v odstranění duplicitních dat streamování se zpětnou kompatibilitou
- Aktualizace zabezpečení operačního systému.
- Uživatelé můžou při zápisu dat pomocí konektoru Redshift nakonfigurovat počáteční a koncové chování prázdných znaků. Pro řízení zpracování prázdných znaků byly přidány následující možnosti:
15. listopadu 2022
-
[SPARK-40646] parsování JSON pro struktury, mapy a pole byla opravena, takže pokud část záznamu neodpovídá schématu, zbytek záznamu je možné analyzovat správně místo vrácení hodnot null. Pokud chcete vyjádřit výslovný souhlas s vylepšeným chováním, nastavte
spark.sql.json.enablePartialResults
natrue
. Příznak je ve výchozím nastavení zakázaný, aby se zachovalo původní chování. - Aktualizace zabezpečení operačního systému.
-
[SPARK-40646] parsování JSON pro struktury, mapy a pole byla opravena, takže pokud část záznamu neodpovídá schématu, zbytek záznamu je možné analyzovat správně místo vrácení hodnot null. Pokud chcete vyjádřit výslovný souhlas s vylepšeným chováním, nastavte
1. listopadu 2022
- Upgradovali jsme Apache commons-text na verzi 1.10.0.
- Opravili jsme problém, kdy pokud tabulka Delta měla uživatelem definovaný sloupec s názvem
_change_type
, ale na této tabulce byla zakázána změna toku dat , data v tomto sloupci byla nesprávně naplněna hodnotami NULL při spuštěníMERGE
. - Opravili jsme problém, kdy spuštění
MERGE
a použití přesně 99 sloupců ze zdroje v podmínce mohlo způsobitjava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
. - Opravili jsme problém s automatickým zavaděčem, kde může být soubor duplikován ve stejné mikrodávce, když je povoleno
allowOverwrites
. - [SPARK-40697][SQL] Přidání odsazení znaku na straně čtení pro pokrytí externích datových souborů
- [SPARK-40596][JÁDRO] Naplnění příkazu ExecutorDecommission zprávami v ExecutorDecommissionInfo
- Aktualizace zabezpečení operačního systému.
18. října 2022
- Opravili jsme problém s používáním COPY INTO u dočasných přihlašovacích údajů v clusterech nebo skladech s povoleným Unity Catalogem.
- [SPARK-40213][SQL] Podpora převodu hodnot ASCII pro znaky latinky-1
- Aktualizace zabezpečení operačního systému.
středa 5. října 2022
- Uživatelé můžou nastavit spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") k opětovnému povolení nativního výpisu pro Auto Loader na ADLS Gen2. Nativní výpis byl dříve vypnutý kvůli problémům s výkonem, ale mohl vést ke zvýšení nákladů na úložiště pro zákazníky. Tato změna byla v předchozí aktualizaci údržby zahrnuta do DBR 10.4 a 9.1.
- [SPARK-40169] Neodsouvejte filtry Parquet bez odkazu na schéma dat
-
[SPARK-40460][SS] Oprava metrik streamování při výběru
_metadata
- [SPARK-40468][SQL] Opravit vyřazování sloupců v CSV při výběru _corrupt_record
- [SPARK-40055][SQL] seznamyCatalogs by také měly vracet spark_catalog i v případě, že spark_catalog implementace je výchozíSessionCatalog
- Aktualizace zabezpečení operačního systému.
22. září 2022
- [SPARK-40315][SQL] Přidání hashCode() pro literál ArrayBasedMapData
- [SPARK-40380][SQL] Oprava konstantního posouvání InvokeLike, aby se zabránilo ne serializovatelný literál vložený do plánu
- [SPARK-40089][SQL] Oprava řazení u některých typů desetinných míst
- [SPARK-39887][SQL] RemoveRedundantAliases by měly uchovávat aliasy, které tvoří výstup uzlů projekce jedinečným
- [SPARK-40152][SQL] Oprava problému s kompilací split_part codegen
6. září 2022
- Aktualizovali jsme model oprávnění v ovládacích prvcích řízení přístupu k tabulce (seznamy ACL) tak, aby bylo nutné změnit pouze oprávnění MODIFY ke změně schématu tabulky nebo vlastností tabulky pomocí ALTER TABLE. Dříve tyto operace vyžadovaly, aby uživatel vlastní tabulku. Vlastnictví se stále vyžaduje k udělení oprávnění k tabulce, změně jeho vlastníka, změně jeho umístění nebo přejmenování. Tato změna dělá model oprávnění pro tabulkové ACL konzistentnější s Unity Catalog.
- [SPARK-40235][JÁDRO] Místo synchronizace v Executor.updateDependencies() použijte přerušitelný zámek.
- [SPARK-40212][SQL] SparkSQL castPartValue nezpracuje správně bajt, krátký nebo plovoucí
- [SPARK-40218][SQL] GROUPING SETS by měly zachovávat sloupce seskupení.
- [SPARK-39976][SQL] ArrayIntersect by měl správně zpracovat hodnotu null v levém výrazu.
-
[SPARK-40053][JÁDRO][SQL][TESTY] Přidání
assume
do dynamických případů zrušení, které vyžadují prostředí runtime Pythonu - [SPARK-35542][CORE][ML] Oprava: Bucketizer vytvořený pro více sloupců s parametry splitsArray, inputCols a outputCols nelze po uložení načíst.
- [SPARK-40079][JÁDRO] Přidání ověření Imputer inputCols pro prázdný vstupní případ
24. srpna 2022
- Sdílené složky, poskytovatelé a příjemci teď podporují příkazy SQL pro změnu vlastníků, komentářů a přejmenování.
- [SPARK-39983][JÁDRO][SQL] Neupamějte neserializované vztahy vysílání na ovladači.
- [SPARK-39912][SPARK-39828][SQL] Upřesnit KatalogImpl
- [SPARK-39775][CORE][AVRO] Zákaz ověřování výchozích hodnot při analýze schémat Avro
- [SPARK-39806] Opravili jsme problém s dotazy přistupujícími ke struktuře METADATA v dělených tabulkách.
- [SPARK-39867][SQL] Globální limit by neměl dědit OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] Použít projekci, pokud jsou atributy skupiny prázdné
- [SPARK-39839][SQL] Zpracování speciálního případu s proměnnou s nulovou délkou Decimal s nenulovým posunemAndSize v nezabezpečené kontrole integrity struktury
- [SPARK-39713][SQL] Režim ANSI: Přidání návrhu použití try_element_at pro INVALID_ARRAY_INDEX chybu
- [SPARK-39847][SS] Oprava stavu časování v RocksDBLoader.loadLibrary(), pokud je přerušeno vlákno volajícího
- [SPARK-39731][SQL] Oprava potíží se zdroji dat CSV a JSON při analýze kalendářních dat ve formátu yyyyMDd pomocí zásad analyzátoru opravených času
- Aktualizace zabezpečení operačního systému.
10. srpna 2022
- U tabulek Delta s řízením přístupu k tabulkám je teď automatický vývoj schématu prostřednictvím příkazů DML, jako jsou
INSERT
aMERGE
, k dispozici všem uživatelům, kteří mají pro tyto tabulky oprávněníMODIFY
. Kromě toho jsou oprávnění potřebná k vývoji schématu sCOPY INTO
nyní nižší zOWNER
naMODIFY
kvůli konzistenci s jinými příkazy. Díky těmto změnám je model zabezpečení seznamu ACL tabulky konzistentnější s modelem zabezpečení katalogu Unity a také s dalšími operacemi, jako je nahrazení tabulky. - [SPARK-39889] Vylepšení chybové zprávy dělení o 0
- [SPARK-39795] [SQL] Nová funkce SQL: try_to_timestamp
- [SPARK-39749] Při přetypování desetinných míst jako řetězec v režimu ANSI vždy používejte reprezentaci prostého řetězce.
- [SPARK-39625] Přejmenování df.as na df.to
- [SPARK-39787] [SQL] Použití třídy chyb v analýze chyby funkce to_timestamp
- [SPARK-39625] [SQL] Přidání Dataset.as(StructType)
-
[SPARK-39689] Podpora 2 znaků ve zdroji
lineSep
dat CSV - [SPARK-39579] [SQL][PYTHON][R] Make ListFunctions/getFunction/functionExists kompatibilní s oborem názvů vrstvy 3
- [SPARK-39702] [JÁDRO] Snížení režijních nákladů na paměť transportCipher$EncryptedMessage pomocí sdíleného byteRawChannel
- [SPARK-39575] [AVRO] přidejte ByteBuffer#rewind po ByteBuffer#get v AvroDeserializer
- [SPARK-39265] [SQL] Oprava selhání testu při povolení SPARK_ANSI_SQL_MODE
- [SPARK-39441] [SQL] Zrychlení odstranění duplicitních dat
- [SPARK-39497] [SQL] Zlepšení analytické výjimky pro chybějící sloupec klíče mapy
- [SPARK-39476] [SQL] Zakažte optimalizaci přetypování unwrap při přetypování z Long na Float/Double nebo z Integer na Float.
- [SPARK-39434] [SQL] Poskytnutí kontextu dotazu chyby za běhu, když je index pole mimo hranici
- U tabulek Delta s řízením přístupu k tabulkám je teď automatický vývoj schématu prostřednictvím příkazů DML, jako jsou
Databricks Runtime 11.0 (EoS)
Viz Databricks Runtime 11.0 (EoS)
- 29. listopadu 2022
- Uživatelé můžou při zápisu dat pomocí konektoru Redshift nakonfigurovat počáteční a koncové chování prázdných znaků. Pro řízení zpracování prázdných znaků byly přidány následující možnosti:
-
csvignoreleadingwhitespace
, pokud je nastavena natrue
, odebere počáteční prázdné znaky z hodnot při zápisu, když jetempformat
nastavena naCSV
neboCSV GZIP
. Mezery se zachovají, když je konfigurace nastavena nafalse
. Výchozí hodnota jetrue
. -
csvignoretrailingwhitespace
, pokud je nastavena natrue
, odebere koncové prázdné znaky z hodnot při zápisu, když jetempformat
nastavena naCSV
neboCSV GZIP
. Prázdné znaky se zachovají, když je konfigurace nastavena nafalse
. Výchozí hodnota jetrue
.
-
- Opravili jsme chybu při parsování JSON v Auto Loaderu, když byly všechny sloupce ponechány jako řetězce (
cloudFiles.inferColumnTypes
nebyl nastaven nebo byl nastaven nafalse
) a JSON obsahoval vnořené objekty. - [SPARK-39650][SS] Oprava nesprávného schématu hodnot při deduplikaci streamování se zpětnou kompatibilitou
- Aktualizace zabezpečení operačního systému.
- Uživatelé můžou při zápisu dat pomocí konektoru Redshift nakonfigurovat počáteční a koncové chování prázdných znaků. Pro řízení zpracování prázdných znaků byly přidány následující možnosti:
- 15. listopadu 2022
-
[SPARK-40646] parsování JSON pro struktury, mapy a pole byla opravena, takže pokud část záznamu neodpovídá schématu, zbytek záznamu je možné analyzovat správně místo vrácení hodnot null. Pokud chcete vyjádřit výslovný souhlas s vylepšeným chováním, nastavte
spark.sql.json.enablePartialResults
natrue
. Příznak je ve výchozím nastavení zakázaný, aby se zachovalo původní chování.
-
[SPARK-40646] parsování JSON pro struktury, mapy a pole byla opravena, takže pokud část záznamu neodpovídá schématu, zbytek záznamu je možné analyzovat správně místo vrácení hodnot null. Pokud chcete vyjádřit výslovný souhlas s vylepšeným chováním, nastavte
- 1. listopadu 2022
- Upgradovali jsme Apache commons-text na verzi 1.10.0.
- Opravili jsme problém, kdy pokud tabulka Delta měla uživatelem definovaný sloupec s názvem
_change_type
, ale změna datového kanálu v této tabulce byla zakázána, data v tomto sloupci nesprávně vyplnili hodnoty NULL při spuštěníMERGE
. - Opravili jsme problém s Auto Loaderem, kdy může dojít k duplikaci souboru ve stejné mikrodávce, když je povoleno
allowOverwrites
. - [SPARK-40697][SQL] Přidání odsazení znaku na straně čtení pro pokrytí externích datových souborů
- [SPARK-40596][JÁDRO] Naplnění příkazu ExecutorDecommission zprávami v ExecutorDecommissionInfo
- Aktualizace zabezpečení operačního systému.
- 18. října 2022
- [SPARK-40213][SQL] Podpora převodu hodnot ASCII pro znaky latinky-1
- Aktualizace zabezpečení operačního systému.
- 5. října 2022
- Uživatelé mohou nastavit spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") a opět povolit nativní seznam pro Auto Loader na ADLS Gen2. Nativní výpis byl dříve vypnutý kvůli problémům s výkonem, ale mohl vést ke zvýšení nákladů na úložiště pro zákazníky. Tato změna byla v předchozí aktualizaci údržby zahrnuta do DBR 10.4 a 9.1.
- [SPARK-40169] Neodsouvejte filtry Parquet bez odkazu na schéma dat
-
[SPARK-40460][SS] Oprava metrik streamování při výběru
_metadata
- [SPARK-40468][SQL] Oprava vyřazování sloupců v CSV při výběru _corrupt_record
- Aktualizace zabezpečení operačního systému.
- 22. září 2022
- [SPARK-40315][SQL] Přidání hashCode() pro literál ArrayBasedMapData
- [SPARK-40380][SQL] Oprava konstantního posouvání InvokeLike, aby se zabránilo ne serializovatelný literál vložený do plánu
- [SPARK-40089][SQL] Oprava řazení u některých typů desetinných míst
- [SPARK-39887][SQL] RemoveRedundantAliases by měly uchovávat aliasy, které tvoří výstup uzlů projekce jedinečným
- [SPARK-40152][SQL] Oprava problému s kompilací split_part codegen
- 6. září 2022
- [SPARK-40235][JÁDRO] Místo synchronizace v Executor.updateDependencies() použijte přerušitelný zámek.
- [SPARK-40212][SQL] SparkSQL castPartValue nezpracuje správně bajt, krátký nebo plovoucí
- [SPARK-40218][SQL] GROUPING SETS by měly zachovat seskupovací sloupce.
- [SPARK-39976][SQL] ArrayIntersect by měl správně zpracovat hodnotu null v levém výrazu.
-
[SPARK-40053][JÁDRO][SQL][TESTY] Přidání
assume
do dynamických případů zrušení, které vyžadují prostředí runtime Pythonu - [SPARK-35542][CORE][ML] Oprava: Bucketizer vytvořený pro více sloupců s parametry splitsArray, inputCols a outputCols nelze po uložení načíst.
- [SPARK-40079][JÁDRO] Přidání ověření Imputer inputCols pro prázdný vstupní případ
- 24. srpna 2022
- [SPARK-39983][JÁDRO][SQL] Neupamějte neserializované vztahy vysílání na ovladači.
- [SPARK-39775][CORE][AVRO] Zákaz ověřování výchozích hodnot při analýze schémat Avro
- [SPARK-39806] Opravili jsme problém s dotazy přistupujícími ke struktuře METADATA v dělených tabulkách.
- [SPARK-39867][SQL] Globální limit by neměl dědit OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] Použít projekci, pokud jsou atributy skupiny prázdné
- Aktualizace zabezpečení operačního systému.
- 9. srpna 2022
- [SPARK-39713][SQL] Režim ANSI: Přidání návrhu použití try_element_at pro INVALID_ARRAY_INDEX chybu
- [SPARK-39847] Oprava stavu časování v RocksDBLoader.loadLibrary(), pokud je přerušeno vlákno volajícího
- [SPARK-39731][SQL] Oprava potíží se zdroji dat CSV a JSON při analýze kalendářních dat ve formátu yyyyMDd pomocí zásad analyzátoru opravených času
- [SPARK-39889] Vylepšení chybové zprávy dělení o 0
- [SPARK-39795][SQL] Nová funkce SQL: try_to_timestamp
- [SPARK-39749] Při přetypování desetinných míst jako řetězec v režimu ANSI vždy používejte reprezentaci prostého řetězce.
- [SPARK-39625][SQL] Přidání Dataset.to(StructType)
- [SPARK-39787][SQL] Použití třídy chyb v analýze chyby funkce to_timestamp
- Aktualizace zabezpečení operačního systému.
- 27. července 2022
-
[SPARK-39689]Podpora 2 znaků ve zdroji
lineSep
dat CSV - [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded by měl být bezpečný pro přístup z více vláken.
- [SPARK-39702][JÁDRO] Snížení režijních nákladů na paměť transportCipher$EncryptedMessage pomocí sdíleného byteRawChannel
- [SPARK-39575][AVRO] přidejte ByteBuffer#rewind po ByteBuffer#get v AvroDeserializeru
- [SPARK-39497][SQL] Vylepšení výjimky analýzy chybějícího sloupce klíče mapy
- [SPARK-39441][SQL] Zrychlení odstranění duplicitních dat
- [SPARK-39476][SQL] Zakažte optimalizaci přetypování unwrap při přetypování z Long na float/double nebo z Integer na float
- [SPARK-39434][SQL] Poskytnutí kontextu dotazu chyby za běhu, když je index pole mimo hranici
- [SPARK-39570][SQL] Vložená tabulka by měla umožňovat výrazy s aliasem
- Aktualizace zabezpečení operačního systému.
-
[SPARK-39689]Podpora 2 znaků ve zdroji
- 13. července 2022
- Výsledky operace Delta MERGE jsou konzistentní, pokud zdroj není deterministický.
- Opravili jsme problém pro cloud_files_state TVF při spouštění na jiných cestách než DBFS.
- Zakázali jsme použití nativních cloudových rozhraní API auto loaderu pro výpis adresářů v Azure.
- [SPARK-38796][SQL] Aktualizovat funkce to_number a try_to_number pro povolení PR s kladnými čísly
- [SPARK-39272][SQL] Zvýšení počáteční pozice kontextu dotazu o 1
- [SPARK-39419][SQL] Oprava ArraySortu pro vyvolání výjimky, když srovnávací program vrátí hodnotu null
- Aktualizace zabezpečení operačního systému.
- 5. července 2022
- Vylepšení chybových zpráv pro řadu tříd chyb.
- [SPARK-39451][SQL] Podpora intervalů přetypování na integrály v režimu ANSI
- [SPARK-39361] V výchozích konfiguracích protokolování nepoužívejte rozšířený vzor převodu s možností vyvolání Log4J2.
-
[SPARK-39354][SQL] Zajistěte, aby se zobrazovala
Table or view not found
i v případě,dataTypeMismatchError
že souvisíFilter
současně. - [SPARK-38675][JÁDRO] Oprava závodu během odemknutí v BlockInfoManageru
- [SPARK-39392][SQL] Upřesnění chybových zpráv ANSI pro nápovědu k funkcím try_*
- [SPARK-39214][SQL][3.3] Vylepšení chyb souvisejících s CAST
- [SPARK-37939][SQL] Použití tříd chyb při analýze chyb vlastností
-
[SPARK-39085][SQL] Přesunutí chybové zprávy
INCONSISTENT_BEHAVIOR_CROSS_VERSION
do error-classes.json - [SPARK-39376][SQL] Skrytí duplicitních sloupců v hvězdicovitém rozšíření aliasu poddotazu z NATURAL/USING JOIN
- [SPARK-39283][JÁDRO] Oprava zablokování mezi TaskMemoryManager a UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark by při čtení souborů neměl kontrolovat názvy polí.
- Aktualizace zabezpečení operačního systému.
Databricks Runtime 10.5 (EoS)
Viz Databricks Runtime 10.5 (EoS).
- 1. listopadu 2022
- Opravili jsme problém, kdy pokud tabulka Delta měla uživatelem definovaný sloupec s názvem
_change_type
, ale změna datového kanálu byla v této tabulce zakázána, data v tomto sloupci byla nesprávně vyplněna hodnotami NULL při spuštěníMERGE
. - [SPARK-40697][SQL] Přidání odsazení znaku na straně čtení pro pokrytí externích datových souborů
- [SPARK-40596][JÁDRO] Naplnění příkazu ExecutorDecommission zprávami v ExecutorDecommissionInfo
- Aktualizace zabezpečení operačního systému.
- Opravili jsme problém, kdy pokud tabulka Delta měla uživatelem definovaný sloupec s názvem
- 18. října 2022
- Aktualizace zabezpečení operačního systému.
- 5. října 2022
- Uživatelé můžou nastavit spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") a znovu povolit nativní výpis pro automatické zavaděče v ADLS Gen2. Nativní výpis byl dříve vypnutý kvůli problémům s výkonem, ale mohl vést ke zvýšení nákladů na úložiště pro zákazníky. Tato změna byla v předchozí aktualizaci údržby zahrnuta do DBR 10.4 a 9.1.
- Opětovné načtení4j bylo upgradováno na verzi 1.2.19, aby bylo opraveno ohrožení zabezpečení.
-
[SPARK-40460][SS] Oprava metrik streamování při výběru
_metadata
- [SPARK-40468][SQL] Oprava prořezávání sloupců v CSV souboru při výběru _corrupt_record
- Aktualizace zabezpečení operačního systému.
- 22. září 2022
- [SPARK-40315][SQL] Přidání hashCode() pro literál ArrayBasedMapData
- [SPARK-40213][SQL] Podpora převodu hodnot ASCII pro znaky latinky-1
- [SPARK-40380][SQL] Oprava konstantního posouvání InvokeLike, aby se zabránilo ne serializovatelný literál vložený do plánu
- [SPARK-38404][SQL] Vylepšení překladu CTE, když vnořený CTE odkazuje na vnější CTE
- [SPARK-40089][SQL] Oprava řazení u některých typů desetinných míst
- [SPARK-39887][SQL] RemoveRedundantAliases by měly uchovávat aliasy, které tvoří výstup uzlů projekce jedinečným
- Aktualizace zabezpečení operačního systému.
- 6. září 2022
- [SPARK-40235][JÁDRO] Místo synchronizace v Executor.updateDependencies() použijte přerušitelný zámek.
- [SPARK-39976][SQL] ArrayIntersect by měl správně zpracovat hodnotu null v levém výrazu.
-
[SPARK-40053][JÁDRO][SQL][TESTY] Přidání
assume
do dynamických případů zrušení, které vyžadují prostředí runtime Pythonu - [SPARK-35542][CORE][ML] Oprava: Bucketizer vytvořený pro více sloupců s parametry splitsArray, inputCols a outputCols nelze po uložení načíst.
- [SPARK-40079][JÁDRO] Přidání ověření Imputer inputCols pro prázdný vstupní případ
- 24. srpna 2022
- [SPARK-39983][JÁDRO][SQL] Neupamějte neserializované vztahy vysílání na ovladači.
- [SPARK-39775][CORE][AVRO] Zákaz ověřování výchozích hodnot při analýze schémat Avro
- [SPARK-39806] Opravili jsme problém s dotazy přistupujícími ke struktuře METADATA v dělených tabulkách.
- [SPARK-39962][PYTHON][SQL] Použít projekci, pokud jsou atributy skupiny prázdné
- [SPARK-37643][SQL] Pokud je argument charVarcharAsString pravdivý, měl by dotaz predikátu typu char přeskočit pravidlo rpadding.
- Aktualizace zabezpečení operačního systému.
- 9. srpna 2022
- [SPARK-39847] Oprava stavu časování v RocksDBLoader.loadLibrary(), pokud je přerušeno vlákno volajícího
- [SPARK-39731][SQL] Oprava potíží se zdroji dat CSV a JSON při analýze kalendářních dat ve formátu yyyyMDd pomocí zásad analyzátoru opravených času
- Aktualizace zabezpečení operačního systému.
- 27. července 2022
- [SPARK-39625][SQL] Přidání Dataset.as(StructType)
-
[SPARK-39689]Podpora 2 znaků ve zdroji
lineSep
dat CSV - [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded by měl být bezpečný pro přístup z více vláken.
- [SPARK-39570][SQL] Vložená tabulka by měla umožňovat výrazy s aliasem
- [SPARK-39702][JÁDRO] Snížení režijních nákladů na paměť transportCipher$EncryptedMessage pomocí sdíleného byteRawChannel
- [SPARK-39575][AVRO] přidat ByteBuffer#rewind po ByteBuffer#get v AvroDeserializer
- [SPARK-39476][SQL] Zakažte optimalizaci přetypování unwrap při přetypování z Long na Float/Double nebo z Integer na Float
- Aktualizace zabezpečení operačního systému.
- 13. července 2022
- Výsledky operace Delta MERGE jsou konzistentní, pokud zdroj není deterministický.
- [SPARK-39355][SQL] Jeden sloupec používá uvozování k vytvoření UnresolvedAttribute
- [SPARK-39548][SQL] Příkaz CreateView s klauzulí okna narazil na problém, kdy nesprávná definice okna nebyla nalezena
- [SPARK-39419][SQL] Oprava ArraySortu pro vyvolání výjimky, když srovnávací program vrátí hodnotu null
- Zakázali jsme použití nativních cloudových rozhraní API auto loaderu pro výpis adresářů v Azure.
- Aktualizace zabezpečení operačního systému.
- 5. července 2022
- [SPARK-39376][SQL] Skrytí duplicitních sloupců v rozšíření hvězdičkou pro alias poddotazu z NATURAL/USING JOIN
- Aktualizace zabezpečení operačního systému.
- 15. června 2022
- [SPARK-39283][JÁDRO] Oprava zablokování mezi TaskMemoryManager a UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark by při čtení souborů neměl kontrolovat názvy polí.
- [SPARK-34096][SQL] Zvýšení výkonu pro nth_value s ignorováním hodnot null v rámci posunovacího okna
-
[SPARK-36718][SQL][ZPRACOVAT] Oprava vrácení se změnami sbalit
isExtractOnly
projekt
- 2. června 2022
- [SPARK-39166][SQL] Poskytnutí kontextu dotazu na chybu za běhu pro binární aritmetické operace při vypnutí WSCG
- [SPARK-39093][SQL] Vyhněte se chybě kompilace codegen při dělení intervalů rok-měsíc nebo denních intervalů integrálem
- [SPARK-38990][SQL] Vyhněte se výjimce NullPointerException při vyhodnocování formátu date_trunc/trunc jako vázaného odkazu
- Aktualizace zabezpečení operačního systému.
- 18. května 2022
- Opravuje potenciální nevracení nativní paměti v automatickém zavaděče.
- [SPARK-38868][SQL]Nešíření výjimek z predikátu filtru při optimalizaci vnějších spojení
- [SPARK-38796][SQL] Implementace funkcí SQL to_number a try_to_number podle nové specifikace
- [SPARK-38918][SQL] Vyřazení vnořených sloupců by mělo vyfiltrovat atributy, které nepatří do aktuální relace.
- [SPARK-38929][SQL] Vylepšení chybových zpráv při selhání přetypování v ANSI
- [SPARK-38926][SQL] Typy výstupu v chybových zprávách ve stylu SQL
- [SPARK-39084][PYSPARK] Oprava df.rdd.isEmpty() pomocí TaskContext k zastavení iterátoru při dokončení úkolu
- [SPARK-32268][SQL] Přidání columnPruningu do injektážeBloomFilter
- [SPARK-38908][SQL] Zadání kontextu dotazu při chybě za běhu přetypování z řetězce na číslo, datum, časové razítko nebo logickou hodnotu
- [SPARK-39046][SQL] Vrátí prázdný kontextový řetězec, pokud je TreeNode.origin nesprávně nastaven.
- [SPARK-38974][SQL] Filtrování registrovaných funkcí s daným názvem databáze ve funkcích seznamu
- [SPARK-38762][SQL] Zadání kontextu dotazu v chybách přetečení desetinných míst
- [SPARK-38931][SS] Vytvoření kořenového adresáře dfs pro RocksDBFileManager s neznámým počtem klíčů na 1. kontrolním bodu
- [SPARK-38992][JÁDRO] Nepoužívejte bash -c v ShellBasedGroupsMappingProvider
- [SPARK-38716][SQL] Zadání kontextu dotazu v klíči mapy neexistuje chyba
- [SPARK-38889][SQL] Kompilujte logické filtry sloupců tak, aby používaly bitový typ zdroje dat MSSQL.
- [SPARK-38698][SQL] Zadání kontextu dotazu v chybě za běhu dělení, dělení, div, připomenutí/ Pmod
-
[SPARK-38823][SQL] Oprava
NewInstance
problému s poškozením vyrovnávací paměti agregace - [SPARK-38809][SS] Implementujte možnost přeskočit null hodnoty v implementaci symetrických hash spojení stream-stream.
- [SPARK-38676][SQL] Zadejte kontext dotazu SQL v chybové zprávě modulu runtime pro sčítání, odečítání nebo násobení.
- [SPARK-38677][PYSPARK] Python MonitorThread by měl detekovat vzájemné zablokování kvůli blokování vstupně-výstupních operací
- Aktualizace zabezpečení operačního systému.
Databricks Runtime 10.3 (EoS)
Viz Databricks Runtime 10.3 (EoS).
- 27. července 2022
-
[SPARK-39689]Podpora 2 znaků ve zdroji
lineSep
dat CSV - [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded by měl být bezpečný pro přístup z více vláken.
- [SPARK-39702][JÁDRO] Snížení režijních nákladů na paměť transportCipher$EncryptedMessage pomocí sdíleného byteRawChannel
- Aktualizace zabezpečení operačního systému.
-
[SPARK-39689]Podpora 2 znaků ve zdroji
- 20. července 2022
- Výsledky operace Delta MERGE jsou konzistentní, pokud zdroj není deterministický.
- [SPARK-39476][SQL] Zakázat optimalizaci přetypování unwrap při přetypování z Long na Float/ Double nebo z Integer na Float
- [SPARK-39548][SQL] Příkaz CreateView s klauzulí okna v dotazu narazil na problém, kdy nebyla nalezena správná definice okna.
- [SPARK-39419][SQL] Oprava ArraySortu pro vyvolání výjimky, když srovnávací program vrátí hodnotu null
- Aktualizace zabezpečení operačního systému.
- 5. července 2022
- [SPARK-39376][SQL] Skrytí duplicitních sloupců při rozšíření hvězdičky aliasu poddotazu z NATURAL/USING JOIN
- Aktualizace zabezpečení operačního systému.
- 15. června 2022
- [SPARK-39283][JÁDRO] Oprava zablokování mezi TaskMemoryManager a UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark by při čtení souborů neměl kontrolovat názvy polí.
- [SPARK-34096][SQL] Zvýšení výkonu pro funkci nth_value s ignorováním hodnot null v rámci offsetového okna
-
[SPARK-36718][SQL][ZPRACOVAT] Oprava vrácení se změnami sbalit
isExtractOnly
projekt
- 2. června 2022
- [SPARK-38990][SQL] Vyhněte se výjimce NullPointerException při vyhodnocování formátu date_trunc/trunc jako vázaného odkazu
- Aktualizace zabezpečení operačního systému.
- 18. května 2022
- Opravuje potenciální nevracení nativní paměti v automatickém zavaděče.
- [SPARK-38918][SQL] Vyřazení vnořených sloupců by mělo vyfiltrovat atributy, které nepatří do aktuální relace.
- [SPARK-37593][JÁDRO] Zmenšení výchozí velikosti stránky LONG_ARRAY_OFFSET, pokud se používají G1GC a ON_HEAP
- [SPARK-39084][PYSPARK] Oprava df.rdd.isEmpty() pomocí TaskContext k zastavení iterátoru při dokončení úkolu
- [SPARK-32268][SQL] Přidání columnPruningu do injektážeBloomFilter
- [SPARK-38974][SQL] Filtrování registrovaných funkcí s daným názvem databáze ve funkcích seznamu
- [SPARK-38889][SQL] Kompilujte logické filtry sloupců tak, aby používaly bitový typ zdroje dat MSSQL.
- Aktualizace zabezpečení operačního systému.
- 4. května 2022
- Upgradovali jsme sadu Java AWS SDK z verze 1.11.655 na verzi 1.12.1899.
- 19. dubna 2022
- [SPARK-38616][SQL] Sledování textu dotazu SQL ve Catalyst TreeNode
- Aktualizace zabezpečení operačního systému.
- 6. dubna 2022
- [SPARK-38631][JÁDRO] Používá implementaci založenou na Javě pro zrušení tarringu v nástroji Utils.unpack.
- Aktualizace zabezpečení operačního systému.
- 22. března 2022
- Byl změněn aktuální pracovní adresář notebooků v clusterech s vysokou mírou souběžnosti, s povoleným řízením přístupu k tabulce nebo předáváním přihlašovacích údajů, do domovského adresáře uživatele. Dříve byl
/databricks/driver
pracovní adresář . - [SPARK-38437][SQL] Lenient serializace datetime ze zdroje dat
- [SPARK-38180][SQL] Povolit bezpečné přetypování výrazů v korelovaných predikátech rovnosti
- [SPARK-38155][SQL] Zakázat jedinečné agregace v laterálních poddotazech s nepodporovanými predikáty
- [SPARK-38325][SQL] Režim ANSI: Vyhněte se potenciální chybě za běhu v hashJoin.extractKeyExprAt()
- Byl změněn aktuální pracovní adresář notebooků v clusterech s vysokou mírou souběžnosti, s povoleným řízením přístupu k tabulce nebo předáváním přihlašovacích údajů, do domovského adresáře uživatele. Dříve byl
- 14. března 2022
- Vylepšená detekce konfliktů transakcí pro prázdné transakce v Delta Lake.
- [SPARK-38185][SQL] Oprava nesprávných dat, pokud je agregační funkce prázdná
- [SPARK-38318][SQL] regrese při nahrazení zobrazení datové sady
- [SPARK-38236][SQL] Absolutní cesty k souborům zadaným v tabulce create/alter jsou považovány za relativní.
- [SPARK-35937][SQL] Extrahování pole data z časového razítka by mělo fungovat v režimu ANSI
-
[SPARK-34069][SQL] Úkoly kill bariéry by měly respektovat
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Povolit přiřazení úložiště mezi timestampNTZ a datem a časovým razítkem
- 23. února 2022
- [SPARK-27442][SQL] Odebrání kontroly názvu pole při čtení a zápisu dat v Parquet
Databricks Runtime 10.2 (EoS)
Viz Databricks Runtime 10.2 (EoS).
- 15. června 2022
- [SPARK-39283][JÁDRO] Oprava zablokování mezi TaskMemoryManager a UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark by při čtení souborů neměl kontrolovat názvy polí.
- [SPARK-34096][SQL] Zvýšení výkonu pro nth_value ignorující hodnoty null v rámci posunového okna
- 2. června 2022
- [SPARK-38918][SQL] Vyřazení vnořených sloupců by mělo vyfiltrovat atributy, které nepatří do aktuální relace.
- [SPARK-38990][SQL] Vyhněte se výjimce NullPointerException při vyhodnocování formátu date_trunc/trunc jako vázaného odkazu
- Aktualizace zabezpečení operačního systému.
- 18. května 2022
- Opravuje potenciální nevracení nativní paměti v automatickém zavaděče.
- [SPARK-39084][PYSPARK] Oprava df.rdd.isEmpty() pomocí TaskContext k zastavení iterátoru při dokončení úkolu
- [SPARK-38889][SQL] Kompilujte logické filtry sloupců tak, aby používaly bitový typ zdroje dat MSSQL.
- [SPARK-38931][SS] Vytvoření kořenového adresáře dfs pro RocksDBFileManager s neznámým počtem klíčů na 1. kontrolním bodu
- Aktualizace zabezpečení operačního systému.
- 4. května 2022
- Upgradovali jsme sadu Java AWS SDK z verze 1.11.655 na verzi 1.12.1899.
- 19. dubna 2022
- Aktualizace zabezpečení operačního systému.
- Různé opravy chyb
- 6. dubna 2022
- [SPARK-38631][JÁDRO] Používá implementaci založenou na Javě pro zrušení tarringu v nástroji Utils.unpack.
- Aktualizace zabezpečení operačního systému.
- 22. března 2022
- Změna aktuálního pracovního adresáře poznámkových bloků v clusterech s vysokou souběžností s podporou řízení přístupu k tabulce nebo předáváním přihlašovacích údajů do domovského adresáře uživatele. Dříve byl
/databricks/driver
pracovní adresář . - [SPARK-38437][SQL] Lenient serializace datetime ze zdroje dat
- [SPARK-38180][SQL] Povolit bezpečné přetypování výrazů v korelovaných predikátech rovnosti
- [SPARK-38155][SQL] Zakázat jedinečné agregace v laterálních poddotazech s nepodporovanými predikáty
- [SPARK-38325][SQL] Režim ANSI: Vyhněte se potenciální chybě za běhu v hashJoin.extractKeyExprAt()
- Změna aktuálního pracovního adresáře poznámkových bloků v clusterech s vysokou souběžností s podporou řízení přístupu k tabulce nebo předáváním přihlašovacích údajů do domovského adresáře uživatele. Dříve byl
- 14. března 2022
- Vylepšená detekce konfliktů transakcí pro prázdné transakce v Delta Lake.
- [SPARK-38185][SQL] Oprava nesprávných dat, pokud je agregační funkce prázdná
- [SPARK-38318][SQL] regrese při nahrazení zobrazení datové sady
- [SPARK-38236][SQL] Absolutní cesty k souborům zadaným v tabulce create/alter jsou považovány za relativní.
- [SPARK-35937][SQL] Extrahování pole data z časového razítka by mělo fungovat v režimu ANSI
-
[SPARK-34069][SQL] Úkoly kill bariéry by měly respektovat
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Povolit přiřazení úložiště mezi timestampNTZ a datem a časovým razítkem
- 23. února 2022
- [SPARK-37577][SQL] Oprava ClassCastException: Typ pole nelze přetypovat na typ struktury pro Generate Pruning.
- 8. února 2022
- [SPARK-27442][SQL] Odeberte název zaškrtávacího pole při čtení a zápisu dat v parquet.
- Aktualizace zabezpečení operačního systému.
- 1. února 2022
- Aktualizace zabezpečení operačního systému.
- 26. ledna 2022
- Opravili jsme chybu, kdy se souběžné transakce v tabulkách Delta mohly za určitých výjimečných podmínek potvrdit v ne serializovatelném pořadí.
- Opravili jsme chybu, kdy příkaz OPTIMIZE mohl selhat, když byl povolen dialekt ANSI SQL.
- 19. ledna 2022
- Zavedli jsme podporu vkládání dočasných přihlašovacích údajů pro COPY INTO pro načítání zdrojových dat bez nutnosti oprávnění sql ANY_FILE.
- Opravy chyb a vylepšení zabezpečení
- 20. prosince 2021
- Opravili jsme vzácnou chybu při filtrování založeném na indexech sloupců Parquet.
Databricks Runtime 10.1 (EoS)
Viz Databricks Runtime 10.1 (EoS).
- 15. června 2022
- [SPARK-39283][JÁDRO] Oprava zablokování mezi TaskMemoryManager a UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark by při čtení souborů neměl kontrolovat názvy polí.
- [SPARK-34096][SQL] Zvýšení výkonu pro nth_value při ignorování hodnot null v rámci posuvného okna
- 2. června 2022
- Aktualizace zabezpečení operačního systému.
- 18. května 2022
- Opravuje potenciální nevracení nativní paměti v automatickém zavaděče.
- [SPARK-39084][PYSPARK] Oprava df.rdd.isEmpty() pomocí TaskContext k zastavení iterátoru při dokončení úkolu
- [SPARK-38889][SQL] Kompilujte logické filtry sloupců tak, aby používaly bitový typ zdroje dat MSSQL.
- Aktualizace zabezpečení operačního systému.
- 19. dubna 2022
- [SPARK-37270][SQL] Oprava skládacího vložení do větví CaseWhen, pokud je elseValue prázdný
- Aktualizace zabezpečení operačního systému.
- 6. dubna 2022
- [SPARK-38631][JÁDRO] Používá implementaci založenou na Javě pro zrušení tarringu v nástroji Utils.unpack.
- Aktualizace zabezpečení operačního systému.
- 22. března 2022
- [SPARK-38437][SQL] Lenient serializace datetime ze zdroje dat
- [SPARK-38180][SQL] Povolit bezpečné přetypování výrazů v korelovaných predikátech rovnosti
- [SPARK-38155][SQL] Zakázat jedinečné agregace v laterálních poddotazech s nepodporovanými predikáty
- [SPARK-38325][SQL] Režim ANSI: Vyhněte se potenciální chybě za běhu v hashJoin.extractKeyExprAt()
- 14. března 2022
- Vylepšená detekce konfliktů transakcí pro prázdné transakce v Delta Lake.
- [SPARK-38185][SQL] Oprava nesprávných dat, pokud je agregační funkce prázdná
- [SPARK-38318][SQL] regrese při nahrazení zobrazení datové sady
- [SPARK-38236][SQL] Absolutní cesty k souborům zadaným v tabulce create/alter jsou považovány za relativní.
- [SPARK-35937][SQL] Extrahování pole data z časového razítka by mělo fungovat v režimu ANSI
-
[SPARK-34069][SQL] Úkoly kill bariéry by měly respektovat
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Povolit přiřazení úložiště mezi timestampNTZ a datem a časovým razítkem
- 23. února 2022
- [SPARK-37577][SQL] Oprava chyby ClassCastException: Typ ArrayType nelze přetypovat na StructType při generování pruning.
- 8. února 2022
- [SPARK-27442][SQL] Odstraňte kontrolu názvu pole při čtení/zápisu dat v formátu Parquet.
- Aktualizace zabezpečení operačního systému.
- 1. února 2022
- Aktualizace zabezpečení operačního systému.
- 26. ledna 2022
- Opravili jsme chybu, kdy se souběžné transakce v tabulkách Delta mohly za určitých výjimečných podmínek potvrdit v ne serializovatelném pořadí.
- Opravili jsme chybu, kdy příkaz OPTIMIZE mohl selhat, když byl povolen dialekt ANSI SQL.
- 19. ledna 2022
- Zavedli jsme podporu vkládání dočasných přihlašovacích údajů pro COPY INTO pro načítání zdrojových dat bez nutnosti oprávnění sql ANY_FILE.
- Opravili jsme problém s nedostatkem paměti při ukládání výsledků dotazu do mezipaměti za určitých podmínek.
- Opravili jsme problém s
USE DATABASE
, kdy uživatel přepne aktuální katalog do jiného než výchozího katalogu. - Opravy chyb a vylepšení zabezpečení
- Aktualizace zabezpečení operačního systému.
- 20. prosince 2021
- Opravili jsme vzácnou chybu při filtrování založeném na indexech sloupců Parquet.
Databricks Runtime 10.0 (EoS)
Viz Databricks Runtime 10.0 (EoS)
- 19. dubna 2022
- [SPARK-37270][SQL] Oprava skládacího vložení do větví CaseWhen, pokud je elseValue prázdný
- Aktualizace zabezpečení operačního systému.
- 6. dubna 2022
- [SPARK-38631][JÁDRO] Používá implementaci založenou na Javě pro zrušení tarringu v nástroji Utils.unpack.
- Aktualizace zabezpečení operačního systému.
- 22. března 2022
- [SPARK-38437][SQL] Lenient serializace datetime ze zdroje dat
- [SPARK-38180][SQL] Povolit bezpečné přetypování výrazů v korelovaných predikátech rovnosti
- [SPARK-38155][SQL] Zakázat jedinečné agregace v laterálních poddotazech s nepodporovanými predikáty
- [SPARK-38325][SQL] Režim ANSI: Vyhněte se potenciální chybě za běhu v hashJoin.extractKeyExprAt()
- 14. března 2022
- Vylepšená detekce konfliktů transakcí pro prázdné transakce v Delta Lake.
- [SPARK-38185][SQL] Oprava nesprávných dat, pokud je agregační funkce prázdná
- [SPARK-38318][SQL] regrese při nahrazení zobrazení datové sady
- [SPARK-38236][SQL] Absolutní cesty k souborům zadaným v tabulce create/alter jsou považovány za relativní.
- [SPARK-35937][SQL] Extrahování pole data z časového razítka by mělo fungovat v režimu ANSI
-
[SPARK-34069][SQL] Úkoly kill bariéry by měly respektovat
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Povolit přiřazení úložiště mezi timestampNTZ a datem a časovým razítkem
- 23. února 2022
- [SPARK-37577][SQL] Oprava ClassCastException: ArrayType nelze přetypovat na StructType pro generování prořezávání.
- 8. února 2022
- [SPARK-27442][SQL] Odebrat kontrolu názvu pole při čtení a zápisu dat v Parquet.
- [SPARK-36905][SQL] Oprava čtení zobrazení Hive bez explicitních názvů sloupců
- [SPARK-37859][SQL] Oprava problému, kdy tabulky SQL vytvořené pomocí JDBC se Sparkem 3.1 nejsou čitelné ve verzi 3.2
- Aktualizace zabezpečení operačního systému.
- 1. února 2022
- Aktualizace zabezpečení operačního systému.
- 26. ledna 2022
- Opravili jsme chybu, kdy se souběžné transakce v tabulkách Delta mohly za určitých výjimečných podmínek potvrdit v ne serializovatelném pořadí.
- Opravili jsme chybu, kdy příkaz OPTIMIZE mohl selhat, když byl povolen dialekt ANSI SQL.
- 19. ledna 2022
- Opravy chyb a vylepšení zabezpečení
- Aktualizace zabezpečení operačního systému.
- 20. prosince 2021
- Opravili jsme vzácnou chybu při filtrování založeném na indexech sloupců Parquet.
- 9. listopadu 2021
- Zavedli jsme další příznaky konfigurace, které umožňují jemně odstupňovanou kontrolu chování ANSI.
- 4. listopadu 2021
- Oprava chyby, která mohla způsobit selhání datových proudů strukturovaného streamování s sadou ArrayIndexOutOfBoundsException
- Opravili jsme stav časování, který mohl způsobit selhání dotazu s objektem IOException
java.io.IOException: No FileSystem for scheme
, nebo který by mohl způsobit, že se změnysparkContext.hadoopConfiguration
neprojeví v dotazech. - Konektor Apache Spark pro rozdílové sdílení byl upgradován na verzi 0.2.0.
- 30. listopadu 2021
- Opravili jsme problém s analýzou časového razítka, kdy byl řetězec časového pásma bez dvojtečky považován za neplatný.
- Opravili jsme problém s nedostatkem paměti při ukládání výsledků dotazu do mezipaměti za určitých podmínek.
- Opravili jsme problém s
USE DATABASE
, kdy uživatel přepne aktuální katalog do jiného než výchozího katalogu.
Databricks Runtime 9.0 (EoS)
Viz Databricks Runtime 9.0 (EoS)
- 8. února 2022
- Aktualizace zabezpečení operačního systému.
- 1. února 2022
- Aktualizace zabezpečení operačního systému.
- 26. ledna 2022
- Opravili jsme chybu, kdy příkaz OPTIMIZE mohl selhat, když byl povolen dialekt ANSI SQL.
- 19. ledna 2022
- Opravy chyb a vylepšení zabezpečení
- Aktualizace zabezpečení operačního systému.
- 4. listopadu 2021
- Oprava chyby, která mohla způsobit selhání datových proudů strukturovaného streamování s sadou ArrayIndexOutOfBoundsException
- Opravili jsme stav časování, který mohl způsobit selhání dotazu s objektem IOException
java.io.IOException: No FileSystem for scheme
, nebo který by mohl způsobit, že se změnysparkContext.hadoopConfiguration
neprojeví v dotazech. - Konektor Apache Spark pro rozdílové sdílení byl upgradován na verzi 0.2.0.
- 22. září 2021
- Oprava chyby v přetypování pole Spark s hodnotou null na řetězec
- 15. září 2021
- Opravili jsme stav časování, který mohl způsobit selhání dotazu s objektem IOException, jako je
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Opravili jsme stav časování, který mohl způsobit selhání dotazu s objektem IOException, jako je
- 8. září 2021
- Byla přidána podpora pro použití názvu schématu (ve formátu
databaseName.schemaName.tableName
) jako názvu cílové tabulky pro konektor Azure Synapse. - Přidání podpory geometrických a zeměpisných typů JDBC pro Spark SQL
- [SPARK-33527][SQL] Rozšířili jsme funkci dekódování tak, aby byla konzistentní s hlavními databázemi.
-
[SPARK-36532][JÁDRO][3.1] Opravili jsme zablokování
CoarseGrainedExecutorBackend.onDisconnected
, aby se zabrániloexecutorsconnected
zablokování exekutoru.
- Byla přidána podpora pro použití názvu schématu (ve formátu
- 25. srpna 2021
- Knihovna ovladačů SQL Serveru byla upgradována na verzi 9.2.1.jre8.
- Konektor Snowflake byl upgradován na verzi 2.9.0.
- Opravili jsme nefunkční odkaz na nejlepší zkušební poznámkový blok na stránce experimentu AutoML.
Databricks Runtime 8.4 (EoS)
Viz Databricks Runtime 8.4 (EoS)
- 19. ledna 2022
- Aktualizace zabezpečení operačního systému.
- 4. listopadu 2021
- Oprava chyby, která mohla způsobit selhání datových proudů strukturovaného streamování s sadou ArrayIndexOutOfBoundsException
- Opravili jsme stav časování, který mohl způsobit selhání dotazu s objektem IOException
java.io.IOException: No FileSystem for scheme
, nebo který by mohl způsobit, že se změnysparkContext.hadoopConfiguration
neprojeví v dotazech. - Konektor Apache Spark pro rozdílové sdílení byl upgradován na verzi 0.2.0.
- 22. září 2021
- Ovladač Spark JDBC byl upgradován na verzi 2.6.19.1030.
- [SPARK-36734][SQL] Upgrade ORC na verzi 1.5.1
- 15. září 2021
- Opravili jsme stav časování, který mohl způsobit selhání dotazu s objektem IOException, jako je
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
. - Aktualizace zabezpečení operačního systému.
- Opravili jsme stav časování, který mohl způsobit selhání dotazu s objektem IOException, jako je
- 8. září 2021
-
[SPARK-36532][JÁDRO][3.1] Opravili jsme zablokování
CoarseGrainedExecutorBackend.onDisconnected
, aby se zabrániloexecutorsconnected
zablokování exekutoru.
-
[SPARK-36532][JÁDRO][3.1] Opravili jsme zablokování
- 25. srpna 2021
- Knihovna ovladačů SQL Serveru byla upgradována na verzi 9.2.1.jre8.
- Konektor Snowflake byl upgradován na verzi 2.9.0.
- Opravili jsme chybu v předávání přihlašovacích údajů způsobené novou optimalizací předběžného načtení Parquet, kdy se při přístupu k souborům nenašel předávací přihlašovací údaje uživatele.
- 11. srpna 2021
- Řeší problém s nekompatibilitou rocksDB, který brání staršímu modulu Databricks Runtime 8.4. Tím se opraví kompatibilita automatického zavaděče
COPY INTO
a stavových streamovacích aplikací. - Opravili jsme chybu při použití automatického zavaděče ke čtení souborů CSV s neshodou hlaviček. Pokud se názvy sloupců neshodují, bude sloupec vyplněný hodnotami null. Pokud je k dispozici schéma, předpokládá se, že schéma je stejné a uloží se rozdíly ve sloupcích pouze tehdy, pokud jsou povoleny záchranné sloupce dat.
- Přidá do konektoru Azure Synapse novou možnost s názvem
externalDataSource
, která odebere požadavek na oprávněníCONTROL
databáze pro čtení PolyBase.
- Řeší problém s nekompatibilitou rocksDB, který brání staršímu modulu Databricks Runtime 8.4. Tím se opraví kompatibilita automatického zavaděče
- 29. července 2021
- [SPARK-36034][BUILD] Změna základu data a času v nabízených filtrech do Parquet
-
[SPARK-36163][BUILD] Rozšíření správných vlastností JDBC ve zprostředkovateli konektoru JDBC a přidání
connectionProvider
možnosti
Databricks Runtime 8.3 (EoS)
Viz Databricks Runtime 8.3 (EoS)
- 19. ledna 2022
- Aktualizace zabezpečení operačního systému.
- 4. listopadu 2021
- Oprava chyby, která mohla způsobit selhání datových proudů strukturovaného streamování s sadou ArrayIndexOutOfBoundsException
- Opravili jsme stav časování, který mohl způsobit selhání dotazu s objektem IOException
java.io.IOException: No FileSystem for scheme
, nebo který by mohl způsobit, že se změnysparkContext.hadoopConfiguration
neprojeví v dotazech.
- 22. září 2021
- Ovladač Spark JDBC byl upgradován na verzi 2.6.19.1030.
- 15. září 2021
- Opravili jsme stav časování, který mohl způsobit selhání dotazu s objektem IOException, jako je
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
. - Aktualizace zabezpečení operačního systému.
- Opravili jsme stav časování, který mohl způsobit selhání dotazu s objektem IOException, jako je
- 8. září 2021
- [SPARK-35700][SQL][WARMFIX] Čtení tabulky char/varchar ve formátu ORC, když ji vytvořily a zapisovaly externí systémy.
-
[SPARK-36532][JÁDRO][3.1] Opravili jsme zablokování
CoarseGrainedExecutorBackend.onDisconnected
, aby se zabrániloexecutorsconnected
zablokování exekutoru.
- 25. srpna 2021
- Knihovna ovladačů SQL Serveru byla upgradována na verzi 9.2.1.jre8.
- Konektor Snowflake byl upgradován na verzi 2.9.0.
- Opravili jsme chybu v předávání přihlašovacích údajů způsobenou novou optimalizací předběžného načítání Parquet, kdy se při přístupu k souborům nemusely naleznout přihlašovací údaje uživatele.
- 11. srpna 2021
- Opravili jsme chybu při použití automatického zavaděče ke čtení souborů CSV s neshodou hlaviček. Pokud se názvy sloupců neshodují, bude sloupec vyplněný hodnotami null. Pokud je k dispozici schéma, předpokládá se, že schéma je stejné a uloží se neshody sloupců pouze v případě, že jsou povolené zachráněné datové sloupce.
- 29. července 2021
- Upgrade konektoru Databricks Snowflake Spark na 2.9.0-spark-3.1
- [SPARK-36034][BUILD] Změna základu data a času v nabízených filtrech do Parquet
-
[SPARK-36163][BUILD] Rozšíření správných vlastností JDBC ve zprostředkovateli konektoru JDBC a přidání
connectionProvider
možnosti
- 14. července 2021
- Opravili jsme problém při používání názvů sloupců s tečkami v konektoru Azure Synapse.
- Byl zaveden
database.schema.table
formát konektoru Synapse. - Přidání podpory pro poskytování formátu
databaseName.schemaName.tableName
jako cílové tabulky místo formátůschemaName.tableName
nebotableName
.
- 15. června 2021
-
NoSuchElementException
Oprava chyby v zápisech optimalizovaných pro Delta Lake, ke kterým může dojít při zápisu velkých objemů dat a ztrát exekutoru - Přidá příkazy SQL
CREATE GROUP
,DROP GROUP
,ALTER GROUP
,SHOW GROUPS
aSHOW USERS
příkazy. Podrobnosti najdete v tématu Příkazy zabezpečení a Příkazy Show.
-
Databricks Runtime 8.2 (EoS)
Viz Databricks Runtime 8.2 (EoS).
22. září 2021
- Aktualizace zabezpečení operačního systému.
15. září 2021
- Opravili jsme stav časování, který mohl způsobit selhání dotazu s objektem IOException, jako je
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Opravili jsme stav časování, který mohl způsobit selhání dotazu s objektem IOException, jako je
8. září 2021
- [SPARK-35700][SQL][WARMFIX] Číst tabulku ORC s typy char/varchar, když je vytvořena a zapsána externími systémy.
-
[SPARK-36532][JÁDRO][3.1] Opravili jsme zablokování
CoarseGrainedExecutorBackend.onDisconnected
, aby se zabrániloexecutorsconnected
zablokování exekutoru.
25. srpna 2021
- Konektor Snowflake byl upgradován na verzi 2.9.0.
11. srpna 2021
- [SPARK-36034][SQL] Znovu nasdílet datetime v nabízených filtrech do parquetu.
29. července 2021
- Upgrade konektoru Databricks Snowflake Spark na 2.9.0-spark-3.1
-
[SPARK-36163][BUILD] Rozšíření správných vlastností JDBC ve zprostředkovateli konektoru JDBC a přidání
connectionProvider
možnosti
14. července 2021
- Opravili jsme problém při používání názvů sloupců s tečkami v konektoru Azure Synapse.
- Byl zaveden
database.schema.table
formát konektoru Synapse. - Přidána podpora pro použití formátu
databaseName.schemaName.tableName
jako cílové tabulky, a to místo formátů pouzeschemaName.tableName
nebotableName
. - Opravili jsme chybu, která uživatelům bránila v cestě do starších dostupných verzí s tabulkami Delta.
15. června 2021
- Opraví
NoSuchElementException
chybu v zápisech optimalizovaných pro Delta Lake, ke kterým může dojít při zápisu velkých objemů dat a ztrát exekutoru.
- Opraví
26. května 2021
- Aktualizace Pythonu s opravou zabezpečení pro opravu ohrožení zabezpečení Pythonu (CVE-2021-3177)
30.dubna 2021
- Aktualizace zabezpečení operačního systému.
- [SPARK-35227][BUILD] Aktualizujte řešitel pro balíčky Spark v rámci SparkSubmit.
- [SPARK-34245][JÁDRO] Ujistěte se, že hlavní server odebere exekutory, které se nepodařilo odeslat dokončený stav.
- Opravili jsme problém s OOM, kdy auto loader hlásí metriky průběhu strukturovaného streamování.
Databricks Runtime 8.1 (EoS)
Viz Databricks Runtime 8.1 (EoS).
22. září 2021
- Aktualizace zabezpečení operačního systému.
15. září 2021
- Opravili jsme stav časování, který mohl způsobit selhání dotazu s objektem IOException, jako je
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Opravili jsme stav časování, který mohl způsobit selhání dotazu s objektem IOException, jako je
8. září 2021
- [SPARK-35700][SQL][WARMFIX] Čtení tabulky ve formátu ORC typu char/varchar, když je vytvořena a zapsána externími systémy.
-
[SPARK-36532][JÁDRO][3.1] Opravili jsme zablokování
CoarseGrainedExecutorBackend.onDisconnected
, aby se zabrániloexecutorsconnected
zablokování exekutoru.
25. srpna 2021
- Konektor Snowflake byl upgradován na verzi 2.9.0.
11. srpna 2021
- [SPARK-36034][SQL] Znovu nasdílet datetime v nabízených filtrech do parquetu.
29. července 2021
- Upgrade konektoru Databricks Snowflake Spark na 2.9.0-spark-3.1
-
[SPARK-36163][BUILD] Rozšíření správných vlastností JDBC ve zprostředkovateli konektoru JDBC a přidání
connectionProvider
možnosti
14. července 2021
- Opravili jsme problém při používání názvů sloupců s tečkami v konektoru Azure Synapse.
- Opravili jsme chybu, která uživatelům bránila v cestě do starších dostupných verzí s tabulkami Delta.
15. června 2021
- Opraví
NoSuchElementException
chybu v zápisech optimalizovaných pro Delta Lake, ke kterým může dojít při zápisu velkých objemů dat a ztrát exekutoru.
- Opraví
26. května 2021
- Aktualizace Pythonu s opravou zabezpečení pro opravu ohrožení zabezpečení Pythonu (CVE-2021-3177)
30.dubna 2021
- Aktualizace zabezpečení operačního systému.
- [SPARK-35227][BUILD] Aktualizujte resolver pro balíčky Spark v SparkSubmit.
- Opravili jsme problém s OOM, kdy auto loader hlásí metriky průběhu strukturovaného streamování.
27. dubna 2021
- [SPARK-34245][JÁDRO] Ujistěte se, že hlavní server odebere exekutory, které se nepodařilo odeslat dokončený stav.
- [SPARK-34856][SQL] Režim ANSI: Povolit přetypování složitých typů jako typ řetězce
- [SPARK-35014] Oprava vzoru Fyzické agregace, aby se nepřepsaly skládací výrazy
- [SPARK-34769][SQL] AnsiTypeCoercion: vrácení nejužšího konvertibilního typu mezi TypeCollection
- [SPARK-34614][SQL] Režim ANSI: Přetypování řetězce na logickou hodnotu vyvolá výjimku při chybě analýzy
- [SPARK-33794][SQL] Režim ANSI: Oprava výrazu NextDay za účelem vyvolání runtime IllegalArgumentException při příjmu neplatného vstupu v části
Databricks Runtime 8.0 (EoS)
Viz Databricks Runtime 8.0 (EoS).
15. září 2021
- Opravili jsme stav časování, který mohl způsobit selhání dotazu s objektem IOException, jako je
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Opravili jsme stav časování, který mohl způsobit selhání dotazu s objektem IOException, jako je
25. srpna 2021
- Konektor Snowflake byl upgradován na verzi 2.9.0.
11. srpna 2021
- [SPARK-36034][SQL] Znovu nasdílet datetime v nabízených filtrech do parquetu.
29. července 2021
-
[SPARK-36163][BUILD] Rozšíření správných vlastností JDBC ve zprostředkovateli konektoru JDBC a přidání
connectionProvider
možnosti
-
[SPARK-36163][BUILD] Rozšíření správných vlastností JDBC ve zprostředkovateli konektoru JDBC a přidání
14. července 2021
- Opravili jsme problém při používání názvů sloupců s tečkami v konektoru Azure Synapse.
- Opravili jsme chybu, která uživatelům bránila v cestě do starších dostupných verzí s tabulkami Delta.
26. května 2021
- Aktualizace Pythonu s opravou zabezpečení pro opravu ohrožení zabezpečení Pythonu (CVE-2021-3177)
30.dubna 2021
- Aktualizace zabezpečení operačního systému.
- [SPARK-35227][BUILD] Aktualizujte řešitel pro balíčky spark v SparkSubmit.
- [SPARK-34245][JÁDRO] Ujistěte se, že hlavní server odebere exekutory, které se nepodařilo odeslat dokončený stav.
24. března 2021
- [SPARK-34681][SQL] Oprava chyby pro úplné vnější zamíchané hash spojení při sestavování levé strany s nerovnající se podmínkou
- [SPARK-34534] Oprava objednávky blockIds při použití FetchShuffleBlocks k načtení bloků
- [SPARK-34613][SQL] Zobrazení opravy nezachytává konfiguraci nápovědy pro zakázání
úterý 9. března 2021
-
[SPARK-34543][SQL] Respektujte konfiguraci
spark.sql.caseSensitive
při řešení specifikace oddílu v1SET LOCATION
. - [SPARK-34392][SQL] Podpora ZoneOffset +h:mm v DateTimeUtils. getZoneId
- [UŽIVATELSKÉ ROZHRANÍ] Oprava odkazu href vizualizace Spark DAG
- [SPARK-34436][SQL] Podpora DPP TYPU ANY/ALL
-
[SPARK-34543][SQL] Respektujte konfiguraci
Databricks Runtime 7.6 (EoS)
Viz Databricks Runtime 7.6 (EoS).
- 11. srpna 2021
- [SPARK-36034][SQL] Znovu nasdílet datetime v nabízených filtrech do parquetu.
- 29. července 2021
- [SPARK-32998][BUILD] Přidání možnosti přepsat výchozí vzdálená úložiště pouze interními úložištěmi
- 14. července 2021
- Opravili jsme chybu, která uživatelům bránila v cestě do starších dostupných verzí s tabulkami Delta.
- 26. května 2021
- Aktualizace Pythonu s opravou zabezpečení pro opravu ohrožení zabezpečení Pythonu (CVE-2021-3177)
- 30. dubna 2021
- Aktualizace zabezpečení operačního systému.
- [SPARK-35227][BUILD] Aktualizujte řešitel pro balíčky Spark v příkazu SparkSubmit.
- [SPARK-34245][JÁDRO] Ujistěte se, že hlavní server odebere exekutory, které se nepodařilo odeslat dokončený stav.
- 24. března 2021
- [SPARK-34768][SQL] Respektujte výchozí velikost vstupní vyrovnávací paměti v univocity
- [SPARK-34534] Oprava objednávky blockIds při použití FetchShuffleBlocks k načtení bloků
- 9. března 2021
- (Jenom Azure) Oprava chyby automatického zavaděče, která může způsobit výjimku NullPointerException při použití Databricks Runtime 7.6 ke spuštění starého datového proudu automatického zavaděče vytvořeného v Databricks Runtime 7.2
- [UŽIVATELSKÉ ROZHRANÍ] Oprava odkazu href vizualizace Spark DAG
- Neznámý plán SparkPlan typu list není v SizeInBytesOnlyStatsSparkPlanVisitor správně zpracován.
- Obnovení výstupního schématu
SHOW DATABASES
- [Delta][8.0, 7.6] Oprava chyby výpočtu v logice automatického ladění velikosti souboru
- Zakázat kontrolu zastaralosti u souborů tabulek Delta v mezipaměti disku
- [SQL] Použijte správný dynamický prořezávací klíč pro sestavení, pokud je přítomna nápověda pro spojení rozsahu.
- Zakázání podpory typu znaku v cestě kódu jiného než SQL
- Vyhněte se NPE ve schématu DataFrameReader.
- Oprava NPE, když odpověď EventGridClient nemá žádnou entitu
- Oprava chyby uzavřeného datového proudu pro čtení ve službě Azure Auto Loader
- [SQL] Nevytvářejte rady ohledně čísla oddílu pro shuffle, když je AOS povoleno.
- 24. února 2021
- Upgradovali jsme konektor Spark BigQuery na verzi 0.18, který zavádí různé opravy chyb a podporu iterátorů Arrow a Avro.
- Opravili jsme problém správnosti, který způsoboval, že Spark vrátil nesprávné výsledky, když se desetinná přesnost a měřítko souboru Parquet liší od schématu Sparku.
- Opravili jsme problém se selháním čtení u tabulek Microsoft SQL Serveru, které obsahují prostorové datové typy, přidáním geometrie a geografické podpory typů JDBC pro Spark SQL.
- Zavedli jsme novou konfiguraci
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Tato konfigurace řídí integrovanou inicializaci Hivu. Když je nastavená hodnota true, Azure Databricks znovu načte všechny funkce ze všech databází, které uživatelé mají doFunctionRegistry
. Toto je výchozí chování metastoru Hive. Pokud je tato hodnota nastavená na false, Azure Databricks tento proces zakáže pro optimalizaci. - [SPARK-34212] Opravili jsme problémy související se čtením desetinných dat ze souborů Parquet.
- [SPARK-34260][SQL] Oprava unresolvedException při vytváření dočasného zobrazení dvakrát.
Databricks Runtime 7.5 (EoS)
Viz Databricks Runtime 7.5 (EoS).
- 26. května 2021
- Aktualizace Pythonu s opravou zabezpečení pro opravu ohrožení zabezpečení Pythonu (CVE-2021-3177)
- 30. dubna 2021
- Aktualizace zabezpečení operačního systému.
- [SPARK-35227][BUILD] Aktualizujte překladač pro balíčky Spark v podsítě SparkSubmit.
- [SPARK-34245][JÁDRO] Ujistěte se, že hlavní server odebere exekutory, které se nepodařilo odeslat dokončený stav.
- 24. března 2021
- [SPARK-34768][SQL] Respektujte výchozí velikost vstupní vyrovnávací paměti v univocity
- [SPARK-34534] Oprava objednávky blockIds při použití FetchShuffleBlocks k načtení bloků
- 9. března 2021
- (Jenom Azure) Opravili jsme chybu automatického zavaděče, která může způsobit výjimku NullPointerException při použití databricks Runtime 7.5 ke spuštění starého datového proudu automatického zavaděče vytvořeného v Databricks Runtime 7.2.
- [UŽIVATELSKÉ ROZHRANÍ] Oprava odkazu href vizualizace Spark DAG
- Neznámý plán SparkPlan typu list není v SizeInBytesOnlyStatsSparkPlanVisitor správně zpracován.
- Obnovení výstupního schématu
SHOW DATABASES
- Zakázání kontroly zastaralosti u souborů tabulek Delta v mezipaměti disku
- [SQL] Použití správného dynamického ořezávacího klíče sestavení, pokud je k dispozici optimalizační nápověda pro spojení rozsahu
- Zakázání podpory typu znaku v cestě kódu jiného než SQL
- Vyhněte se NPE ve schématu DataFrameReader.schema
- Oprava NPE, když odpověď EventGridClient nemá žádnou entitu
- Oprava chyby uzavřeného datového proudu pro čtení ve službě Azure Auto Loader
- 24. února 2021
- Upgradovali jsme konektor Spark BigQuery na verzi 0.18, který zavádí různé opravy chyb a podporu iterátorů Arrow a Avro.
- Opravili jsme problém správnosti, který způsoboval, že Spark vrátil nesprávné výsledky, když se desetinná přesnost a měřítko souboru Parquet liší od schématu Sparku.
- Opravili jsme problém se selháním čtení u tabulek Microsoft SQL Serveru, které obsahují prostorové datové typy, přidáním geometrie a geografické podpory typů JDBC pro Spark SQL.
- Zavedli jsme novou konfiguraci
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Tato konfigurace řídí integrovanou inicializaci Hivu. Když je nastavená hodnota true, Azure Databricks znovu načte všechny funkce ze všech databází, které uživatelé mají doFunctionRegistry
. Toto je výchozí chování metastoru Hive. Pokud je tato hodnota nastavená na false, Azure Databricks tento proces zakáže pro optimalizaci. - [SPARK-34212] Opravili jsme problémy související se čtením desetinných dat ze souborů Parquet.
- [SPARK-34260][SQL] Oprava unresolvedException při vytváření dočasného zobrazení dvakrát.
- 4. února 2021
- Opravili jsme regresi, která bránila inkrementálnímu spuštění dotazu, který nastavil globální limit, například
SELECT * FROM table LIMIT nrows
. K regresi došlo, když uživatelé spustili dotazy prostřednictvím ODBC/JDBC s povolenou serializací šipky. - Zavedli jsme kontroly času zápisu do klienta Hive, aby se zabránilo poškození metadat v metastoru Hive pro tabulky Delta.
- Opravili jsme regresi, která způsobila selhání spuštění FUSE DBFS, když konfigurace proměnných prostředí clusteru obsahovaly neplatnou syntaxi bashe.
- Opravili jsme regresi, která bránila inkrementálnímu spuštění dotazu, který nastavil globální limit, například
- 20. ledna 2021
- Opravili jsme regresi v údržbové verzi z 12. ledna 2021, která může způsobit nesprávnou výjimku AnalysisException a označit sloupec jako nejednoznačný při samonaspojení. K této regresi dochází, když se uživatel připojí k datovému rámci s odvozeným datovým rámcem (tzv. self-join) s následujícími podmínkami:
- Tyto dva datové rámce mají společné sloupce, ale výstup samo-spojení neobsahuje společné sloupce. Například
df.join(df.select($"col" as "new_col"), cond)
- Odvozený datový rámec vyloučí některé sloupce prostřednictvím výběru, groupBy nebo okna.
- Podmínka spojení nebo následující transformace po spojeném datovém rámci odkazuje na sloupce, které nejsou společné. Například
df.join(df.drop("a"), df("a") === 1)
- Tyto dva datové rámce mají společné sloupce, ale výstup samo-spojení neobsahuje společné sloupce. Například
- Opravili jsme regresi v údržbové verzi z 12. ledna 2021, která může způsobit nesprávnou výjimku AnalysisException a označit sloupec jako nejednoznačný při samonaspojení. K této regresi dochází, když se uživatel připojí k datovému rámci s odvozeným datovým rámcem (tzv. self-join) s následujícími podmínkami:
- 12. ledna 2021
- Upgradujte sadu Azure Storage SDK z verze 2.3.8 na verzi 2.3.9.
- [SPARK-33593][SQL] Vektorový čtecí modul získal nesprávná data v binární hodnotě oddílu
- [SPARK-33480][SQL] aktualizuje chybovou zprávu kontroly délky vložení tabulky char/varchar.
Databricks Runtime 7.3 LTS (EoS)
Viz Databricks Runtime 7.3 LTS (EoS).
10. září 2023
- Různé opravy chyb
30. srpna 2023
- Aktualizace zabezpečení operačního systému.
15. srpna 2023
- Aktualizace zabezpečení operačního systému.
23. června 2023
- Knihovna Snowflake-jdbc se upgraduje na verzi 3.13.29, aby se vyřešil problém se zabezpečením.
- Aktualizace zabezpečení operačního systému.
15. června 2023
-
[SPARK-43413][SQL] Oprava
IN
možnosti null poddotaznostiListQuery
. - Aktualizace zabezpečení operačního systému.
-
[SPARK-43413][SQL] Oprava
2. června 2023
- Opravili jsme problém v Auto Loaderu, kdy různé formáty zdrojového souboru byly nekonzistentní, pokud zadané schéma neobsahovalo odvozené oddíly. Tento problém může způsobit neočekávané chyby při čtení souborů s chybějícími sloupci ve schématu odvozeného oddílu.
17. května 2023
- Aktualizace zabezpečení operačního systému.
25. dubna 2023
- Aktualizace zabezpečení operačního systému.
úterý 11. dubna 2023
- [SPARK-42967][JÁDRO] Oprava SparkListenerTaskStart.stageAttemptId při spuštění úlohy po zrušení fáze.
- Různé opravy chyb
29. března 2023
- Aktualizace zabezpečení operačního systému.
14. března 2023
- Různé opravy chyb
28. února 2023
- Aktualizace zabezpečení operačního systému.
16. února 2023
- Aktualizace zabezpečení operačního systému.
31. ledna 2023
- Ve výchozím nastavení jsou typy tabulek JDBC externí.
18. ledna 2023
- Aktualizace zabezpečení operačního systému.
29. listopadu 2022
- Různé opravy chyb
15. listopadu 2022
- Upgradovali jsme Apache commons-text na verzi 1.10.0.
- Aktualizace zabezpečení operačního systému.
- Různé opravy chyb
1. listopadu 2022
- [SPARK-38542][SQL] UnsafeHashedRelation by měl serializovat numKeys out
18. října 2022
- Aktualizace zabezpečení operačního systému.
středa 5. října 2022
- Různé opravy chyb
- Aktualizace zabezpečení operačního systému.
22. září 2022
- [SPARK-40089][SQL] Oprava řazení u některých typů desetinných míst
6. září 2022
- [SPARK-35542][CORE][ML] Oprava: Bucketizer vytvořený pro více sloupců s parametry splitsArray, inputCols a outputCols nelze po uložení načíst.
- [SPARK-40079][JÁDRO] Přidání ověření Imputer inputCols pro prázdný vstupní případ
24. srpna 2022
- [SPARK-39962][PYTHON][SQL] Použít projekci, pokud jsou atributy skupiny prázdné
- Aktualizace zabezpečení operačního systému.
úterý 9. srpna 2022
- Aktualizace zabezpečení operačního systému.
27. července 2022
- Výsledky operace Delta MERGE jsou konzistentní, pokud zdroj není deterministický.
- Aktualizace zabezpečení operačního systému.
- Různé opravy chyb
13. července 2022
- [SPARK-32680][SQL] Nezpracovávejte předběžné zpracování V2 CTAS s nevyřešeným dotazem
- Zakázali jsme použití nativních cloudových rozhraní API auto loaderu pro výpis adresářů v Azure.
- Aktualizace zabezpečení operačního systému.
5. července 2022
- Aktualizace zabezpečení operačního systému.
- Různé opravy chyb
2. června 2022
- [SPARK-38918][SQL] Vyřazení vnořených sloupců by mělo vyfiltrovat atributy, které nepatří do aktuální relace.
- Aktualizace zabezpečení operačního systému.
18. května 2022
- Upgradujte verzi sady AWS SDK z verze 1.11.655 na verzi 1.11.678.
- Aktualizace zabezpečení operačního systému.
- Různé opravy chyb
19. dubna 2022
- Aktualizace zabezpečení operačního systému.
- Různé opravy chyb
6. dubna 2022
- Aktualizace zabezpečení operačního systému.
- Různé opravy chyb
14. března 2022
- Odebrání ohrožených tříd z souboru jar log4j 1.2.17
- Různé opravy chyb
23. února 2022
- [SPARK-37859][SQL] Nekontrolujte metadata během porovnání schématu
8. února 2022
- Upgradujte Ubuntu JDK na 1.8.0.312.
- Aktualizace zabezpečení operačního systému.
úterý 1. února 2022
- Aktualizace zabezpečení operačního systému.
26. ledna 2022
- Opravili jsme chybu, kdy příkaz OPTIMIZE mohl selhat, když byl povolen dialekt ANSI SQL.
19. ledna 2022
- Výchozí kanál Conda se odebere z 7.3 ML LTS.
- Aktualizace zabezpečení operačního systému.
7. prosince 2021
- Aktualizace zabezpečení operačního systému.
4. listopadu 2021
- Oprava chyby, která mohla způsobit selhání datových proudů strukturovaného streamování s sadou ArrayIndexOutOfBoundsException
- Opravili jsme stav časování, který mohl způsobit selhání dotazu s objektem IOException
java.io.IOException: No FileSystem for scheme
, nebo který by mohl způsobit, že se změnysparkContext.hadoopConfiguration
neprojeví v dotazech.
15. září 2021
- Opravili jsme stav časování, který mohl způsobit selhání dotazu s objektem IOException, jako je
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
. - Aktualizace zabezpečení operačního systému.
- Opravili jsme stav časování, který mohl způsobit selhání dotazu s objektem IOException, jako je
8. září 2021
- [SPARK-35700][SQL][WARMFIX] Čtení tabulky CHAR/VARCHAR ve formátu ORC, když je vytvořena a zapsána externími systémy.
-
[SPARK-36532][JÁDRO][3.1] Opravili jsme zablokování
CoarseGrainedExecutorBackend.onDisconnected
, aby se zabrániloexecutorsconnected
zablokování exekutoru.
25. srpna 2021
- Konektor Snowflake byl upgradován na verzi 2.9.0.
29. července 2021
- [SPARK-36034][BUILD] Změna základu data a času v nabízených filtrech do Parquet
-
[SPARK-34508][BUILD] Přeskočit
HiveExternalCatalogVersionsSuite
, pokud je síť dole
14. července 2021
- Zavedený
database.schema.table
formát konektoru Azure Synapse - Byla přidána podpora pro použití formátu
databaseName.schemaName.tableName
jako cílové tabulky namísto pouzeschemaName.tableName
nebotableName
. - Opravili jsme chybu, která uživatelům bránila v cestě do starších dostupných verzí s tabulkami Delta.
- Zavedený
15. června 2021
- Opraví
NoSuchElementException
chybu v zápisech optimalizovaných pro Delta Lake, ke kterým může dojít při zápisu velkých objemů dat a ztrát exekutoru. - Aktualizace Pythonu s opravou zabezpečení pro opravu ohrožení zabezpečení Pythonu (CVE-2021-3177)
- Opraví
30.dubna 2021
- Aktualizace zabezpečení operačního systému.
- [SPARK-35227][BUILD] Aktualizujte řešitel pro balíčky Spark ve Spark-submit.
- [SPARK-34245][JÁDRO] Ujistěte se, že hlavní server odebere exekutory, které se nepodařilo odeslat dokončený stav.
- [SPARK-35045][SQL] Přidání interní možnosti pro řízení vstupní vyrovnávací paměti v neivotnosti
24. března 2021
- [SPARK-34768][SQL] Respektujte výchozí velikost vstupní vyrovnávací paměti v univocity
- [SPARK-34534] Oprava objednávky blockIds při použití FetchShuffleBlocks k načtení bloků
- [SPARK-33118][SQL]CREATE TEMPORARY TABLE neuspěje kvůli umístění
úterý 9. března 2021
- Aktualizovaný ovladač systému souborů Azure Blob pro Azure Data Lake Storage Gen2 je teď ve výchozím nastavení povolený. Přináší několik vylepšení stability.
- Oprava oddělovače cest ve Windows pro
databricks-connect get-jar-dir
- [UŽIVATELSKÉ ROZHRANÍ] Oprava odkazu href vizualizace Spark DAG
- [DBCONNECT] Přidání podpory pro FlatMapCoGroupsInPandas v Databricks Connect 7.3
- Obnovení výstupního schématu
SHOW DATABASES
- [SQL] Použijte správný klíč pro dynamické proříznutí při sestavení, pokud je k dispozici nápověda pro spojení rozsahu
- Zakázat kontrolu zastaralosti pro soubory tabulky Delta v diskové mezipaměti
- [SQL] Nevygenerujte rady pro číslo oddílu pro přerozdělení, pokud je AOS aktivovaný
24. února 2021
- Upgradovali jsme konektor Spark BigQuery na verzi 0.18, který zavádí různé opravy chyb a podporu iterátorů Arrow a Avro.
- Opravili jsme problém správnosti, který způsoboval, že Spark vrátil nesprávné výsledky, když se desetinná přesnost a měřítko souboru Parquet liší od schématu Sparku.
- Opravili jsme problém se selháním čtení u tabulek Microsoft SQL Serveru, které obsahují prostorové datové typy, přidáním geometrie a geografické podpory typů JDBC pro Spark SQL.
- Zavedli jsme novou konfiguraci
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Tato konfigurace řídí integrovanou inicializaci Hivu. Když je nastavená hodnota true, Azure Databricks znovu načte všechny funkce ze všech databází, které uživatelé mají doFunctionRegistry
. Toto je výchozí chování metastoru Hive. Pokud je tato hodnota nastavená na false, Azure Databricks tento proces zakáže pro optimalizaci. - [SPARK-34212] Opravili jsme problémy související se čtením desetinných dat ze souborů Parquet.
- [SPARK-33579][UŽIVATELSKÉ ROZHRANÍ] Oprava prázdné stránky exekutoru za proxy serverem
- [SPARK-20044][UŽIVATELSKÉ ROZHRANÍ] Podpora uživatelského rozhraní Sparku za front-endovým reverzním proxy serverem pomocí předpony cesty
- [SPARK-33277][PYSPARK][SQL] Použití ContextAwareIterator k zastavení využívání po skončení úkolu.
4. února 2021
- Opravili jsme regresi, která bránila inkrementálnímu spuštění dotazu, který nastavil globální limit, například
SELECT * FROM table LIMIT nrows
. K regresi došlo, když uživatelé spustili dotazy prostřednictvím ODBC/JDBC s povolenou serializací šipky. - Opravili jsme regresi, která způsobila selhání spuštění FUSE DBFS, když konfigurace proměnných prostředí clusteru obsahovaly neplatnou syntaxi bashe.
- Opravili jsme regresi, která bránila inkrementálnímu spuštění dotazu, který nastavil globální limit, například
20. ledna 2021
- Opravili jsme regresi ve verzi údržby z 12. ledna 2021, která může způsobit nesprávnou výjimku AnalysisException a oznamuje, že sloupec je v samo-spojení nejednoznačný. K této regresi dochází, když se uživatel připojí k datovému rámci s odvozeným datovým rámcem (tzv. self-join) s následujícími podmínkami:
- Tyto dva datové rámce mají společné sloupce, ale výstup vnitřního spojení těchto rámců neobsahuje společné sloupce. Například
df.join(df.select($"col" as "new_col"), cond)
- Odvozený datový rámec vyloučí některé sloupce prostřednictvím výběru, groupBy nebo okna.
- Podmínka spojení nebo následující transformace po sloučeném datovém rámci odkazuje na neobvyklé sloupce. Například
df.join(df.drop("a"), df("a") === 1)
- Tyto dva datové rámce mají společné sloupce, ale výstup vnitřního spojení těchto rámců neobsahuje společné sloupce. Například
- Opravili jsme regresi ve verzi údržby z 12. ledna 2021, která může způsobit nesprávnou výjimku AnalysisException a oznamuje, že sloupec je v samo-spojení nejednoznačný. K této regresi dochází, když se uživatel připojí k datovému rámci s odvozeným datovým rámcem (tzv. self-join) s následujícími podmínkami:
12. ledna 2021
- Aktualizace zabezpečení operačního systému.
- [SPARK-33593][SQL] Vektorový čtecí modul získal nesprávná data s binární hodnotou oddílu.
- [SPARK-33677][SQL] Přeskočit pravidlo LikeSimplification, pokud vzor obsahuje jakýkoli řídicí znak
- [SPARK-33592][ML][PYTHON] Parametry validátoru Pyspark ML v estimatorParamMaps mohou být po uložení a opětovném načtení ztraceny.
- [SPARK-33071][SPARK-33536][SQL] Vyvarujte se změně dataset_id logického plánu při použití join(), aby se nekompromitovala funkce DetectAmbiguousSelfJoin
úterý 8. prosince 2020
- [SPARK-33587][JÁDRO] Ukončení exekutoru u vnořených závažných chyb
- [SPARK-27421][SQL] Oprava filtru pro sloupec int a třídu hodnot java.lang.String při vyřazování sloupce oddílu
- [SPARK-33316][SQL] Podpora uživatele poskytla schéma Avro s možnou hodnotou null pro schéma nenulovatelného katalyzátoru v Avro zápisu
- Úlohy Sparku spuštěné pomocí Databricks Connect můžou přestat reagovat s trasování zásobníku
Executor$TaskRunner.$anonfun$copySessionState
exekutoru - Aktualizace zabezpečení operačního systému.
úterý 1. prosince 2020
-
[SPARK-33404][SQL][3.0] Oprava nesprávných výsledků ve výrazu
date_trunc
- [SPARK-33339][PYTHON] Aplikace Pyspark přestane reagovat kvůli chybě bez výjimky
- [SPARK-33183][SQL][HOTFIX] Oprava pravidla optimalizátoru EliminateSorts a přidání fyzického pravidla pro odstranění redundantních řazení.
- [SPARK-33371][PYTHON][3.0] Aktualizace setup.py a testů pro Python 3.9
- [SPARK-33391][SQL] element_at s CreateArray nerespektuje jeden založený index.
- [SPARK-33306][SQL]Časové pásmo je potřeba při přetypování data na řetězec.
- [SPARK-33260][SQL] Oprava nesprávných výsledků z SortExec při řazeníOrder je Stream
-
[SPARK-33404][SQL][3.0] Oprava nesprávných výsledků ve výrazu
5. listopadu 2020
- Oprava uzamčení ABFS a WASB s ohledem na
UserGroupInformation.getCurrentUser()
. - Opravte chybu nekonečné smyčky, když čtečka Avro přečte bajty MAGIC.
- Přidání podpory pro oprávnění VYUŽITÍ
- Vylepšení výkonu pro kontrolu oprávnění přístupu v řízení přístupu k tabulkám .
- Oprava uzamčení ABFS a WASB s ohledem na
13. října 2020
- Aktualizace zabezpečení operačního systému.
- Ze systému souborů DBFS můžete číst a zapisovat pomocí připojení FUSE v /dbfs/ v clusteru s povoleným předáváním přihlašovacích údajů s vysokou souběžností. Běžná připojení jsou podporována, ale připojení, která potřebují předání přihlašovacích údajů, zatím podporována nejsou.
- [SPARK-32999][SQL] Použití Utils.getSimpleName k tomu, abyste se vyhnuli názvu chybných názvů tříd ve TreeNode
- [SPARK-32585][SQL] Podpora výčtu scala v scalaReflection
- Oprava výpisu adresářů v připojení FUSE, které obsahují názvy souborů s neplatnými znaky XML
- Připojení FUSE už nepoužívá ListMultipartUploads.
29. září 2020
- [SPARK-32718][SQL] Odebrání nepotřebných klíčových slov pro jednotky intervalu
- [SPARK-32635][SQL] Oprava skládacího šíření
- Přidejte novou konfiguraci
spark.shuffle.io.decoder.consolidateThreshold
. Nastavte hodnotu konfigurace naLong.MAX_VALUE
, aby se přeskočilo sloučení netty FrameBuffers, což bráníjava.lang.IndexOutOfBoundsException
v okrajových případech.
25. dubna 2023
- Aktualizace zabezpečení operačního systému.
úterý 11. dubna 2023
- Různé opravy chyb
29. března 2023
- Různé opravy chyb
14. března 2023
- Aktualizace zabezpečení operačního systému.
28. února 2023
- Aktualizace zabezpečení operačního systému.
16. února 2023
- Aktualizace zabezpečení operačního systému.
31. ledna 2023
- Různé opravy chyb
18. ledna 2023
- Aktualizace zabezpečení operačního systému.
29. listopadu 2022
- Aktualizace zabezpečení operačního systému.
15. listopadu 2022
- Aktualizace zabezpečení operačního systému.
- Různé opravy chyb
1. listopadu 2022
- Aktualizace zabezpečení operačního systému.
18. října 2022
- Aktualizace zabezpečení operačního systému.
- 5. října 2022
- Aktualizace zabezpečení operačního systému.
- 24. srpna 2022
- Aktualizace zabezpečení operačního systému.
- 9. srpna 2022
- Aktualizace zabezpečení operačního systému.
- 27. července 2022
- Aktualizace zabezpečení operačního systému.
- 5. července 2022
- Aktualizace zabezpečení operačního systému.
- 2. června 2022
- Aktualizace zabezpečení operačního systému.
- 18. května 2022
- Aktualizace zabezpečení operačního systému.
- 19. dubna 2022
- Aktualizace zabezpečení operačního systému.
- Různé opravy chyb
- 6. dubna 2022
- Aktualizace zabezpečení operačního systému.
- Různé opravy chyb
- 14. března 2022
- Různé opravy chyb
- 23. února 2022
- Různé opravy chyb
- 8. února 2022
- Upgradujte Ubuntu JDK na 1.8.0.312.
- Aktualizace zabezpečení operačního systému.
- 1. února 2022
- Aktualizace zabezpečení operačního systému.
- 19. ledna 2022
- Aktualizace zabezpečení operačního systému.
- 22. září 2021
- Aktualizace zabezpečení operačního systému.
- 30. dubna 2021
- Aktualizace zabezpečení operačního systému.
- [SPARK-35227][BUILD] Aktualizujte řešitel pro balíčky Spark v SparkSubmit.
- 12. ledna 2021
- Aktualizace zabezpečení operačního systému.
- 8. prosince 2020
- [SPARK-27421][SQL] Oprava filtru pro int sloupec a hodnotovou třídu java.lang.String při prořezávání partičního sloupce
- Aktualizace zabezpečení operačního systému.
- úterý 1. prosince 2020
- [SPARK-33260][SQL] Oprava nesprávných výsledků z SortExec při řazeníOrder je Stream
- 3. listopadu 2020
- Upgradovala se verze Java z verze 1.8.0_252 na 1.8.0_265.
- Oprava uzamčení ABFS a WASB s ohledem na UserGroupInformation.getCurrentUser()
- 13. října 2020
- Aktualizace zabezpečení operačního systému.
Rozšířená podpora Databricks Runtime 6.4 (EoS)
Viz Databricks Runtime 6.4 (EoS) a Databricks Runtime 6.4 Extended Support (EoS)
5. července 2022
- Aktualizace zabezpečení operačního systému.
- Různé opravy chyb
2. června 2022
- Aktualizace zabezpečení operačního systému.
18. května 2022
- Aktualizace zabezpečení operačního systému.
19. dubna 2022
- Aktualizace zabezpečení operačního systému.
- Různé opravy chyb
6. dubna 2022
- Aktualizace zabezpečení operačního systému.
- Různé opravy chyb
14. března 2022
- Odebrání ohrožených tříd z souboru jar log4j 1.2.17
- Různé opravy chyb
23. února 2022
- Různé opravy chyb
8. února 2022
- Upgradujte Ubuntu JDK na 1.8.0.312.
- Aktualizace zabezpečení operačního systému.
úterý 1. února 2022
- Aktualizace zabezpečení operačního systému.
26. ledna 2022
- Opravili jsme chybu, kdy příkaz OPTIMIZE mohl selhat, když byl povolen dialekt ANSI SQL.
19. ledna 2022
- Aktualizace zabezpečení operačního systému.
8. prosince 2021
- Aktualizace zabezpečení operačního systému.
22. září 2021
- Aktualizace zabezpečení operačního systému.
15. června 2021
- [SPARK-35576][SQL] Redigovat citlivé informace ve výsledku příkazu Set
7. června 2021
- Přidejte novou konfiguraci s názvem
spark.sql.maven.additionalRemoteRepositories
, čárkami oddělený řetězec konfigurace volitelného dalšího vzdáleného zrcadlení Maven. Výchozí hodnotahttps://maven-central.storage-download.googleapis.com/maven2/
je .
- Přidejte novou konfiguraci s názvem
30.dubna 2021
- Aktualizace zabezpečení operačního systému.
- [SPARK-35227][BUILD] Aktualizujte resolver pro balíčky Spark v rámci SparkSubmit.
úterý 9. března 2021
- Port HADOOP-17215 do ovladače systému souborů Azure Blob (podpora podmíněného přepsání)
- Oprava oddělovače cest ve Windows pro
databricks-connect get-jar-dir
- Přidání podpory metastoru Hive verze 2.3.5, 2.3.6 a 2.3.7
- Šipka "totalResultsCollected" hlášena nesprávně po přelití
24. února 2021
- Zavedli jsme novou konfiguraci
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Tato konfigurace řídí integrovanou inicializaci Hivu. Když je nastavená hodnota true, Azure Databricks znovu načte všechny funkce ze všech databází, které uživatelé mají doFunctionRegistry
. Toto je výchozí chování metastoru Hive. Pokud je tato hodnota nastavená na false, Azure Databricks tento proces zakáže pro optimalizaci.
- Zavedli jsme novou konfiguraci
4. února 2021
- Opravili jsme regresi, která bránila inkrementálnímu spuštění dotazu, který nastavil globální limit, například
SELECT * FROM table LIMIT nrows
. K regresi došlo, když uživatelé spustili dotazy prostřednictvím ODBC/JDBC s povolenou serializací šipky. - Opravili jsme regresi, která způsobila selhání spuštění FUSE DBFS, když konfigurace proměnných prostředí clusteru obsahovaly neplatnou syntaxi bashe.
- Opravili jsme regresi, která bránila inkrementálnímu spuštění dotazu, který nastavil globální limit, například
12. ledna 2021
- Aktualizace zabezpečení operačního systému.
úterý 8. prosince 2020
- [SPARK-27421][SQL] Oprava filtru pro sloupec int a hodnotovou třídu java.lang.String při prořezávání sloupce oddílu
- [SPARK-33183][SQL] Oprava pravidla Optimalizátoru EliminateSorts a přidání fyzického pravidla pro odstranění nadbytečných třídění
- [Runtime 6.4 ML GPU] Dříve jsme nainstalovali nesprávnou verzi (2.7.8-1+cuda11.1) seznamu NCCL. Tato verze ji opraví na verzi 2.4.8-1+cuda10.0, která je kompatibilní s CUDA 10.0.
- Aktualizace zabezpečení operačního systému.
úterý 1. prosince 2020
- [SPARK-33260][SQL] Oprava nesprávných výsledků z SortExec při řazeníOrder je Stream
- [SPARK-32635][SQL] Oprava skládacího šíření
3. listopadu 2020
- Upgradovala se verze Java z verze 1.8.0_252 na 1.8.0_265.
- Oprava uzamčení ABFS a WASB s ohledem na UserGroupInformation.getCurrentUser()
- Opravte chybu nekonečné smyčky čtečky Avro při čtení bajtů MAGIC.
13. října 2020
- Aktualizace zabezpečení operačního systému.
- [SPARK-32999][SQL][2.4] Použití nástroje Utils.getSimpleName k tomu, aby se zabránilo názvu chybných názvů tříd ve TreeNode
- Oprava výpisu adresářů v připojení FUSE, které obsahují názvy souborů s neplatnými znaky XML
- Připojení FUSE už nepoužívá ListMultipartUploads.
24. září 2020
- Opravili jsme předchozí omezení, kdy předávání ve standardním clusteru stále omezovalo uživatele implementace systému souborů. Uživatelé teď budou mít přístup k místním systémům souborů bez omezení.
- Aktualizace zabezpečení operačního systému.
úterý 8. září 2020
- Pro Azure Synapse Analytics
maxbinlength
byl vytvořen nový parametr . Tento parametr slouží k řízení délky sloupce BinaryType a je přeložen jakoVARBINARY(maxbinlength)
. Lze ji nastavit pomocí.option("maxbinlength", n)
, kde 0 < n <= 8000. - Aktualizace sady Azure Storage SDK na verzi 8.6.4 a povolení udržování protokolu TCP na připojeních provedených ovladačem WASB
- Pro Azure Synapse Analytics
25. srpna 2020
- Oprava nejednoznačného překladu atributů v samoobslužné sloučení
18. srpna 2020
- [SPARK-32431][SQL] Kontrola duplicitních vnořených sloupců při čtení z předdefinovaných zdrojů dat
- Opravili jsme konflikt časování v konektoru AQS při použití Trigger.Once.
11. srpna 2020
- [SPARK-28676][JÁDRO] Vyhněte se nadměrnému protokolování z ContextCleaneru
3. srpna 2020
- Transformační funkci LDA teď můžete použít v clusteru s povoleným předáváním.
- Aktualizace zabezpečení operačního systému.
7. července 2020
- Upgradovaná verze Javy z verze 1.8.0_232 na 1.8.0_252.
21. dubna 2020
- [SPARK-31312][SQL] Instance třídy mezipaměti pro instanci UDF v HiveFunctionWrapperu
7. dubna 2020
- Pokud chcete vyřešit problém s udf pandas, který nefunguje s PyArrow 0.15.0 a novějším, přidali jsme proměnnou prostředí (
ARROW_PRE_0_15_IPC_FORMAT=1
), která umožňuje podporu těchto verzí PyArrow. Viz pokyny v [SPARK-29367].
- Pokud chcete vyřešit problém s udf pandas, který nefunguje s PyArrow 0.15.0 a novějším, přidali jsme proměnnou prostředí (
10. března 2020
- Optimalizované automatické škálování se teď ve výchozím nastavení používá u interaktivních clusterů v plánu zabezpečení.
- Konektor Snowflake (
spark-snowflake_2.11
) zahrnutý v Databricks Runtime se aktualizuje na verzi 2.5.9.snowflake-jdbc
je aktualizován na verzi 3.12.0.
Databricks Runtime 5.5 LTS (EoS)
Viz Databricks Runtime 5.5 LTS (EoS) a Databricks Runtime 5.5 Extended Support (EoS)
8. prosince 2021
- Aktualizace zabezpečení operačního systému.
22. září 2021
- Aktualizace zabezpečení operačního systému.
25. srpna 2021
- Downgradoval některé dříve upgradované balíčky Pythonu ve verzi Rozšířené podpory 5.5 ML, aby se zachovala lepší parita s 5.5 ML LTS (nyní zastaralé). Aktualizované rozdíly mezi těmito dvěma verzemi najdete v tématu [_]/release-notes/runtime/5.5xml.md).
15. června 2021
- [SPARK-35576][SQL] Redakce citlivých informací ve výsledku příkazu Set
7. června 2021
- Přidejte novou konfiguraci s názvem
spark.sql.maven.additionalRemoteRepositories
, čárkami oddělený řetězec konfigurace volitelného dalšího vzdáleného zrcadlení Maven. Výchozí hodnotahttps://maven-central.storage-download.googleapis.com/maven2/
je .
- Přidejte novou konfiguraci s názvem
30.dubna 2021
- Aktualizace zabezpečení operačního systému.
- [SPARK-35227][BUILD] Aktualizujte překladač pro balíčky Spark v podsítě SparkSubmit.
úterý 9. března 2021
- Port HADOOP-17215 do ovladače systému souborů Azure Blob (podpora podmíněného přepsání)
24. února 2021
- Zavedli jsme novou konfiguraci
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Tato konfigurace řídí integrovanou inicializaci Hivu. Když je nastavená hodnota true, Azure Databricks znovu načte všechny funkce ze všech databází, které uživatelé mají doFunctionRegistry
. Toto je výchozí chování metastoru Hive. Pokud je tato hodnota nastavená na false, Azure Databricks tento proces zakáže pro optimalizaci.
- Zavedli jsme novou konfiguraci
12. ledna 2021
- Aktualizace zabezpečení operačního systému.
- Oprava pro [HADOOP-17130].
úterý 8. prosince 2020
- [SPARK-27421][SQL] Oprava filtru pro sloupec typu int a třídu hodnot java.lang.String při prořezávání sloupce oddílu
- Aktualizace zabezpečení operačního systému.
úterý 1. prosince 2020
- [SPARK-33260][SQL] Oprava nesprávných výsledků z SortExec při řazeníOrder je Stream
- [SPARK-32635][SQL] Oprava skládacího šíření
29. října 2020
- Upgradovala se verze Java z verze 1.8.0_252 na 1.8.0_265.
- Oprava uzamčení ABFS a WASB s ohledem na UserGroupInformation.getCurrentUser()
- Opravte chybu nekonečné smyčky čtečky Avro při čtení bajtů MAGIC.
13. října 2020
- Aktualizace zabezpečení operačního systému.
- [SPARK-32999][SQL][2.4] Použití nástroje Utils.getSimpleName k tomu, aby se zabránilo názvu chybných názvů tříd ve TreeNode
24. září 2020
- Aktualizace zabezpečení operačního systému.
úterý 8. září 2020
- Pro Azure Synapse Analytics
maxbinlength
byl vytvořen nový parametr . Tento parametr slouží k řízení délky sloupce BinaryType a je přeložen jakoVARBINARY(maxbinlength)
. Lze ji nastavit pomocí.option("maxbinlength", n)
, kde 0 < n <= 8000.
- Pro Azure Synapse Analytics
18. srpna 2020
- [SPARK-32431][SQL] Kontrola duplicitních vnořených sloupců při čtení z vestavěných zdrojů dat
- Opravili jsme konflikt časování v konektoru AQS při použití Trigger.Once.
11. srpna 2020
- [SPARK-28676][JÁDRO] Vyhněte se nadměrnému protokolování z ContextCleaneru
3. srpna 2020
- Aktualizace zabezpečení operačního systému
7. července 2020
- Upgradovaná verze Javy z verze 1.8.0_232 na 1.8.0_252.
21. dubna 2020
- [SPARK-31312][SQL] Instance třídy mezipaměti pro instanci UDF v HiveFunctionWrapperu
7. dubna 2020
- Pokud chcete vyřešit problém s udf pandas, který nefunguje s PyArrow 0.15.0 a novějším, přidali jsme proměnnou prostředí (
ARROW_PRE_0_15_IPC_FORMAT=1
), která umožňuje podporu těchto verzí PyArrow. Viz pokyny v [SPARK-29367].
- Pokud chcete vyřešit problém s udf pandas, který nefunguje s PyArrow 0.15.0 a novějším, přidali jsme proměnnou prostředí (
25. března 2020
- Konektor Snowflake (
spark-snowflake_2.11
) zahrnutý v Databricks Runtime se aktualizuje na verzi 2.5.9.snowflake-jdbc
je aktualizován na verzi 3.12.0.
- Konektor Snowflake (
10. března 2020
- Výstup úlohy, jako je výstup protokolu vygenerovaný do výstupu stdout, podléhá limitu velikosti 20 MB. Pokud má celkový výstup větší velikost, spuštění se zruší a označí jako neúspěšné. Abyste se vyhnuli tomuto limitu, můžete zabránit vrácení stdoutu z ovladače tím, že nastavíte konfiguraci
spark.databricks.driver.disableScalaOutput
Sparku natrue
. Ve výchozím nastavení jefalse
hodnota příznaku . Příznak řídí výstup buňky pro úlohy Scala JAR a poznámkové bloky Scala. Pokud je příznak povolený, Spark nevrací výsledky provádění úloh klientovi. Příznak nemá vliv na data zapsaná v souborech protokolu clusteru. Nastavení tohoto příznaku se doporučuje jenom pro automatizované clustery pro úlohy JAR, protože zakáže výsledky poznámkového bloku.
- Výstup úlohy, jako je výstup protokolu vygenerovaný do výstupu stdout, podléhá limitu velikosti 20 MB. Pokud má celkový výstup větší velikost, spuštění se zruší a označí jako neúspěšné. Abyste se vyhnuli tomuto limitu, můžete zabránit vrácení stdoutu z ovladače tím, že nastavíte konfiguraci
18. února 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 by měla vyvolat výjimku
- Předávání přihlašovacích údajů s ADLS Gen2 má snížení výkonu kvůli nesprávnému místnímu zpracování vlákna při povolení předběžného načítání klienta ADLS. Tato verze zakáže předběžné načítání ADLS Gen2, pokud je povolené předávání přihlašovacích údajů, dokud nebudeme mít správnou opravu.
28. ledna 2020
- [SPARK-30447][SQL] Problém s konstantní šířením hodnot null.
14. ledna 2020
- Upgradovala se verze Java z verze 1.8.0_222 na 1.8.0_232.
19. listopadu 2019
- [SPARK-29743] [SQL] needCopyResult by měla být nastavena na true, pokud je needCopyResult ve svém podřízeném prvku také true.
- Verze R byla neúmyslně upgradována na verzi 3.6.1 z verze 3.6.0. Downgradovali jsme ho zpátky na 3.6.0.
5. listopadu 2019
- Upgradovaná verze Javy z verze 1.8.0_212 na 1.8.0_222.
23. října 2019
- [SPARK-29244][JÁDRO] Znemožnit uvolnění stránky v BajtesToBytesMap znovu
úterý 8. října 2019
- Změny na straně serveru, aby se ovladač ODBC Simba Apache Spark znovu připojil a pokračoval po selhání připojení během načítání výsledků (vyžaduje ovladač Simba Apache Spark ODBC verze 2.6.10).
- Opravili jsme problém, který ovlivnil použití příkazu
Optimize
na clusterech s povoleným seznamem ACL tabulky. - Opravili jsme problém, kdy knihovny
pyspark.ml
selhaly kvůli chybě zakázání Scala UDF u clusterů s povoleným předáváním přihlašovacích údajů a na ACL tabulky. - Metody Allowlisted SerDe a SerDeUtil pro předávání přihlašovacích údajů
- Byla opravena výjimka NullPointerException při kontrole kódu chyby v klientovi WASB.
24. září 2019
- Vylepšená stabilita zapisovače Parquet.
- Opravili jsme problém, kdy se dotaz Thrift zrušil, než se spustí, mohlo dojít k zablokování ve stavu STARTED.
10. září 2019
- Přidání iterátoru bezpečného vlákna do BytesToBytesMap
- [SPARK-27992][SPARK-28881]Povolit Pythonu spojení s vláknem připojení k šíření chyb
- Opravili jsme chybu, která ovlivnila některé globální agregační dotazy.
- Vylepšili jsme redakci přihlašovacích údajů.
- [SPARK-27330][SS] Podpora úkolu přerušena v foreach writer
- [SPARK-28642]Skrýt přihlašovací údaje v SHOW CREATE TABLE
- [SPARK-28699][SQL] Zakázání použití řazení radix pro ShuffleExchangeExec v případě repartition
27. srpna 2019
- [SPARK-20906][SQL]Povolit uživatelem zadané schéma v rozhraní API to_avro s registrem schématu
- [SPARK-27838][SQL] Podpora uživatelsky definovaného nenulovatelného avro schématu pro nenulové katalytové schéma bez jakéhokoli záznamu null.
- Vylepšení doby trvání Delta Lake
- Opravili jsme problém ovlivňující určitý
transform
výraz. - Podporuje proměnné všesměrového vysílání, když je povolená izolace procesu.
13. srpna 2019
- Zdroj streamování Delta by měl zkontrolovat nejnovější protokol tabulky.
- [SPARK-28260]Přidání stavu CLOSED do stavu ExecutionState
- [SPARK-28489][SS]Oprava chyby, kterou kafkaOffsetRangeCalculator.getRanges může vynechat posuny
30. července 2019
- [SPARK-28015][SQL] Kontrola stringToDate() spotřebovává celý vstup pro formáty y a y-[m]m
- [SPARK-28308][JÁDRO] Před parsováním by se měla vložit dílčí část CalendarInterval.
- [SPARK-27485]Příkaz EnsureRequirements.reorder by měl zpracovávat duplicitní výrazy elegantně.
- [SPARK-28355][JÁDRO][PYTHON] Pro prahovou hodnotu, při které je UDF komprimovaný vysíláním, použijte Spark conf.
Rozšířená podpora Databricks Light 2.4
Viz Databricks Light 2.4 (EoS) a Databricks Light 2.4 Extended Support (EoS).
Databricks Runtime 7.4 (EoS)
Viz Databricks Runtime 7.4 (EoS).
30.dubna 2021
- Aktualizace zabezpečení operačního systému.
- [SPARK-35227][BUILD] Aktualizujte resolver pro balíčky Spark v SparkSubmit.
- [SPARK-34245][JÁDRO] Ujistěte se, že hlavní server odebere exekutory, které se nepodařilo odeslat dokončený stav.
- [SPARK-35045][SQL] Přidání interní možnosti pro řízení vstupní vyrovnávací paměti v nepřístupnosti a konfiguraci pro velikost vstupní vyrovnávací paměti sdíleného svazku clusteru
24. března 2021
- [SPARK-34768][SQL] Respektujte výchozí velikost vstupní vyrovnávací paměti v univocity
- [SPARK-34534] Oprava objednávky blockIds při použití FetchShuffleBlocks k načtení bloků
úterý 9. března 2021
- Aktualizovaný ovladač systému souborů Azure Blob pro Azure Data Lake Storage Gen2 je teď ve výchozím nastavení povolený. Přináší několik vylepšení stability.
- [ES-67926][UŽIVATELSKÉ ROZHRANÍ] Oprava odkazu href vizualizace Spark DAG
- [ES-65064] Obnovení výstupního schématu
SHOW DATABASES
- [SC-70522][SQL] Použití správného klíče pro dynamické prořezávání, pokud je k dispozici nápověda pro spojení rozsahu
- [SC-35081] Zakázání kontroly neautnosti u souborů tabulek Delta v mezipaměti disku
- [SC-70640] Oprava NPE, když odpověď EventGridClient nemá žádnou entitu
- [SC-70220][SQL] Neposkytujte doporučení pro číslo oddílového přerozdělení, pokud je povolena služba AOS.
24. února 2021
- Upgradovali jsme konektor Spark BigQuery na verzi 0.18, který zavádí různé opravy chyb a podporu iterátorů Arrow a Avro.
- Opravili jsme problém správnosti, který způsoboval, že Spark vrátil nesprávné výsledky, když se desetinná přesnost a měřítko souboru Parquet liší od schématu Sparku.
- Opravili jsme problém se selháním čtení u tabulek Microsoft SQL Serveru, které obsahují prostorové datové typy, přidáním geometrie a geografické podpory typů JDBC pro Spark SQL.
- Zavedli jsme novou konfiguraci
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Tato konfigurace řídí integrovanou inicializaci Hivu. Když je nastavená hodnota true, Azure Databricks znovu načte všechny funkce ze všech databází, které uživatelé mají doFunctionRegistry
. Toto je výchozí chování metastoru Hive. Pokud je tato hodnota nastavená na false, Azure Databricks tento proces zakáže pro optimalizaci. - [SPARK-34212] Opravili jsme problémy související se čtením desetinných dat ze souborů Parquet.
- [SPARK-33579][UŽIVATELSKÉ ROZHRANÍ] Oprava prázdné stránky exekutoru za proxy serverem
- [SPARK-20044][UŽIVATELSKÉ ROZHRANÍ] Podpora uživatelského rozhraní Sparku za front-endovým reverzním proxy serverem pomocí předpony cesty
- [SPARK-33277][PYSPARK][SQL] Použití ContextAwareIterator k zastavení využívání po skončení úkolu.
4. února 2021
- Opravili jsme regresi, která bránila inkrementálnímu spuštění dotazu, který nastavil globální limit, například
SELECT * FROM table LIMIT nrows
. K regresi došlo, když uživatelé spustili dotazy prostřednictvím ODBC/JDBC s povolenou serializací šipky. - Opravili jsme regresi, která způsobila selhání spuštění FUSE DBFS, když konfigurace proměnných prostředí clusteru obsahovaly neplatnou syntaxi bashe.
- Opravili jsme regresi, která bránila inkrementálnímu spuštění dotazu, který nastavil globální limit, například
20. ledna 2021
- Opravili jsme regresní chybu ve vydání údržby z 12. ledna 2021, která může způsobit nesprávnou výjimku AnalysisException a uvádí se, že sloupec je v rámci samospojení nejednoznačný. K této regresi dochází, když se uživatel připojí k datovému rámci s odvozeným datovým rámcem (tzv. self-join) s následujícími podmínkami:
- Tyto dva datové rámce mají společné sloupce, ale výstup z self joinu neobsahuje společné sloupce. Například
df.join(df.select($"col" as "new_col"), cond)
- Odvozený datový rámec vyloučí některé sloupce prostřednictvím výběru, groupBy nebo okna.
- Podmínka spojení nebo následující transformace po vytvoření spojeného datového rámce se vztahuje na neobvyklé sloupce. Například
df.join(df.drop("a"), df("a") === 1)
- Tyto dva datové rámce mají společné sloupce, ale výstup z self joinu neobsahuje společné sloupce. Například
- Opravili jsme regresní chybu ve vydání údržby z 12. ledna 2021, která může způsobit nesprávnou výjimku AnalysisException a uvádí se, že sloupec je v rámci samospojení nejednoznačný. K této regresi dochází, když se uživatel připojí k datovému rámci s odvozeným datovým rámcem (tzv. self-join) s následujícími podmínkami:
12. ledna 2021
- Aktualizace zabezpečení operačního systému.
- [SPARK-33593][SQL] Vektorová čtečka získala nesprávná data s binární hodnotou oddílu
- [SPARK-33677][SQL] Přeskočit pravidlo LikeSimplification, pokud vzor obsahuje jakýkoli řídicí znak
- [SPARK-33071][SPARK-33536][SQL] Vyhněte se změně dataset_id logického plánu ve spojení(), aby nedošlo k narušení funkce DetectAmbiguousSelfJoin
úterý 8. prosince 2020
- [SPARK-33587][JÁDRO] Ukončení exekutoru u vnořených závažných chyb
- [SPARK-27421][SQL] Oprava filtru pro sloupec int a třídu hodnot java.lang.String při vyřazování sloupce oddílu
- [SPARK-33316][SQL] Podpora pro uživatelem poskytnuté schéma Avro s hodnotami null pro nenulové schéma katalyzátoru při zápisu do Avro
- Aktualizace zabezpečení operačního systému.
úterý 1. prosince 2020
-
[SPARK-33404][SQL][3.0] Oprava nesprávných výsledků ve výrazu
date_trunc
- [SPARK-33339][PYTHON] Aplikace Pyspark přestane reagovat kvůli chybě bez výjimky
- [SPARK-33183][SQL][HOTFIX] Oprava pravidla optimalizátoru EliminateSorts a přidání fyzického pravidla pro odstranění nadbytečných řazení.
- [SPARK-33371][PYTHON][3.0] Aktualizace setup.py a testů pro Python 3.9
- [SPARK-33391][SQL] element_at s CreateArray nerespektuje jeden založený index.
- [SPARK-33306][SQL]Časové pásmo je potřeba při přetypování data na řetězec.
- [SPARK-33260][SQL] Oprava nesprávných výsledků z SortExec při řazeníOrder je Stream
- [SPARK-33272][SQL] Vyřaďte mapování atributů v QueryPlan.transformUpWithNewOutput.
-
[SPARK-33404][SQL][3.0] Oprava nesprávných výsledků ve výrazu
Databricks Runtime 7.2 (EoS)
Viz Databricks Runtime 7.2 (EoS).
4. února 2021
- Opravili jsme regresi, která bránila inkrementálnímu spuštění dotazu, který nastavil globální limit, například
SELECT * FROM table LIMIT nrows
. K regresi došlo, když uživatelé spustili dotazy prostřednictvím ODBC/JDBC s povolenou serializací šipky. - Opravili jsme regresi, která způsobila selhání spuštění FUSE DBFS, když konfigurace proměnných prostředí clusteru obsahovaly neplatnou syntaxi bashe.
- Opravili jsme regresi, která bránila inkrementálnímu spuštění dotazu, který nastavil globální limit, například
20. ledna 2021
- Opravili jsme regresi ve vydání údržby z 12. ledna 2021, která může způsobit chybnou výjimku AnalysisException a uvádí, že sloupec je v rámci vlastního spojení nejednoznačný. K této regresi dochází, když se uživatel připojí k datovému rámci s odvozeným datovým rámcem (tzv. self-join) s následujícími podmínkami:
- Tyto dva datové rámce mají společné sloupce, ale výstup self join neobsahuje společné sloupce. Například
df.join(df.select($"col" as "new_col"), cond)
- Odvozený datový rámec vyloučí některé sloupce prostřednictvím výběru, groupBy nebo okna.
- Podmínka spojení nebo následující transformace po spojeném datovém rámci odkazuje na nesouvisené sloupce. Například
df.join(df.drop("a"), df("a") === 1)
- Tyto dva datové rámce mají společné sloupce, ale výstup self join neobsahuje společné sloupce. Například
- Opravili jsme regresi ve vydání údržby z 12. ledna 2021, která může způsobit chybnou výjimku AnalysisException a uvádí, že sloupec je v rámci vlastního spojení nejednoznačný. K této regresi dochází, když se uživatel připojí k datovému rámci s odvozeným datovým rámcem (tzv. self-join) s následujícími podmínkami:
12. ledna 2021
- Aktualizace zabezpečení operačního systému.
- [SPARK-33593][SQL] Vektorová čtečka získala nesprávná data s binární hodnotou oddílu
- [SPARK-33677][SQL] Přeskočit pravidlo LikeSimplification, pokud vzor obsahuje jakýkoli řídicí znak
- [SPARK-33071][SPARK-33536][SQL] Vyhněte se změně dataset_id logického plánu při operaci join(), aby se nepřerušila funkce DetectAmbiguousSelfJoin
úterý 8. prosince 2020
- [SPARK-27421][SQL] Oprava filtru pro sloupec typu int a třídu hodnot java.lang.String při ořezávání sloupce oddílu
-
[SPARK-33404][SQL] Oprava nesprávných výsledků ve výrazu
date_trunc
- [SPARK-33339][PYTHON] Aplikace Pyspark přestane reagovat kvůli chybě bez výjimky
- [SPARK-33183][SQL] Oprava pravidla optimalizátoru EliminateSorts a přidání fyzického pravidla pro odebrání redundantního řazení
- [SPARK-33391][SQL] element_at s CreateArray nerespektuje jeden založený index.
- Aktualizace zabezpečení operačního systému.
úterý 1. prosince 2020
- [SPARK-33306][SQL]Časové pásmo je potřeba při přetypování datumu na řetězec.
- [SPARK-33260][SQL] Oprava nesprávných výsledků z SortExec při řazeníOrder je Stream
3. listopadu 2020
- Upgradovala se verze Java z verze 1.8.0_252 na 1.8.0_265.
- Oprava uzamčení ABFS a WASB s ohledem na UserGroupInformation.getCurrentUser()
- Opravte chybu nekonečné smyčky čtečky Avro při čtení bajtů MAGIC.
13. října 2020
- Aktualizace zabezpečení operačního systému.
- [SPARK-32999][SQL] Použití Utils.getSimpleName k tomu, abyste se vyhnuli názvu chybných názvů tříd ve TreeNode
- Oprava výpisu adresářů v připojení FUSE, které obsahují názvy souborů s neplatnými znaky XML
- Připojení FUSE už nepoužívá ListMultipartUploads.
29. září 2020
- [SPARK-28863][SQL][WARMFIX] Zavedení jižoptimalizované, aby se zabránilo opakovanému výskytu V1FallbackWriters
- [SPARK-32635][SQL] Oprava skládacího šíření
- Přidejte novou konfiguraci
spark.shuffle.io.decoder.consolidateThreshold
. Nastavte hodnotu konfigurace naLong.MAX_VALUE
, abyste přeskočili sloučení netty FrameBuffers, což zabraňujejava.lang.IndexOutOfBoundsException
ve specifických případech.
24. září 2020
- [SPARK-32764][SQL] -0.0 by se měl rovnat hodnotě 0.0.
- [SPARK-32753][SQL] Kopírování značek do uzlu bez značek při transformaci plánů
- [SPARK-32659][SQL] Oprava problému s daty vloženého dynamického vyřazování oddílů na ne atomický typ
- Aktualizace zabezpečení operačního systému.
úterý 8. září 2020
- Pro Azure Synapse Analytics
maxbinlength
byl vytvořen nový parametr . Tento parametr slouží k řízení délky sloupce BinaryType a je přeložen jakoVARBINARY(maxbinlength)
. Lze ji nastavit pomocí.option("maxbinlength", n)
, kde 0 < n <= 8000.
- Pro Azure Synapse Analytics
Databricks Runtime 7.1 (EoS)
Viz Databricks Runtime 7.1 (EoS).
4. února 2021
- Opravili jsme regresi, která způsobila selhání spuštění FUSE DBFS, když konfigurace proměnných prostředí clusteru obsahovaly neplatnou syntaxi bashe.
20. ledna 2021
- Opravili jsme regresi v údržbovém vydání z 12. ledna 2021, které mohlo způsobit nesprávnou výjimku AnalysisException a uvádělo, že sloupec je ve vlastním spojení nejednoznačný. K této regresi dochází, když se uživatel připojí k datovému rámci s odvozeným datovým rámcem (tzv. self-join) s následujícími podmínkami:
- Tyto dva datové rámce mají společné sloupce, ale výstup sebespojení neobsahuje společné sloupce. Například
df.join(df.select($"col" as "new_col"), cond)
- Odvozený datový rámec vyloučí některé sloupce prostřednictvím výběru, groupBy nebo okna.
- Podmínka spojení nebo další transformace po spojeném datovém rámci odkazuje na sloupce, které nejsou společné. Například
df.join(df.drop("a"), df("a") === 1)
- Tyto dva datové rámce mají společné sloupce, ale výstup sebespojení neobsahuje společné sloupce. Například
- Opravili jsme regresi v údržbovém vydání z 12. ledna 2021, které mohlo způsobit nesprávnou výjimku AnalysisException a uvádělo, že sloupec je ve vlastním spojení nejednoznačný. K této regresi dochází, když se uživatel připojí k datovému rámci s odvozeným datovým rámcem (tzv. self-join) s následujícími podmínkami:
12. ledna 2021
- Aktualizace zabezpečení operačního systému.
- [SPARK-33593][SQL] Vektorová čtečka získala nesprávná data s hodnotou binárního oddílu
- [SPARK-33677][SQL] Přeskočit pravidlo LikeSimplification, pokud vzor obsahuje jakýkoli řídicí znak
- [SPARK-33071][SPARK-33536][SQL] Vyhněte se změně dataset_id logického plánu v join(), aby nedošlo k narušení funkce DetectAmbiguousSelfJoin.
úterý 8. prosince 2020
- [SPARK-27421][SQL] Oprava filtru pro sloupec int a třídu hodnot java.lang.String při prořezávání sloupce partitce
- Úlohy Sparku spuštěné pomocí Databricks Connect můžou přestat reagovat s trasování zásobníku
Executor$TaskRunner.$anonfun$copySessionState
exekutoru - Aktualizace zabezpečení operačního systému.
úterý 1. prosince 2020
-
[SPARK-33404][SQL][3.0] Oprava nesprávných výsledků ve výrazu
date_trunc
- [SPARK-33339][PYTHON] Aplikace Pyspark přestane reagovat kvůli chybě bez výjimky
- [SPARK-33183][SQL][HOTFIX] Oprava pravidla optimalizátoru EliminateSorts a přidání fyzického pravidla pro odstranění redundantních řazení.
- [SPARK-33371][PYTHON][3.0] Aktualizace setup.py a testů pro Python 3.9
- [SPARK-33391][SQL] element_at s CreateArray nerespektuje jeden založený index.
- [SPARK-33306][SQL]Časové pásmo je potřeba při převodu datumu na řetězec.
-
[SPARK-33404][SQL][3.0] Oprava nesprávných výsledků ve výrazu
3. listopadu 2020
- Upgradovala se verze Java z verze 1.8.0_252 na 1.8.0_265.
- Oprava uzamčení ABFS a WASB s ohledem na UserGroupInformation.getCurrentUser()
- Opravte chybu nekonečné smyčky čtečky Avro při čtení bajtů MAGIC.
13. října 2020
- Aktualizace zabezpečení operačního systému.
- [SPARK-32999][SQL] Použití Utils.getSimpleName k tomu, abyste se vyhnuli názvu chybných názvů tříd ve TreeNode
- Oprava výpisu adresářů v připojení FUSE, které obsahují názvy souborů s neplatnými znaky XML
- Připojení FUSE už nepoužívá ListMultipartUploads.
29. září 2020
- [SPARK-28863][SQL][WARMFIX] Zavedení jižoptimalizované, aby se zabránilo opakovanému výskytu V1FallbackWriters
- [SPARK-32635][SQL] Oprava skládacího šíření
- Přidejte novou konfiguraci
spark.shuffle.io.decoder.consolidateThreshold
. Nastavte hodnotu konfigurace naLong.MAX_VALUE
, aby se přeskočilo sloučení Netty FrameBufferů, což zabráníjava.lang.IndexOutOfBoundsException
v rohových případech.
24. září 2020
- [SPARK-32764][SQL] -0.0 by se měl rovnat hodnotě 0.0.
- [SPARK-32753][SQL] Kopírování značek do uzlu bez značek při transformaci plánů
- [SPARK-32659][SQL] Oprava problému s daty vloženého dynamického vyřazování oddílů na ne atomický typ
- Aktualizace zabezpečení operačního systému.
úterý 8. září 2020
- Pro Azure Synapse Analytics
maxbinlength
byl vytvořen nový parametr . Tento parametr slouží k řízení délky sloupce BinaryType a je přeložen jakoVARBINARY(maxbinlength)
. Lze ji nastavit pomocí.option("maxbinlength", n)
, kde 0 < n <= 8000.
- Pro Azure Synapse Analytics
25. srpna 2020
-
[SPARK-32159][SQL] Oprava integrace mezi
Aggregator[Array[_], _, _]
aUnresolvedMapObjects
-
[SPARK-32559][SQL] Oprava logiky oříznutí,
UTF8String.toInt/toLong
která nezpracovala správně jiné znaky než ASCII -
[SPARK-32543][R] Odebrání
arrow::as_tibble
využití v SparkR - [SPARK-32091][JÁDRO] Ignorovat chybu časového limitu při odebírání bloků u ztraceného exekutoru
- Opravili jsme problém ovlivňující konektor Azure Synapse s přihlašovacími údaji MSI.
- Oprava nejednoznačného překladu atributů v samoobslužné sloučení
-
[SPARK-32159][SQL] Oprava integrace mezi
18. srpna 2020
- [SPARK-32594][SQL] Oprava serializace kalendářních dat vložených do tabulek Hive
- [SPARK-32237][SQL] Řešení nápovědy v CTE
- [SPARK-32431][SQL] Kontrola duplicitních vnořených sloupců při čtení z předdefinovaných zdrojů dat
- [SPARK-32467][UŽIVATELSKÉ ROZHRANÍ] Vyhněte se dvakrát kódování ADRESY URL pro přesměrování https.
- Opravili jsme konflikt časování v konektoru AQS při použití Trigger.Once.
11. srpna 2020
- [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight by měl přepsat pouze atributy pro nadřazené uzly plánu konfliktů.
- [SPARK-32234][SQL] Příkazy Spark SQL selhávají při výběru tabulek ORC
3. srpna 2020
- Transformační funkci LDA teď můžete použít v clusteru s povoleným předáváním.
Databricks Runtime 7.0 (EoS)
Viz Databricks Runtime 7.0 (EoS).
4. února 2021
- Opravili jsme regresi, která způsobila selhání spuštění FUSE DBFS, když konfigurace proměnných prostředí clusteru obsahovaly neplatnou syntaxi bashe.
20. ledna 2021
- Opravili jsme regresi v údržbovém vydání z 12. ledna 2021, kterážto může způsobit nesprávnou výjimku AnalysisException a označit sloupec jako nejednoznačný v samospojení. K této regresi dochází, když se uživatel připojí k datovému rámci s odvozeným datovým rámcem (tzv. self-join) s následujícími podmínkami:
- Tyto dva datové rámce mají společné sloupce, ale výstup spojení sebe sama neobsahuje společné sloupce. Například
df.join(df.select($"col" as "new_col"), cond)
- Odvozený datový rámec vyloučí některé sloupce prostřednictvím výběru, groupBy nebo okna.
- Podmínka spojení nebo následující transformace po spojeném datovém rámci se vztahuje na neobvyklé sloupce. Například
df.join(df.drop("a"), df("a") === 1)
- Tyto dva datové rámce mají společné sloupce, ale výstup spojení sebe sama neobsahuje společné sloupce. Například
- Opravili jsme regresi v údržbovém vydání z 12. ledna 2021, kterážto může způsobit nesprávnou výjimku AnalysisException a označit sloupec jako nejednoznačný v samospojení. K této regresi dochází, když se uživatel připojí k datovému rámci s odvozeným datovým rámcem (tzv. self-join) s následujícími podmínkami:
12. ledna 2021
- Aktualizace zabezpečení operačního systému.
- [SPARK-33593][SQL] Vektorové čtecí zařízení získalo nesprávná data s binární hodnotou partice
- [SPARK-33677][SQL] Přeskočit pravidlo LikeSimplification, pokud vzor obsahuje jakýkoli řídicí znak
- [SPARK-33071][SPARK-33536][SQL] Vyhněte se změně dataset_id u LogicalPlan ve spojení(), aby nedošlo k narušení DetectAmbiguousSelfJoin
úterý 8. prosince 2020
- [SPARK-27421][SQL] Oprava filtru pro sloupec typu int a hodnotovou třídu java.lang.String při ořezávání sloupce oddílu
-
[SPARK-33404][SQL] Oprava nesprávných výsledků ve výrazu
date_trunc
- [SPARK-33339][PYTHON] Aplikace Pyspark přestane reagovat kvůli chybě bez výjimky
- [SPARK-33183][SQL] Oprava pravidla optimalizátoru EliminateSorts a přidání fyzického pravidla pro odstranění redundantních řazení
- [SPARK-33391][SQL] element_at s CreateArray nerespektuje jeden založený index.
- Aktualizace zabezpečení operačního systému.
úterý 1. prosince 2020
- [SPARK-33306][SQL]Časové pásmo je potřeba při přetypování data na řetězec.
3. listopadu 2020
- Upgradovala se verze Java z verze 1.8.0_252 na 1.8.0_265.
- Oprava uzamčení ABFS a WASB s ohledem na UserGroupInformation.getCurrentUser()
- Opravte chybu nekonečné smyčky čtečky Avro při čtení bajtů MAGIC.
13. října 2020
- Aktualizace zabezpečení operačního systému.
- [SPARK-32999][SQL] Použití Utils.getSimpleName k tomu, abyste se vyhnuli názvu chybných názvů tříd ve TreeNode
- Oprava výpisu adresářů v připojení FUSE, které obsahují názvy souborů s neplatnými znaky XML
- Připojení FUSE už nepoužívá ListMultipartUploads.
29. září 2020
- [SPARK-28863][SQL][WARMFIX] Zavedení jižoptimalizované, aby se zabránilo opakovanému výskytu V1FallbackWriters
- [SPARK-32635][SQL] Oprava skládacího šíření
- Přidejte novou konfiguraci
spark.shuffle.io.decoder.consolidateThreshold
. Nastavte hodnotu konfigurace naLong.MAX_VALUE
, abyste přeskočili sloučení netty FrameBuffers, což zabraňuje výskytujava.lang.IndexOutOfBoundsException
v hraničních případech.
24. září 2020
- [SPARK-32764][SQL] -0.0 by se měl rovnat hodnotě 0.0.
- [SPARK-32753][SQL] Kopírování značek do uzlu bez značek při transformaci plánů
- [SPARK-32659][SQL] Oprava problému s daty vloženého dynamického vyřazování oddílů na ne atomický typ
- Aktualizace zabezpečení operačního systému.
úterý 8. září 2020
- Pro Azure Synapse Analytics
maxbinlength
byl vytvořen nový parametr . Tento parametr slouží k řízení délky sloupce BinaryType a je přeložen jakoVARBINARY(maxbinlength)
. Lze ji nastavit pomocí.option("maxbinlength", n)
, kde 0 < n <= 8000.
- Pro Azure Synapse Analytics
25. srpna 2020
-
[SPARK-32159][SQL] Oprava integrace mezi
Aggregator[Array[_], _, _]
aUnresolvedMapObjects
-
[SPARK-32559][SQL] Oprava logiky oříznutí,
UTF8String.toInt/toLong
která nezpracovala správně jiné znaky než ASCII -
[SPARK-32543][R] Odebrat
arrow::as_tibble
využití v SparkR - [SPARK-32091][JÁDRO] Ignorovat chybu časového limitu při odebírání bloků u ztraceného exekutoru
- Opravili jsme problém ovlivňující konektor Azure Synapse s přihlašovacími údaji MSI.
- Oprava nejednoznačného překladu atributů v samoobslužné sloučení
-
[SPARK-32159][SQL] Oprava integrace mezi
18. srpna 2020
- [SPARK-32594][SQL] Oprava serializace kalendářních dat vložených do tabulek Hive
- [SPARK-32237][SQL] Řešení nápovědy v CTE
- [SPARK-32431][SQL] Kontrola duplicitních vnořených sloupců při čtení z předdefinovaných zdrojů dat
- [SPARK-32467][UŽIVATELSKÉ ROZHRANÍ] Vyhněte se dvakrát kódování ADRESY URL pro přesměrování https.
- Opravili jsme konflikt časování v konektoru AQS při použití Trigger.Once.
11. srpna 2020
- [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight by měl přepsat pouze atributy pro nadřazené uzly plánu konfliktů.
- [SPARK-32234][SQL] Příkazy Spark SQL selhávají při výběru tabulek ORC
- Transformační funkci LDA teď můžete použít v clusteru s povoleným předáváním.
Databricks Runtime 6.6 (EoS)
Viz Databricks Runtime 6.6 (EoS)
úterý 1. prosince 2020
- [SPARK-33260][SQL] Oprava nesprávných výsledků z SortExec při řazeníOrder je Stream
- [SPARK-32635][SQL] Oprava skládacího šíření
3. listopadu 2020
- Upgradovala se verze Java z verze 1.8.0_252 na 1.8.0_265.
- Oprava uzamčení ABFS a WASB s ohledem na UserGroupInformation.getCurrentUser()
- Opravte chybu nekonečné smyčky čtečky Avro při čtení bajtů MAGIC.
13. října 2020
- Aktualizace zabezpečení operačního systému.
- [SPARK-32999][SQL][2.4] Použití nástroje Utils.getSimpleName k tomu, aby se zabránilo názvu chybných názvů tříd ve TreeNode
- Oprava výpisu adresářů v připojení FUSE, které obsahují názvy souborů s neplatnými znaky XML
- Připojení FUSE už nepoužívá ListMultipartUploads.
24. září 2020
- Aktualizace zabezpečení operačního systému.
úterý 8. září 2020
- Pro Azure Synapse Analytics
maxbinlength
byl vytvořen nový parametr . Tento parametr slouží k řízení délky sloupce BinaryType a je přeložen jakoVARBINARY(maxbinlength)
. Lze ji nastavit pomocí.option("maxbinlength", n)
, kde 0 < n <= 8000. - Aktualizace sady Azure Storage SDK na verzi 8.6.4 a povolení udržování protokolu TCP na připojeních provedených ovladačem WASB
- Pro Azure Synapse Analytics
25. srpna 2020
- Oprava nejednoznačného překladu atributů v samoobslužné sloučení
18. srpna 2020
- [SPARK-32431][SQL] Kontrola duplicitních vnořených sloupců při čtení z vestavěných zdrojů dat
- Opravili jsme konflikt časování v konektoru AQS při použití Trigger.Once.
11. srpna 2020
- [SPARK-28676][JÁDRO] Vyhněte se nadměrnému protokolování z ContextCleaneru
- [SPARK-31967][UŽIVATELSKÉ ROZHRANÍ] Downgrade na vis.js 4.21.0 pro opravu regrese načítání uživatelského rozhraní úloh
3. srpna 2020
- Transformační funkci LDA teď můžete použít v clusteru s povoleným předáváním.
- Aktualizace zabezpečení operačního systému.
Databricks Runtime 6.5 (EoS)
Viz Databricks Runtime 6.5 (EoS).
- 24. září 2020
- Opravili jsme předchozí omezení, kdy předávání ve standardním clusteru stále omezovalo uživatele implementace systému souborů. Uživatelé teď budou mít přístup k místním systémům souborů bez omezení.
- Aktualizace zabezpečení operačního systému.
- 8. září 2020
- Pro Azure Synapse Analytics
maxbinlength
byl vytvořen nový parametr . Tento parametr slouží k řízení délky sloupce BinaryType a je přeložen jakoVARBINARY(maxbinlength)
. Lze ji nastavit pomocí.option("maxbinlength", n)
, kde 0 < n <= 8000. - Aktualizace sady Azure Storage SDK na verzi 8.6.4 a povolení udržování protokolu TCP na připojeních provedených ovladačem WASB
- Pro Azure Synapse Analytics
- 25. srpna 2020
- Oprava nejednoznačného překladu atributů v samoobslužné sloučení
- 18. srpna 2020
- [SPARK-32431][SQL] Kontrola duplicitních vnořených sloupců při čtení z vestavěných zdrojů dat
- Opravili jsme konflikt časování v konektoru AQS při použití Trigger.Once.
- 11. srpna 2020
- [SPARK-28676][JÁDRO] Vyhněte se nadměrnému protokolování z ContextCleaneru
- 3. srpna 2020
- Transformační funkci LDA teď můžete použít v clusteru s povoleným předáváním.
- Aktualizace zabezpečení operačního systému.
- 7. července 2020
- Upgradovala se verze Javy z verze 1.8.0_242 na verzi 1.8.0_252.
- 21. dubna 2020
- [SPARK-31312][SQL] Instance třídy mezipaměti pro instanci UDF v HiveFunctionWrapperu
Databricks Runtime 6.3 (EoS)
Viz Databricks Runtime 6.3 (EoS)
- 7. července 2020
- Upgradovaná verze Javy z verze 1.8.0_232 na 1.8.0_252.
- 21. dubna 2020
- [SPARK-31312][SQL] Instance třídy mezipaměti pro instanci UDF v HiveFunctionWrapperu
- 7. dubna 2020
- Pokud chcete vyřešit problém s udf pandas, který nefunguje s PyArrow 0.15.0 a novějším, přidali jsme proměnnou prostředí (
ARROW_PRE_0_15_IPC_FORMAT=1
), která umožňuje podporu těchto verzí PyArrow. Viz pokyny v [SPARK-29367].
- Pokud chcete vyřešit problém s udf pandas, který nefunguje s PyArrow 0.15.0 a novějším, přidali jsme proměnnou prostředí (
- 10. března 2020
- Konektor Snowflake (
spark-snowflake_2.11
) zahrnutý v Databricks Runtime se aktualizuje na verzi 2.5.9.snowflake-jdbc
je aktualizován na verzi 3.12.0.
- Konektor Snowflake (
- 18. února 2020
- Předávání přihlašovacích údajů s ADLS Gen2 má snížení výkonu kvůli nesprávnému místnímu zpracování vlákna při povolení předběžného načítání klienta ADLS. Tato verze zakáže předběžné načítání ADLS Gen2, pokud je povolené předávání přihlašovacích údajů, dokud nebudeme mít správnou opravu.
- 11. února 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 by měla vyvolat výjimku
- [SPARK-30447][SQL] Problém s nulovou dostupností konstanty
- [SPARK-28152][SQL] Přidání starší verze conf pro staré číselné mapování MsSqlServerDialect
- Allowlisted the overwrite function so that the MLModels extends MLWriter could call the function.
Databricks Runtime 6.2 (EoS)
Viz Databricks Runtime 6.2 (EoS)
- 21. dubna 2020
- [SPARK-31312][SQL] Instance třídy mezipaměti pro instanci UDF v HiveFunctionWrapperu
- 7. dubna 2020
- Pokud chcete vyřešit problém s udf pandas, který nefunguje s PyArrow 0.15.0 a novějším, přidali jsme proměnnou prostředí (
ARROW_PRE_0_15_IPC_FORMAT=1
), která umožňuje podporu těchto verzí PyArrow. Viz pokyny v [SPARK-29367].
- Pokud chcete vyřešit problém s udf pandas, který nefunguje s PyArrow 0.15.0 a novějším, přidali jsme proměnnou prostředí (
- 25. března 2020
- Výstup úlohy, jako je výstup protokolu vygenerovaný do výstupu stdout, podléhá limitu velikosti 20 MB. Pokud má celkový výstup větší velikost, spuštění se zruší a označí jako neúspěšné. Abyste se vyhnuli tomuto limitu, můžete zabránit vrácení stdoutu z ovladače tím, že nastavíte konfiguraci Sparku
spark.databricks.driver.disableScalaOutput
natrue
. Ve výchozím nastavení jefalse
hodnota příznaku . Příznak řídí výstup buňky pro úlohy Scala JAR a poznámkové bloky Scala. Pokud je příznak povolený, Spark nevrací výsledky provádění úloh klientovi. Příznak nemá vliv na data zapsaná v souborech protokolu clusteru. Nastavení tohoto příznaku se doporučuje jenom pro automatizované clustery pro úlohy JAR, protože zakáže výsledky poznámkového bloku.
- Výstup úlohy, jako je výstup protokolu vygenerovaný do výstupu stdout, podléhá limitu velikosti 20 MB. Pokud má celkový výstup větší velikost, spuštění se zruší a označí jako neúspěšné. Abyste se vyhnuli tomuto limitu, můžete zabránit vrácení stdoutu z ovladače tím, že nastavíte konfiguraci Sparku
- 10. března 2020
- Konektor Snowflake (
spark-snowflake_2.11
) zahrnutý v Databricks Runtime se aktualizuje na verzi 2.5.9.snowflake-jdbc
je aktualizován na verzi 3.12.0.
- Konektor Snowflake (
- 18. února 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 by měla vyvolat výjimku
- Předávání přihlašovacích údajů s ADLS Gen2 má snížení výkonu kvůli nesprávnému místnímu zpracování vlákna při povolení předběžného načítání klienta ADLS. Tato verze zakáže předběžné načítání ADLS Gen2, pokud je povolené předávání přihlašovacích údajů, dokud nebudeme mít správnou opravu.
- 28. ledna 2020
- Funkce přepisu modelů ML na seznamu povolených pro clustery s povoleným předáváním přihlašovacích údajů, aby ukládání modelu mohlo v clusterech předávání přihlašovacích údajů používat režim přepisu přihlašovacích údajů.
- [SPARK-30447][SQL] Problém s konstantní šířením hodnot null.
- [SPARK-28152][SQL] Přidejte starší verzi conf pro staré číselné mapování MsSqlServerDialect.
- 14. ledna 2020
- Upgradovala se verze Java z verze 1.8.0_222 na 1.8.0_232.
- 10. prosince 2019
- [SPARK-29904][SQL] Parsování časových razítek v mikrosekundové přesnosti podle zdrojů dat JSON/CSV
Databricks Runtime 6.1 (EoS)
Viz Databricks Runtime 6.1 (EoS).
- 7. dubna 2020
- Pokud chcete vyřešit problém s udf pandas, který nefunguje s PyArrow 0.15.0 a novějším, přidali jsme proměnnou prostředí (
ARROW_PRE_0_15_IPC_FORMAT=1
), která umožňuje podporu těchto verzí PyArrow. Viz pokyny v [SPARK-29367].
- Pokud chcete vyřešit problém s udf pandas, který nefunguje s PyArrow 0.15.0 a novějším, přidali jsme proměnnou prostředí (
- 25. března 2020
- Výstup úlohy, jako je výstup protokolu vygenerovaný na stdout, podléhá limitu velikosti 20 MB. Pokud má celkový výstup větší velikost, spuštění se zruší a označí jako neúspěšné. Abyste se vyhnuli tomuto limitu, můžete zabránit vracení stdoutu z ovladače tím, že nastavíte konfiguraci Sparku
spark.databricks.driver.disableScalaOutput
natrue
. Ve výchozím nastavení jefalse
hodnota příznaku . Příznak řídí výstup buňky pro úlohy Scala JAR a poznámkové bloky Scala. Pokud je příznak povolený, Spark nevrací výsledky provádění úloh klientovi. Příznak nemá vliv na data zapsaná v souborech protokolu clusteru. Nastavení tohoto příznaku se doporučuje jenom pro automatizované clustery pro úlohy JAR, protože zakáže výsledky poznámkového bloku.
- Výstup úlohy, jako je výstup protokolu vygenerovaný na stdout, podléhá limitu velikosti 20 MB. Pokud má celkový výstup větší velikost, spuštění se zruší a označí jako neúspěšné. Abyste se vyhnuli tomuto limitu, můžete zabránit vracení stdoutu z ovladače tím, že nastavíte konfiguraci Sparku
- 10. března 2020
- Konektor Snowflake (
spark-snowflake_2.11
) zahrnutý v Databricks Runtime se aktualizuje na verzi 2.5.9.snowflake-jdbc
je aktualizován na verzi 3.12.0.
- Konektor Snowflake (
- 18. února 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 by měla vyvolat výjimku
- Předávání přihlašovacích údajů s ADLS Gen2 má snížení výkonu kvůli nesprávnému místnímu zpracování vlákna při povolení předběžného načítání klienta ADLS. Tato verze zakáže předběžné načítání ADLS Gen2, pokud je povolené předávání přihlašovacích údajů, dokud nebudeme mít správnou opravu.
- 28. ledna 2020
- [SPARK-30447][SQL] Problém s konstantní šířením hodnot null.
- [SPARK-28152][SQL] Přidejte starší verzi conf pro staré číselné mapování MsSqlServerDialect.
- 14. ledna 2020
- Upgradovala se verze Java z verze 1.8.0_222 na 1.8.0_232.
- 7. listopadu 2019
- ukázku [SPARK-29743][SQL] by měla být nastavena hodnota needCopyResult na hodnotu true, pokud je hodnota needCopyResult jejího dítěte pravdivá.
- Tajné kódy odkazované z vlastností konfigurace Sparku a proměnných prostředí ve verzi Public Preview Viz Použití tajného kódu ve vlastnosti konfigurace Sparku nebo proměnné prostředí.
- 5. listopadu 2019
- Opravili jsme chybu v DBFS FUSE, aby bylo možné zpracovat přípojné body, které mají
//
v cestě. - [SPARK-29081] Nahrazení volání SerializationUtils.clone ve vlastnostech rychlejší implementací
- [SPARK-29244][JÁDRO] Znemožnit uvolnění stránky v BajtesToBytesMap znovu
- (6.1 ML) Knihovna mkl verze 2019.4 byla neúmyslně nainstalována. Downgradovali jsme ji na mkl verze 2019.3 tak, aby odpovídala Anaconda Distribution 2019.03.
- Opravili jsme chybu v DBFS FUSE, aby bylo možné zpracovat přípojné body, které mají
Databricks Runtime 6.0 (EoS)
Viz Databricks Runtime 6.0 (EoS).
- 25. března 2020
- Výstup úlohy, jako je výstup protokolu vygenerovaný do výstupu stdout, podléhá limitu velikosti 20 MB. Pokud má celkový výstup větší velikost, spuštění se zruší a označí jako neúspěšné. Abyste se vyhnuli tomuto limitu, můžete zabránit tomu, aby byl stdout vrácen z ovladače, tím, že nastavíte konfiguraci Sparku na
spark.databricks.driver.disableScalaOutput
natrue
. Ve výchozím nastavení jefalse
hodnota příznaku . Příznak řídí výstup buňky pro úlohy Scala JAR a poznámkové bloky Scala. Pokud je příznak povolený, Spark nevrací výsledky provádění úloh klientovi. Příznak nemá vliv na data zapsaná v souborech protokolu clusteru. Nastavení tohoto příznaku se doporučuje jenom pro automatizované clustery pro úlohy JAR, protože zakáže výsledky poznámkového bloku.
- Výstup úlohy, jako je výstup protokolu vygenerovaný do výstupu stdout, podléhá limitu velikosti 20 MB. Pokud má celkový výstup větší velikost, spuštění se zruší a označí jako neúspěšné. Abyste se vyhnuli tomuto limitu, můžete zabránit tomu, aby byl stdout vrácen z ovladače, tím, že nastavíte konfiguraci Sparku na
- 18. února 2020
- Předávání přihlašovacích údajů s ADLS Gen2 má snížení výkonu kvůli nesprávnému místnímu zpracování vlákna při povolení předběžného načítání klienta ADLS. Tato verze zakáže předběžné načítání ADLS Gen2, pokud je povolené předávání přihlašovacích údajů, dokud nebudeme mít správnou opravu.
- 11. února 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 by měla vyvolat výjimku
- 28. ledna 2020
- [SPARK-30447][SQL] Problém s konstantní šířením hodnot null.
- [SPARK-28152][SQL] Přidejte starší verzi conf pro staré číselné mapování MsSqlServerDialect.
- 14. ledna 2020
- Upgradovala se verze Java z verze 1.8.0_222 na 1.8.0_232.
- 19. listopadu 2019
- [SPARK-29743] [SQL] vzorek by měl nastavit needCopyResult na hodnotu true, pokud je needCopyResult jeho podřízeného true.
- 5. listopadu 2019
-
dbutils.tensorboard.start()
nyní podporuje TensorBoard 2.0 (pokud je nainstalovaná ručně). - Opravili jsme chybu v DBFS FUSE pro zpracování přípojných bodů, které mají
//
ve své cestě. - [SPARK-29081]Nahrazení volání SerializationUtils.clone ve vlastnostech rychlejší implementací
-
- 23. října 2019
- [SPARK-29244][JÁDRO] Znemožnit uvolnění stránky v BajtesToBytesMap znovu
- 8. října 2019
- Změny na straně serveru, aby se ovladač ODBC Simba Apache Spark znovu připojil a pokračoval po selhání připojení během načítání výsledků (vyžaduje ovladač Simba Apache Spark ODBC verze 2.6.10).
- Opravili jsme problém, který ovlivnil použití příkazu
Optimize
s clustery s aktivovaným ACL tabulky. - Opravili jsme problém, kdy knihovny
pyspark.ml
selhaly kvůli chybě zakázání UDF Scala na clusterech s nastavenými seznamy ACL tabulek a povoleným předáváním přihlašovacích údajů. - Metody Allowlisted SerDe/SerDeUtil pro předávání přihlašovacích údajů
- Byla opravena výjimka NullPointerException při kontrole kódu chyby v klientovi WASB.
- Opravili jsme problém, kdy se přihlašovací údaje uživatele nepředaly do úloh vytvořených
dbutils.notebook.run()
.
Databricks Runtime 5.4 ML (EoS)
Viz Databricks Runtime 5.4 pro ML (EoS).
- 18. června 2019
- Vylepšené zpracování aktivních spuštění MLflow v integraci Hyperoptu
- Vylepšené zprávy v Hyperoptu
- Aktualizace balíčku
Marchkdown
z verze 3.1 na 3.1.1
Databricks Runtime 5.4 (EoS)
Viz Databricks Runtime 5.4 (EoS).
- 19. listopadu 2019
- [SPARK-29743] [SQL] by měla být nastavena hodnota needCopyResult na hodnotu true, pokud je needCopyResult jeho podřízeného objektu nastaveno na hodnotu true.
- 8. října 2019
- Změny na straně serveru, které umožní ovladači ODBC Apache Sparku Simba znovu připojit a pokračovat po selhání připojení během načítání výsledků (vyžaduje aktualizaci ovladače Simba Apache Spark ODBC na verzi 2.6.10).
- Byla opravena výjimka NullPointerException při kontrole kódu chyby v klientovi WASB.
- 10. září 2019
- Přidání iterátoru bezpečného vlákna do BytesToBytesMap
- Opravili jsme chybu, která ovlivnila některé globální agregační dotazy.
- [SPARK-27330][SS] Podpora úkolu přerušena v foreach writer
- [SPARK-28642]Skrýt přihlašovací údaje v SHOW CREATE TABLE
- [SPARK-28699][SQL] Zakázání použití řazení radix pro ShuffleExchangeExec v případě repartition
- [SPARK-28699][JÁDRO] Oprava rohového případu pro přerušení neurčité fáze
- 27. srpna 2019
- Opravili jsme problém ovlivňující určité
transform
výrazy.
- Opravili jsme problém ovlivňující určité
- 13. srpna 2019
- Zdroj streamování Delta by měl zkontrolovat nejnovější verzi protokolu tabulky.
- [SPARK-28489][SS]Oprava chyby, kterou kafkaOffsetRangeCalculator.getRanges může vynechat posuny
- 30. července 2019
- [SPARK-28015][SQL] Kontrola stringToDate() spotřebovává celý vstup pro formáty y a y-[m]m
- [SPARK-28308][JÁDRO] Před parsováním by se měla vložit dílčí část CalendarInterval.
- [SPARK-27485]Příkaz EnsureRequirements.reorder by měl zpracovávat duplicitní výrazy elegantně.
- 2. července 2019
- Upgradovali jsme snappy-java z verze 1.1.7.1 na verzi 1.1.7.3.
- 18. června 2019
- Vylepšené zpracování aktivních spuštění MLflow v integraci knihovny MLlib
- Vylepšená zpráva Databricks Advisoru související s používáním ukládání do mezipaměti na disku
- Oprava chyby ovlivňující používání funkcí vyššího pořadí
- Oprava chyby ovlivňující dotazy na metadata Delta
Databricks Runtime 5.3 (EoS)
Viz Databricks Runtime 5.3 (EoS).
- 7. listopadu 2019
- [SPARK-29743][SQL] vzorek by měl nastavit needCopyResult na true, pokud je needCopyResult jeho podřízeného true.
- 8. října 2019
- Změny na straně serveru, které umožní ovladači ODBC Apache Sparku Simba znovu připojit a pokračovat po selhání připojení během načítání výsledků (vyžaduje aktualizaci ovladače Simba Apache Spark ODBC na verzi 2.6.10).
- Byla opravena výjimka NullPointerException při kontrole kódu chyby v klientovi WASB.
- 10. září 2019
- Přidání iterátoru bezpečného vlákna do BytesToBytesMap
- Opravili jsme chybu, která ovlivnila některé globální agregační dotazy.
- [SPARK-27330][SS] Podpora úkolu přerušena v foreach writer
- [SPARK-28642]Skrýt přihlašovací údaje v SHOW CREATE TABLE
- [SPARK-28699][SQL] Zakázání použití řazení radix pro ShuffleExchangeExec v případě repartition
- [SPARK-28699][JÁDRO] Oprava rohového případu pro přerušení neurčité fáze
- 27. srpna 2019
- Opravili jsme problém ovlivňující určité
transform
výrazy.
- Opravili jsme problém ovlivňující určité
- 13. srpna 2019
- Zdroj streamování Delta by měl zkontrolovat aktuální protokol tabulky.
- [SPARK-28489][SS]Oprava chyby, kterou kafkaOffsetRangeCalculator.getRanges může vynechat posuny
- 30. července 2019
- [SPARK-28015][SQL] Kontrola stringToDate() spotřebovává celý vstup pro formáty y a y-[m]m
- [SPARK-28308][JÁDRO] Před parsováním by se měla vložit dílčí část CalendarInterval.
- [SPARK-27485]Příkaz EnsureRequirements.reorder by měl zpracovávat duplicitní výrazy elegantně.
- 18. června 2019
- Vylepšená zpráva Databricks Advisoru související s používáním ukládání do mezipaměti na disku
- Oprava chyby ovlivňující používání funkcí vyššího pořadí
- Oprava chyby ovlivňující dotazy na metadata Delta
- 28. května 2019
- Vylepšená stabilita delta
- Tolerovat vstupně-výstupní výjimka při čtení souboru Delta LAST_CHECKPOINT
- Přidání obnovení do neúspěšné instalace knihovny
- 7. května 2019
- Port HADOOP-15778 (ABFS: Oprava omezování na straně klienta pro čtení) do konektoru Azure Data Lake Storage Gen2
- Port HADOOP-16040 (ABFS: Oprava chyb pro konfiguraci toleranceOobAppends) konektoru Azure Data Lake Storage Gen2
- Opravená chyba ovlivňující přístupové seznamy (ACL) tabulek
- Oprava konfliktu časování při načítání souboru kontrolního součtu protokolu Delta
- Oprava logiky detekce konfliktů Delta, která neidentifikuje operaci insert + overwrite jako čistou operaci "append"
- Ujistěte se, že mezipaměť disku není zakázaná, pokud jsou povolené tabulkové ACL.
- [SPARK-27494][SS] Klíče nebo hodnoty null nefungují ve zdroji Kafka v2
- [SPARK-27446][R] Pokud je k dispozici, použijte existující soubor Spark Conf.
- [SPARK-27454][SPARK-27454][ML][SQL] Selhání zdroje dat image Sparku při výskytu některých neplatných imagí
- [SPARK-27160][SQL] Oprava typu DecimalType při vytváření filtrů orc
- [SPARK-27338][JÁDRO] Oprava vzájemného zablokování mezi unsafeExternalSorter a TaskMemoryManager
Databricks Runtime 5.2 (EoS)
Viz Databricks Runtime 5.2 (EoS).
- 10. září 2019
- Přidání iterátoru bezpečného vlákna do BytesToBytesMap
- Opravili jsme chybu, která ovlivnila některé globální agregační dotazy.
- [SPARK-27330][SS] Podpora úkolu přerušena v foreach writer
- [SPARK-28642]Skrýt přihlašovací údaje v SHOW CREATE TABLE
- [SPARK-28699][SQL] Zakázání použití řazení radix pro ShuffleExchangeExec v případě repartition
- [SPARK-28699][JÁDRO] Oprava rohového případu pro přerušení neurčité fáze
- 27. srpna 2019
- Opravili jsme problém ovlivňující určité
transform
výrazy.
- Opravili jsme problém ovlivňující určité
- 13. srpna 2019
- Zdroj streamování Delta by měl zkontrolovat nejnovější verzi protokolu tabulky.
- [SPARK-28489][SS]Oprava chyby, kterou kafkaOffsetRangeCalculator.getRanges může vynechat posuny
- 30. července 2019
- [SPARK-28015][SQL] Kontrola stringToDate() spotřebovává celý vstup pro formáty y a y-[m]m
- [SPARK-28308][JÁDRO] Před parsováním by se měla vložit dílčí část CalendarInterval.
- [SPARK-27485]Příkaz EnsureRequirements.reorder by měl zpracovávat duplicitní výrazy elegantně.
- 2. července 2019
- Tolerovat vstupně-výstupní výjimka při čtení souboru Delta LAST_CHECKPOINT
- 18. června 2019
- Vylepšená zpráva Databricks Advisoru související s používáním mezipaměti disku
- Oprava chyby ovlivňující používání funkcí vyššího pořadí
- Oprava chyby ovlivňující dotazy na metadata Delta
- 28. května 2019
- Přidání obnovení do neúspěšné instalace knihovny
- 7. května 2019
- Port HADOOP-15778 (ABFS: Oprava omezování na straně klienta pro čtení) do konektoru Azure Data Lake Storage Gen2
- Port HADOOP-16040 (ABFS: Oprava chyb pro konfiguraci toleranceOobAppends) konektoru Azure Data Lake Storage Gen2
- Oprava konfliktu časování při načítání souboru kontrolního součtu protokolu Delta
- Oprava logiky detekce konfliktů Delta, která neidentifikuje operaci insert + overwrite jako čistou operaci "append"
- Ujistěte se, že ukládání do mezipaměti na disku není zakázáno, pokud jsou povoleny tabulkové seznamy ACL.
- [SPARK-27494][SS] Klíče nebo hodnoty null nefungují ve zdroji Kafka v2
- [SPARK-27454][SPARK-27454][ML][SQL] Selhání zdroje dat image Sparku při výskytu některých neplatných imagí
- [SPARK-27160][SQL] Oprava typu DecimalType při vytváření filtrů orc
- [SPARK-27338][JÁDRO] Oprava vzájemného zablokování mezi unsafeExternalSorter a TaskMemoryManager
- 26. března 2019
- Vyhněte se vkládání posunů závislých na platformě doslova ve vygenerovaném kódu v celé fázi.
- [SPARK-26665][JÁDRO] Oprava chyby, která blockTransferService.fetchBlockSync může přestat reagovat navždy.
- [SPARK-27134][SQL] funkce array_distinct nefunguje správně se sloupci obsahujícími pole polí.
- [SPARK-24669][SQL] Zneplatnit tabulky v případě DROP DATABASE CASCADE.
- [SPARK-26572][SQL] Oprava vyhodnocení agregovaných výsledků codegenu
- Opravili jsme chybu, která ovlivnila určité pythonUDFy.
- 26. února 2019
- [SPARK-26864][SQL] Dotaz může vrátit nesprávný výsledek, pokud se python UDF použije jako podmínka left-semi join.
- [SPARK-26887][PYTHON] Místo vytvoření datetime.date jako zprostředkujících dat vytvořte přímo datetime.date.
- Opravili jsme chybu, která ovlivnila server JDBC/ODBC.
- Opravili jsme chybu, která ovlivnila PySpark.
- Při sestavování HadoopRDD vylučte skryté soubory.
- Opravili jsme chybu v delta, která způsobovala problémy se serializací.
- 12. února 2019
- Opravili jsme problém ovlivňující použití Delta s přípojnými body Azure ADLS Gen2.
- Opravili jsme problém, kdy mohl být poškozen nízkoúrovňový síťový protokol Spark při odesílání velkých chybových zpráv RPC s povoleným šifrováním (pokud je
spark.network.crypto.enabled
nastaveno na true).
- 30. ledna 2019
- Opravili jsme chybu StackOverflowError při vkládání nápovědy ke zkosenému spojení u relace, která je uložená v mezipaměti.
- Opravili jsme nekonzistenci mezi mezipamětí SADY RDD v mezipaměti SQL a jeho fyzickým plánem, což vedlo k nesprávnému výsledku.
-
[SPARK-26706][SQL] Oprava
illegalNumericPrecedence
pro ByteType. - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery nezpracuje správně prázdné záznamy.
- Zdroje dat CSV/JSON by se měly při odvozování schématu vyhnout cestám globbingu.
- Oprava odvozování omezení u operátoru Window.
- Opravili jsme problém, který ovlivnil instalaci egg balíčků se clustery, které mají tabulky s povolenými seznamy ACL.
Databricks Runtime 5.1 (EoS)
Viz Databricks Runtime 5.1 (EoS).
- 13. srpna 2019
- Zdroj streamování Delta by měl zkontrolovat nejnovější protokol tabulky.
- [SPARK-28489][SS]Oprava chyby, kterou kafkaOffsetRangeCalculator.getRanges může vynechat posuny
- 30. července 2019
- [SPARK-28015][SQL] Kontrola stringToDate() spotřebovává celý vstup pro formáty y a y-[m]m
- [SPARK-28308][JÁDRO] Před parsováním by se měla vložit dílčí část CalendarInterval.
- [SPARK-27485]Příkaz EnsureRequirements.reorder by měl zpracovávat duplicitní výrazy elegantně.
- 2. července 2019
- Tolerovat vstupně-výstupní výjimka při čtení souboru Delta LAST_CHECKPOINT
- 18. června 2019
- Oprava chyby ovlivňující používání funkcí vyššího pořadí
- Oprava chyby ovlivňující dotazy na metadata Delta
- 28. května 2019
- Přidání obnovení do neúspěšné instalace knihovny
- 7. května 2019
- Port HADOOP-15778 (ABFS: Oprava omezování na straně klienta pro čtení) do konektoru Azure Data Lake Storage Gen2
- Port HADOOP-16040 (ABFS: Oprava chyb pro konfiguraci toleranceOobAppends) konektoru Azure Data Lake Storage Gen2
- Oprava konfliktu časování při načítání souboru kontrolního součtu protokolu Delta
- Oprava logiky detekce konfliktů Delta, která neidentifikuje operaci insert + overwrite jako čistou operaci "append"
- [SPARK-27494][SS] Klíče nebo hodnoty null nefungují ve zdroji Kafka v2
- [SPARK-27454][SPARK-27454][ML][SQL] Selhání zdroje dat image Sparku při výskytu některých neplatných imagí
- [SPARK-27160][SQL] Oprava typu DecimalType při vytváření filtrů orc
- [SPARK-27338][JÁDRO] Oprava vzájemného zablokování mezi unsafeExternalSorter a TaskMemoryManager
- 26. března 2019
- Vyhněte se vkládání posunů závislých na platformě doslova ve vygenerovaném kódu v celé fázi.
- Opravili jsme chybu, která ovlivnila určité pythonUDFy.
- 26. února 2019
- [SPARK-26864][SQL] Dotaz může vrátit nesprávný výsledek, pokud se python udf použije jako podmínka levé-semi spojení.
- Opravili jsme chybu, která ovlivnila server JDBC/ODBC.
- Při sestavování HadoopRDD vylučte skryté soubory.
- 12. února 2019
- Opravili jsme problém, který ovlivňoval instalaci egg knihoven u clusterů s povoleným řízením přístupu k tabulkám.
- Opravili jsme nekonzistenci mezi mezipamětí SADY RDD v mezipaměti SQL a jeho fyzickým plánem, což vedlo k nesprávnému výsledku.
-
[SPARK-26706][SQL] Oprava
illegalNumericPrecedence
pro ByteType. - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery nezpracuje správně prázdné záznamy.
- Opraveno odvozování omezení u operátoru Window.
- Opravili jsme problém, kdy se při odesílání velkých chybových zpráv RPC s povoleným šifrováním (pokud je
spark.network.crypto.enabled
nastavená na true), mohlo dojít k přerušení síťového protokolu Sparku.
- 30. ledna 2019
- Opravili jsme problém, který způsoboval
df.rdd.count()
, že UDT v některých případech vrátil nesprávnou odpověď. - Opravili jsme problém, který ovlivnil instalaci kolových kol.
- [SPARK-26267]Zkuste to znovu při zjišťování nesprávných posunů ze systému Kafka.
- Opravili jsme chybu, která ovlivnila více zdrojů datových proudů souborů v dotazu streamování.
- Opravili jsme chyby StackOverflowError při vkládání nápovědy ke zkosenému spojení u relace uložené v mezipaměti.
- Opravili jsme nekonzistenci mezi mezipamětí SADY RDD v mezipaměti SQL a jeho fyzickým plánem, což vedlo k nesprávnému výsledku.
- Opravili jsme problém, který způsoboval
- 8. ledna 2019
- Opravili jsme problém, který způsobuje chybu
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - [SPARK-26352]změna pořadí spojení by nemělo měnit pořadí výstupních atributů.
- [SPARK-26366]ReplaceExceptWithFilter by měl považovat hodnotu NULL za False.
- Vylepšení stability pro Delta Lake.
- Delta Lake je povolené.
- Opravili jsme problém, který způsoboval, že přístup Azure Data Lake Storage Gen2 selhal, když je pro Azure Data Lake Storage Gen1 povolené předávání přihlašovacích údajů Microsoft Entra ID.
- Služba Databricks IO Cache je teď povolená pro typy instancí pracovních procesů řady Ls pro všechny cenové úrovně.
- Opravili jsme problém, který způsobuje chybu
Databricks Runtime 5.0 (EoS)
Viz Databricks Runtime 5.0 (EoS).
- 18. června 2019
- Oprava chyby ovlivňující používání funkcí vyššího pořadí
- 7. května 2019
- Oprava konfliktu časování při načítání souboru kontrolního součtu protokolu Delta
- Oprava logiky detekce konfliktů Delta, která neidentifikuje operaci insert + overwrite jako čistou operaci "append"
- [SPARK-27494][SS] Klíče nebo hodnoty null nefungují ve zdroji Kafka v2
- [SPARK-27454][SPARK-27454][ML][SQL] Selhání zdroje dat image Sparku při výskytu některých neplatných imagí
- [SPARK-27160][SQL] Oprava typu DecimalType při vytváření filtrů orc
- [SPARK-27338][JÁDRO] Oprava vzájemného zablokování mezi unsafeExternalSorter a TaskMemoryManager
- 26. března 2019
- Vyhněte se vkládání posunů závislých na platformě doslova ve vygenerovaném kódu v celé fázi.
- Opravili jsme chybu, která ovlivnila určité pythonUDFy.
- 12. března 2019
- [SPARK-26864][SQL] Dotaz může vrátit nesprávný výsledek, pokud se Python UDF použije jako podmínka levého-semi spojení.
- 26. února 2019
- Opravili jsme chybu, která ovlivnila server JDBC/ODBC.
- Při sestavování HadoopRDD vylučte skryté soubory.
- 12. února 2019
- Opravili jsme nekonzistenci mezi mezipamětí SADY RDD v mezipaměti SQL a jeho fyzickým plánem, což vedlo k nesprávnému výsledku.
-
[SPARK-26706][SQL] Oprava
illegalNumericPrecedence
pro ByteType. - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery nezpracuje správně prázdné záznamy.
- Opravena inferenční pravidla pro omezení u operátoru Window.
- Opravili jsme problém, kdy se při odesílání velkých chybových zpráv RPC s povoleným šifrováním (pokud je
spark.network.crypto.enabled
nastaveno na true), mohlo dojít k přerušení síťového protokolu Sparku.
- 30. ledna 2019
- Opravili jsme problém, který způsoboval
df.rdd.count()
, že UDT v některých případech vrátil nesprávnou odpověď. - [SPARK-26267]Zkuste to znovu při zjišťování nesprávných posunů ze systému Kafka.
- Opravili jsme chybu, která ovlivnila více zdrojů datových proudů souborů v dotazu streamování.
- Byla opravena chyba StackOverflowError při zadávání tipu ke zkosenému spojení u relace uložené v mezipaměti.
- Opravili jsme nekonzistenci mezi mezipamětí SADY RDD v mezipaměti SQL a jeho fyzickým plánem, což vedlo k nesprávnému výsledku.
- Opravili jsme problém, který způsoboval
- 8. ledna 2019
- Opravili jsme problém, který způsobil chybu
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - [SPARK-26352]změna pořadí spojení by nemělo měnit pořadí výstupních atributů.
- [SPARK-26366]ReplaceExceptWithFilter by měl považovat hodnotu NULL za False.
- Vylepšení stability pro Delta Lake.
- Delta Lake je povolené.
- Služba Databricks IO Cache je teď povolená pro typy instancí pracovních procesů řady Ls pro všechny cenové úrovně.
- Opravili jsme problém, který způsobil chybu
- 18. prosince 2018
- [SPARK-26293]Výjimka z přetypování, pokud je v poddotazu Python UDF
- Opravili jsme problém, který ovlivnil určité dotazy pomocí Spojení a Omezení.
- Redigované přihlašovací údaje z názvů RDD v Spark UI
- 6. prosince 2018
- Opravili jsme problém, který způsoboval nesprávný výsledek dotazu při použití orderBy následovaný okamžitou klávesou groupBy s klíčem group-by jako úvodní část klíče řazení podle.
- Upgradovali jsme konektor Snowflake pro Spark z verze 2.4.9.2-spark_2.4_pre_release na verzi 2.4.10.
- Po jednom nebo více opakováních po
spark.sql.files.ignoreCorruptFiles
povolení příznaku ignorujtespark.sql.files.ignoreMissingFiles
pouze poškozené soubory. - Opravili jsme problém, který ovlivnil některé dotazy samoobslužné sjednocení.
- Opravili jsme chybu na serveru Thrift, kdy se při zrušení někdy únikaly relace.
- [SPARK-26307]oprava CTAS při INSERT dělené tabulky pomocí Hive SerDe.
- [SPARK-26147]Python UDF v podmínce spojení selžou, i když se používají sloupce pouze z jedné strany spojení
- [SPARK-26211]Oprava inset binárního souboru a struktury a pole s hodnotou null
-
[SPARK-26181]
hasMinMaxStats
metodaColumnStatsMap
není správná. - Opravili jsme problém, který ovlivnil instalaci sady Python Wheels v prostředích bez přístupu k internetu.
- 20. listopadu 2018
- Opravili jsme problém, který způsoboval, že poznámkový blok nebylo možné použít po zrušení streamovacího dotazu.
- Opravili jsme problém ovlivňující určité dotazy pomocí funkcí oken.
- Opravili jsme problém ovlivňující datový proud z Delta, ve kterém došlo k několika změnám schématu.
- Opravili jsme problém, který ovlivnil určité agregační dotazy s levými středníky a anti spojeními.
Databricks Runtime 4.3 (EoS)
Viz Databricks Runtime 4.3 (EoS).
úterý 9. dubna 2019
- [SPARK-26665][JÁDRO] Opravte chybu, která může způsobit, že BlockTransferService.fetchBlockSync přestane reagovat navždy.
- [SPARK-24669][SQL] Zneplatnit tabulky v případě DROP DATABASE CASCADE.
12. března 2019
- Opravili jsme chybu, která ovlivnila generování kódu.
- Opravili jsme chybu, která ovlivnila Delta.
26. února 2019
- Opravili jsme chybu, která ovlivnila server JDBC/ODBC.
12. února 2019
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery nezpracuje správně prázdné záznamy.
- Vyloučení skrytých souborů při sestavování HadoopRDD
- Oprava převodu filtru Parquet pro predikát IN, když je jeho hodnota prázdná.
- Opravili jsme problém, kdy se při odesílání velkých chybových zpráv RPC s povoleným šifrováním (pokud je
spark.network.crypto.enabled
nastaveno na true), mohl narušit nízkoúrovňový síťový protokol Spark.
30. ledna 2019
- Opravili jsme problém, který způsoboval
df.rdd.count()
, že UDT v některých případech vrátil nesprávnou odpověď. - Opravili jsme nekonzistenci mezi mezipamětí SADY RDD v mezipaměti SQL a jeho fyzickým plánem, což vedlo k nesprávnému výsledku.
- Opravili jsme problém, který způsoboval
úterý 8. ledna 2019
- Opravili jsme problém, který způsobovat chybu
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - Odstraněné přihlašovací údaje z názvů RDD ve Spark UI
- [SPARK-26352]změna pořadí spojení by nemělo měnit pořadí výstupních atributů.
- [SPARK-26366]ReplaceExceptWithFilter by měl považovat hodnotu NULL za False.
- Delta Lake je povolené.
- Služba Databricks IO Cache je teď povolená pro typy instancí pracovních procesů řady Ls pro všechny cenové úrovně.
- Opravili jsme problém, který způsobovat chybu
18. prosince 2018
- [SPARK-25002]Avro: Revidujte obor názvů výstupního záznamu.
- Opravili jsme problém, který ovlivnil určité dotazy pomocí JOIN a LIMIT.
- [SPARK-26307]oprava CTAS při INSERT dělené tabulky pomocí Hive SerDe.
- Po jednom nebo více opakováních po
spark.sql.files.ignoreCorruptFiles
povolení příznaku ignorujtespark.sql.files.ignoreMissingFiles
pouze poškozené soubory. -
[SPARK-26181]
hasMinMaxStats
metodaColumnStatsMap
není správná. - Opravili jsme problém, který ovlivnil instalaci sady Python Wheels v prostředích bez přístupu k internetu.
- Opravili jsme problém s výkonem v analyzátoru dotazů.
- Opravili jsme problém v PySparku, který způsoboval, že akce datového rámce selhaly s chybou "Připojení odmítnuto".
- Opravili jsme problém, který ovlivnil některé dotazy samoobslužné sjednocení.
20. listopadu 2018
- [SPARK-17916][SPARK-25241]Předejde tomu, aby se prázdný řetězec parsoval jako null, pokud je hodnota null nastavena.
- [SPARK-25387]Oprava npe způsobená nesprávným vstupem CSV
- Opravili jsme problém, který ovlivnil určité agregační dotazy s levými středníky a anti spojeními.
6. listopadu 2018
- [SPARK-25741]Dlouhé adresy URL se ve webovém uživatelském rozhraní nevykreslují správně.
- [SPARK-25714]Oprava zpracování null v pravidlu optimalizátoru BooleanSimplification.
- Opravili jsme problém, který ovlivnil vyčištění dočasných objektů v konektoru Synapse Analytics.
- [SPARK-25816]Oprava rozlišení atributů v vnořených extraktorech
16. října 2018
- Opravili jsme chybu, která ovlivnila výstup při běhu
SHOW CREATE TABLE
v tabulkách Delta. - Opravili jsme chybu, která ovlivnila
Union
operaci.
- Opravili jsme chybu, která ovlivnila výstup při běhu
25. září 2018
- [SPARK-25368][SQL] Nesprávné odvození omezení vrátí nesprávný výsledek.
- [SPARK-25402][SQL] Zpracování hodnoty Null v booleanSimplification
- Opraveno
NotSerializableException
ve zdroji dat Avro.
11. září 2018
-
[SPARK-25214][SS] Opravte problém, kdy zdroj Kafka v2 může vracet duplicitní záznamy, když
failOnDataLoss=false
. - [SPARK-24987][SS] Oprava úniku uživatelů Kafka, pokud nejsou žádné nové posuny pro articlePartition.
- Redukce filtru by měla správně zpracovat hodnotu null.
- Vylepšená stabilita prováděcího modulu.
-
[SPARK-25214][SS] Opravte problém, kdy zdroj Kafka v2 může vracet duplicitní záznamy, když
28. srpna 2018
- Opravili jsme chybu v příkazu Delta Lake Delete, která nesprávně odstranila řádky, ve kterých se podmínka vyhodnotí jako null.
-
[SPARK-25142]Přidejte chybové zprávy, když pracovní proces Pythonu nemohl otevřít soket v
_load_from_socket
.
23. srpna 2018
-
[SPARK-23935]mapEntry vyvolá
org.codehaus.commons.compiler.CompileException
. - Opravili jsme problém s mapou s možnou hodnotou null ve čtečce Parquet.
- [SPARK-25051][SQL] OpravaNullability by neměla u AnalysisBarrieru zastavit.
- [SPARK-25081]Opravili jsme chybu, kdy ShuffleExternalSorter mohl přistoupit k uvolněné stránce paměti, pokud při přetečení selže přidělení paměti.
- Opravili jsme interakci mezi Databricks Delta a Pysparkem, která mohla způsobit přechodné chyby čtení.
- [SPARK-25084]"distribuovat podle" u více sloupců (obklopené závorkami) může vést k problému s generováním kódu.
- [SPARK-25096]Uvolněte hodnotu null, pokud je přetypování vynucené s možnou hodnotou null.
- Snížení výchozího počtu vláken použitého příkazem Delta Lake Optimize, čímž se snížila režie paměti a zrychlilo potvrzování dat.
- [SPARK-25114]Oprava Funkce RecordBinaryComparator při odčítání mezi dvěma slovy je dělitelná pomocí Integer.MAX_VALUE.
- Opravili jsme redakci správce tajných kódů, když byl příkaz částečně úspěšný.
-
[SPARK-23935]mapEntry vyvolá
Databricks Runtime 4.2 (EoS)
Viz Databricks Runtime 4.2 (EoS)
26. února 2019
- Opravili jsme chybu, která ovlivnila server JDBC/ODBC.
12. února 2019
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery nezpracuje správně prázdné záznamy.
- Vyloučení skrytých souborů při sestavování HadoopRDD
- Oprava převodu filtru Parquet pro predikát IN, když je jeho hodnota prázdná.
- Opravili jsme problém, kdy se při odesílání velkých chybových zpráv RPC s povoleným šifrováním (pokud je
spark.network.crypto.enabled
nastaveno na true), mohlo dojít k přerušení nízkoúrovňového síťového protokolu Spark.
30. ledna 2019
- Opravili jsme problém, který způsoboval
df.rdd.count()
, že UDT v některých případech vrátil nesprávnou odpověď.
- Opravili jsme problém, který způsoboval
úterý 8. ledna 2019
- Opravili jsme problém, který způsobuje chybu
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - Přihlašovací údaje byly odstraněny z názvů RDD v uživatelském rozhraní Spark
- [SPARK-26352]změna pořadí spojení by nemělo měnit pořadí výstupních atributů.
- [SPARK-26366]ReplaceExceptWithFilter by měl považovat hodnotu NULL za False.
- Delta Lake je povolené.
- Služba Databricks IO Cache je teď povolená pro typy instancí pracovních procesů řady Ls pro všechny cenové úrovně.
- Opravili jsme problém, který způsobuje chybu
18. prosince 2018
- [SPARK-25002]Avro: Revidujte obor názvů výstupního záznamu.
- Opravili jsme problém s určitými dotazy používajícími Join a Limit.
- [SPARK-26307]oprava CTAS při INSERT dělené tabulky pomocí Hive SerDe.
- Po jednom nebo více opakováních po
spark.sql.files.ignoreCorruptFiles
povolení příznaku ignorujtespark.sql.files.ignoreMissingFiles
pouze poškozené soubory. -
[SPARK-26181]
hasMinMaxStats
metodaColumnStatsMap
není správná. - Opravili jsme problém, který ovlivnil instalaci sady Python Wheels v prostředích bez přístupu k internetu.
- Opravili jsme problém s výkonem v analyzátoru dotazů.
- Opravili jsme problém v PySparku, který způsoboval, že akce datového rámce selhaly s chybou "Připojení odmítnuto".
- Opravili jsme problém, který ovlivnil některé dotazy samoobslužné sjednocení.
20. listopadu 2018
- [SPARK-17916][SPARK-25241]Oprava problému, kdy se prázdný řetězec parsuje jako null, pokud je nastavena hodnota null.
- Opravili jsme problém, který ovlivnil určité agregační dotazy s levými středníky a anti spojeními.
6. listopadu 2018
- [SPARK-25741]Dlouhé adresy URL se ve webovém uživatelském rozhraní nevykreslují správně.
- [SPARK-25714]Oprava zpracování null v pravidlu optimalizátoru BooleanSimplification.
16. října 2018
- Opravili jsme chybu, která ovlivnila výstup procesů souvisejících s
SHOW CREATE TABLE
v tabulkách Delta. - Opravili jsme chybu, která ovlivnila
Union
operaci.
- Opravili jsme chybu, která ovlivnila výstup procesů souvisejících s
25. září 2018
- [SPARK-25368][SQL] Nesprávné odvození omezení vrátí nesprávný výsledek.
- [SPARK-25402][SQL] Zpracování hodnoty Null v booleanSimplification
- Opraveno
NotSerializableException
ve zdroji dat Avro.
11. září 2018
-
[SPARK-25214][SS] Opravte problém, kdy zdroj Kafka v2 může vracet duplicitní záznamy, když
failOnDataLoss=false
. - [SPARK-24987][SS] Oprava úniku uživatelů Kafka, pokud nejsou žádné nové posuny pro articlePartition.
- Redukce filtru by měla správně zpracovat hodnotu null.
-
[SPARK-25214][SS] Opravte problém, kdy zdroj Kafka v2 může vracet duplicitní záznamy, když
28. srpna 2018
- Opravili jsme chybu v příkazu Delta Lake Delete, která nesprávně odstranila řádky, ve kterých se podmínka vyhodnotí jako null.
23. srpna 2018
- Oprava chyby NoClassDefError pro rozdílový snímek
-
[SPARK-23935]mapEntry vyvolá
org.codehaus.commons.compiler.CompileException
. - [SPARK-24957][SQL] Průměr s desítkovým číslem následovaným agregací vrátí nesprávný výsledek. Mohou se vrátit nesprávné výsledky funkce PRŮMĚR. Funkce CAST přidaná v operátoru Průměr bude vynechána, pokud je výsledek dělení stejný typ, na který se přetypuje.
- [SPARK-25081]Opravili jsme chybu, kdy shuffleExternalSorter mohl při selhání přidělení paměti získat přístup k uvolněné stránce paměti.
- Opravili jsme interakci mezi Databricks Delta a Pysparkem, která mohla způsobit přechodné chyby čtení.
- [SPARK-25114]Oprava Funkce RecordBinaryComparator při odčítání mezi dvěma slovy je dělitelná pomocí Integer.MAX_VALUE.
- [SPARK-25084]"distribuovat podle" u více sloupců (zalomení v hranatých závorkách) může vést k problému s codegenem.
- [SPARK-24934][SQL] Explicitně sestavit seznam povolených podporovaných typů pro mezní hodnoty při prořezávání oddílů v paměti. Pokud se ve filtrech dotazů na data v mezipaměti používají složité datové typy, Spark vždy vrátí prázdnou sadu výsledků. Vyřazení založené na statistikách v paměti generuje nesprávné výsledky, protože hodnota null je nastavena pro horní a dolní hranice pro komplexní typy. Oprava je nepoužívat statistiky založené na paměti pro vyřazení komplexních typů.
- Opravili jsme redakci správce tajných kódů, když byl příkaz částečně úspěšný.
- Opravili jsme problém s mapou s možnou hodnotou null ve čtečce Parquet.
2. srpna 2018
- Přidání rozhraní API writeStream.table v Pythonu
- Opravili jsme problém, který ovlivnil rozdílové vytváření kontrolních bodů.
- [SPARK-24867][SQL] Přidejte AnalysisBarrier do prvku DataFrameWriter. Mezipaměť SQL se nepoužívá při použití DataFrameWriter k zápisu datového rámce s UDF. Jedná se o regresi způsobenou změnami, které jsme provedli v AnalysisBarrieru, protože ne všechna pravidla Analyzátoru jsou idempotentní.
- Opravili jsme problém, který mohl způsobit,
mergeInto
že příkaz způsobil nesprávné výsledky. - Vylepšená stabilita při přístupu k Azure Data Lake Storage Gen1.
- [SPARK-24809]Serializace LongHashedRelation v exekutoru může vést k chybě dat.
- [SPARK-24878][SQL] Oprava zpětné funkce pro typ pole primitivního typu obsahující hodnotu null.
11. července 2018
- Opravili jsme chybu při provádění dotazu, která v některých případech způsobovala, že agregace na desetinných sloupcích s různými přesnostmi vracely nesprávné výsledky.
-
NullPointerException
Opravili jsme chybu, která byla vyvoláná během pokročilých agregačních operací, jako jsou sady seskupení.
Databricks Runtime 4.1 ML (EoS)
Viz Databricks Runtime 4.1 ML (EoS).
- 31. července 2018
- Přidání Služby Azure Synapse Analytics do modulu ML Runtime 4.1
- Opravili jsme chybu, která mohla způsobit nesprávné výsledky dotazu, když se název sloupce oddílu použitý v predikátu liší od případu tohoto sloupce ve schématu tabulky.
- Opravili jsme chybu, která ovlivnila spouštěcí modul Spark SQL.
- Opravili jsme chybu, která ovlivnila generování kódu.
- Opravili jsme chybu (
java.lang.NoClassDefFoundError
), která ovlivnila Delta Lake. - Vylepšené zpracování chyb v Delta Lake
- Opravili jsme chybu, která způsobovala shromažďování nesprávných statistik přeskakování dat pro řetězcové sloupce o 32 nebo vyšších znaméních.
Databricks Runtime 4.1 (EoS)
Viz Databricks Runtime 4.1 (EoS).
úterý 8. ledna 2019
- [SPARK-26366]ReplaceExceptWithFilter by měl považovat hodnotu NULL za False.
- Delta Lake je povolené.
18. prosince 2018
- [SPARK-25002]Avro: Revidujte obor názvů výstupního záznamu.
- Byl opraven problém, který ovlivňoval určité dotazy s použitím Join a Limit.
- [SPARK-26307]oprava CTAS při INSERT dělené tabulky pomocí Hive SerDe.
- Po jednom nebo více opakováních po
spark.sql.files.ignoreCorruptFiles
povolení příznaku ignorujtespark.sql.files.ignoreMissingFiles
pouze poškozené soubory. - Opravili jsme problém, který ovlivnil instalaci sady Python Wheels v prostředích bez přístupu k internetu.
- Opravili jsme problém v PySparku, který způsoboval, že akce datového rámce selhaly s chybou "Připojení odmítnuto".
- Opravili jsme problém, který ovlivnil některé dotazy samoobslužné sjednocení.
20. listopadu 2018
- [SPARK-17916][SPARK-25241]Oprava problému, kdy se prázdný řetězec parsuje jako null, pokud je nastavena hodnota null.
- Opravili jsme problém, který ovlivnil určité agregační dotazy s levými středníky a anti spojeními.
6. listopadu 2018
- [SPARK-25741]Dlouhé adresy URL se ve webovém uživatelském rozhraní nevykreslují správně.
- [SPARK-25714]Oprava zpracování null v pravidlu optimalizátoru BooleanSimplification.
16. října 2018
- Byla opravena chyba, která ovlivňovala výstup operace
SHOW CREATE TABLE
v tabulkách Delta. - Opravili jsme chybu, která ovlivnila
Union
operaci.
- Byla opravena chyba, která ovlivňovala výstup operace
25. září 2018
- [SPARK-25368][SQL] Nesprávné odvození omezení vrátí nesprávný výsledek.
- [SPARK-25402][SQL] Zpracování hodnoty Null v booleanSimplification
- Opraveno
NotSerializableException
ve zdroji dat Avro.
11. září 2018
-
[SPARK-25214][SS] Opravte problém, kdy zdroj Kafka v2 může vracet duplicitní záznamy, když
failOnDataLoss=false
. - [SPARK-24987][SS] Oprava úniku uživatelů Kafka, pokud nejsou žádné nové posuny pro articlePartition.
- Redukce filtru by měla správně zpracovat hodnotu null.
-
[SPARK-25214][SS] Opravte problém, kdy zdroj Kafka v2 může vracet duplicitní záznamy, když
28. srpna 2018
- Opravili jsme chybu v příkazu Delta Lake Delete, která nesprávně odstranila řádky, ve kterých se podmínka vyhodnotí jako null.
- [SPARK-25084]"rozdělit podle" u více sloupců (zabalení do hranatých závorek) může vést k problému s generováním kódu.
- [SPARK-25114]Oprava Funkce RecordBinaryComparator při odčítání mezi dvěma slovy je dělitelná pomocí Integer.MAX_VALUE.
23. srpna 2018
- Oprava NoClassDefError pro delta snapshot.
- [SPARK-24957][SQL] Průměr s desítkovým číslem následovaným agregací vrátí nesprávný výsledek. Mohou se vrátit nesprávné výsledky funkce PRŮMĚR. Funkce CAST přidaná v operátoru Průměr bude vynechána, pokud je výsledek dělení stejný typ, na který se přetypuje.
- Opravili jsme problém s mapou s možnou hodnotou null ve čtečce Parquet.
- [SPARK-24934][SQL] Explicitně povolit seznam podporovaných typů v mezích pro prořezávání oddílů v paměti. Pokud se ve filtrech dotazů na data v mezipaměti používají složité datové typy, Spark vždy vrátí prázdnou sadu výsledků. Vyřazení založené na statistikách v paměti generuje nesprávné výsledky, protože hodnota null je nastavena pro horní a dolní hranice pro komplexní typy. Oprava je nepoužívat statistiky založené na paměti pro vyřazení komplexních typů.
- [SPARK-25081]Opravili jsme chybu, kdy ShuffleExternalSorter mohl získat přístup k uvolněné stránce paměti, pokud došlo k selhání při přidělování paměti.
- Opravili jsme interakci mezi Databricks Delta a Pysparkem, která mohla způsobit přechodné chyby čtení.
- Oprava redakce správce tajných kódů při částečném úspěchu příkazu
2. srpna 2018
- [SPARK-24613][SQL] Mezipaměť s UDF se nedá spárovat s následnými závislými mezipaměťmi. Zabalí logický plán pomocí analysisBarrieru pro kompilaci plánu provádění v CacheManager, aby se zabránilo opětovné analýze plánu. Jedná se také o regresi Sparku 2.3.
- Opravili jsme problém s konektorem Synapse Analytics, který ovlivnil převod časového pásma pro zápis dat typu DateType.
- Opravili jsme problém, který ovlivnil rozdílové vytváření kontrolních bodů.
- Opravili jsme problém, který mohl způsobit,
mergeInto
že příkaz způsobil nesprávné výsledky. - [SPARK-24867][SQL] Přidejte AnalysisBarrier do prvku DataFrameWriter. Mezipaměť SQL se nepoužívá při použití DataFrameWriter k zápisu datového rámce s UDF. Jedná se o regresi způsobenou změnami, které jsme provedli v AnalysisBarrieru, protože ne všechna pravidla Analyzátoru jsou idempotentní.
- [SPARK-24809]Serializace LongHashedRelation v exekutoru může vést k chybě dat.
11. července 2018
- Opravili jsme chybu při provádění dotazu, která způsobovala, že agregace desetinných sloupců s různými přesnostmi v některých případech vracely nesprávné výsledky.
-
NullPointerException
Opravili jsme chybu, která byla vyvoláná během pokročilých agregačních operací, jako jsou sady seskupení.
28. června 2018
- Opravili jsme chybu, která mohla způsobit nesprávné výsledky dotazu, když se název sloupce oddílu použitý v predikátu liší od případu tohoto sloupce ve schématu tabulky.
7. června 2018
- Opravili jsme chybu, která ovlivnila spouštěcí modul Spark SQL.
- Opravili jsme chybu, která ovlivnila generování kódu.
- Opravili jsme chybu (
java.lang.NoClassDefFoundError
), která ovlivnila Delta Lake. - Vylepšené zpracování chyb v Delta Lake
17. května 2018
- Opravili jsme chybu, která způsobovala shromažďování nesprávných statistik přeskakování dat pro řetězcové sloupce o 32 nebo vyšších znaméních.
Databricks Runtime 4.0 (EoS)
Viz Databricks Runtime 4.0 (EoS).
6. listopadu 2018
- [SPARK-25714]Oprava zpracování null v pravidlu optimalizátoru BooleanSimplification.
16. října 2018
- Opravili jsme chybu, která ovlivnila
Union
operaci.
- Opravili jsme chybu, která ovlivnila
25. září 2018
- [SPARK-25368][SQL] Nesprávné odvození omezení vrátí nesprávný výsledek.
- [SPARK-25402][SQL] Zpracování hodnoty Null v booleanSimplification
- Opraveno
NotSerializableException
ve zdroji dat Avro.
11. září 2018
- Redukce filtru by měla správně zpracovat hodnotu null.
28. srpna 2018
- Opravili jsme chybu v příkazu Delta Lake Delete, která nesprávně odstranila řádky, ve kterých se podmínka vyhodnotí jako null.
23. srpna 2018
- Opravili jsme problém s mapou s možnou hodnotou null ve čtečce Parquet.
- Oprava redakce správce tajných kódů při částečném úspěchu příkazu
- Opravili jsme interakci mezi Databricks Delta a Pysparkem, která mohla způsobit přechodné chyby čtení.
- [SPARK-25081]Opravili jsme chybu, kdy ShuffleExternalSorter mohl získat přístup k uvolněné stránce paměti, když selže přidělení paměti.
- [SPARK-25114]Oprava Funkce RecordBinaryComparator při odčítání mezi dvěma slovy je dělitelná pomocí Integer.MAX_VALUE.
2. srpna 2018
- [SPARK-24452]Vyhněte se možnému přetečení v přidání int nebo více.
- [SPARK-24588]Streaming join by měl vyžadovat HashClusteredPartitioning od podřízených uzlů.
- Opravili jsme problém, který mohl způsobit,
mergeInto
že příkaz způsobil nesprávné výsledky. - [SPARK-24867][SQL] Přidejte AnalysisBarrier do prvku DataFrameWriter. Mezipaměť SQL se nepoužívá při použití DataFrameWriter k zápisu datového rámce s UDF. Jedná se o regresi způsobenou změnami, které jsme provedli v AnalysisBarrieru, protože ne všechna pravidla Analyzátoru jsou idempotentní.
- [SPARK-24809]Serializace LongHashedRelation v exekutoru může vést k chybě dat.
28. června 2018
- Opravili jsme chybu, která mohla způsobit nesprávné výsledky dotazu, když se název sloupce oddílu použitý v predikátu liší od případu tohoto sloupce ve schématu tabulky.
7. června 2018
- Opravili jsme chybu, která ovlivnila spouštěcí modul Spark SQL.
- Vylepšené zpracování chyb v Delta Lake
17. května 2018
- Opravy chyb správy tajných kódů Databricks
- Vylepšená stabilita při čtení dat uložených v Azure Data Lake Store.
- Opravili jsme chybu, která ovlivnila ukládání do mezipaměti RDD.
- Opravili jsme chybu, která ovlivnila hodnotu Null-safe Equal v Spark SQL.
24. dubna 2018
- Upgradovali jsme sadu AZURE Data Lake Store SDK z verze 2.0.11 na verzi 2.2.8, aby se zlepšila stabilita přístupu ke službě Azure Data Lake Store.
- Opravili jsme chybu, která ovlivnila vložení přepisování do dělených tabulek Hive, když
spark.databricks.io.hive.fastwriter.enabled
jefalse
. - Opravili jsme problém, který selhal při serializaci úlohy.
- Vylepšili jsme stabilitu Delta Lake.
14. března 2018
- Zabránění zbytečným aktualizacím metadat při zápisu do Delta Lake
- Opravili jsme problém způsobený stavem časování, který mohl ve výjimečných případech vést ke ztrátě některých výstupních souborů.
Databricks Runtime 3.5 LTS (EoS)
Viz Databricks Runtime 3.5 LTS (EoS).
7. listopadu 2019
- [SPARK-29743][SQL] vzorek by měl nastavit needCopyResult na true, pokud je needCopyResult jeho podřízeného true.
úterý 8. října 2019
- Změny na straně serveru, které umožní ovladači ODBC Apache Sparku Simba znovu připojit a pokračovat po selhání připojení během načítání výsledků (vyžaduje aktualizaci ovladače Simba Apache Spark ODBC na verzi 2.6.10).
10. září 2019
- [SPARK-28699][SQL] Zakázání použití řazení radix pro ShuffleExchangeExec v případě repartition
úterý 9. dubna 2019
- [SPARK-26665][JÁDRO] Opravte chybu, která může způsobit, že BlockTransferService.fetchBlockSync přestane reagovat navždy.
12. února 2019
- Opravili jsme problém, kdy při odesílání velkých chybových zpráv RPC s povoleným šifrováním (pokud je
spark.network.crypto.enabled
nastaveno na true) může dojít k narušení nízkoúrovňového síťového protokolu Sparku.
- Opravili jsme problém, kdy při odesílání velkých chybových zpráv RPC s povoleným šifrováním (pokud je
30. ledna 2019
- Opravili jsme problém, který způsoboval
df.rdd.count()
, že UDT v některých případech vrátil nesprávnou odpověď.
- Opravili jsme problém, který způsoboval
18. prosince 2018
- Po jednom nebo více opakováních po
spark.sql.files.ignoreCorruptFiles
povolení příznaku ignorujtespark.sql.files.ignoreMissingFiles
pouze poškozené soubory. - Opravili jsme problém, který ovlivnil některé dotazy samoobslužné sjednocení.
- Po jednom nebo více opakováních po
20. listopadu 2018
- [SPARK-25816]Opravené rozlišení atributů v vnořených extraktorech.
6. listopadu 2018
- [SPARK-25714]Oprava zpracování null v pravidlu optimalizátoru BooleanSimplification.
16. října 2018
- Opravili jsme chybu, která ovlivnila
Union
operaci.
- Opravili jsme chybu, která ovlivnila
25. září 2018
- [SPARK-25402][SQL] Zpracování hodnoty Null v booleanSimplification
- Opraveno
NotSerializableException
ve zdroji dat Avro.
11. září 2018
- Redukce filtru by měla správně zpracovat hodnotu null.
28. srpna 2018
- Opravili jsme chybu v příkazu Delta Lake Delete, která nesprávně odstranila řádky, ve kterých se podmínka vyhodnotí jako null.
- [SPARK-25114]Oprava Funkce RecordBinaryComparator při odčítání mezi dvěma slovy je dělitelná pomocí Integer.MAX_VALUE.
23. srpna 2018
- [SPARK-24809]Serializace LongHashedRelation v exekutoru může vést k chybě dat.
- Opravili jsme problém s mapou s možnou hodnotou null ve čtečce Parquet.
- [SPARK-25081]Opravili jsme chybu, kdy ShuffleExternalSorter mohl při selhání přidělení paměti získat přístup k uvolněné stránce paměti.
- Opravili jsme interakci mezi Databricks Delta a Pysparkem, která mohla způsobit přechodné chyby čtení.
28. června 2018
- Opravili jsme chybu, která mohla způsobit nesprávné výsledky dotazu, když se název sloupce oddílu použitý v predikátu liší od případu tohoto sloupce ve schématu tabulky.
28. června 2018
- Opravili jsme chybu, která mohla způsobit nesprávné výsledky dotazu, když se název sloupce oddílu použitý v predikátu liší od případu tohoto sloupce ve schématu tabulky.
7. června 2018
- Opravili jsme chybu, která ovlivnila spouštěcí modul Spark SQL.
- Vylepšené zpracování chyb v Delta Lake
17. května 2018
- Vylepšená stabilita při čtení dat uložených v Azure Data Lake Store.
- Opravili jsme chybu, která ovlivnila ukládání do mezipaměti RDD.
- Opravili jsme chybu, která ovlivnila hodnotu Null-safe Equal v Spark SQL.
- Opravili jsme chybu, která ovlivnila určité agregace v dotazech streamování.
24. dubna 2018
- Upgradovali jsme sadu AZURE Data Lake Store SDK z verze 2.0.11 na verzi 2.2.8, aby se zlepšila stabilita přístupu ke službě Azure Data Lake Store.
- Opravili jsme chybu, která ovlivňovala vložení přepisů do rozdělených tabulek Hive, když
spark.databricks.io.hive.fastwriter.enabled
jefalse
. - Opravili jsme problém, který selhal při serializaci úlohy.
9. března 2018
- Opravili jsme problém způsobený stavem časování, který mohl ve výjimečných případech vést ke ztrátě některých výstupních souborů.
1. března 2018
- Vylepšili jsme efektivitu zpracování datových proudů, které mohou trvat dlouhou dobu.
- Opravili jsme problém, který ovlivnil automatické dokončování Pythonu.
- Použili jsme opravy zabezpečení Ubuntu.
- Opravili jsme problém, který ovlivnil určité dotazy pomocí funkcí definovaných uživatelem v Pythonu a funkcí okna.
- Opravili jsme problém, který ovlivňoval použití funkcí definovaných uživatelem v clusteru se zapnutým řízením přístupu k tabulkám.
29. ledna 2018
- Opravili jsme problém, který ovlivnil manipulaci s tabulkami uloženými ve službě Azure Blob Storage.
- Pevná agregace po vyřazeníDuplicit na prázdném datovém rámci
Databricks Runtime 3.4 (EoS)
Viz Databricks Runtime 3.4 (EoS)
7. června 2018
- Opravili jsme chybu, která ovlivnila spouštěcí modul Spark SQL.
- Vylepšené zpracování chyb v Delta Lake
17. května 2018
- Vylepšená stabilita při čtení dat uložených v Azure Data Lake Store.
- Opravili jsme chybu, která ovlivnila ukládání do mezipaměti RDD.
- Opravili jsme chybu, která ovlivnila hodnotu Null-safe Equal v Spark SQL.
24. dubna 2018
- Opravili jsme chybu, která ovlivnila vložení přepsání do dělených tabulek Hive, když je
spark.databricks.io.hive.fastwriter.enabled
false
.
- Opravili jsme chybu, která ovlivnila vložení přepsání do dělených tabulek Hive, když je
9. března 2018
- Opravili jsme problém způsobený stavem časování, který mohl ve výjimečných případech vést ke ztrátě některých výstupních souborů.
13. prosince 2017
- Opravili jsme problém ovlivňující uživatelem definované uživatelem v jazyce Scala.
- Opravili jsme problém, který ovlivnil použití indexu přeskakování dat u tabulek zdrojů dat uložených v cestách mimo DBFS.
7. prosince 2017
- Vylepšili jsme stabilitu náhodného prohazu.
Nepodporované verze Databricks Runtime
V případě původní poznámky k verzi postupujte podle odkazu pod podnadpisem.