Onderhoudsupdates voor Databricks Runtime
Dit artikel bevat onderhoudsupdates voor ondersteunde Versies van Databricks Runtime. Als u een onderhoudsupdate wilt toevoegen aan een bestaand cluster, start u het cluster opnieuw op. Zie Onderhoudsupdates voor Databricks Runtime (gearchiveerd) voor de onderhoudsupdates voor niet-ondersteunde Databricks Runtime-versies.
Notitie
Releases worden gefaseerd. Uw Azure Databricks-account wordt mogelijk enkele dagen na de eerste releasedatum niet bijgewerkt.
Databricks Runtime-releases
Onderhoudsupdates per release:
- Databricks Runtime 16.1
- Databricks Runtime 16.0
- Databricks Runtime 15.4
- Databricks Runtime 14.3
- Databricks Runtime 14.1
- Databricks Runtime 13.3 LTS
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS
- Databricks Runtime 9.1 LTS
Databricks Runtime 16.1
- 27 november 2024
- Deze release bevat een oplossing voor een probleem waardoor de primaire sleutel in een Delta-tabel kan worden verwijderd onder bepaalde randgevallen met betrekking tot automatische achtergrondcompressie.
- Met deze release wordt de cachegrootte die wordt gebruikt door een SSD in een Databricks-rekenknooppunt dynamisch uitgebreid naar de oorspronkelijke grootte van de SSD en wordt deze zo nodig verkleind tot de
spark.databricks.io.cache.maxDiskUsage
limiet. Zie Prestaties optimaliseren met caching in Azure Databricks. - [SPARK-50338][CORE] LazyTry-uitzonderingen minder uitgebreid maken
- Beveiligingsupdates van het besturingssysteem.
Databricks Runtime 16.0
- 4 december 2024
- De
USE CATALOG
-instructie ondersteunt nu deIDENTIFIER
-clausule. Met deze ondersteuning kunt u de huidige catalogus parameteriseren op basis van een tekenreeksvariabele of parametermarkering. - Deze release bevat een oplossing voor een probleem waardoor de primaire sleutel in een Delta-tabel kan worden verwijderd onder bepaalde randcases met betrekking tot automatische compressie op de achtergrond.
- Met deze release wordt de cachegrootte die wordt gebruikt door een SSD in een Databricks-rekenknooppunt dynamisch uitgebreid naar de oorspronkelijke grootte van de SSD en wordt deze zo nodig verkleind tot de
spark.databricks.io.cache.maxDiskUsage
limiet. Zie Prestaties optimaliseren met caching in Azure Databricks. - [SPARK-50322][SQL] Geparameteriseerde identifier in een subquery corrigeren
-
[SPARK-50034][CORE] Het verkeerd rapporteren van fatale fouten oplossen als niet-opgevangen uitzonderingen in
SparkUncaughtExceptionHandler
- [SPARK-47435][SQL] Overloopprobleem van MySQL UNSIGNED TINYINT oplossen
- [SPARK-49757][SQL] Ondersteuning voor IDENTIFIER expressie in SETCATALOG statement
- [SPARK-50426][PYTHON] Voorkomen dat statische Python-gegevensbronzoekacties worden gebruikt bij het gebruik van ingebouwde of Java-gegevensbronnen
- [SPARK-50338][CORE] LazyTry-uitzonderingen minder uitgebreid maken
- Beveiligingsupdates van het besturingssysteem.
- De
- 10 december 2024
- (brekende verandering) In Databricks Runtime 15.4 en hoger is de afhandeling van reguliere expressies in Photon bijgewerkt om overeen te komen met het gedrag van de reguliere expressie-afhandeling in Apache Spark. Voorheen hebben reguliere expressiefuncties die worden uitgevoerd door Photon, zoals
split()
enregexp_extract()
, enkele reguliere expressies geaccepteerd die zijn geweigerd door de Spark-parser. Om consistentie met Apache Spark te behouden, mislukken Photon-query's nu voor reguliere expressies die door Spark als ongeldig worden beschouwd. Vanwege deze wijziging ziet u mogelijk fouten als uw Spark-code ongeldige reguliere expressies bevat. De uitdrukkingsplit(str_col, '{')
, die een niet-overeenkomende accolade bevat en eerder door Photon werd geaccepteerd, werkt nu niet meer. Als u deze uitdrukking wilt herstellen, kunt u het accoladeteken ontwijken:split(str_col, '\\{')
. Foton- en Spark-gedrag verschillen ook voor een aantal reguliere expressies die overeenkomen met niet-ASCII-tekens. Dit wordt ook bijgewerkt, zodat Photon overeenkomt met het Apache Spark-gedrag. - Met deze release kunt u nu een query uitvoeren op de functie
vector_search
met behulp vanquery_text
voor tekstinvoer ofquery_vector
voor het insluiten van invoer. - U kunt nu een time-out instellen voor Spark Connect-query's met behulp van de Spark-configuratie-eigenschap
spark.databricks.execution.timeout
. Voor notebooks die worden uitgevoerd op serverloze rekenkracht, is de standaardwaarde9000
(seconden). Taken die worden uitgevoerd op serverloze berekeningen en gedeelde clusters hebben geen time-out, tenzij deze configuratie-eigenschap is ingesteld. Een uitvoering die langer duurt dan de opgegeven time-out resulteert in eenQUERY_EXECUTION_TIMEOUT_EXCEEDED
fout. - [SPARK-49843][SQL] Wijzigingscommentaar corrigeren voor teken-/varchar-kolommen
-
[SPARK-49924][SQL]
containsNull
behouden naArrayCompact
vervanging - [SPARK-49782][SQL] De regel ResolveDataFrameDropColumns lost UnresolvedAttribute op met onderliggende uitvoer
- [SPARK-48780][SQL] Fouten maken in namedParametersSupport algemeen voor het afhandelen van functies en procedures
- [SPARK-49876][CONNECT] Verwijder globale vergrendelingen van Spark Connect Service
- [SPARK-49905] Toegewezen ShuffleOrigin gebruiken voor stateful operator om te voorkomen dat de willekeurige volgorde wordt gewijzigd vanuit AQE
- [SPARK-49615] Bugfix: Zorg ervoor dat de validatie van het ML-kolomschema voldoet aan spark-configuratie spark.sql.caseSensitive
- [SPARK-48782][SQL] Ondersteuning toevoegen voor het uitvoeren van procedures in catalogi
- [SPARK-49863][SQL] NormalizeFloatingNumbers herstellen om de null-baarheid van geneste structs te behouden
- [SPARK-49829] Wijzig de optimalisatie bij het toevoegen van invoer aan de statusopslag in een stream-stream join (correctie)
- Herstel “[SPARK-49002][SQL] Consistent verwerken van ongeldige locaties in WAREHOUSE/SCHEMA/TABLE/PARTITION/DIRECTORY
- [SPARK-50028][CONNECT] Globale vergrendelingen in Spark Connect-serverlistener vervangen door fijnmazige vergrendelingen
- [SPARK-49615] [ML] Zorg ervoor dat alle feature-transformatoren van ML voldoen aan de schema-validatie van de gegevensset, conform de configuratie 'spark.sql.caseSensitive'.
- [SPARK-50124][SQL] LIMIT/OFFSET gegevensvolgorde behouden
- Beveiligingsupdates van het besturingssysteem.
- (brekende verandering) In Databricks Runtime 15.4 en hoger is de afhandeling van reguliere expressies in Photon bijgewerkt om overeen te komen met het gedrag van de reguliere expressie-afhandeling in Apache Spark. Voorheen hebben reguliere expressiefuncties die worden uitgevoerd door Photon, zoals
Databricks Runtime 15.4
Zie Databricks Runtime 15.4 LTS.
- 10 december 2024
- De
USE CATALOG
-instructie ondersteunt nu deIDENTIFIER
-clausule. Met deze ondersteuning kunt u de huidige catalogus parameteriseren op basis van een tekenreeksvariabele of parametermarkering. - Deze release bevat een oplossing voor een probleem waardoor de primaire sleutel in een Delta-tabel kan worden verwijderd onder bepaalde randgevallen met betrekking tot automatische verdichting op de achtergrond.
- Met deze release wordt de cachegrootte die wordt gebruikt door een SSD in een Databricks-rekenknooppunt dynamisch uitgebreid naar de oorspronkelijke grootte van de SSD en wordt deze zo nodig verkleind tot de
spark.databricks.io.cache.maxDiskUsage
limiet. Zie Prestaties optimaliseren met caching in Azure Databricks. - Het pyodbc-pakket wordt bijgewerkt van versie 4.0.38 naar versie 4.0.39. Deze wijziging is vereist omdat er een fout is gevonden in versie 4.0.38 en die versie is verwijderd uit PyPI.
- [SPARK-50329][SQL] fix InSet$toString
- [SPARK-47435][SQL] Overloopprobleem van MySQL UNSIGNED TINYINT oplossen
- [SPARK-49757][SQL] Ondersteuning voor IDENTIFIER expressie in SETCATALOG statement
- [SPARK-50426][PYTHON] Voorkomen dat statische Python-gegevensbronzoekacties worden gebruikt bij het gebruik van ingebouwde of Java-gegevensbronnen
- [SPARK-48863][SQL] ClassCastException herstellen bij het parseren van JSON met 'spark.sql.json.enablePartialResults' ingeschakeld
- [SPARK-50310][PYTHON] Voeg een vlag toe om DataFrameQueryContext voor PySpark uit te schakelen
- [15.3-15.4] [[SPARK-50034]]https://issues.apache.org/jira/browse/SPARK-50034)[CORE] Het corrigeren van verkeerd gerapporteerde fatale fouten als niet-opgevangen uitzonderingen in
SparkUncaughtExceptionHandler
- Beveiligingsupdates van het besturingssysteem.
- De
- 26 november 2024
- Met deze release kunt u nu een query uitvoeren op de functie
vector_search
met behulp vanquery_text
voor tekstinvoer ofquery_vector
voor het insluiten van invoer. - U kunt nu een time-out instellen voor Spark Connect-query's met behulp van de Spark-configuratie-eigenschap
spark.databricks.execution.timeout
. Voor notebooks die worden uitgevoerd op serverloze rekenkracht, is de standaardwaarde9000
(seconden). Taken die worden uitgevoerd op serverloze berekeningen en gedeelde clusters hebben geen time-out, tenzij deze configuratie-eigenschap is ingesteld. Een uitvoering die langer duurt dan de opgegeven time-out resulteert in eenQUERY_EXECUTION_TIMEOUT_EXCEEDED
fout. - [SPARK-50322][SQL] Herstel van een geparameteriseerde identifier in een subquery
- [SPARK-49615] [ML] Zorg ervoor dat alle schema-validatie van ML-feature transformators overeenkomt met de configuratie 'spark.sql.caseSensitive'.
- [SPARK-50124][SQL] LIMIT/OFFSET gegevensvolgorde behouden
- Beveiligingsupdates van het besturingssysteem.
- Met deze release kunt u nu een query uitvoeren op de functie
- 5 november 2024
- (brekende verandering) In Databricks Runtime 15.4 en hoger is de afhandeling van reguliere expressies in Photon bijgewerkt om overeen te komen met het gedrag van de reguliere expressie-afhandeling in Apache Spark. Voorheen hebben reguliere expressiefuncties die worden uitgevoerd door Photon, zoals
split()
enregexp_extract()
, enkele reguliere expressies geaccepteerd die zijn geweigerd door de Spark-parser. Om consistentie met Apache Spark te behouden, mislukken Photon-query's nu voor reguliere expressies die door Spark als ongeldig worden beschouwd. Vanwege deze wijziging ziet u mogelijk fouten als uw Spark-code ongeldige reguliere expressies bevat. De uitdrukkingsplit(str_col, '{')
, die een niet-overeenkomende accolade bevat en eerder door Photon werd geaccepteerd, werkt nu niet meer. Als u deze uitdrukking wilt herstellen, kunt u het accoladeteken ontwijken:split(str_col, '\\{')
. Foton- en Spark-gedrag verschillen ook voor een aantal reguliere expressies die overeenkomen met niet-ASCII-tekens. Dit wordt ook bijgewerkt, zodat Photon overeenkomt met het Apache Spark-gedrag. - [SPARK-49782][SQL] De regel ResolveDataFrameDropColumns lost UnresolvedAttribute op met onderliggende uitvoer
- [SPARK-49867][SQL] Het foutbericht verbeteren wanneer de index buiten de grenzen valt bij het aanroepen van GetColumnByOrdinal
- [SPARK-49863][SQL] NormalizeFloatingNumbers herstellen om de null-baarheid van geneste structs te behouden
- [SPARK-49829] Wijzig de optimalisatie bij het toevoegen van invoer aan het statusarchief in stream-stream join (correctie)
- [SPARK-49905] Toegewezen ShuffleOrigin gebruiken voor stateful operator om te voorkomen dat de willekeurige volgorde wordt gewijzigd vanuit AQE
- [SPARK-46632][SQL] Subexpressie-verwijdering corrigeren wanneer equivalente ternaire expressies verschillende onderliggende elementen hebben
- [SPARK-49443][SQL][PYTHON] To_variant_object expressie implementeren en schema_of_variant expressies object afdrukken voor variantobjecten
-
[SPARK-49615] Bugfix: Zorg ervoor dat de validatie van het ML-kolomschema voldoet aan de spark-configuratie
spark.sql.caseSensitive
.
- (brekende verandering) In Databricks Runtime 15.4 en hoger is de afhandeling van reguliere expressies in Photon bijgewerkt om overeen te komen met het gedrag van de reguliere expressie-afhandeling in Apache Spark. Voorheen hebben reguliere expressiefuncties die worden uitgevoerd door Photon, zoals
- 22 oktober 2024
- [SPARK-49782][SQL] De regel ResolveDataFrameDropColumns lost UnresolvedAttribute op met onderliggende uitvoer
- [SPARK-49867][SQL] Het foutbericht verbeteren wanneer de index buiten de grenzen valt bij het aanroepen van GetColumnByOrdinal
- [SPARK-49863][SQL] NormalizeFloatingNumbers herstellen om de null-baarheid van geneste structs te behouden
- [SPARK-49829] Wijzig de optimalisatie bij het toevoegen van invoer aan het statusarchief in stream-stream join (correctie)
- [SPARK-49905] Toegewezen ShuffleOrigin gebruiken voor stateful operator om te voorkomen dat de willekeurige volgorde wordt gewijzigd vanuit AQE
- [SPARK-46632][SQL] Subexpressie-verwijdering corrigeren wanneer equivalente ternaire expressies verschillende onderliggende elementen hebben
- [SPARK-49443][SQL][PYTHON] To_variant_object expressie implementeren en schema_of_variant expressies object afdrukken voor variantobjecten
-
[SPARK-49615] Bugfix: Zorg ervoor dat de validatie van het ML-kolomschema voldoet aan de spark-configuratie
spark.sql.caseSensitive
.
- 10 oktober 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr mag geen schemavelden wijzigen bij het verwijderen van GetArrayStructFields
- [SPARK-49688][VERBINDING MAKEN] Een gegevensrace tussen onderbreken en uitvoeren van plan herstellen
- [BACKPORT] [[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Classificeer foutklasse voor FlatMapGroupsWithState gebruiksfunctie fout
- [SPARK-49460][SQL] Opvolgen: potentiële NPE-risico's oplossen
- 25 september 2024
- [SPARK-49628][SQL] ConstantFolding moet een stateful expressie kopiëren voordat deze wordt geëvalueerd
- [SPARK-49000][SQL] Fix 'select count(distinct 1) from t' waarbij t een lege tabel is door RewriteDistinctAggregates uit te vouwen.
- [SPARK-49492][VERBINDING MAKEN] Poging om opnieuw te worden gekoppeld aan inactieve uitvoeringsaanduiding
- [SPARK-49458][VERBINDING MAKEN][PYTHON] Sessie-id aan serverzijde leveren via ReattachExecute
- [SPARK-49017][SQL] Instructie invoegen mislukt wanneer meerdere parameters worden gebruikt
- [SPARK-49451] Dubbele sleutels in parse_json toestaan.
- Diverse bugfixes.
- 17 september 2024
- [SPARK-48463][ML] Maak Binarizer, Bucketizer, Vector Assembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor die geneste invoerkolommen ondersteunen
- [SPARK-49409][VERBINDING MAKEN] De standaardwaarde van CONNECT_SESSION_PLAN_CACHE_SIZE aanpassen
- [SPARK-49526][VERBINDING MAKEN][HOTFIX-15.4.2] Ondersteuning voor Paden in Windows-stijl in ArtifactManager
- Herstel "[SPARK-48482][PYTHON] dropDuplicates and dropDuplicatesWIthinWatermark should accept variable length args"
- [SPARK-43242][CORE] Fout 'Onverwacht type BlockId' in willekeurige beschadigingsdiagnose opgelost
- [SPARK-49366][CONNECT] Union-knooppunt behandelen als leaf in de kolomresolutie van het dataframe
- [SPARK-49018][SQL] Probleem opgelost approx_count_distinct niet correct werkt met sortering
-
[SPARK-49460][SQL] Verwijder
cleanupResource()
uit EmptyRelationExec - [SPARK-49056][SQL] ErrorClassesJsonReader kan null niet correct verwerken
- [SPARK-49336][CONNECT] Beperk het nestniveau bij het afkappen van een protobuf-bericht
- 29 augustus 2024
- De uitvoer van een
SHOW CREATE TABLE
-instructie bevat nu rijfilters of kolommaskers die zijn gedefinieerd in een gerealiseerde weergave of streamingtabel. Zie SHOW CREATE TABLE. Zie Gevoelige tabelgegevens filteren met rijfilters en kolommaskersvoor meer informatie over rijfilters en kolommaskers. - Op berekeningen die zijn geconfigureerd met de modus voor gedeelde toegang, hebben Kafka-batchlees- en schrijfbewerkingen nu dezelfde beperkingen afgedwongen als die zijn vastgelegd voor Structured Streaming. Zie Beperkingen en vereisten voor streaming voor de gedeelde toegangsmodus van Unity Catalog.
- [SPARK-48941][SPARK-48970] Backport ML writer/reader fixes
-
[SPARK-49074][SQL] Variant herstellen met
df.cache()
- [SPARK-49263][VERBINDING MAKEN] Spark Connect Python-client: Boolean Dataframe Reader-opties consistent verwerken
- [SPARK-48955][SQL] MatrixCompact-wijzigingen opnemen in 15.4
- [SPARK-48937][SQL] Ondersteuning voor sortering toevoegen voor stringToMap-tekenreeksexpressies
- [SPARK-48929] Interne fout weergeven oplossen en parser-uitzonderingscontext opschonen
- [SPARK-49125][SQL] Dubbele kolomnamen in CSV-schrijven toestaan
- [SPARK-48934][SS] Python-datum/tijdtypen zijn onjuist geconverteerd voor het instellen van time-outs in applyInPandasWithState
- [SPARK-48843] Oneindige lus voorkomen met BindParameters
- [SPARK-48981] SimpleString-methode van StringType in pyspark opgelost voor sorteringen
- [SPARK-49065][SQL] Herstellen in verouderde formatters/parsers moet niet-JVM-standaardtijdzones ondersteunen
- [SPARK-48896][SPARK-48909][SPARK-48883] Backport spark ML Writer-oplossingen
- [SPARK-48725][SQL] CollationAwareUTF8String.lowerCaseCodePoints integreren in tekenreeksexpressies
- [SPARK-48978][SQL] Snel ASCII-pad implementeren in sorteringsondersteuning voor UTF8_LCASE
- [SPARK-49047][PYTHON][VERBINDING MAKEN] Het bericht afkappen voor logboekregistratie
- [SPARK-49146][SS] Verplaats assertion errors gerelateerd aan ontbrekende watermerken in append mode streaming query's naar het fout framework.
- [SPARK-48977][SQL] String zoeken optimaliseren onder UTF8_LCASE collatie
- [SPARK-48889][SS] testStream om statusarchieven te verwijderen voordat u klaar is
- [SPARK-48463] Zorg ervoor dat StringIndexer geneste invoerkolommen ondersteunt
- [SPARK-48954] try_mod() vervangt try_remainder()
- Beveiligingsupdates van het besturingssysteem.
- De uitvoer van een
Databricks Runtime 14.3
Zie Databricks Runtime 14.3 LTS.
- 10 december 2024
- Deze release bevat een oplossing voor een probleem waardoor de primaire sleutel in een Delta-tabel kan worden verwijderd onder bepaalde randgevallen met betrekking tot automatische achtergrondcompressie.
- [SPARK-50329][SQL] fix InSet$toString
- Beveiligingsupdates van het besturingssysteem.
- 26 november 2024
- [SPARK-49615] [ML] Zorg ervoor dat alle ML featuretransformers voldoen aan de 'spark.sql.caseSensitive' configuratie voor validatie van het schemade dataset.
- Beveiligingsupdates van het besturingssysteem.
- 5 november 2024
- [SPARK-48843] Oneindige lus voorkomen met BindParameters
- [SPARK-49829] Herzie de optimalisatie bij het toevoegen van invoer aan de toestandopslag in een stream-stream join (correctheidsfix)
- [SPARK-49863][SQL] NormalizeFloatingNumbers herstellen om de null-baarheid van geneste structs te behouden
- [BACKPORT] [[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Foutklasse classificeren voor foreach sink-gebruikersfunctiefout
- [SPARK-49782][SQL] De regel ResolveDataFrameDropColumns lost UnresolvedAttribute op met onderliggende uitvoer
- [SPARK-46632][SQL] Subexpressie-verwijdering corrigeren wanneer equivalente ternaire expressies verschillende onderliggende elementen hebben
- [SPARK-49905] Toegewezen ShuffleOrigin gebruiken voor stateful operator om te voorkomen dat de willekeurige volgorde wordt gewijzigd vanuit AQE
- Beveiligingsupdates van het besturingssysteem.
- 22 oktober 2024
- [SPARK-48843] Oneindige lus voorkomen met BindParameters
- [SPARK-49863][SQL] NormalizeFloatingNumbers herstellen om de null-baarheid van geneste structs te behouden
- [SPARK-49905] Toegewezen ShuffleOrigin gebruiken voor stateful operator om te voorkomen dat de willekeurige volgorde wordt gewijzigd vanuit AQE
- [SPARK-46632][SQL] Subexpressie-verwijdering corrigeren wanneer equivalente ternaire expressies verschillende onderliggende elementen hebben
- [SPARK-49782][SQL] De regel ResolveDataFrameDropColumns lost UnresolvedAttribute op met onderliggende uitvoer
- [BACKPORT] [[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Foutklasse classificeren voor foreach sink-gebruikersfunctiefout
- [SPARK-49829] Wijzig de optimalisatie bij het toevoegen van invoer aan het statusarchief in stream-stream join (correctie)
- Beveiligingsupdates van het besturingssysteem.
- 10 oktober 2024
- [BACKPORT] [[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Classificeer foutklasse voor FlatMapGroupsWithState gebruikersfunctie-fout
- [SPARK-49743][SQL] OptimizeCsvJsonExpr mag geen schemavelden wijzigen bij het verwijderen van GetArrayStructFields
- [SPARK-49688][VERBINDING MAKEN] Een gegevensrace tussen onderbreken en uitvoeren van plan herstellen
- 25 september 2024
- [SPARK-48810][VERBINDING MAKEN] Sessiestop() API moet idempotent zijn en niet mislukken als de sessie al is gesloten door de server
- [SPARK-48719][SQL] Corrigeer de berekeningsfout van RegrS...
- [SPARK-49000][SQL] Fix "select count(distinct 1) from t" waarbij t een lege tabel is door RewriteDistinctAggregates uit te vouwen
- [SPARK-49628][SQL] ConstantFolding moet een stateful expressie kopiëren voordat deze wordt geëvalueerd
- [SPARK-49492][VERBINDING MAKEN] Poging om opnieuw te worden gekoppeld aan inactieve uitvoeringsaanduiding
- Beveiligingsupdates van het besturingssysteem.
- 17 september 2024
- [SPARK-49336][CONNECT] Beperk het nestniveau bij het afkappen van een protobuf-bericht
- [SPARK-43242][CORE] Fout 'Onverwacht type BlockId' in willekeurige beschadigingsdiagnose opgelost
- [SPARK-48463][ML] Binarizer, Bucketizer, Vector Assembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor die geneste invoerkolommen ondersteunt
- [SPARK-49526][VERBINDING MAKEN] Ondersteuning voor Paden in Windows-stijl in ArtifactManager
- [SPARK-49409][VERBINDING MAKEN] De standaardwaarde van CONNECT_SESSION_PLAN_CACHE_SIZE aanpassen
- [SPARK-49366][CONNECT] Union-knooppunt behandelen als blad bij het oplossen van kolommen in een dataframe
- 29 augustus 2024
- [SPARK-49146][SS] Zet assertion errors met betrekking tot ontbrekende watermark in append-modus streaming query's naar het error framework
-
[SPARK-48862][PYTHON][VERBINDING MAKEN] Bel niet
_proto_to_string
wanneer INFO-niveau niet is ingeschakeld - [SPARK-49263][VERBINDING MAKEN] Spark Connect Python-client: Boolean Dataframe Reader-opties consistent verwerken
- 14 augustus 2024
- [SPARK-48941][SPARK-48970] Backport ML writer/reader fixes
- [SPARK-48706][PYTHON] Python UDF in hogere volgorde functies mogen geen interne fout veroorzaken
- [SPARK-49056][SQL] ErrorClassesJsonReader kan null niet correct verwerken
- [SPARK-48597][SQL] Een markering introduceren voor de eigenschap isStreaming in de tekstweergave van een logisch plan
- [SPARK-49065][SQL] Herstellen in verouderde formatters/parsers moet niet-JVM-standaardtijdzones ondersteunen
- [SPARK-48934][SS] Python-datum/tijdtypen zijn onjuist geconverteerd voor het instellen van time-outs in applyInPandasWithState
- 1 augustus 2024
- Deze release bevat een bugfix voor de
ColumnVector
enColumnarArray
klassen in de Spark Java-interface. Voor deze correctie werd eenArrayIndexOutOfBoundsException
uitgeworpen of werden onjuiste gegevens geretourneerd als een instantie van een van deze klassennull
waarden bevatte. - Op serverloze berekeningen voor notebooks en taken is de ANSI SQL-modus standaard ingeschakeld. Zie Ondersteunde Spark-configuratieparameters.
- Op berekeningen die zijn geconfigureerd met de modus voor gedeelde toegang, hebben Kafka-batchlees- en schrijfbewerkingen nu dezelfde beperkingen afgedwongen als die zijn vastgelegd voor Structured Streaming. Zie Beperkingen en vereisten voor streaming voor de gedeelde toegangsmodus van Unity Catalog.
- De uitvoer van een
SHOW CREATE TABLE
-instructie bevat nu rijfilters of kolommaskers die zijn gedefinieerd in een gerealiseerde weergave of streamingtabel. Zie SHOW CREATE TABLE. Zie Gevoelige tabelgegevens filteren met rijfilters en kolommaskersvoor meer informatie over rijfilters en kolommaskers. - [SPARK-48896][SPARK-48909][SPARK-48883] Backport spark ML Writer-oplossingen
- [SPARK-48889][SS] testStream om statusarchieven te verwijderen voordat u klaar is
- [SPARK-48705][PYTHON] Gebruik expliciet worker_main wanneer deze begint met pyspark
- [SPARK-48047][SQL] Geheugendruk van lege TreeNode-tags verminderen
- [SPARK-48544][SQL] Geheugendruk van lege TreeNode BitSets verminderen
- [SPARK-46957][CORE] Gemigreerde shuffle-bestanden uit bedrijf nemen, moeten kunnen worden opgeschoond vanuit de uitvoerder
- [SPARK-48463] Maak StringIndexer zodat het geneste invoerkolommen ondersteunt
- [SPARK-47202][PYTHON] Typfouten oplossen die datum/tijd veroorzaken met tzinfo
- [SPARK-47713][SQL][CONNECT] Een self-join-probleem oplossen
- Beveiligingsupdates van het besturingssysteem.
- Deze release bevat een bugfix voor de
- 11 juli 2024
- (Gedragsverandering) DataFrames die in cache zijn opgeslagen van Delta-tabelbronnen worden nu ongeldig verklaard als de brontabel wordt overschreven. Deze wijziging betekent dat alle statuswijzigingen in Delta-tabellen nu de resultaten in de cache ongeldig maken. Gebruik
.checkpoint()
om de status van een tabel gedurende de levensduur van een DataFrame te behouden. - Het JDBC-stuurprogramma van Snowflake wordt bijgewerkt naar versie 3.16.1.
- Deze release bevat een oplossing voor een probleem waardoor het tabblad Spark UI-omgeving niet correct wordt weergegeven bij het uitvoeren in Databricks Container Services.
- Op serverloze berekeningen voor notebooks en taken is de ANSI SQL-modus standaard ingeschakeld. Zie ondersteunde Spark-configuratieparameters .
- Als u ongeldige partities wilt negeren bij het lezen van gegevens, kunnen bestand-gebaseerde gegevensbronnen, zoals Parquet, ORC, CSV of JSON, de optie ignoreInvalidPartitionPaths instellen op true. Bijvoorbeeld: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...). U kunt ook de SQL-configuratie spark.sql.files.ignoreInvalidPartitionPaths gebruiken. De optie voor de gegevensbron heeft echter voorrang op de SQL-configuratie. Deze instelling is standaard onwaar.
- [SPARK-48648][PYTHON][VERBINDING MAKEN] SparkConnectClient.tags correct threadlocal maken
- [SPARK-48445][SQL] Niet inline UDF's met dure kinderen
- [SPARK-48481][SQL][SS] OptimizeOneRowPlan niet toepassen op streaminggegevensset
- [SPARK-48383][SS] Werp een betere fout op voor niet-overeenkomende partities in de optie startOffset in Kafka
- [SPARK-48503][SQL] Ongeldige scalaire subquery's oplossen met groeperen op niet-equivalente kolommen die onjuist waren toegestaan
- [SPARK-48100][SQL] Los problemen op bij het overslaan van geneste structuurvelden die niet zijn geselecteerd in schema
- [SPARK-48273][SQL] Late herschrijven van PlanWithUnresolvedIdentifier herstellen
- [SPARK-48252][SQL] CommonExpressionRef bijwerken indien nodig
- [SPARK-48475][PYTHON] Optimaliseren _get_jvm_function in PySpark.
- [SPARK-48292][CORE] Herstellen [SPARK-39195][SQL] Spark OutputCommitCoordinator moet fase afbreken wanneer het vastgelegde bestand niet consistent is met de taakstatus
- Beveiligingsupdates van het besturingssysteem.
- (Gedragsverandering) DataFrames die in cache zijn opgeslagen van Delta-tabelbronnen worden nu ongeldig verklaard als de brontabel wordt overschreven. Deze wijziging betekent dat alle statuswijzigingen in Delta-tabellen nu de resultaten in de cache ongeldig maken. Gebruik
- 17 juni 2024
-
applyInPandasWithState()
is beschikbaar op gedeelde clusters. - Verhelpt een fout waarbij de optimalisatie van het rangschikken van vensters met behulp van Photon TopK partities met structs onjuist behandelde.
- [SPARK-48310][PYTHON][VERBINDING MAKEN] Eigenschappen in cache moeten kopieën retourneren
-
[SPARK-48276][PYTHON][VERBINDING MAKEN] De ontbrekende
__repr__
methode toevoegen voorSQLExpression
- [SPARK-48294][SQL] Kleine letters in nestedTypeMissingElementTypeError verwerken
- Beveiligingsupdates van het besturingssysteem.
-
- 21 mei 2024
- (Gedragswijziging)
dbutils.widgets.getAll()
wordt nu ondersteund om alle widgetwaarden op te halen in een notebook-. - Er is een fout opgelost in de functie try_divide() waarbij invoer met decimalen onverwachte uitzonderingen heeft opgeleverd.
- [SPARK-48056][VERBINDING MAKEN][PYTHON] Plan opnieuw uitvoeren als er een SESSION_NOT_FOUND fout optreedt en er geen gedeeltelijk antwoord is ontvangen
- [SPARK-48146][SQL] Statistische functie in onderliggende expressie-assertie corrigeren
- [SPARK-47986][VERBINDING MAKEN][PYTHON] Kan geen nieuwe sessie maken wanneer de standaardsessie wordt gesloten door de server
- [SPARK-48180][SQL] Fout verbeteren wanneer UDTF-aanroep met TABLE argument haakjes vergeet rond meerdere PARTITION/ORDER BY exprs
- [SPARK-48016][SQL] Een fout in try_divide functie oplossen bij decimalen
- [SPARK-48197][SQL] Voorkom assertiefout voor ongeldige lambda-functie
- [SPARK-47994][SQL] Bug oplossen met de CASE WHEN column filter push down in SQL Server
- [SPARK-48173][SQL] CheckAnalysis zou het hele queryplan moeten zien
- [SPARK-48105][SS] De racevoorwaarde tussen het lossen en momentopnamen van de statusopslag herstellen
- Beveiligingsupdates van het besturingssysteem.
- (Gedragswijziging)
- 9 mei 2024
- (Gedragswijziging)
applyInPandas
enmapInPandas
UDF-typen worden nu ondersteund voor berekeningen in de modus voor gedeelde toegang met Databricks Runtime 14.3 en hoger. - [SPARK-47739][SQL] Logisch avro-type registreren
- [SPARK-47941] [SS] [Verbinding maken] ForeachBatch-werkrolfouten doorgeven aan gebruikers voor PySpark
- [SPARK-48010][SQL] Vermijd herhaalde aanroepen naar conf.resolver in resolveExpression
-
[SPARK-48044][PYTHON][VERBINDING MAKEN] Cache
DataFrame.isStreaming
- [SPARK-47956][SQL] Sanity-controle op onopgeloste LCA-referentie
- [SPARK-47543][VERBINDING MAKEN][PYTHON] Dict uitstellen als Mapype van Pandas DataFrame om het maken van DataFrame toe te staan
- [SPARK-47819][VERBINDING MAKEN][Cherry-pick-14.3] Gebruik asynchrone callback voor het opschonen van de uitvoering
- [SPARK-47764][CORE][SQL] Shuffle-afhankelijkheden opschonen op basis van ShuffleCleanupMode
- [SPARK-48018][SS] Oplossing voor null groupId die ontbrekende param-fout veroorzaakt bij het genereren van KafkaException.couldNotReadOffsetRange
- [SPARK-47839][SQL] Aggregatiefout opgelost in RewriteWithExpression
- [SPARK-47371] [SQL] XML: Rijtags negeren die zijn gevonden in CDATA
- [SPARK-47895][SQL] groeperen op alle moet idempotent zijn
- [SPARK-47973][CORE] Oproepsite voor logboeken in SparkContext.stop() en hoger in SparkContext.assertNotStopped()
- Beveiligingsupdates van het besturingssysteem.
- (Gedragswijziging)
- 25 april 2024
-
[SPARK-47543][VERBINDING MAKEN][PYTHON] Uitstel
dict
MapType
van Pandas DataFrame om het maken van DataFrame toe te staan - [SPARK-47694][VERBINDING MAKEN] Maximale berichtgrootte configureerbaar maken aan de clientzijde
- [SPARK-47664][PYTHON][CONNECT][Cherry-pick-14.3] De kolomnaam valideren met een schema in de cache
- [SPARK-47862][PYTHON][VERBINDING MAKEN]Het genereren van proto-bestanden herstellen
- Herstel [SPARK-47543][CONNECT][PYTHON] Als uitstel
dict
MapType
van Pandas DataFrame om dataframes te maken" - [SPARK-47704][SQL] JSON-parsering mislukt met java.lang.ClassCastException wanneer spark.sql.json.enablePartialResults is ingeschakeld
- [SPARK-47812][VERBINDING MAKEN] Ondersteuning voor serialisatie van SparkSession voor ForEachBatch-werkrol
- [SPARK-47818][VERBINDING MAKEN][Cherry-pick-14.3] Introduceer plancache in SparkConnectPlanner om de prestaties van analyseaanvragen te verbeteren
-
[SPARK-47828][VERBINDING MAKEN][PYTHON]
DataFrameWriterV2.overwrite
mislukt met ongeldig plan - Beveiligingsupdates van het besturingssysteem.
-
[SPARK-47543][VERBINDING MAKEN][PYTHON] Uitstel
- 11 april 2024
- (Gedragswijziging) Om consistent gedrag voor rekentypen te garanderen, komen PySpark UDF's op gedeelde clusters nu overeen met het gedrag van UDF's op niet-isolatie en toegewezen clusters. Deze update bevat de volgende wijzigingen die bestaande code kunnen breken:
- UDF's met een
string
retourtype converteren niet langer impliciet niet-string
waarden naarstring
waarden. Voorheen zouden UDF's met een retourtypestr
de retourwaarde verpakken met eenstr()
functie, ongeacht het werkelijke gegevenstype van de geretourneerde waarde. - UDF's met
timestamp
retourtypen passen geen conversietimestamp
meer impliciet toe op .timezone
- De Spark-clusterconfiguraties
spark.databricks.sql.externalUDF.*
zijn niet langer van toepassing op PySpark UDF's op gedeelde clusters. - De Configuratie van het Spark-cluster
spark.databricks.safespark.externalUDF.plan.limit
heeft geen invloed meer op PySpark UDF's, zodat de openbare preview-beperking van 5 UDF's per query voor PySpark UDF's wordt verwijderd. - De Configuratie van het Spark-cluster
spark.databricks.safespark.sandbox.size.default.mib
is niet meer van toepassing op PySpark UDF's op gedeelde clusters. In plaats daarvan wordt het beschikbare geheugen op het systeem gebruikt. Als u het geheugen van PySpark UDF's wilt beperken, gebruikt uspark.databricks.pyspark.udf.isolation.memoryLimit
met een minimumwaarde van100m
.
- UDF's met een
- Het
TimestampNTZ
gegevenstype wordt nu ondersteund als een clusterkolom met vloeistofclustering. Zie Liquid Clustering gebruiken voor Delta-tabellen. - [SPARK-47511][SQL] Canonicaliseren met expressies door id's opnieuw toe te wijzen
- [SPARK-47509][SQL] Subquery-expressies blokkeren in lambda- en hogere volgordefuncties
- [SPARK-46990][SQL] Probleem oplossen bij het laden van lege Avro-bestanden die worden verzonden door Event Hubs
- [SPARK-47638][PS][CONNECT] Kolomnaamvalidatie overslaan in PS
- Beveiligingsupdates van het besturingssysteem.
- (Gedragswijziging) Om consistent gedrag voor rekentypen te garanderen, komen PySpark UDF's op gedeelde clusters nu overeen met het gedrag van UDF's op niet-isolatie en toegewezen clusters. Deze update bevat de volgende wijzigingen die bestaande code kunnen breken:
- 14 maart 2024
- [SPARK-47135][SS] Foutklassen implementeren voor uitzonderingen voor gegevensverlies in Kafka
- [SPARK-47176][SQL] Een Helper-functie ResolveAllExpressionsUpWithPruning hebben
- [SPARK-47145][SQL] Geef de tabelidentificatie door aan de scan van rijgegevensbronnen voor de V2-strategie.
- [SPARK-47044][SQL] Voer een query voor externe JDBC-gegevensbronnen toe om uitvoer uit te leggen
- [SPARK-47167][SQL] Concrete klasse toevoegen voor anonieme JDBC-relatie
- [SPARK-47070] Ongeldige aggregatie herstellen na herschrijven van subquery
- [SPARK-47121][CORE] Vermijd RejectedExecutionExceptions tijdens het afsluiten standaloneSchedulerBackend
- Herstel "[SPARK-46861][CORE] Voorkom impasse in DAGScheduler"
- [SPARK-47125][SQL] Null retourneren als Univocity nooit parseren activeert
- [SPARK-469999][SQL] ExpressionWithUnresolvedIdentifier moet andere expressies bevatten in de expressiestructuur
-
[SPARK-47129][VERBINDING MAKEN][SQL] Cacheverbindingsplan
ResolveRelations
op de juiste manier maken - [SPARK-47241][SQL] Problemen met regelvolgorde voor ExtractGenerator oplossen
- [SPARK-47035][SS][VERBINDING MAKEN] Protocol voor listener aan clientzijde
- Beveiligingsupdates van het besturingssysteem.
- 29 februari 2024
- Er is een probleem opgelost waarbij het gebruik van een lokale verzameling als bron in een MERGE-opdracht ertoe kon leiden dat de operatiemetriek numSourceRows dubbel het juiste aantal rijen rapporteerde.
- Voor het maken van een schema met een gedefinieerde locatie moet de gebruiker nu over SELECT- en MODIFY-bevoegdheden beschikken voor ieder bestand.
- [SPARK-47071][SQL] Inline met expressie als deze speciale expressie bevat
- [SPARK-47059][SQL] Foutcontext koppelen voor de opdracht ALTER COLUMN v1
- [SPARK-46993][SQL] Constant vouwen voor sessievariabelen herstellen
- Beveiligingsupdates van het besturingssysteem.
- 3 januari 2024
- [SPARK-46933] Voeg metrische gegevens over de uitvoeringstijd van query's toe aan connectors die gebruikmaken van JDBCRDD.
- [SPARK-46763] Er is een fout opgelost met de assertie in ReplaceDeduplicateWithAggregate voor dubbele kenmerken.
- [SPARK-46954] XML: Wrap InputStreamReader met BufferedReader.
-
[SPARK-46655] Sla het vangen van querycontext in
DataFrame
methoden over. - [SPARK-44815] Cache df.schema om extra RPC te voorkomen.
- [SPARK-46952] XML: De grootte van beschadigde records beperken.
- [SPARK-46794] Subqueries verwijderen uit LogicalRDD-beperkingen.
- [SPARK-46736] leeg berichtveld behouden in protobuf-connector.
- [SPARK-45182] Negeer taakvoltooiing uit de oude fase nadat de bovenliggende en onbepaalde fase opnieuw is geprobeerd, zoals wordt bepaald door de controlesom.
- [SPARK-46414] Gebruik prependBaseUri om javascript-importbewerkingen weer te geven.
-
[SPARK-46383] Verminder het heap-gebruik van stuurprogramma's door de levensduur van
TaskInfo.accumulables()
. - [SPARK-46861] Vermijd impasse in DAGScheduler.
- [SPARK-46954] XML: Zoekactie van schemaindex optimaliseren.
- [SPARK-46676] dropDuplicatesWithinWatermark mag niet mislukken bij canonicalisatie van het plan.
- [SPARK-46644] Wijzig toevoegen en samenvoegen in SQLMetric om isZero te gebruiken.
- [SPARK-46731] Beheer het providerexemplaren van de statusopslag per statusgegevensbron - lezer.
-
[SPARK-46677] Oplossing oplossen
dataframe["*"]
. - [SPARK-46610] Tabel maken moet uitzondering genereren wanneer er geen waarde voor een sleutel in opties is.
- [SPARK-46941] Kan het limietknooppunt voor venstergroepen niet invoegen voor top-k-berekeningen als dit SizeBasedWindowFunction bevat.
- [SPARK-45433] Deductie van csv-/JSON-schema herstellen wanneer tijdstempels niet overeenkomen met de opgegeven timestampFormat.
- [SPARK-46930] Voeg ondersteuning toe voor een aangepast voorvoegsel voor union-typevelden in Avro.
- [SPARK-46227] Backport naar 14.3.
- [SPARK-46822] Respect spark.sql.legacy.charVarcharAsString bij het casten van jdbc-type naar katalysatortype in jdbc.
- Beveiligingsupdates van het besturingssysteem.
Databricks Runtime 14.1
- 10 december 2024
- Beveiligingsupdates van het besturingssysteem.
- 26 november 2024
- Beveiligingsupdates van het besturingssysteem.
- 5 november 2024
- [SPARK-49782][SQL] De regel ResolveDataFrameDropColumns lost UnresolvedAttribute op met onderliggende uitvoer
- [SPARK-49905] Toegewezen ShuffleOrigin gebruiken voor stateful operator om te voorkomen dat de willekeurige volgorde wordt gewijzigd vanuit AQE
- 22 oktober 2024
- [SPARK-49782][SQL] De regel ResolveDataFrameDropColumns lost UnresolvedAttribute op met onderliggende uitvoer
- [SPARK-49905] Toegewezen ShuffleOrigin gebruiken voor stateful operator om te voorkomen dat de willekeurige volgorde wordt gewijzigd vanuit AQE
- 10 oktober 2024
- [BACKPORT] [[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Classificeer foutklasse voor FlatMapGroupsWithState-gebruikersfunctie fout
- [SPARK-49743][SQL] OptimizeCsvJsonExpr mag geen schemavelden wijzigen bij het verwijderen van GetArrayStructFields
- Beveiligingsupdates van het besturingssysteem.
- 25 september 2024
- [SPARK-49628][SQL] ConstantFolding moet een stateful expressie kopiëren voordat deze wordt geëvalueerd
- [SPARK-43242][CORE] Fout 'Onverwacht type BlockId' in willekeurige beschadigingsdiagnose opgelost
- [SPARK-48719][SQL] Corrigeer de berekeningsfout van RegrS...
- [SPARK-49000][SQL] Fix "select count(distinct 1) from t" waar t een lege tabel is door het uitbreiden van RewriteDistinctAggregates
- [SPARK-46601] [CORE] Logboekfout in handleStatusMessage oplossen
- Beveiligingsupdates van het besturingssysteem.
- 17 september 2024
- [SPARK-49526][VERBINDING MAKEN] Ondersteuning voor Paden in Windows-stijl in ArtifactManager
- Beveiligingsupdates van het besturingssysteem.
- 29 augustus 2024
- [SPARK-49263][VERBINDING MAKEN] Spark Connect Python-client: Boolean Dataframe Reader-opties consistent verwerken
- [SPARK-49056][SQL] ErrorClassesJsonReader kan null niet correct verwerken
- 14 augustus 2024
- [SPARK-48706][PYTHON] Python UDF in hogere volgorde functies mogen geen interne fout veroorzaken
- [SPARK-48597][SQL] Een markering introduceren voor de eigenschap isStreaming in de tekstweergave van een logisch plan
- [SPARK-49065][SQL] Herstellen in verouderde formatters/parsers moet niet-JVM-standaardtijdzones ondersteunen
- [SPARK-48050][SS] Logische planning registreren bij het starten van de query
- 1 augustus 2024
- Deze release bevat een bugfix voor de
ColumnVector
enColumnarArray
klassen in de Spark Java-interface. Voordat deze oplossing werd toegepast, kon eenArrayIndexOutOfBoundsException
optreden of onjuiste gegevens worden geretourneerd wanneer een instantie van een van deze klassennull
-waarden bevatte. - De uitvoer van een
SHOW CREATE TABLE
-instructie bevat nu rijfilters of kolommaskers die zijn gedefinieerd in een gerealiseerde weergave of streamingtabel. Zie SHOW CREATE TABLE. Zie Gevoelige tabelgegevens filteren met rijfilters en kolommaskersvoor meer informatie over rijfilters en kolommaskers. - [SPARK-48705][PYTHON] Gebruik expliciet worker_main wanneer deze begint met pyspark
- [SPARK-47202][PYTHON] Typfouten oplossen die datum/tijd veroorzaken met tzinfo
- Beveiligingsupdates van het besturingssysteem.
- Deze release bevat een bugfix voor de
- 11 juli 2024
- (gedrag wijzigen) DataFrames die zijn opgeslagen in de cache van Delta-tabelbronnen, worden nu ongeldig als de brontabel wordt overschreven. Deze wijziging betekent dat alle statuswijzigingen in Delta-tabellen nu de resultaten in de cache ongeldig maken. Gebruik
.checkpoint()
om de status van een tabel gedurende de levensduur van een DataFrame te behouden. - Deze release bevat een oplossing voor een probleem waardoor het tabblad Spark UI-omgeving niet correct wordt weergegeven bij het uitvoeren in Databricks Container Services.
- [SPARK-48475][PYTHON] _get_jvm_function in PySpark te optimaliseren.
- [SPARK-48445][SQL] Niet inline UDF's met dure kinderen
- [SPARK-48481][SQL][SS] OptimizeOneRowPlan niet toepassen op streaminggegevensset
- [SPARK-48292][CORE] Herstellen [SPARK-39195][SQL] Spark OutputCommitCoordinator moet fase afbreken wanneer het vastgelegde bestand niet consistent is met de taakstatus
- [SPARK-48503][SQL] Ongeldige scalaire subqueries corrigeren met groeperen op niet-equivalente kolommen die onjuist waren toegestaan
- [SPARK-48273][SQL] Late herschrijven van PlanWithUnresolvedIdentifier herstellen
- [SPARK-48100][SQL] Los problemen op bij het overslaan van geneste structuurvelden die niet zijn geselecteerd in schema
- [SPARK-48383][SS] Werp een betere fout op voor niet-overeenkomende partities in de optie startOffset in Kafka
- Beveiligingsupdates van het besturingssysteem.
- (gedrag wijzigen) DataFrames die zijn opgeslagen in de cache van Delta-tabelbronnen, worden nu ongeldig als de brontabel wordt overschreven. Deze wijziging betekent dat alle statuswijzigingen in Delta-tabellen nu de resultaten in de cache ongeldig maken. Gebruik
- 17 juni 2024
- Verhelpt een bug waarbij de rangschik-vensteroptimalisatie met behulp van Photon TopK onjuist partities met structs behandelde.
-
[SPARK-48276][PYTHON][VERBINDING MAKEN] De ontbrekende
__repr__
methode toevoegen voorSQLExpression
- [SPARK-48277] Foutbericht voor ErrorClassesJsonReader.getErrorMessage verbeteren
- Beveiligingsupdates van het besturingssysteem.
- 21 mei 2024
- (Gedragswijziging)
dbutils.widgets.getAll()
wordt nu ondersteund om alle widgetwaarden op te halen in een notebook-. - [SPARK-47994][SQL] Fout oplossen met CASE WHEN kolomfilter doordrukken in SQLServer
- [SPARK-48105][SS] De racevoorwaarde tussen het lossen en momentopnamen van de statusopslag herstellen
- [SPARK-48173][SQL] CheckAnalysis zou het hele queryplan moeten zien
- Beveiligingsupdates van het besturingssysteem.
- (Gedragswijziging)
- 9 mei 2024
- [SPARK-47371] [SQL] XML: Rijtags negeren die zijn gevonden in CDATA
- [SPARK-47895][SQL] groeperen op alle moet idempotent zijn
- [SPARK-47956][SQL] Sanity-controle op onopgeloste LCA-referentie
-
[SPARK-48044][PYTHON][VERBINDING MAKEN] Cache
DataFrame.isStreaming
- [SPARK-47973][CORE] Oproepsite voor logboeken in SparkContext.stop() en hoger in SparkContext.assertNotStopped()
- Beveiligingsupdates van het besturingssysteem.
- 25 april 2024
- [SPARK-47704][SQL] JSON-parsering mislukt met java.lang.ClassCastException wanneer spark.sql.json.enablePartialResults is ingeschakeld
-
[SPARK-47828][VERBINDING MAKEN][PYTHON]
DataFrameWriterV2.overwrite
mislukt met ongeldig plan - Beveiligingsupdates van het besturingssysteem.
- 11 april 2024
- [SPARK-47638][PS][CONNECT] Kolomnaamvalidatie overslaan in PS
- [SPARK-38708][SQL] Hive Metastore-client upgraden naar de 3.1.3 voor Hive 3.1
- [SPARK-47309][SQL][XML] Schema-inferentie eenheidstests toevoegen
- [SPARK-47509][SQL] Subquery-expressies blokkeren in lambda- en hogere volgordefuncties
- [SPARK-46990][SQL] Probleem oplossen bij het laden van lege Avro-bestanden die worden verzonden door Event Hubs
- Beveiligingsupdates van het besturingssysteem.
- 1 april 2024
- [SPARK-47305][SQL] PruneFilters herstellen om de vlag isStreaming van LocalRelation correct te taggen wanneer het plan zowel batch- als streaming heeft
- [SPARK-47218][SQL] XML: Gecommentareerde rijtags negeren in XML-tokenizer
-
[SPARK-47300][SQL]
quoteIfNeeded
moet identifier die met cijfers begint tussen aanhalingstekens plaatsen - [SPARK-47368][SQL] De inferTimestampNTZ configuratiecontrole in ParquetRowConverter verwijderen
- [SPARK-47070] Ongeldige aggregatie herstellen na herschrijven van subquery
-
[SPARK-47322][PYTHON][CONNECT] Zorg ervoor dat dubbele verwerking van
withColumnsRenamed
kolomnamen consistent is metwithColumnRenamed
- [SPARK-47300] Oplossing voor DecomposerSuite
- [SPARK-47218] [SQL] XML: SchemaOfXml is gewijzigd om te mislukken in de DROPMALFORMED-modus
- [SPARK-47385] Tuple-coderingsprogramma's herstellen met Optie-invoer.
- Beveiligingsupdates van het besturingssysteem.
- 14 maart 2024
- [SPARK-47176][SQL] Een Helper-functie ResolveAllExpressionsUpWithPruning hebben
- [SPARK-47145][SQL] Geef tabelidentifier door aan het uitvoeren van een scan van rijgegevensbronnen voor de V2-strategie.
- [SPARK-47167][SQL] Concrete klasse toevoegen voor anonieme JDBC-relatie
-
[SPARK-47129][VERBINDING MAKEN][SQL] Cacheverbindingsplan
ResolveRelations
op de juiste manier maken - Herstel "[SPARK-46861][CORE] Voorkom impasse in DAGScheduler"
- [SPARK-47044][SQL] Voer een query voor externe JDBC-gegevensbronnen toe om uitvoer uit te leggen
- Beveiligingsupdates van het besturingssysteem.
- 29 februari 2024
- Er is een probleem opgelost waarbij het gebruik van een lokale verzameling als bron in een MERGE-opdracht ertoe kon leiden dat de bewerkingsmetriek numSourceRows het dubbele aantal van het juiste aantal rijen rapporteerde.
- Voor het maken van een schema met een gedefinieerde locatie moet de gebruiker nu over SELECT- en MODIFY-rechten beschikken voor elk bestand.
- U kunt nu XML-bestanden opnemen met behulp van Automatisch laden, read_files, COPY INTO, DLT en DBSQL. XML-bestandsondersteuning kan automatisch schema's afleiden en ontwikkelen, gegevens redden met typefouten, XML valideren met XSD, ONDERSTEUNING bieden voor SQL-expressies zoals from_xml, schema_of_xml en to_xml. Zie ondersteuning voor XML-bestanden voor meer informatie. Als u eerder het externe Spark-XML-pakket had gebruikt, raadpleegt u hier voor migratierichtlijnen.
- [SPARK-46248][SQL] XML: Ondersteuning voor ignoreCorruptFiles en ignoreMissingFiles-opties
- [SPARK-47059][SQL] Foutcontext koppelen voor de opdracht ALTER COLUMN v1
- [SPARK-46954][SQL] XML: InputStreamReader verpakken met BufferedReader
- [SPARK-46954][SQL] XML: Schemaindex opzoeken optimaliseren
- [SPARK-46630][SQL] XML: De naam van het XML-element valideren bij schrijven
- Beveiligingsupdates van het besturingssysteem.
- 8 februari 2024
- CDF-query's (Data Feed) voor gecatalogiseerde weergaven in Unity Catalog worden niet ondersteund en een CDF-query uitvoeren met een gecatalogiseerde weergave in Unity Catalog resulteert in een foutmelding. Streamingtabellen van Unity Catalog ondersteunen CDF-query's op niet-
APPLY CHANGES
tabellen in Databricks Runtime 14.1 en hoger. CDF-query's worden niet ondersteund met streamingtabellen van Unity Catalog in Databricks Runtime 14.0 en eerder. - [SPARK-46952] XML: De grootte van beschadigde records beperken.
- [SPARK-45182] Negeer taakvoltooiing uit de oude fase nadat de bovenliggende en onbepaalde fase opnieuw is geprobeerd, zoals wordt bepaald door de controlesom.
- [SPARK-46794] Subqueries verwijderen uit Logische RDD-beperkingen.
- [SPARK-46933] Voeg metrische gegevens over de uitvoeringstijd van query's toe aan connectors die gebruikmaken van JDBCRDD.
- [SPARK-46861] Vermijd impasse in DAGScheduler.
- [SPARK-45582] Zorg ervoor dat het archiefexemplaren niet worden gebruikt na het aanroepen van doorvoer binnen streamingaggregatie in de uitvoermodus.
- [SPARK-46930] Voeg ondersteuning toe voor een aangepast voorvoegsel voor union-typevelden in Avro.
- [SPARK-46941] Kan het limietknooppunt voor venstergroepen niet invoegen voor top-k-berekeningen als dit SizeBasedWindowFunction bevat.
- [SPARK-46396] Tijdstempeldeductie mag geen uitzondering genereren.
- [SPARK-46822] Respect spark.sql.legacy.charVarcharAsString bij het casten van jdbc-type naar katalysatortype in jdbc.
- [SPARK-45957] Vermijd het genereren van het uitvoeringsplan voor niet-uitvoerbare opdrachten.
- Beveiligingsupdates van het besturingssysteem.
- CDF-query's (Data Feed) voor gecatalogiseerde weergaven in Unity Catalog worden niet ondersteund en een CDF-query uitvoeren met een gecatalogiseerde weergave in Unity Catalog resulteert in een foutmelding. Streamingtabellen van Unity Catalog ondersteunen CDF-query's op niet-
- 31 januari 2024
- [SPARK-46684] Corrieer CoGroup.applyInPandas/Arrow om argumenten correct door te geven.
- [SPARK-46763] Er is een fout opgelost met de assertie in ReplaceDeduplicateWithAggregate voor dubbele kenmerken.
- [SPARK-45498] Opvolgen: Taakvoltooiing van oude fasepogingen negeren.
-
[SPARK-46382] XML: Document bijwerken voor
ignoreSurroundingSpaces
. -
[SPARK-46383] Verminder het heap-gebruik van stuurprogramma's door de levensduur van
TaskInfo.accumulables()
. - [SPARK-46382] XML: Default ignoreSurroundingSpaces to true.
-
[SPARK-46677] Oplossing oplossen
dataframe["*"]
. - [SPARK-46676] dropDuplicatesWithinWatermark mag niet mislukken bij canonicalisatie van het plan.
- [SPARK-46633] Corrigeer Avro-lezer om blokken met lengte nul te verwerken.
- [SPARK-45912] Uitbreiding van XSDToSchema-API: wijzigen in HDFS-API voor toegankelijkheid in cloudopslag.
- [SPARK-46599] XML: TypeCoercion.findTightestCommonType gebruiken voor compatibiliteitscontrole.
- [SPARK-46382] XML: Waarden vastleggen die verspreid zijn tussen elementen.
- [SPARK-46769] Tijdstempelgerelateerde schemadeductie verfijnen.
- [SPARK-46610] Tabel maken moet uitzondering genereren wanneer er geen waarde voor een sleutel in opties is.
- [SPARK-45964] Persoonlijke SQL-accessor verwijderen in XML- en JSON-pakket onder katalysatorpakket.
- Herstel [SPARK-46769] Tijdstempelgerelateerde schemadeductie verfijnen.
-
[SPARK-45962] verwijder
treatEmptyValuesAsNulls
en gebruik in plaats daarvannullValue
optie in XML. - [SPARK-46541] Corrigeer de dubbelzinnige kolomverwijzing in self join.
- Beveiligingsupdates van het besturingssysteem.
- 17 januari 2024
- Het
shuffle
-knooppunt van het uitlegplan dat door een Photon-query wordt geretourneerd, wordt bijgewerkt om de vlagcausedBroadcastJoinBuildOOM=true
toe te voegen wanneer er een out-of-memory-fout optreedt tijdens een shuffle die deel uitmaakt van een broadcast join. - Deze onderhoudsrelease bevat een patch voor de installatie van JDK 8 om JDK-bug JDK-8-fout JDK-8293562 op te lossen om een verhoogde latentie te voorkomen bij de communicatie via TLSv1.3.
-
[SPARK-46538] Het probleem met dubbele kolomverwijzingen in
ALSModel.transform
oplossen. - [SPARK-46417] Niet mislukken bij het aanroepen van hive.getTable en throwException is onwaar.
-
[SPARK-46484] Zorg ervoor dat
resolveOperators
helperfuncties de plan-id behouden. - [SPARK-46153] XML: TimestampNTZType-ondersteuning toevoegen.
- [SPARK-46152] XML: DecimalType-ondersteuning toevoegen bij het afleiden van XML-schema's.
- [SPARK-46145] spark.catalog.listTables genereert geen uitzondering wanneer de tabel of weergave niet wordt gevonden.
- [SPARK-46478] Herstel SPARK-43049 om oracle varchar(255) te gebruiken voor tekenreeksen.
-
[SPARK-46394] Problemen met spark.catalog.listDatabases() in schema's met speciale tekens oplossen wanneer
spark.sql.legacy.keepCommandOutputSchema
op true is ingesteld. -
[SPARK-46337] Bewaar
CTESubstitution
dePLAN_ID_TAG
. - [SPARK-46466] Vectorized Parquet Reader mag nooit opnieuwbase uitvoeren voor timestamp ntz.
- [SPARK-46587] XML: XsD-conversie van groot geheel getal herstellen.
- [SPARK-45814] Maak ArrowConverters.createEmptyArrowBatch call close() om geheugenlekken te voorkomen.
- [SPARK-46132] Ondersteuning voor sleutelwachtwoord voor JKS-sleutels voor RPC SSL.
-
[SPARK-46602]
allowExisting
doorgeven bij het maken van de weergave wanneer de weergave/tabel niet bestaat. - [SPARK-46173] Het overslaan van trimAll-aanroep tijdens het parseren van datums.
- [SPARK-46355] XML: Sluit InputStreamReader bij voltooiing van het lezen.
- [SPARK-46600] Verplaats gedeelde code tussen SqlConf en SqlApiConf naar SqlApiConfHelper.
-
[SPARK-46261]
DataFrame.withColumnsRenamed
moet de volgorde van de dict/kaart behouden. - [SPARK-46056] Corrigeer parquet vectorized read NPE met byteArrayDecimalType standaardwaarde.
-
[SPARK-46260]
DataFrame.withColumnsRenamed
moet de volgorde van de dicteren respecteren. - [SPARK-46250] Deflake test_parity_listener.
- [SPARK-46370] Probleem oplossen bij het uitvoeren van query's vanuit de tabel na het wijzigen van de standaardinstellingen voor kolommen.
- [SPARK-46609] Vermijd exponentiële explosie in PartitioningPreservingUnaryExecNode.
- [SPARK-46058] Voeg een afzonderlijke vlag toe voor privateKeyPassword.
- Het
- 14 december 2023
- Er is een probleem opgelost waarbij escape-onderstrepingstekens in getColumns bewerkingen die afkomstig zijn van JDBC- of ODBC-clients onjuist werden verwerkt en geïnterpreteerd als jokertekens.
- [SPARK-45509] df-kolomverwijzingsgedrag voor Spark Connect oplossen.
- [SPARK-45844] Implementeer hoofdlettergevoeligheid voor XML.
- [SPARK-46141] Wijzig de standaardinstelling voor spark.sql.legacy.ctePrecedencePolicy in CORRECTED.
-
[SPARK-46028]
Column.__getitem__
invoerkolom accepteren. - [SPARK-46255] Ondersteuning voor complex type-> tekenreeksconversie.
- [SPARK-45655] Niet-deterministische expressies toestaan in AggregateFunctions in CollectMetrics.
- [SPARK-45433] Deductie van csv-/JSON-schema herstellen wanneer tijdstempels niet overeenkomen met de opgegeven timestampFormat.
-
[SPARK-45316] Nieuwe parameters
ignoreCorruptFiles
/ignoreMissingFiles
toevoegen aanHadoopRDD
enNewHadoopRDD
. - [SPARK-45852] Probleemloos omgaan met recursiefout tijdens logboekregistratie.
- [SPARK-45920] groeperen op rangtelwoord moet idempotent zijn.
- Beveiligingsupdates van het besturingssysteem.
- 29 november 2023
- Er is een nieuw pakket geïnstalleerd om
pyarrow-hotfix
een pyArrow RCE-beveiligingsprobleem op te lossen. - Er is een probleem opgelost waarbij escape-onderstrepingstekens in
getColumns
bewerkingen die afkomstig zijn van JDBC- of ODBC-clients onjuist werden geïnterpreteerd als jokertekens. - Bij het opnemen van CSV-gegevens met behulp van automatisch laden of streamingtabellen, zijn grote CSV-bestanden nu gesplitst en kunnen ze parallel worden verwerkt tijdens zowel schemadeductie als gegevensverwerking.
-
[SPARK-45892] Planvalidatie van optimizer herstructureren om te ontkoppelen
validateSchemaOutput
envalidateExprIdUniqueness
. - [SPARK-45620] API's met betrekking tot Python UDF gebruiken nu camelCase.
-
[SPARK-44790] Implementatie
to_xml
en bindingen toegevoegd voor Python, Spark Connect en SQL. -
[SPARK-45770] vaste kolomresolutie met
DataFrameDropColumns
voorDataframe.drop
. -
[SPARK-45859] UDF-objecten in
ml.functions
luie gemaakt. -
[SPARK-45730] Verbeterde tijdsbeperkingen voor
ReloadingX509TrustManagerSuite
. - [SPARK-44784] SBT test hermetisch.
- Beveiligingsupdates van het besturingssysteem.
- Er is een nieuw pakket geïnstalleerd om
- 10 november 2023
-
[SPARK-45545]
SparkTransportConf
SSLOptions
neemt over bij het maken. - [SPARK-45250] Er is ondersteuning toegevoegd voor taakresourceprofiel op faseniveau voor yarn-clusters wanneer dynamische toewijzing is uitgeschakeld.
- [SPARK-44753] XML DataFrame reader en writer toegevoegd voor PySpark SQL.
-
[SPARK-45396] Er is een documentvermelding toegevoegd voor
PySpark.ml.connect
de module. -
[SPARK-45584] Er is een fout opgelost bij het uitvoeren van subquery's met
TakeOrderedAndProjectExec
. - [SPARK-45541] SSLFactory toegevoegd.
-
[SPARK-45577] vaste
UserDefinedPythonTableFunctionAnalyzeRunner
om gevouwen waarden van benoemde argumenten door te geven. - [SPARK-45562] Er is een vereiste optie gemaakt voor 'rowTag'.
-
[SPARK-45427] RPC SSL-instellingen toegevoegd aan
SSLOptions
enSparkTransportConf
. - [SPARK-43380] Vertraging opgelost in Avro-leesbewerking.
-
[SPARK-45430]
FramelessOffsetWindowFunction
mislukt niet meer wanneerIGNORE NULLS
enoffset > rowCount
. - [SPARK-45429] Er zijn helperklassen toegevoegd voor SSL RPC-communicatie.
-
[SPARK-45386] een probleem opgelost waarbij
StorageLevel.NONE
onjuist 0 zou retourneren. - [SPARK-44219] Validatiecontroles per regel toegevoegd voor herschrijven van optimalisatie.
-
[SPARK-45543] Een probleem opgelost waarbij
InferWindowGroupLimit
een probleem veroorzaakt als de andere vensterfuncties niet hetzelfde vensterframe hadden als de rangschikkingsachtige functies. - Beveiligingsupdates van het besturingssysteem.
-
[SPARK-45545]
- 27 september 2023
-
[SPARK-44823] Bijgewerkt
black
naar 23.9.1 en foutieve controle opgelost. - [SPARK-45339] PySpark registreert nu fouten die opnieuw worden geprobeerd.
- Revert [SPARK-42946] Heracted gevoelige gegevens genest onder variabele vervangingen.
- [SPARK-44551] bewerkte opmerkingen om te synchroniseren met OSS.
-
[SPARK-45360] Spark Session Builder ondersteunt initialisatie van
SPARK_REMOTE
. -
[SPARK-45279] Gekoppeld
plan_id
aan alle logische plannen. -
[SPARK-45425]
TINYINT
Toegewezen aanShortType
voorMsSqlServerDialect
. -
[SPARK-45419] Toewijzingsvermelding voor bestandsversies van grotere versies is verwijderd om te voorkomen dat sst-bestands-id's opnieuw
rocksdb
worden gebruikt. -
[SPARK-45488] Er is ondersteuning toegevoegd voor waarde in
rowTag
element. -
[SPARK-42205] Logboekregistratie van
Accumulables
inTask/Stage
start-gebeurtenissen inJsonProtocol
gebeurtenislogboeken is verwijderd. -
[SPARK-45426] Er is ondersteuning toegevoegd voor
ReloadingX509TrustManager
. -
[SPARK-45256]
DurationWriter
mislukt bij het schrijven van meer waarden dan de initiële capaciteit. -
[SPARK-43380] Er zijn problemen met conversie van gegevenstypen opgelost
Avro
zonder prestatieregressie te veroorzaken. - [SPARK-45182] Er is ondersteuning toegevoegd voor het terugdraaien van de toewijzingsfase, zodat alle fasetaken opnieuw kunnen worden geprobeerd wanneer de uitvoer van de fase onbepaald is.
-
[SPARK-45399] XML-opties toegevoegd met behulp van
newOption
. - Beveiligingsupdates van het besturingssysteem.
-
[SPARK-44823] Bijgewerkt
Databricks Runtime 13.3 LTS
Zie Databricks Runtime 13.3 LTS.
- 10 december 2024
- Beveiligingsupdates van het besturingssysteem.
- 26 november 2024
- [SPARK-49615] [ML] Zorg ervoor dat alle ML-functietransformators voldoen aan de schema-validatie voor de gegevensset volgens de configuratie-instelling 'spark.sql.caseSensitive'.
- Beveiligingsupdates van het besturingssysteem.
- 5 november 2024
- [SPARK-48843] Oneindige lus voorkomen met BindParameters
- [BACKPORT] [[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Foutklasse classificeren voor foreach sink-gebruikersfunctiefout
- [SPARK-49905] Toegewezen ShuffleOrigin gebruiken voor stateful operator om te voorkomen dat de willekeurige volgorde wordt gewijzigd vanuit AQE
- Beveiligingsupdates van het besturingssysteem.
- 22 oktober 2024
- [SPARK-48843] Oneindige lus voorkomen met BindParameters
- [BACKPORT] [[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Foutklasse classificeren voor foreach-sink-gebruikersfunctie-fout
- [SPARK-49905] Toegewezen ShuffleOrigin gebruiken voor stateful operator om te voorkomen dat de willekeurige volgorde wordt gewijzigd vanuit AQE
- Beveiligingsupdates van het besturingssysteem.
- 10 oktober 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr mag geen schemavelden wijzigen bij het verwijderen van GetArrayStructFields
- 25 september 2024
- [SPARK-46601] [CORE] Logboekfout in handleStatusMessage oplossen
- [SPARK-48719][SQL] Corrigeer de berekeningsfout van RegrSlope & RegrIntercept wanneer de eerste parameter null is
- [SPARK-43242][CORE] Fout 'Onverwacht type BlockId' in willekeurige beschadigingsdiagnose opgelost
- [SPARK-49000][SQL] Fix "select count(distinct 1) from t" waarbij t leeg is door het uitbreiden van RewriteDistinctAggregates
- Beveiligingsupdates van het besturingssysteem.
- 17 september 2024
- [SPARK-49526][VERBINDING MAKEN] Ondersteuning voor Paden in Windows-stijl in ArtifactManager
- [SPARK-48463][ML] Binarizer, Bucketizer, Vector Assembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor die geneste invoerkolommen ondersteunt
- Beveiligingsupdates van het besturingssysteem.
- 29 augustus 2024
- 14 augustus 2024
- [SPARK-49056][SQL] ErrorClassesJsonReader kan null niet correct verwerken
- [SPARK-49065][SQL] Herstellen in verouderde formatters/parsers moet niet-JVM-standaardtijdzones ondersteunen
- [SPARK-48597][SQL] Een markering introduceren voor de eigenschap isStreaming in de tekstweergave van een logisch plan
- 1 augustus 2024
- Deze release bevat een bugfix voor de
ColumnVector
enColumnarArray
klassen in de Spark Java-interface. Voor deze correctie kon eenArrayIndexOutOfBoundsException
worden gegenereerd of onjuiste gegevens worden geretourneerd wanneer een instantie van een van deze klassennull
waarden bevatte. - [SPARK-47202][PYTHON] Typfouten oplossen die datum/tijd veroorzaken met tzinfo
- [SPARK-48896][SPARK-48909][SPARK-48883] Backport spark ML Writer-oplossingen
- [SPARK-48463] Maken dat StringIndexer geneste invoerkolommen ondersteunt
- Beveiligingsupdates van het besturingssysteem.
- Deze release bevat een bugfix voor de
- 11 juli 2024
- (Gedragswijziging) DataFrames die in de cache zijn opgeslagen met betrekking tot Delta-tabelbronnen, worden nu ongeldig als de brontabel wordt overschreven. Deze wijziging betekent dat alle statuswijzigingen in Delta-tabellen nu de resultaten in de cache ongeldig maken. Gebruik
.checkpoint()
om de status van een tabel gedurende de levensduur van een DataFrame te behouden. - Deze release bevat een oplossing voor een probleem waardoor het tabblad Spark UI-omgeving niet correct wordt weergegeven bij het uitvoeren in Databricks Container Services.
- [SPARK-48383][SS] Werp een betere fout op voor niet-overeenkomende partities in de optie startOffset in Kafka
- [SPARK-48292][CORE] Herstellen [SPARK-39195][SQL] Spark OutputCommitCoordinator moet fase afbreken wanneer het vastgelegde bestand niet consistent is met de taakstatus
- [SPARK-48503][SQL] Ongeldige scalaire subquery's oplossen met groeperen op niet-equivalente kolommen die onjuist waren toegestaan
- [SPARK-48481][SQL][SS] OptimizeOneRowPlan niet toepassen op streaminggegevensset
- [SPARK-48475][PYTHON] De _get_jvm_function in PySpark optimaliseren.
- [SPARK-48273][SQL] Late herschrijven van PlanWithUnresolvedIdentifier herstellen
- [SPARK-48445][SQL] Niet inline UDF's met dure kinderen
- Beveiligingsupdates van het besturingssysteem.
- (Gedragswijziging) DataFrames die in de cache zijn opgeslagen met betrekking tot Delta-tabelbronnen, worden nu ongeldig als de brontabel wordt overschreven. Deze wijziging betekent dat alle statuswijzigingen in Delta-tabellen nu de resultaten in de cache ongeldig maken. Gebruik
- 17 juni 2024
- [SPARK-48277] Foutbericht voor ErrorClassesJsonReader.getErrorMessage verbeteren
- Beveiligingsupdates van het besturingssysteem.
- 21 mei 2024
- (Gedragswijziging)
dbutils.widgets.getAll()
wordt nu ondersteund om alle widgetwaarden op te halen in een notebook-. - [SPARK-48105][SS] De racevoorwaarde tussen het lossen en momentopnamen van de statusopslag herstellen
- [SPARK-47994][SQL] Opgeloste fout met CASE WHEN column filter push down in SQLServer
- Beveiligingsupdates van het besturingssysteem.
- (Gedragswijziging)
- 9 mei 2024
- [SPARK-47956][SQL] Sanity-controle op onopgeloste LCA-referentie
- [SPARK-46822][SQL] Respect spark.sql.legacy.charVarcharAsString bij het casten van jdbc-type naar katalysatortype in jdbc
- [SPARK-47895][SQL] groeperen op alle moet idempotent zijn
- [SPARK-48018][SS] Oplossing voor null groupId die ontbrekende param-fout veroorzaakt bij het genereren van KafkaException.couldNotReadOffsetRange
- [SPARK-47973][CORE] Oproepsite voor logboeken in SparkContext.stop() en hoger in SparkContext.assertNotStopped()
- Beveiligingsupdates van het besturingssysteem.
- 25 april 2024
- [SPARK-44653][SQL] Niet-triviale DataFrame-samenvoegingen mogen caching niet breken
- Diverse bugfixes.
- 11 april 2024
- [SPARK-47509][SQL] Subquery-expressies blokkeren in lambda- en hogere volgordefuncties
- Beveiligingsupdates van het besturingssysteem.
- 1 april 2024
- [SPARK-47385] Tuple-coderingsprogramma's herstellen met Optie-invoer.
- [SPARK-38708][SQL] Hive Metastore-client upgraden naar de 3.1.3 voor Hive 3.1
- [SPARK-47200][SS] Foutklasse voor foreach batch-sinkgebruikersfunctiefout
- [SPARK-47368][SQL] Verwijder de inferTimestampNTZ-configuratiecontrole in ParquetRowConverter
- [SPARK-44252][SS] Definieer een nieuwe foutklasse en pas deze toe op het geval waarin de laadstatus van DFS mislukt
- [SPARK-47135][SS] Foutklassen implementeren voor uitzonderingen voor gegevensverlies in Kafka
-
[SPARK-47300][SQL]
quoteIfNeeded
moet een identificator die begint met cijfers tussen aanhalingstekens plaatsen - [SPARK-47305][SQL] PruneFilters herstellen om de vlag isStreaming van LocalRelation correct te taggen wanneer het plan zowel batch- als streaming heeft
- [SPARK-47070] Ongeldige aggregatie herstellen na herschrijven van subquery
- Beveiligingsupdates van het besturingssysteem.
- 14 maart 2024
- [SPARK-47145][SQL] Geef tabelidentificator door aan de row data source scan-executie voor V2-strategie.
- [SPARK-47167][SQL] Concrete klasse toevoegen voor anonieme JDBC-relatie
- [SPARK-47176][SQL] Een Helper-functie ResolveAllExpressionsUpWithPruning hebben
- [SPARK-47044][SQL] Voer een query voor externe JDBC-gegevensbronnen toe om uitvoer uit te leggen
- [SPARK-47125][SQL] Null retourneren als Univocity nooit parseren activeert
- Beveiligingsupdates van het besturingssysteem.
- 29 februari 2024
- Er is een probleem opgelost waarbij het gebruik van een lokale verzameling als bron in een MERGE-opdracht ertoe kon leiden dat de operationele metric numSourceRows een verdubbeling van het juiste aantal rijen rapporteerde.
- Voor het maken van een schema met een gedefinieerde locatie moet de gebruiker nu over SELECT- en MODIFY-bevoegdheden beschikken voor elk bestand.
- Beveiligingsupdates van het besturingssysteem.
- 8 februari 2024
- CDF-queries voor gematerialiseerde Unity Catalog-weergaven worden niet ondersteund, en het uitvoeren van een CDF-query met een gematerialiseerde Unity Catalog-weergave resulteert in een fout. Streamingtabellen van Unity Catalog ondersteunen CDF-query's op niet-
APPLY CHANGES
tabellen in Databricks Runtime 14.1 en hoger. CDF-query's worden niet ondersteund met streamingtabellen van Unity Catalog in Databricks Runtime 14.0 en eerder. - [SPARK-46794] Subquery's verwijderen uit LogischeRDD-beperkingen.
- [SPARK-46933] Voeg metrische gegevens over de uitvoeringstijd van query's toe aan connectors die gebruikmaken van JDBCRDD.
- [SPARK-45582] Zorg ervoor dat het archiefexemplaren niet worden gebruikt na het aanroepen van doorvoer binnen streamingaggregatie in de uitvoermodus.
- [SPARK-46396] Tijdstempeldeductie mag geen uitzondering genereren.
- [SPARK-46861] Vermijd impasse in DAGScheduler.
- [SPARK-46941] Kan het limietknooppunt voor venstergroepen niet invoegen voor top-k-berekeningen als dit SizeBasedWindowFunction bevat.
- Beveiligingsupdates van het besturingssysteem.
- CDF-queries voor gematerialiseerde Unity Catalog-weergaven worden niet ondersteund, en het uitvoeren van een CDF-query met een gematerialiseerde Unity Catalog-weergave resulteert in een fout. Streamingtabellen van Unity Catalog ondersteunen CDF-query's op niet-
- 31 januari 2024
- [SPARK-46610] Tabel maken moet uitzondering genereren wanneer er geen waarde voor een sleutel in opties is.
- [SPARK-46383] Verminder het heap-gebruik van stuurprogramma's door de levensduur van TaskInfo.accumulables() te verminderen.
- [SPARK-46600] Verplaats gedeelde code tussen SqlConf en SqlApiConf naar SqlApiConfHelper.
- [SPARK-46676] dropDuplicatesWithinWatermark mag niet mislukken bij canonicalisatie van het plan.
- [SPARK-46763] Er is een fout opgelost met de assertie in ReplaceDeduplicateWithAggregate voor dubbele kenmerken.
- Beveiligingsupdates van het besturingssysteem.
- 17 januari 2024
- Het
shuffle
knooppunt van het uitlegplan dat door een Photon-query wordt geretourneerd, wordt bijgewerkt om decausedBroadcastJoinBuildOOM=true
vlag toe te voegen wanneer er een out-of-memory-fout optreedt tijdens een shuffle die deel uitmaakt van een broadcast-join. - Deze onderhoudsrelease bevat een patch voor de installatie van JDK 8 om JDK-bug JDK-8-fout JDK-8293562 op te lossen om een verhoogde latentie te voorkomen bij de communicatie via TLSv1.3.
- [SPARK-46058] Voeg een afzonderlijke vlag toe voor privateKeyPassword.
- [SPARK-46173] Het overslaan van trimAll-aanroep tijdens het parseren van datums.
- [SPARK-46370] Probleem oplossen bij het uitvoeren van query's vanuit de tabel na het wijzigen van de standaardinstellingen voor kolommen.
- [SPARK-46370] Probleem oplossen bij het uitvoeren van query's vanuit de tabel na het wijzigen van de standaardinstellingen voor kolommen.
- [SPARK-46370] Probleem oplossen bij het uitvoeren van query's vanuit de tabel na het wijzigen van de standaardinstellingen voor kolommen.
- [SPARK-46609] Vermijd exponentiële explosie in PartitioningPreservingUnaryExecNode.
- [SPARK-46132] Ondersteuning voor sleutelwachtwoord voor JKS-sleutels voor RPC SSL.
-
[SPARK-46602]
allowExisting
doorgeven tijdens het maken van een weergave wanneer de weergave/tabel niet bestaat. - [SPARK-46249] Instantievergrendeling vereisen voor het verkrijgen van metrische gegevens van RocksDB om racen met achtergrondbewerkingen te voorkomen.
- [SPARK-46417] Niet mislukken bij het aanroepen van hive.getTable en throwException is onwaar.
-
[SPARK-46538] Het probleem met dubbele kolomverwijzingen in
ALSModel.transform
oplossen. - [SPARK-46478] Herstel SPARK-43049 om oracle varchar(255) te gebruiken voor tekenreeksen.
- [SPARK-46250] Deflake test_parity_listener.
-
[SPARK-46394] Problemen met spark.catalog.listDatabases() in schema's met speciale tekens verhelpen wanneer
spark.sql.legacy.keepCommandOutputSchema
is ingesteld op true. - [SPARK-46056] Corrigeer parquet vectorized read NPE met byteArrayDecimalType standaardwaarde.
- [SPARK-46145] spark.catalog.listTables genereert geen uitzondering wanneer de tabel of weergave niet wordt gevonden.
- [SPARK-46466] Vectorized Parquet Reader mag nooit opnieuwbase uitvoeren voor timestamp ntz.
- Het
- 14 december 2023
- Er is een probleem opgelost waarbij escape-onderstrepingstekens in getColumns bewerkingen die afkomstig zijn van JDBC- of ODBC-clients onjuist werden verwerkt en geïnterpreteerd als jokertekens.
- [SPARK-45920] groeperen op rangtelwoord moet idempotent zijn.
- [SPARK-44582] Sla iterator over op SMJ als deze is opgeschoond.
- [SPARK-45433] Deductie van csv-/JSON-schema herstellen wanneer tijdstempels niet overeenkomen met de opgegeven timestampFormat.
- [SPARK-45655] Niet-deterministische expressies toestaan in AggregateFunctions in CollectMetrics.
- Beveiligingsupdates van het besturingssysteem.
- 29 november 2023
- Er is een nieuw pakket geïnstalleerd om
pyarrow-hotfix
een pyArrow RCE-beveiligingsprobleem op te lossen. - Spark-snowflake-connector wordt bijgewerkt naar 2.12.0.
-
[SPARK-44846] Complexe groeperingsexpressies na
RemoveRedundantAggregates
verwijderd. -
[SPARK-45544] Geïntegreerde SSL-ondersteuning in
TransportContext
. -
[SPARK-45892] Planvalidatie van optimizer herstructureren om te ontkoppelen
validateSchemaOutput
envalidateExprIdUniqueness
. -
[SPARK-45730] Verbeterde tijdsbeperkingen voor
ReloadingX509TrustManagerSuite
. -
[SPARK-45859] UDF-objecten in
ml.functions
luie gemaakt. - Beveiligingsupdates van het besturingssysteem.
- Er is een nieuw pakket geïnstalleerd om
- 10 november 2023
- Partitiefilters op Delta Lake-streamingquery's worden omlaag gepusht voordat snelheidsbeperking wordt bereikt om beter gebruik te bereiken.
- Queries voor datafeeds in streamingtabellen van Unity Catalog en gematerialiseerde weergaven zijn gewijzigd om foutmeldingen weer te geven.
-
[SPARK-45545]
SparkTransportConf
SSLOptions
neemt over bij het maken. -
[SPARK-45584] Er is een fout opgelost bij het uitvoeren van subquery's met
TakeOrderedAndProjectExec
. -
[SPARK-45427] RPC SSL-instellingen toegevoegd aan
SSLOptions
enSparkTransportConf
. -
[SPARK-45541] Toegevoegd
SSLFactory
. -
[SPARK-45430]
FramelessOffsetWindowFunction
mislukt niet meer wanneerIGNORE NULLS
enoffset > rowCount
. - [SPARK-45429] Er zijn helperklassen toegevoegd voor SSL RPC-communicatie.
- [SPARK-44219] Extra validaties per regel toegevoegd voor herschrijfbewerkingen voor optimalisatie.
-
[SPARK-45543] Een probleem opgelost waarbij
InferWindowGroupLimit
een probleem veroorzaakt als de andere vensterfuncties niet hetzelfde vensterframe hadden als de rangschikkingsachtige functies. - Beveiligingsupdates van het besturingssysteem.
- 23 oktober 2023
-
[SPARK-45256] een probleem opgelost waarbij
DurationWriter
mislukt bij het schrijven van meer waarden dan de initiële capaciteit. -
[SPARK-45419] Vermijd het hergebruik van
rocksdb sst
bestanden in een anderrocksdb
exemplaar door vermeldingen van bestandsversietoewijzingen van grotere versies te verwijderen. -
[SPARK-45426] Er is ondersteuning toegevoegd voor
ReloadingX509TrustManager
. - Diverse oplossingen.
-
[SPARK-45256] een probleem opgelost waarbij
- 13 oktober 2023
- Snowflake-jdbc-afhankelijkheid is bijgewerkt van 3.13.29 naar 3.13.33.
- De
array_insert
functie is 1 gebaseerd op positieve en negatieve indexen, terwijl deze eerder op 0 was gebaseerd voor negatieve indexen. Er wordt nu een nieuw element ingevoegd aan het einde van invoermatrices voor de index -1. Als u het vorige gedrag wilt herstellen, stelt uspark.sql.legacy.negativeIndexInArrayInsert
in optrue
. - Er is een probleem opgelost waarbij beschadigde bestanden niet worden genegeerd wanneer
ignoreCorruptFiles
is ingeschakeld tijdens deductie van csv-schema's met automatisch laden. - [SPARK-42946] herstellen.
- [SPARK-42205] Het JSON-protocol bijgewerkt om het loggen van Accumulables bij de start van een taak of fase te verwijderen.
-
[SPARK-45178] Terugval naar het uitvoeren van één batch voor
Trigger.AvailableNow
met niet-ondersteunde bronnen in plaats van de wrapper te gebruiken. -
[SPARK-45316] Nieuwe parameters
ignoreCorruptFiles
enignoreMissingFiles
toevoegen aanHadoopRDD
enNewHadoopRDD
. - [SPARK-44740] vaste metagegevenswaarden voor artefacten.
-
[SPARK-45360] Geïnitialiseerde Configuratie van Spark-sessiebouwer van
SPARK_REMOTE
. - [SPARK-44551] bewerkte opmerkingen om te synchroniseren met OSS.
- [SPARK-45346] Parquet-schema-afleiding respecteert nu hoofdlettergevoeligheidsvlaggen bij het samenvoegen van schema's.
-
[SPARK-44658]
ShuffleStatus.getMapStatus
retourneertNone
nu in plaats vanSome(null)
. -
[SPARK-44840] Gemaakt
array_insert()
op basis van 1 voor negatieve indexen.
- 14 september 2023
-
[SPARK-44873] Ondersteuning toegevoegd voor
alter view
met geneste kolommen in Hive-client. -
[SPARK-44878] Strikte limiet voor
RocksDB
schrijfbeheer uitgeschakeld om invoeguitzondering te voorkomen bij het volledig maken van de cache.
-
[SPARK-44873] Ondersteuning toegevoegd voor
- 30 augustus 2023
- De opdracht dbutils
cp
(dbutils.fs.cp
) is geoptimaliseerd voor sneller kopiëren. Met deze verbetering kunnen kopieerbewerkingen tot 100 minder tijd duren, afhankelijk van de bestandsgrootte. De functie is beschikbaar in alle clouds en bestandssystemen die toegankelijk zijn in Databricks, inclusief voor Unity Catalog-volumes en DBFS-koppelingen. -
[SPARK-44455] Aanhalingstekens met backticks in het
SHOW CREATE TABLE
resultaat. - [SPARK-44763] Er is een probleem opgelost waarbij een tekenreeks werd weergegeven als een dubbele waarde in binaire rekenkundige bewerkingen met interval.
-
[SPARK-44871] Vast
percentile_disc
gedrag. - [SPARK-44714] Beperking van LCA-resolutie met betrekking tot query's vereenvoudigen.
-
[SPARK-44818] Vaste race voor taakonderbreeding in behandeling uitgegeven voordat
taskThread
deze wordt geïnitialiseerd. - [SPARK-44505] Onderdrukking toegevoegd voor kolomondersteuning in Scan voor DSv2.
- [SPARK-44479] De protobuf-conversie van een leeg structtype is opgelost.
-
[SPARK-44718] De
ColumnVector
standaardconfiguratie van de geheugenmodus afstemmen opOffHeapMemoryMode
de configuratiewaarde. -
[SPARK-42941] Er is ondersteuning toegevoegd voor
StreamingQueryListener
in Python. - [SPARK-44558] Exporteer het Spark Connect-logboekniveau van PySpark.
-
[SPARK-44464] Vaste
applyInPandasWithStatePythonRunner
voor uitvoerrijen met Null als eerste kolomwaarde. -
[SPARK-44643] Opgelost
Row.__repr__
wanneer het veld een lege rij is. - Beveiligingsupdates van het besturingssysteem.
- De opdracht dbutils
Databricks Runtime 12.2 LTS
Zie Databricks Runtime 12.2 LTS.
- 10 december 2024
- Beveiligingsupdates van het besturingssysteem.
- 26 november 2024
- Diverse bugfixes.
- 10 oktober 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr mag geen schemavelden wijzigen bij het verwijderen van GetArrayStructFields
- 25 september 2024
- [SPARK-49000][SQL] "select count(distinct 1) from t" corrigeren wanneer t een lege tabel is door RewriteDistinctAggregates uit te breiden.
- [SPARK-46601] [CORE] Logboekfout in handleStatusMessage oplossen
- Diverse bugfixes.
- 17 september 2024
- Beveiligingsupdates van het besturingssysteem.
- 29 augustus 2024
- Diverse bugfixes.
- 14 augustus 2024
- [SPARK-48941][SPARK-48970] Backport ML writer/reader fixes
- [SPARK-49065][SQL] Herstellen in verouderde formatters/parsers moet niet-JVM-standaardtijdzones ondersteunen
- [SPARK-49056][SQL] ErrorClassesJsonReader kan null niet correct verwerken
- [SPARK-48597][SQL] Een markering introduceren voor de eigenschap isStreaming in de tekstweergave van een logisch plan
- [SPARK-48463][ML] Tekenreeks-indexer maken die geneste invoerkolommen ondersteunt
- Beveiligingsupdates van het besturingssysteem.
- 1 augustus 2024
- [SPARK-48896][SPARK-48909][SPARK-48883] Backport spark ML Writer-oplossingen
- 1 augustus 2024
- Als u vereiste beveiligingspatches wilt toepassen, wordt de Python-versie in Databricks Runtime 12.2 LTS bijgewerkt van 3.9.5 naar 3.9.19.
- 11 juli 2024
- (gedrag wijzigen) DataFrames die zijn opgeslagen in de cache van Delta-tabelbronnen, worden nu ongeldig als de brontabel wordt overschreven. Deze wijziging betekent dat alle statuswijzigingen in Delta-tabellen nu de resultaten in de cache ongeldig maken. Gebruik
.checkpoint()
om de status van een tabel gedurende de levensduur van een DataFrame te behouden. - [SPARK-48481][SQL][SS] OptimizeOneRowPlan niet toepassen op streaminggegevensset
- [SPARK-47070] Ongeldige aggregatie herstellen na herschrijven van subquery
- [SPARK-42741][SQL] Niet uitpakken van casts in binaire vergelijking wanneer letterlijke waarde null is
- [SPARK-48445][SQL] Niet inline UDF's met dure kinderen
- [SPARK-48503][SQL] Ongeldige scalaire subquery's oplossen met groeperen op niet-equivalente kolommen die onjuist waren toegestaan
- [SPARK-48383][SS] Werp een betere fout op voor niet-overeenkomende partities in de optie startOffset in Kafka
- Beveiligingsupdates van het besturingssysteem.
- (gedrag wijzigen) DataFrames die zijn opgeslagen in de cache van Delta-tabelbronnen, worden nu ongeldig als de brontabel wordt overschreven. Deze wijziging betekent dat alle statuswijzigingen in Delta-tabellen nu de resultaten in de cache ongeldig maken. Gebruik
- 17 juni 2024
- [SPARK-48277] Foutbericht voor ErrorClassesJsonReader.getErrorMessage verbeteren
- Diverse bugfixes.
- 21 mei 2024
- [SPARK-48105][SS] De racevoorwaarde tussen het lossen en momentopnamen van de statusopslag herstellen
- Beveiligingsupdates van het besturingssysteem.
- 9 mei 2024
- [SPARK-44251][SQL] Stel nullable correct in op de samengevoegde joinsleutel in volledige outer USING-join
- [SPARK-47973][CORE] Oproepsite voor logboeken in SparkContext.stop() en hoger in SparkContext.assertNotStopped()
- [SPARK-47956][SQL] Sanity-controle op onopgeloste LCA-referentie
- [SPARK-48018][SS] Oplossing voor null groupId die ontbrekende param-fout veroorzaakt bij het genereren van KafkaException.couldNotReadOffsetRange
- Beveiligingsupdates van het besturingssysteem.
- 25 april 2024
- Beveiligingsupdates van het besturingssysteem.
- 11 april 2024
- Beveiligingsupdates van het besturingssysteem.
- 1 april 2024
- [SPARK-47305][SQL] PruneFilters herstellen om de vlag isStreaming van LocalRelation correct te taggen wanneer het plan zowel batch- als streaming heeft
- [SPARK-44252][SS] Definieer een nieuwe foutklasse en pas deze toe op het geval waarin de laadstatus van DFS mislukt
- [SPARK-47135][SS] Foutklassen implementeren voor uitzonderingen voor gegevensverlies in Kafka
- [SPARK-47200][SS] Foutklasse voor foreach batch-sinkgebruikersfunctiefout
- Beveiligingsupdates van het besturingssysteem.
- 14 maart 2024
- [SPARK-47176][SQL] Een Helper-functie ResolveAllExpressionsUpWithPruning hebben
- Herstel "[SPARK-46861][CORE] Voorkom impasse in DAGScheduler"
- [SPARK-47125][SQL] Null retourneren als Univocity nooit parseren activeert
- [SPARK-47167][SQL] Concrete klasse toevoegen voor anonieme JDBC-relatie
- Beveiligingsupdates van het besturingssysteem.
- 29 februari 2024
- Er is een probleem opgelost waarbij het gebruik van een lokale verzameling als bron in een MERGE-opdracht ertoe kon leiden dat de operationele metriek numSourceRows het dubbele van het juiste aantal rijen rapporteerde.
- Om een schema met een bepaalde locatie te maken moet de gebruiker nu over SELECT- en MODIFY-bevoegdheden beschikken voor elk bestand.
- [SPARK-45582][SS] Zorg ervoor dat het archiefexemplaren niet worden gebruikt na het aanroepen van doorvoer binnen streamingaggregatie in de uitvoermodus
- Beveiligingsupdates van het besturingssysteem.
- 13 februari 2024
- [SPARK-46861] Vermijd impasse in DAGScheduler.
- [SPARK-46794] Verwijder subquery's uit logische RDD-beperkingen.
- Beveiligingsupdates van het besturingssysteem.
- 31 januari 2024
- [SPARK-46763] Er is een fout opgelost met de assertie in ReplaceDeduplicateWithAggregate voor dubbele kenmerken.
- Beveiligingsupdates van het besturingssysteem.
- 25 december 2023
- Deze onderhoudsrelease bevat een patch voor de installatie van JDK 8 om JDK-bug JDK-8-fout JDK-8293562 op te lossen om een verhoogde latentie te voorkomen bij de communicatie via TLSv1.3.
- [SPARK-39440] Voeg een configuratie toe om de tijdlijn voor gebeurtenissen uit te schakelen.
- [SPARK-46132] Ondersteuning voor sleutelwachtwoord voor JKS-sleutels voor RPC SSL.
-
[SPARK-46394] Problemen met spark.catalog.listDatabases() oplossen voor schema's met speciale tekens wanneer
spark.sql.legacy.keepCommandOutputSchema
op true is ingesteld. - [SPARK-46417] Niet mislukken bij het aanroepen van hive.getTable en throwException is onwaar.
- [SPARK-43067] Corrigeer de locatie van het resourcebestand van de foutklasse in de Kafka-connector.
- [SPARK-46249] Instantievergrendeling vereisen voor het verkrijgen van metrische gegevens van RocksDB om racen met achtergrondbewerkingen te voorkomen.
-
[SPARK-46602]
allowExisting
doorgeven bij het aanmaken van een view wanneer de view/tabel niet bestaat. - [SPARK-46058] Voeg een afzonderlijke vlag toe voor privateKeyPassword.
- [SPARK-46145] spark.catalog.listTables genereert geen uitzondering wanneer de tabel of weergave niet wordt gevonden.
-
[SPARK-46538] Het probleem met dubbele kolomverwijzingen in
ALSModel.transform
oplossen. - [SPARK-42852] Revert NamedLambdaVariable related changes from EquivalentExpressions.
- 14 december 2023
- Er is een probleem opgelost waarbij geëscapete onderstrepingstekens in getColumns-bewerkingen die afkomstig zijn van JDBC- of ODBC-clients onjuist werden verwerkt en als jokertekens werden geïnterpreteerd.
- [SPARK-44582] Sla iterator over op SMJ als deze is opgeschoond.
- [SPARK-45920] groeperen op rangtelwoord moet idempotent zijn.
- [SPARK-45655] Niet-deterministische expressies toestaan in AggregateFunctions in CollectMetrics.
- Beveiligingsupdates van het besturingssysteem.
- 29 november 2023
- Er is een nieuw pakket geïnstalleerd om
pyarrow-hotfix
een pyArrow RCE-beveiligingsprobleem op te lossen. - Er is een probleem opgelost waarbij escape-onderstrepingstekens in
getColumns
bewerkingen die afkomstig zijn van JDBC- of ODBC-clients onjuist werden geïnterpreteerd als jokertekens. -
[SPARK-42205] Logboekregistratieaccumulaties zijn verwijderd in
Stage
enTask
starten van gebeurtenissen. -
[SPARK-44846] Complexe groeperingsexpressies na
RemoveRedundantAggregates
verwijderd. -
[SPARK-43718] De null-waarde voor sleutels in
USING
joins is opgelost. -
[SPARK-45544] Geïntegreerde SSL-ondersteuning in
TransportContext
. - [SPARK-43973] In de gestructureerde streaming-gebruikersinterface worden nu mislukte query's correct weergegeven.
-
[SPARK-45730] Verbeterde tijdsbeperkingen voor
ReloadingX509TrustManagerSuite
. -
[SPARK-45859] UDF-objecten in
ml.functions
luie gemaakt. - Beveiligingsupdates van het besturingssysteem.
- Er is een nieuw pakket geïnstalleerd om
- 14 november 2023
- Partitiefilters op Delta Lake-streamingquery's worden omlaag gepusht voordat snelheidsbeperking wordt bereikt om beter gebruik te bereiken.
-
[SPARK-45545]
SparkTransportConf
SSLOptions
neemt over bij het maken. -
[SPARK-45427] RPC SSL-instellingen toegevoegd aan
SSLOptions
enSparkTransportConf
. -
[SPARK-45584] Er is een fout opgelost bij het uitvoeren van subquery's met
TakeOrderedAndProjectExec
. -
[SPARK-45541] Toegevoegd
SSLFactory
. -
[SPARK-45430]
FramelessOffsetWindowFunction
mislukt niet meer wanneerIGNORE NULLS
enoffset > rowCount
. - [SPARK-45429] Er zijn helperklassen toegevoegd voor SSL RPC-communicatie.
- Beveiligingsupdates van het besturingssysteem.
- 24 oktober 2023
-
[SPARK-45426] Er is ondersteuning toegevoegd voor
ReloadingX509TrustManager
. - Diverse oplossingen.
-
[SPARK-45426] Er is ondersteuning toegevoegd voor
- 13 oktober 2023
- Snowflake-jdbc-afhankelijkheid is bijgewerkt van 3.13.29 naar 3.13.33.
- [SPARK-42553] Zorg ervoor dat er ten minste één tijdseenheid na het interval is.
- [SPARK-45346] Parquet-schemadeductie respecteert hoofdlettergevoelige vlag bij het samenvoegen van het schema.
-
[SPARK-45178] Terugval naar het uitvoeren van één batch voor
Trigger.AvailableNow
met niet-ondersteunde bronnen in plaats van de wrapper te gebruiken. -
[SPARK-45084]
StateOperatorProgress
om een nauwkeurig en adequaat partitienummer te gebruiken.
- 12 september 2023
-
[SPARK-44873] Ondersteuning toegevoegd voor
alter view
met geneste kolommen in de Hive-client. -
[SPARK-44718] De
ColumnVector
standaardconfiguratie van de geheugenmodus afstemmen opOffHeapMemoryMode
de configuratiewaarde. -
[SPARK-43799] Binaire optie voor de descriptor toegevoegd aan de PySpark-API
Protobuf
. - Diverse oplossingen.
-
[SPARK-44873] Ondersteuning toegevoegd voor
- 30 augustus 2023
-
[SPARK-44485] Geoptimaliseerd
TreeNode.generateTreeString
. -
[SPARK-44818] Vaste race voor taakonderbreeding in behandeling uitgegeven voordat
taskThread
deze wordt geïnitialiseerd. -
[SPARK-44871][11.3-13.0] Vast
percentile_disc
gedrag. - [SPARK-44714] Beperkte beperking van LCA-omzetting met betrekking tot query's.
- Beveiligingsupdates van het besturingssysteem.
-
[SPARK-44485] Geoptimaliseerd
- 15 augustus 2023
- [SPARK-44504] onderhoudstaak opschoont geladen providers bij stopfout.
-
[SPARK-44464] opgelost
applyInPandasWithStatePythonRunner
voor uitvoerrijen metNull
als de eerste kolomwaarde. - Beveiligingsupdates van het besturingssysteem.
- 29 juli 2023
- Er is een probleem opgelost waarbij
dbutils.fs.ls()
INVALID_PARAMETER_VALUE.LOCATION_OVERLAP
werd geretourneerd wanneer het werd aangeroepen voor een opslaglocatiepad dat in conflict was met een andere externe of beheerde opslaglocatie. -
[SPARK-44199]
CacheManager
vernieuwt niet langer onnodigfileIndex
. - Beveiligingsupdates van het besturingssysteem.
- Er is een probleem opgelost waarbij
- 24 juli 2023
-
[SPARK-44337] een probleem opgelost waarbij een veld dat is ingesteld op
Any.getDefaultInstance
parseringsfouten veroorzaakte. -
[SPARK-44136] Een probleem opgelost waarbij
StateManager
in een uitvoerprogramma zou worden gerealiseerd in plaats van het stuurprogramma inFlatMapGroupsWithStateExec
. - Beveiligingsupdates van het besturingssysteem.
-
[SPARK-44337] een probleem opgelost waarbij een veld dat is ingesteld op
- 23 juni 2023
- Beveiligingsupdates van het besturingssysteem.
- 15 juni 2023
- Gefotoniseerd
approx_count_distinct
. - Snowflake-jdbc-bibliotheek wordt bijgewerkt naar 3.13.29 om een beveiligingsprobleem op te lossen.
-
[SPARK-43779]
ParseToDate
laadtEvalMode
nu in de hoofdthread. -
[SPARK-43156][SPARK-43098] Uitgebreide scalaire subquery-fouttest met
decorrelateInnerQuery
uitgeschakeld. - Beveiligingsupdates van het besturingssysteem.
- Gefotoniseerd
- 2 juni 2023
- De JSON-parser in
failOnUnknownFields
de modus verwijdert een record inDROPMALFORMED
de modus en mislukt rechtstreeks inFAILFAST
de modus. - Verbeter de prestaties van incrementele updates met
SHALLOW CLONE
Iceberg en Parquet. - Er is een probleem opgelost in Auto Loader waarbij verschillende bronbestandsindelingen inconsistent waren toen het opgegeven schema geen uitgestelde partities had opgenomen. Dit probleem kan onverwachte fouten veroorzaken bij het lezen van bestanden met ontbrekende kolommen in het uitgestelde partitieschema.
- [SPARK-43404] Sla het sst-bestand voor dezelfde versie van rocksDB-statusopslag over om te voorkomen dat de id niet overeenkomt.
-
[SPARK-43413][11.3-13.0] Er is een null-waarde voor subquery
IN
opgelostListQuery
. - [SPARK-43522] Probleem opgelost bij het maken van een struct-kolomnaam met de index van een array.
-
[SPARK-43541] alle
Project
tags doorgeven bij het oplossen van expressies en ontbrekende kolommen. -
[SPARK-43527] Opgelost
catalog.listCatalogs
in PySpark. - [SPARK-43123] interne veldmetagegevens lekken niet meer naar catalogi.
- [SPARK-43340] Er is een probleem opgelost met ontbrekend stacktraceringsveld in gebeurtenislogboeken.
-
[SPARK-42444]
DataFrame.drop
verwerkt nu de dubbele kolommen correct. -
[SPARK-42937]
PlanSubqueries
wordt nu ingesteldInSubqueryExec#shouldBroadcast
op waar. -
[SPARK-43286] Bijgewerkt
aes_encrypt
CBC-modus om willekeurige IVs te genereren. -
[SPARK-43378] Streamobjecten correct sluiten in
deserializeFromChunkedBuffer
.
- De JSON-parser in
- 17 mei 2023
- Parquet-scans zijn nu robuust tegen OOM's bij het scannen van uitzonderlijk gestructureerde bestanden door de batchgrootte dynamisch aan te passen. Bestandsmetagegevens worden geanalyseerd naar een preventieve lagere batchgrootte en worden opnieuw verlaagd bij nieuwe pogingen van taken als een definitief veiligheidsnet.
- Als een Avro-bestand is gelezen met alleen de
failOnUnknownFields
optie of met autolader in defailOnNewColumns
schemaontwikkelingsmodus, worden kolommen met verschillende gegevenstypen gelezen alsnull
in plaats van een fout te genereren waarin staat dat het bestand niet kan worden gelezen. Deze leesbewerkingen mislukken en raden gebruikers aan om derescuedDataColumn
optie te gebruiken. - Automatisch laden doet nu het volgende.
-
- Correct wordt gelezen en niet meer gered
Integer
,Short
enByte
typen als een van deze gegevenstypen is opgegeven, maar het Avro-bestand suggereert een van de andere twee typen.
- Correct wordt gelezen en niet meer gered
-
- Voorkomt leesintervaltypen als datum- of tijdstempeltypen om beschadigde datums te voorkomen.
-
- Hiermee voorkomt u leestypen
Decimal
met lagere precisie.
- Hiermee voorkomt u leestypen
- [SPARK-43172] Stelt de host en het token beschikbaar vanuit de Spark Connect-client.
-
[SPARK-43293]
__qualified_access_only
wordt genegeerd in normale kolommen. -
[SPARK-43098] Er is een fout opgelost in
COUNT
de juistheid wanneer scalaire subquery wordt gegroepeerd op component. -
[SPARK-43085] Ondersteuning voor kolom
DEFAULT
toewijzing voor tabelnamen met meerdere onderdelen. -
[SPARK-43190]
ListQuery.childOutput
is nu consistent met secundaire uitvoer. - [SPARK-43192] Charsetvalidatie van gebruikersagent verwijderd.
- Beveiligingsupdates van het besturingssysteem.
- 25 april 2023
- Als een Parquet-bestand is gelezen met alleen de
failOnUnknownFields
optie of met autolader in defailOnNewColumns
schemaontwikkelingsmodus, worden kolommen met verschillende gegevenstypen gelezen alsnull
in plaats van een fout te genereren waarin staat dat het bestand niet kan worden gelezen. Deze leesbewerkingen mislukken en raden gebruikers aan om derescuedDataColumn
optie te gebruiken. - Automatisch laadprogramma leest nu correct en redt
Integer
niet meer,Short
enByte
typen als een van deze gegevenstypen is opgegeven. Het Parquet-bestand stelt een van de andere twee typen voor. Wanneer de herstelde gegevenskolom eerder was ingeschakeld, zou de mismatch van gegevenstypes ervoor zorgen dat kolommen werden opgeslagen, zelfs als ze leesbaar waren. -
[SPARK-43009] Geparameteriseerd
sql()
metAny
constanten - [SPARK-42406] Recursieve Protobuf-velden beëindigen door het veld te verwijderen
-
[SPARK-43038] Ondersteuning voor de CBC-modus door
aes_encrypt()
/aes_decrypt()
-
[SPARK-42971] Wijzigen om af te drukken
workdir
ofappDirs
null is wanneer werkrol een gebeurtenis verwerktWorkDirCleanup
- [SPARK-43018] Opgeloste fout voor INSERT opdrachten met letterlijke tijdstempels
- Beveiligingsupdates van het besturingssysteem.
- Als een Parquet-bestand is gelezen met alleen de
- 11 april 2023
- Ondersteuning voor verouderde gegevensbronindelingen in de
SYNC
opdracht. - Lost een probleem op in het gedrag %autoreload in notebooks buiten een opslagplaats.
- Een probleem opgelost waarbij Auto Loader schema-evolutie kan resulteren in een oneindige mislukkingslus wanneer een nieuwe kolom wordt gedetecteerd in het schema van een genest JSON-object.
-
[SPARK-42928] Wordt
resolvePersistentFunction
gesynchroniseerd. - [SPARK-42936] Lost het probleem met LCan op wanneer de component rechtstreeks kan worden opgelost door de onderliggende statistische functie.
-
[SPARK-42967]
SparkListenerTaskStart.stageAttemptId
Oplossingen wanneer een taak wordt gestart nadat de fase is geannuleerd. - Beveiligingsupdates van het besturingssysteem.
- Ondersteuning voor verouderde gegevensbronindelingen in de
- 29 maart 2023
Databricks SQL biedt nu ondersteuning voor het opgeven van standaardwaarden voor kolommen van Delta Lake-tabellen, hetzij tijdens het maken van tabellen of later. Volgende
INSERT
,UPDATE
,DELETE
enMERGE
opdrachten kunnen verwijzen naar de standaardwaarde van een kolom met behulp van het explicieteDEFAULT
trefwoord. Als eenINSERT
toewijzing bovendien een expliciete lijst met minder kolommen heeft dan de doeltabel, worden de overeenkomende standaardwaarden voor kolommen vervangen door de resterende kolommen (of NULL als er geen standaardwaarde is opgegeven).Voorbeeld:
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; > 0, 2023-03-28 1, 2023-03-28z
Auto Loader initieert nu ten minste één synchrone RocksDB-logboekopruiming voor
Trigger.AvailableNow
streams om te controleren of het controlepunt regelmatig kan worden opgeschoond voor snellopende AutoLoader-streams. Dit kan ertoe leiden dat sommige streams langer duren voordat ze worden afgesloten, maar het bespaart u opslagkosten en verbetert de ervaring van het automatisch laden in toekomstige uitvoeringen.U kunt nu een Delta-tabel wijzigen om ondersteuning toe te voegen aan tabelfuncties met behulp van
DeltaTable.addFeatureSupport(feature_name)
.[SPARK-42794] Verhoog de lockAcquireTimeoutMs tot 2 minuten voor het verkrijgen van de RocksDB-statusopslag in Structuurstreaming
[SPARK-42521] NULLs toevoegen voor INSERT's met door de gebruiker opgegeven lijsten met minder kolommen dan de doeltabel
[SPARK-42702][SPARK-42623] Ondersteuning voor geparameteriseerde query's in subquery en CTE
[SPARK-42668] Uitzondering vangen tijdens het sluiten van de gecomprimeerde stream in HDFSStateStoreProvider stop
[SPARK-42403] JsonProtocol moet null-JSON-tekenreeksen verwerken
- 8 maart 2023
- Het foutbericht 'De configuratie kan niet worden geïnitialiseerd' is verbeterd om de klant meer context te bieden.
- Er is een terminologiewijziging voor het toevoegen van functies aan een Delta-tabel met behulp van de tabeleigenschap. De voorkeurssyntaxis is nu
'delta.feature.featureName'='supported'
in plaats van'delta.feature.featureName'='enabled'
. Voor compatibiliteit met eerdere versies werkt het gebruik'delta.feature.featureName'='enabled'
van nog steeds en blijft het werken. - Vanaf deze release is het mogelijk om een tabel te maken/vervangen door een extra tabeleigenschap
delta.ignoreProtocolDefaults
protocolgerelateerde Spark-configuraties te negeren, waaronder standaardlezer- en schrijfversies en tabelfuncties die standaard worden ondersteund. - [SPARK-42070] De standaardwaarde van het argument van de functie Masker wijzigen van -1 in NULL
- [SPARK-41793] Onjuist resultaat voor vensterframes gedefinieerd door een bereikcomponent op significante decimalen
- [SPARK-42484] Beter foutbericht OnveiligeRowUtils
- [SPARK-42516] Altijd de configuratie van de sessietijdzone opslaan bij het maken van weergaven
- [SPARK-42635] Corrigeer de TimestampAdd-expressie.
- [SPARK-42622] Vervanging in waarden uitgeschakeld
- [SPARK-42534] Fix DB2Dialect limietclausule herstellen
- [SPARK-42121] ingebouwde functies met tabelwaarde toevoegen, posexplode, posexplode_outer, json_tuple en stack
- [SPARK-42045] ANSI SQL-modus: Round/Bround moet een fout retourneren bij een overloop van kleine/kleine/significante gehele getallen
- Beveiligingsupdates van het besturingssysteem.
Databricks Runtime 11.3 LTS
Zie Databricks Runtime 11.3 LTS.
- 10 december 2024
- Beveiligingsupdates van het besturingssysteem.
- 26 november 2024
- Diverse bugfixes.
- 10 oktober 2024
- Diverse bugfixes.
- 25 september 2024
- [SPARK-46601] [CORE] Logboekfout in handleStatusMessage oplossen
- [SPARK-49000][SQL] Repareer "select count(distinct 1) from t" wanneer t leeg is, door RewriteDistinctAggregates uit te vouwen.
- Diverse bugfixes.
- 17 september 2024
- Beveiligingsupdates van het besturingssysteem.
- 29 augustus 2024
- 14 augustus 2024
- [SPARK-48941][SPARK-48970] Backport ML writer/reader fixes
- [SPARK-49065][SQL] Herstellen in verouderde formatters/parsers moet niet-JVM-standaardtijdzones ondersteunen
- [SPARK-48597][SQL] Een markering introduceren voor de eigenschap isStreaming in de tekstweergave van een logisch plan
- [SPARK-48463][ML] Tekenreeksindexer maken die geneste invoerkolommen ondersteunt
- Beveiligingsupdates van het besturingssysteem.
- 1 augustus 2024
- [SPARK-48896][SPARK-48909][SPARK-48883] Backport spark ML Writer-oplossingen
- 1 augustus 2024
- Als u vereiste beveiligingspatches wilt toepassen, wordt de Python-versie in Databricks Runtime 11.3 LTS bijgewerkt van 3.9.5 naar 3.9.19.
- 11 juli 2024
- [SPARK-48383][SS] Werp een betere fout op voor niet-overeenkomende partities in de optie startOffset in Kafka
- [SPARK-47070] Ongeldige aggregatie herstellen na herschrijven van subquery
- Beveiligingsupdates van het besturingssysteem.
- 17 juni 2024
- Beveiligingsupdates van het besturingssysteem.
- 21 mei 2024
- [SPARK-48105][SS] De racevoorwaarde tussen het lossen en momentopnamen van de statusopslag herstellen
- Beveiligingsupdates van het besturingssysteem.
- 9 mei 2024
- [SPARK-48018][SS] Oplossing voor null groupId die ontbrekende param-fout veroorzaakt bij het genereren van KafkaException.couldNotReadOffsetRange
- [SPARK-47973][CORE] Oproepsite voor logboeken in SparkContext.stop() en hoger in SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Stel Nullable correct in op de samengevoegde koppelsleutel in full outer USING join
- Beveiligingsupdates van het besturingssysteem.
- 25 april 2024
- Beveiligingsupdates van het besturingssysteem.
- 11 april 2024
- Beveiligingsupdates van het besturingssysteem.
- 1 april 2024
- [SPARK-44252][SS] Definieer een nieuwe foutklasse en pas deze toe op het geval waarin de laadstatus van DFS mislukt
- [SPARK-47135][SS] Foutklassen implementeren voor uitzonderingen voor gegevensverlies in Kafka
- Herstel "[SPARK-46861][CORE] Voorkom impasse in DAGScheduler"
- [SPARK-47200][SS] Foutklasse voor foreach batch-sinkgebruikersfunctiefout
- Beveiligingsupdates van het besturingssysteem.
- 14 maart 2024
- [SPARK-47167][SQL] Concrete klasse toevoegen voor anonieme JDBC-relatie
- [SPARK-47125][SQL] Null retourneren als Univocity nooit parseren activeert
- Beveiligingsupdates van het besturingssysteem.
- 29 februari 2024
- Er is een probleem opgelost waarbij het gebruik van een lokale verzameling als bron in een MERGE-opdracht ertoe kon leiden dat de operationele metriek numSourceRows het dubbele aantal rijen rapporteerde.
- [SPARK-45582][SS] Zorg ervoor dat het archiefexemplaren niet worden gebruikt na het aanroepen van doorvoer binnen streamingaggregatie in de uitvoermodus
- 13 februari 2024
- [SPARK-46794] Subqueries verwijderen uit LogicalRDD-constraints.
- [SPARK-46861] Vermijd impasse in DAGScheduler.
- Beveiligingsupdates van het besturingssysteem.
- 31 januari 2024
- Beveiligingsupdates van het besturingssysteem.
- 25 december 2023
- Deze onderhoudsrelease bevat een patch voor de installatie van JDK 8 om JDK-bug JDK-8-fout JDK-8293562 op te lossen om een verhoogde latentie te voorkomen bij de communicatie via TLSv1.3.
- [SPARK-46058] Voeg een afzonderlijke vlag toe voor privateKeyPassword.
-
[SPARK-46602]
allowExisting
doorgeven bij het maken van de weergave wanneer de weergave/tabel niet bestaat. -
[SPARK-46394] Oplossen van problemen met de methode spark.catalog.listDatabases() bij schema's met speciale tekens wanneer
spark.sql.legacy.keepCommandOutputSchema
is ingesteld op waar. -
[SPARK-46538] Het probleem met dubbele kolomverwijzingen in
ALSModel.transform
oplossen. - [SPARK-39440] Voeg een configuratie toe om de tijdlijn voor gebeurtenissen uit te schakelen.
- [SPARK-46249] Instantievergrendeling vereisen voor het verkrijgen van metrische gegevens van RocksDB om racen met achtergrondbewerkingen te voorkomen.
- [SPARK-46132] Ondersteuning voor sleutelwachtwoord voor JKS-sleutels voor RPC SSL.
- 14 december 2023
- Er is een probleem opgelost waarbij escape-onderstrepingstekens in getColumns bewerkingen die afkomstig zijn van JDBC- of ODBC-clients onjuist werden verwerkt en geïnterpreteerd als jokertekens.
- Beveiligingsupdates van het besturingssysteem.
- 29 november 2023
- Er is een nieuw pakket geïnstalleerd om
pyarrow-hotfix
een pyArrow RCE-beveiligingsprobleem op te lossen. - Er is een probleem opgelost waarbij geëscapeerde onderstrepingstekens in
getColumns
-bewerkingen die afkomstig zijn van JDBC- of ODBC-clients onjuist werden geïnterpreteerd als jokertekens. - [SPARK-43973] In de gestructureerde streaming-gebruikersinterface worden nu mislukte query's correct weergegeven.
-
[SPARK-45730] Verbeterde tijdsbeperkingen voor
ReloadingX509TrustManagerSuite
. -
[SPARK-45544] Geïntegreerde SSL-ondersteuning in
TransportContext
. -
[SPARK-45859] UDF-objecten in
ml.functions
luie gemaakt. -
[SPARK-43718] De null-waarde voor sleutels in
USING
joins is opgelost. -
[SPARK-44846] Complexe groeperingsexpressies na
RemoveRedundantAggregates
verwijderd. - Beveiligingsupdates van het besturingssysteem.
- Er is een nieuw pakket geïnstalleerd om
- 14 november 2023
- Partitiefilters op Delta Lake-streamingquery's worden omlaag gepusht voordat snelheidsbeperking wordt bereikt om beter gebruik te bereiken.
- [SPARK-42205] Logboekregistratieaccumulaties in fase- en taakstart-gebeurtenissen zijn verwijderd.
-
[SPARK-45545]
SparkTransportConf
SSLOptions
neemt over bij het maken. - [SPARK-33861] herstellen.
-
[SPARK-45541] Toegevoegd
SSLFactory
. - [SPARK-45429] Er zijn helperklassen toegevoegd voor SSL RPC-communicatie.
-
[SPARK-45584] Er is een fout opgelost bij het uitvoeren van subquery's met
TakeOrderedAndProjectExec
. -
[SPARK-45430]
FramelessOffsetWindowFunction
mislukt niet meer wanneerIGNORE NULLS
enoffset > rowCount
. -
[SPARK-45427] RPC SSL-instellingen toegevoegd aan
SSLOptions
enSparkTransportConf
. - Beveiligingsupdates van het besturingssysteem.
- 24 oktober 2023
-
[SPARK-45426] Er is ondersteuning toegevoegd voor
ReloadingX509TrustManager
. - Diverse oplossingen.
-
[SPARK-45426] Er is ondersteuning toegevoegd voor
- 13 oktober 2023
- Snowflake-jdbc-afhankelijkheid is bijgewerkt van 3.13.29 naar 3.13.33.
-
[SPARK-45178] Terugval naar het uitvoeren van één batch voor
Trigger.AvailableNow
met niet-ondersteunde bronnen in plaats van de wrapper te gebruiken. -
[SPARK-45084]
StateOperatorProgress
om een nauwkeurig, passend shuffle-partitienummer te gebruiken. - [SPARK-45346] Parquet-schemadeductie respecteert nu hoofdlettergevoelige vlag bij het samenvoegen van een schema.
- Beveiligingsupdates van het besturingssysteem.
- 10 september 2023
- Diverse oplossingen.
- 30 augustus 2023
-
[SPARK-44818] Vaste race voor taakonderbreeding in behandeling uitgegeven voordat
taskThread
deze wordt geïnitialiseerd. -
[SPARK-44871][11.3-13.0] Vast
percentile_disc
gedrag. - Beveiligingsupdates van het besturingssysteem.
-
[SPARK-44818] Vaste race voor taakonderbreeding in behandeling uitgegeven voordat
- 15 augustus 2023
-
[SPARK-44485] Geoptimaliseerd
TreeNode.generateTreeString
. - [SPARK-44504] onderhoudstaak opschoont geladen providers bij stopfout.
-
[SPARK-44464] opgelost
applyInPandasWithStatePythonRunner
voor uitvoerrijen metNull
als de eerste kolomwaarde. - Beveiligingsupdates van het besturingssysteem.
-
[SPARK-44485] Geoptimaliseerd
- 27 juli 2023
- Er is een probleem opgelost waarbij
dbutils.fs.ls()
INVALID_PARAMETER_VALUE.LOCATION_OVERLAP
werd geretourneerd wanneer het werd opgeroepen voor een opslaglocatiepad dat conflicteerde met andere externe of beheerde opslaglocaties. -
[SPARK-44199]
CacheManager
vernieuwt niet langer onnodigfileIndex
. - Beveiligingsupdates van het besturingssysteem.
- Er is een probleem opgelost waarbij
- 24 juli 2023
- [SPARK-44136] Een probleem opgelost waardoor StateManager in de executor in plaats van de driver kan worden gematerialiseerd in FlatMapGroupsWithStateExec.
- Beveiligingsupdates van het besturingssysteem.
- 23 juni 2023
- Beveiligingsupdates van het besturingssysteem.
- 15 juni 2023
- Gefotoniseerd
approx_count_distinct
. - Snowflake-jdbc-bibliotheek wordt bijgewerkt naar 3.13.29 om een beveiligingsprobleem op te lossen.
-
[SPARK-43779]
ParseToDate
laadtEvalMode
nu in de hoofdthread. - [SPARK-40862] Ondersteuning voor niet-geaggregeerde subquery's in RewriteCorrelatedScalarSubquery
-
[SPARK-43156][SPARK-43098] Uitgebreide scalaire subquery count bug test with
decorrelateInnerQuery
turned off. - [SPARK-43098] Corrigeer de fout AANTAL correctheid wanneer scalaire subquery een group by-component heeft
- Beveiligingsupdates van het besturingssysteem.
- Gefotoniseerd
- 2 juni 2023
- De JSON-parser in
failOnUnknownFields
de modus verwijdert een record inDROPMALFORMED
de modus en mislukt rechtstreeks inFAILFAST
de modus. - Verbeter de prestaties van incrementele updates met
SHALLOW CLONE
Iceberg en Parquet. - Er is een probleem opgelost in Auto Loader waarbij verschillende bronbestandsindelingen inconsistent waren toen het opgegeven schema geen uitgestelde partities had opgenomen. Dit probleem kan onverwachte fouten veroorzaken bij het lezen van bestanden met ontbrekende kolommen in het uitgestelde partitieschema.
- [SPARK-43404]Sla het sst-bestand voor dezelfde versie van rocksDB-statusopslag over om te voorkomen dat de id niet overeenkomt.
-
[SPARK-43527] Opgelost
catalog.listCatalogs
in PySpark. -
[SPARK-43413][11.3-13.0] Er is een null-waarde voor subquery
IN
opgelostListQuery
. - [SPARK-43340] Er is een probleem opgelost met ontbrekend stacktraceringsveld in gebeurtenislogboeken.
- De JSON-parser in
Databricks Runtime 10.4 LTS
Zie Databricks Runtime 10.4 LTS.
- 10 december 2024
- Beveiligingsupdates van het besturingssysteem.
- 26 november 2024
- Beveiligingsupdates van het besturingssysteem.
- 5 november 2024
- Beveiligingsupdates van het besturingssysteem.
- 22 oktober 2024
- Beveiligingsupdates van het besturingssysteem.
- 10 oktober 2024
- Beveiligingsupdates van het besturingssysteem.
- 25 september 2024
- [SPARK-46601] [CORE] Logboekfout in handleStatusMessage oplossen
- [SPARK-49000][SQL] Fix "select count(distinct 1) from t" waarbij t een lege tabel is, door gebruik te maken van het uitbreiden van RewriteDistinctAggregates
- Beveiligingsupdates van het besturingssysteem.
- 17 september 2024
- Beveiligingsupdates van het besturingssysteem.
- 29 augustus 2024
- [SPARK-49065][SQL] Herstellen in verouderde formatters/parsers moet niet-JVM-standaardtijdzones ondersteunen
- 14 augustus 2024
- [SPARK-48597][SQL] Een markering introduceren voor de eigenschap isStreaming in de tekstweergave van een logisch plan
- [SPARK-48941][SPARK-48970] Backport ML writer/reader fixes
- [SPARK-48463][ML] Tekenreeksindexer maken die geneste invoerkolommen ondersteunt
- 1 augustus 2024
- [SPARK-48896][SPARK-48909][SPARK-48883] Backport spark ML Writer-oplossingen
- Beveiligingsupdates van het besturingssysteem.
- 11 juli 2024
- [SPARK-48383][SS] Werp een betere fout op voor niet-overeenkomende partities in de optie startOffset in Kafka
- Beveiligingsupdates van het besturingssysteem.
- 17 juni 2024
- Beveiligingsupdates van het besturingssysteem.
- 21 mei 2024
- [SPARK-48105][SS] De racevoorwaarde tussen het lossen en momentopnamen van de statusopslag herstellen
- Beveiligingsupdates van het besturingssysteem.
- 9 mei 2024
- [SPARK-48018][SS] Oplossing voor null groupId die ontbrekende param-fout veroorzaakt bij het genereren van KafkaException.couldNotReadOffsetRange
- [SPARK-47973][CORE] Oproepsite voor logboeken in SparkContext.stop() en hoger in SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Stel nullable correct in op de coalesced joinsleutel bij een full outer USING join
- Beveiligingsupdates van het besturingssysteem.
- 25 april 2024
- Beveiligingsupdates van het besturingssysteem.
- 11 april 2024
- Beveiligingsupdates van het besturingssysteem.
- 1 april 2024
- [SPARK-47135][SS] Foutklassen implementeren voor uitzonderingen voor gegevensverlies in Kafka
- [SPARK-44252][SS] Definieer een nieuwe foutklasse en pas deze toe op het geval waarin de laadstatus van DFS mislukt
- [SPARK-47200][SS] Foutklasse voor foreach batch-sinkgebruikersfunctiefout
- Herstel "[SPARK-46861][CORE] Voorkom impasse in DAGScheduler"
- Beveiligingsupdates van het besturingssysteem.
- 14 maart 2024
- [SPARK-47125][SQL] Null retourneren als Univocity nooit parseren activeert
- Beveiligingsupdates van het besturingssysteem.
- 29 februari 2024
- Er is een probleem opgelost waarbij het gebruik van een lokale verzameling als bron in een MERGE-opdracht ertoe kon leiden dat de operationele metriek numSourceRows het dubbele aantal rijen rapporteerde.
- [SPARK-45582][SS] Zorg ervoor dat het archiefexemplaren niet worden gebruikt na het aanroepen van doorvoer binnen streamingaggregatie in de uitvoermodus
- Beveiligingsupdates van het besturingssysteem.
- 13 februari 2024
- [SPARK-46861] Vermijd impasse in DAGScheduler.
- Beveiligingsupdates van het besturingssysteem.
- 31 januari 2024
- Beveiligingsupdates van het besturingssysteem.
- 25 december 2023
- Deze onderhoudsrelease bevat een patch voor de installatie van JDK 8 om JDK-bug JDK-8-fout JDK-8293562 op te lossen om een verhoogde latentie te voorkomen bij de communicatie via TLSv1.3.
- [SPARK-46058] Voeg een afzonderlijke vlag toe voor privateKeyPassword.
-
[SPARK-46538] Het probleem met dubbele kolomverwijzingen in
ALSModel.transform
oplossen. - [SPARK-39440] Voeg een configuratie toe om de tijdlijn voor gebeurtenissen uit te schakelen.
- [SPARK-46132] Ondersteuning voor sleutelwachtwoord voor JKS-sleutels voor RPC SSL.
- 14 december 2023
- Beveiligingsupdates van het besturingssysteem.
- 29 november 2023
- Er is een nieuw pakket geïnstalleerd om
pyarrow-hotfix
een pyArrow RCE-beveiligingsprobleem op te lossen. -
[SPARK-45544] Geïntegreerde SSL-ondersteuning in
TransportContext
. -
[SPARK-45859] UDF-objecten in
ml.functions
luie gemaakt. -
[SPARK-43718] De null-waarde voor sleutels in
USING
joins is opgelost. -
[SPARK-45730] Verbeterde tijdsbeperkingen voor
ReloadingX509TrustManagerSuite
. - [SPARK-42205] Logboekregistratieaccumulaties in fase- en taakstart-gebeurtenissen zijn verwijderd.
-
[SPARK-44846] Complexe groeperingsexpressies na
RemoveRedundantAggregates
verwijderd. - Beveiligingsupdates van het besturingssysteem.
- Er is een nieuw pakket geïnstalleerd om
- 14 november 2023
-
[SPARK-45541] Toegevoegd
SSLFactory
. -
[SPARK-45545]
SparkTransportConf
SSLOptions
neemt over bij het maken. -
[SPARK-45427] RPC SSL-instellingen toegevoegd aan
SSLOptions
enSparkTransportConf
. - [SPARK-45429] Er zijn helperklassen toegevoegd voor SSL RPC-communicatie.
-
[SPARK-45584] Er is een fout opgelost bij het uitvoeren van subquery's met
TakeOrderedAndProjectExec
. - [SPARK-33861] herstellen.
- Beveiligingsupdates van het besturingssysteem.
-
[SPARK-45541] Toegevoegd
- 24 oktober 2023
-
[SPARK-45426] Er is ondersteuning toegevoegd voor
ReloadingX509TrustManager
. - Beveiligingsupdates van het besturingssysteem.
-
[SPARK-45426] Er is ondersteuning toegevoegd voor
- 13 oktober 2023
-
[SPARK-45084]
StateOperatorProgress
om gebruik te maken van een nauwkeurig en voldoende shuffle-partitienummer. -
[SPARK-45178] Terugval naar het uitvoeren van één batch voor
Trigger.AvailableNow
met niet-ondersteunde bronnen in plaats van de wrapper te gebruiken. - Beveiligingsupdates van het besturingssysteem.
-
[SPARK-45084]
- 10 september 2023
- Diverse oplossingen.
- 30 augustus 2023
-
[SPARK-44818] Vaste race voor taakonderbreeding in behandeling uitgegeven voordat
taskThread
deze wordt geïnitialiseerd. - Beveiligingsupdates van het besturingssysteem.
-
[SPARK-44818] Vaste race voor taakonderbreeding in behandeling uitgegeven voordat
- 15 augustus 2023
- [SPARK-44504] Onderhoudstaak die geladen providers opruimt bij een stopfout.
- [SPARK-43973] Gestructureerde streaming-ui wordt nu correct weergegeven mislukte query's.
- Beveiligingsupdates van het besturingssysteem.
- 23 juni 2023
- Beveiligingsupdates van het besturingssysteem.
- 15 juni 2023
- Snowflake-jdbc-bibliotheek wordt bijgewerkt naar 3.13.29 om een beveiligingsprobleem op te lossen.
- [SPARK-43098] Corrigeer de fout AANTAL correctheid wanneer scalaire subquery een group by-component heeft
- [SPARK-40862] Ondersteuning voor niet-geaggregeerde subquery's in RewriteCorrelatedScalarSubquery
-
[SPARK-43156][SPARK-43098] Uitgebreide scalaire subquery-test met
decorrelateInnerQuery
uitgeschakeld. - Beveiligingsupdates van het besturingssysteem.
- 2 juni 2023
- De JSON-parser in
failOnUnknownFields
de modus verwijdert een record inDROPMALFORMED
de modus en mislukt rechtstreeks inFAILFAST
de modus. - Er is een probleem opgelost bij het parseren van gegevens in JSON om te voorkomen
UnknownFieldException
. - Er is een probleem opgelost in Auto Loader waarbij verschillende bronbestandsindelingen inconsistent waren toen het opgegeven schema geen uitgestelde partities had opgenomen. Dit probleem kan onverwachte fouten veroorzaken bij het lezen van bestanden met ontbrekende kolommen in het uitgestelde partitieschema.
- [SPARK-43404] Sla het sst-bestand voor dezelfde versie van rocksDB-statusopslag over om te voorkomen dat de id niet overeenkomt.
-
[SPARK-43413] De null-baarheid van subquery
IN
is opgelostListQuery
. - Beveiligingsupdates van het besturingssysteem.
- De JSON-parser in
- 17 mei 2023
- Parquet-scans zijn nu robuust tegen OOM's bij het scannen van uitzonderlijk gestructureerde bestanden door de batchgrootte dynamisch aan te passen. Bestandsmetagegevens worden geanalyseerd naar een preventieve lagere batchgrootte en worden opnieuw verlaagd bij nieuwe pogingen van taken als een definitief veiligheidsnet.
-
[SPARK-41520] Structuurpatroon
AND_OR
splitsen om te scheidenAND
enOR
. -
[SPARK-43190]
ListQuery.childOutput
is nu consistent met secundaire uitvoer. - Beveiligingsupdates van het besturingssysteem.
- 25 april 2023
-
[SPARK-42928]
resolvePersistentFunction
Gesynchroniseerd maken. - Beveiligingsupdates van het besturingssysteem.
-
[SPARK-42928]
- 11 april 2023
- Er is een probleem opgelost waarbij de schema-evolutie van Auto Loader in een oneindige foutlus kan terechtkomen wanneer een nieuwe kolom wordt gedetecteerd in het schema van een genest JSON-object.
-
[SPARK-42937]
PlanSubqueries
wordt nu ingesteldInSubqueryExec#shouldBroadcast
op waar. - [SPARK-42967] Oplossing voor SparkListenerTaskStart.stageAttemptId wanneer een taak wordt gestart nadat de fase is geannuleerd.
- 29 maart 2023
- [SPARK-42668] Uitzondering vangen tijdens het sluiten van de gecomprimeerde stream in HDFSStateStoreProvider stop
- [SPARK-42635] Herstel de ...
- Beveiligingsupdates van het besturingssysteem.
- 14 maart 2023
- [SPARK-41162] Fix anti- en semi-join voor zelf-join met aggregaties
- [SPARK-33206] Berekening van het gewicht van de cache in willekeurige volgorde herstellen voor kleine indexbestanden
-
[SPARK-42484]
UnsafeRowUtils
Het foutbericht is verbeterd - Diverse oplossingen.
- 28 februari 2023
- Ondersteuning voor gegenereerde kolom met yyyy-MM-dd datumnotatie. Deze wijziging ondersteunt partitie-pruning voor yyyy-MM-dd als datumformaat in gegenereerde kolommen.
- Gebruikers kunnen nu specifieke Delta-tabellen lezen en schrijven waarvoor Lezer versie 3 en Writer versie 7 is vereist, met databricks Runtime 9.1 LTS of hoger. Als u wilt slagen, moeten tabelfuncties in het protocol van de tabellen worden ondersteund door de huidige versie van Databricks Runtime.
- Ondersteuning voor gegenereerde kolom met jjjj-MM-dd dataformaat. Deze wijziging ondersteunt het verwijderen van partities voor jjjj-MM-dd als een date_format in gegenereerde kolommen.
- Beveiligingsupdates van het besturingssysteem.
- 16 februari 2023
- [SPARK-30220] Inschakelen met behulp van Exists/In-subquery's buiten het filterknooppunt
- Beveiligingsupdates van het besturingssysteem.
- 31 januari 2023
- Tabeltypen van JDBC-tabellen zijn nu standaard EXTERN.
- 18 januari 2023
- Azure Synapse-connector retourneert een meer beschrijvend foutbericht wanneer een kolomnaam ongeldige tekens bevat, zoals witruimten of puntkomma's. In dergelijke gevallen wordt het volgende bericht geretourneerd:
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
. - [SPARK-38277] Schrijfbatch wissen na de doorvoer van de RocksDB-statusopslag
- [SPARK-41199] Probleem met metrische gegevens oplossen wanneer de DSv1-streamingbron en de DSv2-streamingbron gezamenlijk worden gebruikt
- [SPARK-41198] Metrische gegevens in streamingquery met CTE- en DSv1-streamingbron herstellen.
- [SPARK-41339] Sluit de RocksDB-schrijfbatch en maak deze opnieuw in plaats van alleen te wissen.
- [SPARK-41732] Op structuurpatroon gebaseerde pruning toepassen voor de regel SessionWindowing.
- Beveiligingsupdates van het besturingssysteem.
- Azure Synapse-connector retourneert een meer beschrijvend foutbericht wanneer een kolomnaam ongeldige tekens bevat, zoals witruimten of puntkomma's. In dergelijke gevallen wordt het volgende bericht geretourneerd:
- 29 november 2022
- Gebruikers kunnen het gedrag van voorloop- en volgspaties configureren bij het schrijven van gegevens met behulp van de Redshift-connector. De volgende opties zijn toegevoegd om witruimteafhandeling te beheren:
-
csvignoreleadingwhitespace
, indien ingesteld optrue
, verwijdert voorloopspaties uit waarden tijdens schrijfbewerkingen wanneertempformat
is ingesteld opCSV
ofCSV GZIP
. Witruimten worden bewaard wanneer de configuratie is ingesteld opfalse
. De waarde is standaardtrue
. -
csvignoretrailingwhitespace
, indien ingesteld optrue
, verwijdert volgspaties uit waarden tijdens schrijfbewerkingen wanneertempformat
is ingesteld opCSV
ofCSV GZIP
. Witruimten worden bewaard wanneer de configuratie is ingesteld opfalse
. De waarde is standaardtrue
.
-
- Er is een probleem opgelost met het parseren van JSON in Auto Loader wanneer alle kolommen als tekenreeksen waren gelaten (
cloudFiles.inferColumnTypes
niet ingesteld was of ingesteld opfalse
) en de JSON geneste objecten bevatte. - Beveiligingsupdates van het besturingssysteem.
- Gebruikers kunnen het gedrag van voorloop- en volgspaties configureren bij het schrijven van gegevens met behulp van de Redshift-connector. De volgende opties zijn toegevoegd om witruimteafhandeling te beheren:
- 15 november 2022
- Apache commons-text bijgewerkt naar 1.10.0.
-
[SPARK-40646] JSON-parsering voor structs, kaarten en matrices is opgelost, zodat wanneer een deel van een record niet overeenkomt met het schema, de rest van de record nog steeds correct kan worden geparseerd in plaats van null-waarden te retourneren. Als u zich wilt aanmelden voor het verbeterde gedrag, stelt u
spark.sql.json.enablePartialResults
in optrue
. De vlag is standaard uitgeschakeld om het oorspronkelijke gedrag te behouden. -
[SPARK-40292] Kolomnamen in
arrays_zip
functie herstellen wanneer naar arrays wordt verwezen vanuit geneste structuren - Beveiligingsupdates van het besturingssysteem.
- 1 november 2022
- Er is een probleem opgelost waarbij als een Delta-tabel een door de gebruiker gedefinieerde kolom met de naam
_change_type
had, maar Gegevensfeed wijzigen was uitgeschakeld voor die tabel, gegevens in die kolom onjuist zouden worden gevuld met NULL-waarden bij het uitvoeren vanMERGE
. - Er is een probleem opgelost met automatisch laden waarbij een bestand in dezelfde microbatch kan worden gedupliceerd wanneer
allowOverwrites
is ingeschakeld - [SPARK-40697] Tekenopvulling aan de leeszijde toevoegen om externe gegevensbestanden te behandelen
- [SPARK-40596] ExecutorDecommission vullen met berichten in ExecutorDecommissionInfo
- Beveiligingsupdates van het besturingssysteem.
- Er is een probleem opgelost waarbij als een Delta-tabel een door de gebruiker gedefinieerde kolom met de naam
- 18 oktober 2022
- Beveiligingsupdates van het besturingssysteem.
- 5 oktober 2022
-
[SPARK-40468] Kolomsnoeien in CSV herstellen wanneer
_corrupt_record
is geselecteerd. - Beveiligingsupdates van het besturingssysteem.
-
[SPARK-40468] Kolomsnoeien in CSV herstellen wanneer
- 22 september 2022
- Gebruikers kunnen spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled
,true
) instellen om de ingebouwde vermelding voor automatisch laden op ADLS Gen2 opnieuw in te schakelen. Ingebouwde vermelding is eerder uitgeschakeld vanwege prestatieproblemen, maar kan hebben geleid tot hogere opslagkosten voor klanten. - [SPARK-40315] HashCode() toevoegen voor Literal of ArrayBasedMapData
- [SPARK-40213] Ondersteuning voor ASCII-waardeconversie voor Latijns-1 tekens
- [SPARK-40380] Constant vouwen van InvokeLike herstellen om te voorkomen dat niet-serialiseerbare letterlijke waarde in het plan is ingesloten
- [SPARK-38404] CTE-resolutie verbeteren wanneer een geneste CTE verwijst naar een buitenste CTE
- [SPARK-40089] Sorteren voor sommige decimale typen oplossen
- [SPARK-39887] RemoveRedundantAliases moet aliassen behouden die de uitvoer van projectieknooppunten uniek maken
- Gebruikers kunnen spark.conf.set(
- 6 september 2022
- [SPARK-40235] Gebruik interruptible lock in plaats van gesynchroniseerd in Executor.updateDependencies().
- [SPARK-40218] GROUPING SETS moeten de groeperingskolommen behouden.
- [SPARK-39976] ArrayIntersect moet null in de linkerexpressie correct verwerken.
-
[SPARK-40053] Voeg toe
assume
aan dynamische annuleringscases waarvoor python-runtimeomgeving is vereist. - [SPARK-35542] Fix: Bucketizer gemaakt voor meerdere kolommen met parameters SplitsArray, inputCols en outputCols kunnen niet worden geladen nadat u deze hebt opgeslagen.
- [SPARK-40079] Voeg Imputer inputCols-validatie toe voor een lege invoercase.
- 24 augustus 2022
- [SPARK-39983] Sla niet niet niet-geserialiseerde broadcastrelaties op het stuurprogramma in de cache op.
- [SPARK-39775] Validatie van standaardwaarden uitschakelen bij het parseren van Avro-schema's.
- [SPARK-39962] Projectie toepassen wanneer groepskenmerken leeg zijn
- [SPARK-37643] wanneer charVarcharAsString waar is, moet voor de predicaatquery voor het tekengegevenstype de regel voor rpadding overslaan.
- Beveiligingsupdates van het besturingssysteem.
- 9 augustus 2022
- [SPARK-39847] Racevoorwaarde herstellen in RocksDBLoader.loadLibrary() als de aanroeperthread wordt onderbroken
- [SPARK-39731] Probleem opgelost in CSV- en JSON-gegevensbronnen bij het parseren van datums in de indeling 'yyyyMMdd' met gecorrigeerd tijdparserbeleid
- Beveiligingsupdates van het besturingssysteem.
- 27 juli 2022
- [SPARK-39625] Voeg Dataset.as(StructType) toe.
-
[SPARK-39689]Ondersteuning voor twee tekens
lineSep
in csv-gegevensbron. - [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded moet thread-safe zijn.
- [SPARK-39570] Inline-tabel moet expressies met alias toestaan.
- [SPARK-39702] Verminder de geheugenoverhead van TransportCipher$EncryptedMessage met behulp van een gedeelde byteRawChannel.
- [SPARK-39575] Voeg ByteBuffer#rewind toe na ByteBuffer#get in AvroDeserializer.
- [SPARK-39476] Het uitpakken van conversies uitschakelen bij het omzetten van Long naar Float/Double of van Integer naar Float.
- [SPARK-38868] Geef geen uitzonderingen van filterpredicaat door wanneer u outer joins optimaliseert.
- Beveiligingsupdates van het besturingssysteem.
- 20 juli 2022
- Zorg ervoor dat de Delta MERGE-bewerking consistent is wanneer de bron niet-deterministisch is.
- [SPARK-39355] enkele kolom gebruikt 'quoted' om UnresolvedAttribute te construeren.
- [SPARK-39548] CreateView Command met een vensterclause-query veroorzaakt een foutmelding over een ontbrekende vensterdefinitie.
- [SPARK-39419] Corrigeer ArraySort om een uitzondering te genereren wanneer de comparator null retourneert.
- Automatisch laden is uitgeschakeld voor het gebruik van ingebouwde cloud-API's voor adreslijstvermelding in Azure.
- Beveiligingsupdates van het besturingssysteem.
- 5 juli 2022
- [SPARK-39376] Dubbele kolommen verbergen in steruitbreiding van kolommen van subquery-alias van NATURAL/USING JOIN
- Beveiligingsupdates van het besturingssysteem.
- 15 juni 2022
- [SPARK-39283] Impasse tussen TaskMemoryManager en UnsafeExternalSorter.SpillableIterator oplossen.
- [SPARK-39285] Spark mag veldnamen niet controleren bij het lezen van bestanden.
- [SPARK-34096] Prestaties verbeteren voor nth_value negeer null-waarden via offset-venster.
-
[SPARK-36718] Corrigeer de
isExtractOnly
check-in CollapseProject.
- 2 juni 2022
- [SPARK-39093] Vermijd compilatiefout in codegen bij het delen van intervallen van jaarmaanden of dagtijdintervallen door een integraal.
- [SPARK-38990] Vermijd NullPointerException bij het evalueren van date_trunc/trunc-indeling als afhankelijke verwijzing.
- Beveiligingsupdates van het besturingssysteem.
- 18 mei 2022
- Hiermee lost u een potentieel ingebouwd geheugenlek op in autolaadprogramma's.
- [SPARK-38918] Geneste kolomsnoeien moet attributen uitfilteren die niet tot de huidige relatie behoren.
- [SPARK-37593] Verklein het standaardpaginaformaat door LONG_ARRAY_OFFSET als G1GC en ON_HEAP worden gebruikt.
- [SPARK-39084] Herstel df.rdd.isEmpty() met behulp van TaskContext om de iterator te stoppen bij het voltooien van de taak.
- [SPARK-32268] Voeg ColumnPruning toe in injectBloomFilter.
- [SPARK-38974] Geregistreerde functies filteren met een bepaalde databasenaam in lijstfuncties.
- [SPARK-38931] Maak de hoofdmap dfs voor RocksDBFileManager met een onbekend aantal sleutels op het eerste controlepunt.
- Beveiligingsupdates van het besturingssysteem.
- 19 april 2022
- Java AWS SDK bijgewerkt van versie 1.11.655 naar 1.12.1899.
- Er is een probleem opgelost met notebookbibliotheken die niet werken in batchstreamingtaken.
- [SPARK-38616] SQL-querytekst bijhouden in Catalyst TreeNode
- Beveiligingsupdates van het besturingssysteem.
- 6 april 2022
- De volgende Spark SQL-functies zijn nu beschikbaar in deze release:
-
timestampadd()
endateadd()
: Een tijdsduur in een opgegeven eenheid toevoegen aan een tijdstempelexpressie. -
timestampdiff()
endatediff()
: bereken het tijdsverschil tussen expressies met twee tijdstempels in een opgegeven eenheid.
-
- Parquet-MR is bijgewerkt naar 1.12.2
- Verbeterde ondersteuning voor uitgebreide schema's in Parquet-bestanden
- [SPARK-38631] Maakt gebruik van implementatie op basis van Java voor het ongedaan maken van tarring bij Utils.unpack.
-
[SPARK-38509][SPARK-38481] Kersenkie drie
timestmapadd/diff
wijzigingen. - [SPARK-38523] Fix die verwijst naar de beschadigde recordkolom van CSV.
-
[SPARK-38237] Toestaan
ClusteredDistribution
dat volledige clusteringsleutels zijn vereist. - [SPARK-38437] Lenient serialisatie van datum/tijd uit gegevensbron.
- [SPARK-38180] Veilige up-cast-expressies toestaan in gecorreleerde gelijkheidspredicaten.
- [SPARK-38155] Afzonderlijke statistische functies in laterale subquery's met niet-ondersteunde predicaten weigeren.
- Beveiligingsupdates van het besturingssysteem.
- De volgende Spark SQL-functies zijn nu beschikbaar in deze release:
Databricks Runtime 9.1 LTS
Zie Databricks Runtime 9.1 LTS.
- 10 december 2024
- Beveiligingsupdates van het besturingssysteem.
- 26 november 2024
- Beveiligingsupdates van het besturingssysteem.
- 5 november 2024
- Beveiligingsupdates van het besturingssysteem.
- 22 oktober 2024
- Beveiligingsupdates van het besturingssysteem.
- 10 oktober 2024
- Beveiligingsupdates van het besturingssysteem.
- 25 september 2024
- [SPARK-49000][SQL] Fix "select count(distinct 1) from t" waarbij t een lege tabel is, door het uitbreiden van RewriteDistinctAggregates
- Beveiligingsupdates van het besturingssysteem.
- 6 september 2024
- Beveiligingsupdates van het besturingssysteem.
- 29 augustus 2024
- [SPARK-49065][SQL] Herstellen in verouderde formatters/parsers moet niet-JVM-standaardtijdzones ondersteunen
- 14 augustus 2024
- 1 augustus 2024
- Beveiligingsupdates van het besturingssysteem.
- 11 juli 2024
- Beveiligingsupdates van het besturingssysteem.
- 17 juni 2024
- Beveiligingsupdates van het besturingssysteem.
- 21 mei 2024
- [SPARK-48105][SS] De racevoorwaarde tussen het lossen en momentopnamen van de statusopslag herstellen
- Beveiligingsupdates van het besturingssysteem.
- 9 mei 2024
- [SPARK-47973][CORE] Oproepsite voor logboeken in SparkContext.stop() en hoger in SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Stel nullable correct in bij de samenvoeging van de joinsleutel in een volledige outer USING join
- Beveiligingsupdates van het besturingssysteem.
- 25 april 2024
- Diverse bugfixes.
- 11 april 2024
- Beveiligingsupdates van het besturingssysteem.
- 1 april 2024
- Herstel "[SPARK-46861][CORE] Voorkom impasse in DAGScheduler"
- Beveiligingsupdates van het besturingssysteem.
- 14 maart 2024
- Beveiligingsupdates van het besturingssysteem.
- 29 februari 2024
- Er is een probleem opgelost waarbij het gebruik van een lokale verzameling als bron in een MERGE-opdracht ertoe kon leiden dat de metriek numSourceRows voor de bewerking het dubbele van het juiste aantal rijen rapporteerde.
- Beveiligingsupdates van het besturingssysteem.
- 13 februari 2024
- [SPARK-46861] Vermijd impasse in DAGScheduler.
- Beveiligingsupdates van het besturingssysteem.
- 31 januari 2024
- Beveiligingsupdates van het besturingssysteem.
- 25 december 2023
- Deze onderhoudsrelease bevat een patch voor de installatie van JDK 8 om JDK-bug JDK-8-fout JDK-8293562 op te lossen om een verhoogde latentie te voorkomen bij de communicatie via TLSv1.3.
- [SPARK-46058] Voeg een afzonderlijke vlag toe voor privateKeyPassword.
- [SPARK-39440] Voeg een configuratie toe om de tijdlijn voor gebeurtenissen uit te schakelen.
- [SPARK-46132] Ondersteuning voor sleutelwachtwoord voor JKS-sleutels voor RPC SSL.
- 14 december 2023
- Beveiligingsupdates van het besturingssysteem.
- 29 november 2023
- Er is een nieuw pakket geïnstalleerd om
pyarrow-hotfix
een pyArrow RCE-beveiligingsprobleem op te lossen. -
[SPARK-45859] UDF-objecten in
ml.functions
luie gemaakt. -
[SPARK-45544] Geïntegreerde SSL-ondersteuning in
TransportContext
. -
[SPARK-45730] Verbeterde tijdsbeperkingen voor
ReloadingX509TrustManagerSuite
. - Beveiligingsupdates van het besturingssysteem.
- Er is een nieuw pakket geïnstalleerd om
- 14 november 2023
-
[SPARK-45545]
SparkTransportConf
SSLOptions
neemt over bij het maken. - [SPARK-45429] Er zijn helperklassen toegevoegd voor SSL RPC-communicatie.
-
[SPARK-45427] RPC SSL-instellingen toegevoegd aan
SSLOptions
enSparkTransportConf
. -
[SPARK-45584] Er is een fout opgelost bij het uitvoeren van subquery's met
TakeOrderedAndProjectExec
. -
[SPARK-45541] Toegevoegd
SSLFactory
. - [SPARK-42205] Logboekregistratieaccumulaties in fase- en taakstart-gebeurtenissen zijn verwijderd.
- Beveiligingsupdates van het besturingssysteem.
-
[SPARK-45545]
- 24 oktober 2023
-
[SPARK-45426] Er is ondersteuning toegevoegd voor
ReloadingX509TrustManager
. - Beveiligingsupdates van het besturingssysteem.
-
[SPARK-45426] Er is ondersteuning toegevoegd voor
- 13 oktober 2023
- Beveiligingsupdates van het besturingssysteem.
- 10 september 2023
- Diverse oplossingen.
- 30 augustus 2023
- Beveiligingsupdates van het besturingssysteem.
- 15 augustus 2023
- Beveiligingsupdates van het besturingssysteem.
- 23 juni 2023
- Snowflake-jdbc-bibliotheek wordt bijgewerkt naar 3.13.29 om een beveiligingsprobleem op te lossen.
- Beveiligingsupdates van het besturingssysteem.
- 15 juni 2023
- [SPARK-43098] Corrigeer de fout AANTAL correctheid wanneer scalaire subquery een group by-component heeft.
-
[SPARK-43156][SPARK-43098] Breid het aantal bugtests voor scalaire subquery's uit met
decorrelateInnerQuery
uitgeschakeld. - [SPARK-40862] Ondersteuning voor niet-geaggregeerde subquery's in RewriteCorrelatedScalarSubquery.
- Beveiligingsupdates van het besturingssysteem.
- 2 juni 2023
- De JSON-parser in
failOnUnknownFields
de modus verwijdert een record inDROPMALFORMED
de modus en mislukt rechtstreeks inFAILFAST
de modus. - Er is een probleem opgelost bij het parseren van gegevens in JSON om te voorkomen
UnknownFieldException
. - Er is een probleem opgelost in Auto Loader waarbij verschillende bronbestandsindelingen inconsistent waren toen het opgegeven schema geen uitgestelde partities had opgenomen. Dit probleem kan onverwachte fouten veroorzaken bij het lezen van bestanden met ontbrekende kolommen in het uitgestelde partitieschema.
-
[SPARK-37520] De
startswith()
functies enendswith()
tekenreeksen toevoegen -
[SPARK-43413] De null-baarheid van subquery
IN
is opgelostListQuery
. - Beveiligingsupdates van het besturingssysteem.
- De JSON-parser in
- 17 mei 2023
- Beveiligingsupdates van het besturingssysteem.
- 25 april 2023
- Beveiligingsupdates van het besturingssysteem.
- 11 april 2023
- Er is een probleem opgelost waarbij de evolutie van Auto Loader-schema's in een oneindige foutlus terecht kan komen wanneer een nieuwe kolom wordt gedetecteerd in het schema van een geneste JSON-object.
- [SPARK-42967] Oplossing voor SparkListenerTaskStart.stageAttemptId wanneer een taak wordt gestart nadat de fase is geannuleerd.
- 29 maart 2023
- Beveiligingsupdates van het besturingssysteem.
- 14 maart 2023
-
[SPARK-42484] Verbeterd foutbericht voor
UnsafeRowUtils
. - Diverse oplossingen.
-
[SPARK-42484] Verbeterd foutbericht voor
- 28 februari 2023
- Gebruikers kunnen nu specifieke Delta-tabellen lezen en schrijven waarvoor Lezer versie 3 en Writer versie 7 is vereist, met databricks Runtime 9.1 LTS of hoger. Als u wilt slagen, moeten tabelfuncties in het protocol van de tabellen worden ondersteund door de huidige versie van Databricks Runtime.
- Beveiligingsupdates van het besturingssysteem.
- 16 februari 2023
- Beveiligingsupdates van het besturingssysteem.
- 31 januari 2023
- Tabeltypen van JDBC-tabellen zijn nu standaard EXTERN.
- 18 januari 2023
- Beveiligingsupdates van het besturingssysteem.
- 29 november 2022
- Er is een probleem opgelost met het parseren van JSON in Auto Loader wanneer alle kolommen als tekenreeksen waren ingesteld (
cloudFiles.inferColumnTypes
was niet ingesteld of ingesteld opfalse
) en de JSON geneste objecten bevatte. - Beveiligingsupdates van het besturingssysteem.
- Er is een probleem opgelost met het parseren van JSON in Auto Loader wanneer alle kolommen als tekenreeksen waren ingesteld (
- 15 november 2022
- Apache commons-text bijgewerkt naar 1.10.0.
- Beveiligingsupdates van het besturingssysteem.
- Diverse oplossingen.
- 1 november 2022
- Er is een probleem opgelost waarbij als een Delta-tabel een door de gebruiker gedefinieerde kolom met de naam
_change_type
had, maar Gegevensfeed wijzigen was uitgeschakeld voor die tabel, gegevens in die kolom onjuist zouden worden gevuld met NULL-waarden bij het uitvoeren vanMERGE
. - Er is een probleem opgelost met automatisch laden waarbij een bestand in dezelfde microbatch kan worden gedupliceerd wanneer
allowOverwrites
is ingeschakeld - [SPARK-40596] ExecutorDecommission vullen met berichten in ExecutorDecommissionInfo
- Beveiligingsupdates van het besturingssysteem.
- Er is een probleem opgelost waarbij als een Delta-tabel een door de gebruiker gedefinieerde kolom met de naam
- 18 oktober 2022
- Beveiligingsupdates van het besturingssysteem.
- 5 oktober 2022
- Diverse oplossingen.
- Beveiligingsupdates van het besturingssysteem.
- 22 september 2022
- Gebruikers kunnen spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") instellen om de ingebouwde vermelding voor Auto Loader op ADLS Gen2 opnieuw in te schakelen. Ingebouwde vermelding is eerder uitgeschakeld vanwege prestatieproblemen, maar kan hebben geleid tot hogere opslagkosten voor klanten.
- [SPARK-40315] HashCode() toevoegen voor Literal of ArrayBasedMapData
- [SPARK-40089] Sorteren voor sommige decimale typen oplossen
- [SPARK-39887] RemoveRedundantAliases moet aliassen behouden die de uitvoer van projectieknooppunten uniek maken
- 6 september 2022
- [SPARK-40235] Onderbreekbare vergrendeling gebruiken in plaats van gesynchroniseerd in Executor.updateDependencies()
- [SPARK-35542] Fix: Bucketizer gemaakt voor meerdere kolommen met parameters splitsArray, inputCols en outputCols kan niet worden geladen nadat deze is opgeslagen.
- [SPARK-40079] Imputer inputCols-validatie voor lege invoercase toevoegen
- 24 augustus 2022
-
[SPARK-39666] OnveiligProjection.create gebruiken om te respecteren
spark.sql.codegen.factoryMode
in ExpressionEncoder - [SPARK-39962] Projectie toepassen wanneer groepskenmerken leeg zijn
- Beveiligingsupdates van het besturingssysteem.
-
[SPARK-39666] OnveiligProjection.create gebruiken om te respecteren
- 9 augustus 2022
- Beveiligingsupdates van het besturingssysteem.
- 27 juli 2022
- Zorg ervoor dat de Delta MERGE-bewerking consistent is wanneer de bron niet-deterministisch is.
-
[SPARK-39689] Ondersteuning voor twee tekens
lineSep
in csv-gegevensbron -
[SPARK-39575] Toegevoegd
ByteBuffer#rewind
naByteBuffer#get
inAvroDeserializer
. - [SPARK-37392] De prestatiefout voor katalysatoroptimalisatie is opgelost.
- Beveiligingsupdates van het besturingssysteem.
- 13 juli 2022
-
[SPARK-39419]
ArraySort
genereert een uitzondering wanneer de comparator null retourneert. - Automatisch laden is uitgeschakeld voor het gebruik van ingebouwde cloud-API's voor adreslijstvermelding in Azure.
- Beveiligingsupdates van het besturingssysteem.
-
[SPARK-39419]
- 5 juli 2022
- Beveiligingsupdates van het besturingssysteem.
- Diverse oplossingen.
- 15 juni 2022
-
[SPARK-39283] Impasse tussen
TaskMemoryManager
enUnsafeExternalSorter.SpillableIterator
.
-
[SPARK-39283] Impasse tussen
- 2 juni 2022
-
[SPARK-34554] Implementeer de
copy()
methode inColumnarMap
. - Beveiligingsupdates van het besturingssysteem.
-
[SPARK-34554] Implementeer de
- 18 mei 2022
- Er is een mogelijk ingebouwd geheugenlek opgelost in de Auto Loader.
- Voer een upgrade uit van AWS SDK-versie van 1.11.655 naar 1.11.678.
- [SPARK-38918] Geneste kolomverwijdering moet kenmerken uitfilteren die niet tot de huidige relatie behoren
-
[SPARK-39084] Oplossing
df.rdd.isEmpty()
doorTaskContext
iterator te stoppen bij het voltooien van de taak - Beveiligingsupdates van het besturingssysteem.
- 19 april 2022
- Beveiligingsupdates van het besturingssysteem.
- Diverse oplossingen.
- 6 april 2022
- [SPARK-38631] Maakt gebruik van implementatie op basis van Java voor het ongedaan maken van tarring bij Utils.unpack.
- Beveiligingsupdates van het besturingssysteem.
- 22 maart 2022
- De huidige werkmap van notebooks op clusters met hoge gelijktijdigheid gewijzigd, waarbij toegangsbeheer voor tabellen of referentiepassthrough is ingeschakeld voor de basismap van de gebruiker. Voorheen was
/databricks/driver
de Active Directory. - [SPARK-38437] Lenient serialisatie van datum/tijd uit gegevensbron
- [SPARK-38180] Veilige up-cast-expressies toestaan in gecorreleerde gelijkheidspredicaten
- [SPARK-38155] Afzonderlijke statistische functies in laterale subquery's met niet-ondersteunde predicaten weigeren
- [SPARK-27442] Een controleveld verwijderd bij het lezen of schrijven van gegevens in een parquet.
- De huidige werkmap van notebooks op clusters met hoge gelijktijdigheid gewijzigd, waarbij toegangsbeheer voor tabellen of referentiepassthrough is ingeschakeld voor de basismap van de gebruiker. Voorheen was
- 14 maart 2022
- [SPARK-38236] Absolute bestandspaden die worden opgegeven bij het maken of wijzigen van een tabel, worden behandeld als relatief
-
[SPARK-34069] taakthread onderbreken als lokale eigenschap
SPARK_JOB_INTERRUPT_ON_CANCEL
is ingesteld op true.
- 23 februari 2022
- [SPARK-37859] SQL-tabellen die zijn gemaakt met JDBC met Spark 3.1, kunnen niet worden gelezen met Spark 3.2.
- 8 februari 2022
- [SPARK-27442] Een controleveld verwijderd bij het lezen of schrijven van gegevens in een parquet.
- Beveiligingsupdates van het besturingssysteem.
- 1 februari 2022
- Beveiligingsupdates van het besturingssysteem.
- 26 januari 2022
- Een probleem is opgelost waarbij gelijktijdige transacties in Delta-tabellen onder enkele zeldzame omstandigheden in een niet-serieerbare volgorde konden worden doorgevoerd.
- Er is een probleem opgelost waarbij de
OPTIMIZE
-opdracht kon mislukken wanneer het ANSI SQL-dialect werd ingeschakeld.
- 19 januari 2022
- Kleine oplossingen en beveiligingsverbeteringen.
- Beveiligingsupdates van het besturingssysteem.
- 4 november 2021
- Er is een probleem opgelost waardoor Structured Streaming-streams mislukken met een
ArrayIndexOutOfBoundsException
. - Er is een racevoorwaarde opgelost die een queryfout kan veroorzaken met een IOException zoals
java.io.IOException: No FileSystem for scheme
of waardoor wijzigingensparkContext.hadoopConfiguration
mogelijk niet van kracht worden in query's. - De Apache Spark Connector voor Delta Sharing is bijgewerkt naar 0.2.0.
- Er is een probleem opgelost waardoor Structured Streaming-streams mislukken met een
- 20 oktober 2021
- BigQuery-connector bijgewerkt van 0.18.1 naar 0.22.2. Hiermee wordt ondersteuning toegevoegd voor het type BigNumeric.