Gegevens overslaan voor Delta Lake
Notitie
In Databricks Runtime 13.3 en hoger raadt Databricks aan om vloeibare clustering te gebruiken voor de indeling van deltatabellen. Clustering is niet compatibel met Z-volgorde. Zie Liquid clustering gebruiken voor Delta-tabellen.
Gegevens overslaan worden automatisch verzameld wanneer u gegevens naar een Delta-tabel schrijft. Delta Lake in Azure Databricks maakt gebruik van deze informatie (minimum- en maximumwaarden, null-aantallen en totaal aantal records per bestand) op het moment van query's om snellere query's te bieden.
U moet statistieken hebben verzameld voor kolommen die worden gebruikt in ZORDER
instructies. Zie Wat is Z-ordering?
Kolommen voor Delta-statistieken opgeven
Delta Lake verzamelt standaard statistieken over de eerste 32 kolommen die zijn gedefinieerd in uw tabelschema. Wanneer voorspellende optimalisatie is ingeschakeld, worden statistieken voor het overslaan van bestanden intelligent gekozen en zijn ze niet beperkt tot de eerste 32 kolommen. Voorspellende optimalisatie wordt automatisch uitgevoerd ANALYZE
, een opdracht voor het verzamelen van statistieken in beheerde tabellen van Unity Catalog. Databricks raadt aan voorspellende optimalisatie in te schakelen voor alle beheerde tabellen in Unity Catalog om het onderhoud van gegevens te vereenvoudigen en de opslagkosten te verlagen. Zie Voorspellende optimalisatie voor beheerde tabellen in Unity Catalog.
Belangrijk
Voorspellende optimalisatie met ANALYZE
bevindt zich in openbare preview. Het bevat intelligente verzameling statistieken tijdens schrijfbewerkingen. Gebruik dit formulier om u aan te melden voor de openbare preview.
Als u geen predictive optimization gebruikt, kunt u het gedrag wijzigen waarmee statistiekenverzamelingen worden beperkt tot 32 kolommen door een van de volgende tabeleigenschappen in te stellen:
Tabeleigenschap | Databricks Runtime ondersteund | Beschrijving |
---|---|---|
delta.dataSkippingNumIndexedCols |
Alle ondersteunde Databricks Runtime-versies | Verhoog of verklein het aantal kolommen waarop Delta statistieken verzamelt. Afhankelijk van de kolomvolgorde. |
delta.dataSkippingStatsColumns |
Databricks Runtime 13.3 LTS en hoger | Geef een lijst met kolomnamen op waarvoor Delta Lake statistieken verzamelt. dataSkippingNumIndexedCols Vervangt . |
Tabeleigenschappen kunnen worden ingesteld bij het maken van tabellen of met ALTER TABLE
instructies. Zie naslaginformatie over eigenschappen van Delta-tabellen.
Bij het bijwerken van deze eigenschappen worden statistieken voor bestaande gegevens niet automatisch opnieuw berekend. In plaats daarvan heeft dit invloed op het gedrag van het verzamelen van toekomstige statistieken bij het toevoegen of bijwerken van gegevens in de tabel. Delta Lake maakt geen gebruik van statistieken voor kolommen die niet zijn opgenomen in de huidige lijst met statistiekenkolommen.
Als u in Databricks Runtime 14.3 LTS en hoger de tabeleigenschappen hebt gewijzigd of de opgegeven kolommen voor statistieken hebt gewijzigd, kunt u de hercomputatie van statistieken voor een Delta-tabel handmatig activeren met behulp van de volgende opdracht:
ANALYZE TABLE table_name COMPUTE DELTA STATISTICS
Notitie
Lange tekenreeksen worden afgekapt tijdens het verzamelen van statistieken. U kunt ervoor kiezen om lange tekenreekskolommen uit te sluiten van de verzameling statistieken, met name als de kolommen niet vaak worden gebruikt voor het filteren van query's.
Wat is Z-ordering?
Notitie
Databricks raadt het gebruik van vloeibare clustering aan voor alle nieuwe Delta-tabellen. U kunt niet in combinatie met vloeistofclustering gebruiken ZORDER
.
Z-volgorde is een techniek voor het plaatsen van gerelateerde informatie in dezelfde set bestanden. Deze co-locatie wordt automatisch gebruikt door Delta Lake in Azure Databricks-algoritmen voor het overslaan van gegevens. Dit gedrag vermindert de hoeveelheid gegevens die Delta Lake in Azure Databricks moet lezen aanzienlijk. Voor Z-ordergegevens geeft u de kolommen op waarop u in de component wilt ZORDER BY
orden:
OPTIMIZE events
WHERE date >= current_timestamp() - INTERVAL 1 day
ZORDER BY (eventType)
Als u verwacht dat een kolom vaak wordt gebruikt in querypredicaten en als die kolom een hoge kardinaliteit (dat wil gezegd een groot aantal afzonderlijke waarden) heeft, gebruikt u ZORDER BY
.
U kunt meerdere kolommen opgeven als ZORDER BY
een door komma's gescheiden lijst. De effectiviteit van de lokaliteit daalt echter met elke extra kolom. Z-volgorde op kolommen waarvoor geen statistieken zijn verzameld, zou ineffectief zijn en een verspilling van resources. Dit komt doordat voor het overslaan van gegevens kolom-lokale statistieken zijn vereist, zoals min, max en aantal. U kunt het verzamelen van statistieken voor bepaalde kolommen configureren door de volgorde van kolommen in het schema te wijzigen of u kunt het aantal kolommen verhogen waarop statistieken moeten worden verzameld.
Notitie
Z-volgorde is niet idempotent , maar is een incrementele bewerking. De tijd die nodig is voor Z-volgorde is niet gegarandeerd om te verminderen over meerdere uitvoeringen. Als er echter geen nieuwe gegevens zijn toegevoegd aan een partitie die alleen Z-geordende was, heeft een andere Z-volgorde van die partitie geen effect.
Z-volgorde streeft ernaar om gelijkmatig verdeelde gegevensbestanden te produceren met betrekking tot het aantal tuples, maar niet noodzakelijkerwijs gegevensgrootte op schijf. De twee metingen zijn het vaakst gecorreleerd, maar er kunnen situaties zijn waarin dat niet het geval is, wat leidt tot scheeftrekken in het optimaliseren van taaktijden.
Als u
ZORDER BY
bijvoorbeeld datumt en de meest recente records veel breder zijn (bijvoorbeeld langere matrices of tekenreekswaarden) dan de records in het verleden, wordt verwacht dat de taakduur van deOPTIMIZE
taak scheef is, evenals de resulterende bestandsgrootten. Dit is echter alleen een probleem voor deOPTIMIZE
opdracht zelf; het mag geen negatieve invloed hebben op volgende query's.