Ongebruikte gegevensbestanden verwijderen met vacuüm
Voorspellende optimalisatie voert automatisch VACUUM
uit op beheerde tabellen van Unity Catalog. Databricks raadt aan voorspellende optimalisaties in te schakelen voor alle beheerde Tabellen in Unity Catalog om het onderhoud van gegevens te vereenvoudigen en de opslagkosten te verlagen. Zie Voorspellende optimalisatie voor beheerde tabellen van Unity Catalog.
U kunt gegevensbestanden verwijderen waarnaar niet meer wordt verwezen door een Delta-tabel die ouder is dan de drempelwaarde voor bewaren door de opdracht VACUUM
in de tabel uit te voeren. Regelmatig uitvoeren VACUUM
is belangrijk voor kosten en naleving vanwege de volgende overwegingen:
- Het verwijderen van ongebruikte gegevensbestanden vermindert de kosten voor cloudopslag.
- Gegevensbestanden die zijn verwijderd door
VACUUM
, kunnen records bevatten die zijn gewijzigd of verwijderd. Als u deze bestanden permanent verwijdert uit de cloudopslag, zorgt u ervoor dat deze records niet meer toegankelijk zijn.
Kanttekeningen voor vacuüm
De standaardretentiedrempel voor gegevensbestanden na uitvoering VACUUM
is 7 dagen. Zie Gegevensretentie configureren voor query's voor tijdreizen om dit gedrag te wijzigen.
VACUUM
kan lege mappen achterblijven nadat alle bestanden erin zijn verwijderd. Volgende VACUUM
bewerkingen verwijderen deze lege mappen.
Databricks raadt aan voorspellende optimalisatie te gebruiken om automatisch VACUUM
uit te voeren voor Delta-tabellen. Zie Voorspellende optimalisatie voor beheerde tabellen van Unity Catalog.
Sommige Delta Lake-functies gebruiken metagegevensbestanden om gegevens te markeren als verwijderd in plaats van gegevensbestanden te herschrijven. U kunt REORG TABLE ... APPLY (PURGE)
deze verwijderingen doorvoeren en gegevensbestanden herschrijven. Zie Alleen verwijderen van metagegevens opschonen om het herschrijven van gegevens af te dwingen.
Belangrijk
- In Databricks Runtime 13.3 LTS en hoger
VACUUM
semantiek voor ondiepe klonen met beheerde tabellen van Unity Catalog verschillen van andere Delta-tabellen. Zie Vacuum en Unity Catalog ondiepe klonen. -
VACUUM
verwijdert alle bestanden uit mappen die niet worden beheerd door Delta Lake, waarbij mappen worden genegeerd die beginnen met_
of.
. Als u extra metagegevens zoals Structured Streaming-controlepunten opslaat in een Delta-tabelmap, gebruikt u een mapnaam zoals_checkpoints
.- Gegevens voor wijzigingsgegevensfeed worden beheerd door Delta Lake in de
_change_data
map en verwijderd metVACUUM
. Zie Delta Lake-wijzigingsgegevensfeed gebruiken in Azure Databricks. - Bloeifilterindexen maken gebruik van de
_delta_index
map die wordt beheerd door Delta Lake.VACUUM
Hiermee worden bestanden in deze map opgeschoond. Zie Bloom-filterindexen.
- Gegevens voor wijzigingsgegevensfeed worden beheerd door Delta Lake in de
- De mogelijkheid om een query uit te voeren op tabelversies die ouder zijn dan de bewaarperiode, gaat verloren nadat
VACUUM
is uitgevoerd. - Logboekbestanden worden automatisch en asynchroon verwijderd na controlepuntbewerkingen en vallen niet onder
VACUUM
. Hoewel de standaardretentieperiode van logboekbestanden 30 dagen is, worden metVACUUM
in een tabel de gegevensbestanden verwijderd die nodig zijn voor tijdreizen.
Notitie
Wanneer schijfcaching is ingeschakeld, kan een cluster gegevens bevatten uit Parquet-bestanden die zijn verwijderd met VACUUM
. Daarom is het mogelijk om query's uit te voeren op de gegevens van eerdere tabelversies waarvan de bestanden zijn verwijderd. Als u het cluster opnieuw opstart, worden de gegevens in de cache verwijderd. Zie De schijfcache configureren.
Voorbeeldsyntaxis voor vacuüm
VACUUM table_name -- vacuum files not required by versions older than the default retention period
VACUUM table_name RETAIN 100 HOURS -- vacuum files not required by versions more than 100 hours old
VACUUM table_name DRY RUN -- do dry run to get the list of files to be deleted
Zie VACUUMvoor details van spark SQL-syntaxis.
Zie de Documentatie voor de Delta Lake-API voor de syntaxis van Scala, Java en Python.
Notitie
Gebruik het RETAIN
trefwoord om de drempelwaarde op te geven die wordt gebruikt om te bepalen of een gegevensbestand moet worden verwijderd. De opdracht VACUUM
gebruikt deze drempelwaarde om terug te kijken naar de opgegeven tijdsduur en de meest recente tabelversie op dat moment te identificeren. Delta behoudt alle gegevensbestanden die nodig zijn om een query uit te voeren op die tabelversie en alle nieuwere tabelversies. Deze instelling communiceert met andere tabeleigenschappen. Zie Gegevensretentie configureren voor query's voor tijdreizen.
Volledige versus lichte modus
Belangrijk
Deze functie bevindt zich in openbare preview in Databricks Runtime 16.1 en hoger.
U kunt het LITE
trefwoord opgeven in uw vacuüminstructie om een alternatve-modus van VACUUM
te activeren, waardoor niet alle bestanden in de tabelmap worden weergegeven.
LITE
modus maakt gebruik van het Delta-transactielogboek om gegevensbestanden te identificeren die zich niet meer binnen de VACUUM
retentiedrempel bevinden en worden deze gegevensbestanden uit de tabel verwijderd.
LITE
-modus is met name handig voor grote tabellen waarvoor frequente VACUUM
bewerkingen nodig zijn, omdat niet alle bestanden moeten worden vermeld om deze gegevensbestanden te identificeren die moeten worden verwijderd.
Notitie
Als u VACUUM
uitvoert in LITE
modus, worden geen bestanden verwijderd waarnaar niet in het transactielogboek wordt verwezen. Bijvoorbeeld bestanden die zijn gemaakt door een afgebroken transactie.
Gebruik de volgende syntaxis voor VACUUM
in de modus LITE
:
VACUUM table_name LITE
LITE
modus heeft de volgende vereiste:
- U moet ten minste één geslaagde
VACUUM
bewerking hebben uitgevoerd binnen de geconfigureerde bewaardrempel voor transactielogboeken (standaard 30 dagen).
Als niet aan deze vereiste wordt voldaan, wordt het volgende foutbericht weergegeven wanneer u probeert VACUUM
uit te voeren in LITE
modus. Als u wilt doorgaan, moet u VACUUM
uitvoeren in FULL
modus.
VACUUM <tableName> LITE cannot delete all eligible files as some files are not referenced by the Delta log. Please run VACUUM FULL.
FULL
is de standaardmodus voor vacuüm. U kunt de volledige modus expliciet uitvoeren met de volgende opdracht:
VACUUM table_name FULL
Zie VACUUM.
Verwijderen van metagegevens die alleen worden verwijderd om het herschrijven van gegevens af te dwingen
De REORG TABLE
opdracht biedt de syntaxis voor het APPLY (PURGE)
herschrijven van gegevens om voorlopig verwijderen toe te passen. Met voorlopig verwijderen worden geen gegevens herschreven of gegevensbestanden verwijderd, maar worden metagegevensbestanden gebruikt om aan te geven dat sommige gegevenswaarden zijn gewijzigd. Zie REORG TABLE.
Bewerkingen die voorlopig verwijderen maken in Delta Lake zijn onder andere:
- Kolommen verwijderen met kolomtoewijzing ingeschakeld.
- Rijen verwijderen waarvoor verwijderingsvectoren zijn ingeschakeld.
- Alle gegevenswijzigingen in clusters met Photon-functionaliteit wanneer verwijderingsvectoren zijn ingeschakeld.
Als voorlopig verwijderen is ingeschakeld, blijven oude gegevens mogelijk fysiek aanwezig in de huidige bestanden van de tabel, zelfs nadat de gegevens zijn verwijderd of bijgewerkt. Voer de volgende stappen uit om deze gegevens fysiek uit de tabel te verwijderen:
- Voer
REORG TABLE ... APPLY (PURGE)
uit. Hierna zijn de oude gegevens niet meer aanwezig in de huidige bestanden van de tabel, maar deze zijn nog steeds aanwezig in de oudere bestanden die worden gebruikt voor tijdreizen. - Voer uit
VACUUM
om deze oudere bestanden te verwijderen.
REORG TABLE
maakt een nieuwe versie van de tabel wanneer de bewerking is voltooid. Alle tabelversies in de geschiedenis vóór deze transactie verwijzen naar oudere gegevensbestanden. Conceptueel gezien is dit vergelijkbaar met de opdracht OPTIMIZE
, waarbij gegevensbestanden opnieuw worden geschreven, ook al blijven gegevens in de huidige tabelversie consistent.
Belangrijk
Gegevensbestanden worden alleen verwijderd wanneer de bestanden zijn verlopen volgens de VACUUM
bewaarperiode. Dit betekent dat het VACUUM
moet worden gedaan met een vertraging nadat de REORG
oudere bestanden zijn verlopen. De bewaarperiode kan worden beperkt tot het verkorten van VACUUM
de vereiste wachttijd, ten koste van het verminderen van de maximale geschiedenis die wordt bewaard.
Welke grootte cluster heeft vacuüm nodig?
Als u de juiste clustergrootte voor VACUUM
wilt selecteren, is het handig om te begrijpen dat de bewerking in twee fasen plaatsvindt:
- De taak begint met het gebruik van alle beschikbare uitvoerknooppunten om bestanden in de bronmap parallel weer te geven. Deze lijst wordt vergeleken met alle bestanden waarnaar momenteel wordt verwezen in het Delta-transactielogboek om bestanden te identificeren die moeten worden verwijderd. De bestuurder zit inactief gedurende deze tijd.
- Het stuurprogramma geeft vervolgens verwijderingsopdrachten uit voor elk bestand dat moet worden verwijderd. Het verwijderen van bestanden is een bewerking die alleen voor stuurprogramma's geldt, wat betekent dat alle bewerkingen plaatsvinden in één knooppunt terwijl de werkrolknooppunten inactief zijn.
Om kosten en prestaties te optimaliseren, raadt Databricks het volgende aan, met name voor langdurige vacuümtaken:
- Voer een vacuum uit op een cluster met automatisch schalen ingesteld voor 1-4 processen, waarbij elk proces 8 processorcores heeft.
- Selecteer een stuurprogramma met tussen 8 en 32 kernen. Vergroot de grootte van het stuurprogramma om geheugenfouten (OOM) te voorkomen.
Als VACUUM
bewerkingen regelmatig meer dan 10 duizend bestanden verwijderen of meer dan 30 minuten verwerkingstijd in beslag nemen, kunt u de grootte van het stuurprogramma of het aantal werknemers verhogen.
Als u merkt dat de vertraging optreedt tijdens het identificeren van bestanden die moeten worden verwijderd, voegt u meer werkknooppunten toe. Als de vertraging optreedt tijdens het uitvoeren van verwijderopdrachten, kunt u proberen de grootte van het stuurprogramma te vergroten.
Hoe vaak moet u vacuüm uitvoeren?
Databricks raadt aan regelmatig VACUUM
uit te voeren op alle tabellen om overtollige cloudgegevensopslagkosten te verlagen. De standaardretentiedrempel voor vacuüm is 7 dagen. Als u een hogere drempelwaarde instelt, krijgt u toegang tot een grotere geschiedenis voor uw tabel, maar wordt het aantal opgeslagen gegevensbestanden verhoogd en worden hierdoor meer opslagkosten van uw cloudprovider in rekening gebracht.
Waarom kunt u een Delta-tabel met een lage retentiedrempel niet leegmaken?
Waarschuwing
Het is raadzaam om een bewaarinterval in te stellen op ten minste 7 dagen, omdat oude momentopnamen en niet-verzonden bestanden nog steeds in gebruik kunnen zijn door gelijktijdige lezers of schrijvers aan de tabel. Als VACUUM
actieve bestanden opschoont, kunnen gelijktijdige lezers mislukken of, erger, tabellen beschadigd raken wanneer VACUUM
bestanden verwijdert die nog niet zijn doorgevoerd. U moet een interval kiezen dat langer is dan de langstlopende gelijktijdige transactie en de langste periode die elke stream achter kan blijven bij de meest recente update van de tabel.
Delta Lake heeft een veiligheidscontrole om te voorkomen dat u een gevaarlijke VACUUM
opdracht uitvoert. Als u zeker weet dat er geen bewerkingen worden uitgevoerd in deze tabel die langer duren dan het retentieinterval dat u wilt opgeven, kunt u deze veiligheidscontrole uitschakelen door de Spark-configuratie-eigenschap in te stellen spark.databricks.delta.retentionDurationCheck.enabled
op false
.
Controlegegevens
VACUUM
doorvoeringen in het Delta-transactielogboek bevatten controlegegevens. U kunt query's uitvoeren op de controlegebeurtenissen met behulp van DESCRIBE HISTORY
.