De functie tabelonderhoud gebruiken om deltatabellen in Fabric te beheren
De Lakehouse in Microsoft Fabric biedt de functie Tabelonderhoud om deltatabellen efficiënt te beheren en ze altijd gereed te houden voor analyse. In deze handleiding wordt de tabelonderhoudsfunctie in Lakehouse en de bijbehorende mogelijkheden beschreven.
Belangrijke mogelijkheden van de lakehouse-tabelonderhoudsfunctie:
- Ad-hoctabelonderhoud uitvoeren met behulp van contextuele acties met de rechtermuisknop in een deltatabel in Lakehouse Explorer.
- Pas bin-compaction, V-Order en niet-deductie oude bestanden op.
Notitie
Voor geavanceerde onderhoudstaken, zoals het groeperen van meerdere opdrachten voor tabelonderhoud, het organiseren ervan op basis van een schema, is een codegerichte benadering de aanbevolen keuze. Zie het artikel over optimalisatie van Delta Lake-tabellen en V-Order voor meer informatie. Het is ook mogelijk om de Lakehouse-API te gebruiken voor het automatiseren van tabelonderhoudsbewerkingen voor meer informatie over Het beheren van Het Lakehouse met microsoft Fabric REST API.
Ondersteunde bestandstypen
Lakehouse-tabelonderhoud is alleen van toepassing op Delta Lake-tabellen. De verouderde Hive-tabellen die gebruikmaken van PARQUET, ORC, AVRO, CSV en andere indelingen worden niet ondersteund.
Onderhoudsbewerkingen voor tabellen
De tabelonderhoudsfunctie biedt drie bewerkingen.
- Optimaliseren: voegt meerdere kleine Parquet-bestanden samen in een groot bestand. Big Data-verwerkingsengines en alle Fabric-engines profiteren van grotere bestandsgrootten. Bestanden met een grootte van meer dan 128 MB en optimaal dicht bij 1 GB, verbeteren compressie en gegevensdistributie op de clusterknooppunten. Het vermindert de noodzaak om talloze kleine bestanden te scannen voor efficiënte leesbewerkingen. Het is een algemene best practice om optimalisatiestrategieën uit te voeren na het laden van grote tabellen.
- V-Order: Past geoptimaliseerde sortering, codering en compressie toe op Delta Parquet-bestanden om snelle leesbewerkingen mogelijk te maken in alle Fabric-engines. V-Volgorde vindt plaats tijdens de opdracht optimaliseren en wordt weergegeven als een optie voor de opdrachtgroep in de gebruikerservaring. Zie Optimalisatie van Delta Lake-tabellen en V-Order voor meer informatie over V-Order.
- Vacuüm: Verwijdert oude bestanden die niet meer worden verwezen door een Delta-tabellogboek. Bestanden moeten ouder zijn dan de retentiedrempel en de standaarddrempelwaarde voor bestandsretentie is zeven dagen. Alle deltatabellen in OneLake hebben dezelfde bewaarperiode. De bewaarperiode voor bestanden is hetzelfde, ongeacht de Fabric-berekeningsengine die u gebruikt. Dit onderhoud is belangrijk om de opslagkosten te optimaliseren. Het instellen van een kortere bewaarperiode is van invloed op de mogelijkheden voor tijdreizen van Delta. Het is een algemene aanbevolen procedure om een bewaarinterval in te stellen op ten minste zeven dagen, omdat oude momentopnamen en niet-verzonden bestanden nog steeds in gebruik kunnen zijn door de gelijktijdige tabellezers en schrijvers. Het opschonen van actieve bestanden met de opdracht VACUUM kan leiden tot fouten in de lezer of zelfs tot beschadigde tabellen als de niet-verzonden bestanden worden verwijderd.
Ad-hoctabelonderhoud uitvoeren op een Delta-tabel met behulp van Lakehouse
De functie gebruiken:
Navigeer vanuit uw Microsoft Fabric-account naar het gewenste Lakehouse.
Klik in de sectie Tabellen van Lakehouse Explorer met de rechtermuisknop op de tabel of gebruik het beletselteken voor toegang tot het contextmenu.
Selecteer de menuopdracht Onderhoud .
Controleer de onderhoudsopties in het dialoogvenster op basis van uw behoeften. Zie de sectie Onderhoudsbewerkingen voor tabellen in dit artikel voor meer informatie.
Selecteer Nu uitvoeren om de onderhoudstaak van de tabel uit te voeren.
Houd de uitvoering van onderhoudstaken bij via het meldingenvenster of de Monitoring Hub.
Hoe werkt tabelonderhoud?
Nadat Uitvoeren nu is geselecteerd, wordt er een Spark-onderhoudstaak verzonden voor uitvoering.
- De Spark-taak wordt verzonden met behulp van de gebruikersidentiteit en tabelbevoegdheden.
- De Spark-taak verbruikt infrastructuurcapaciteit van de werkruimte/gebruiker die de taak heeft ingediend.
- Als er een andere onderhoudstaak wordt uitgevoerd op een tabel, wordt een nieuwe taak geweigerd.
- Taken in verschillende tabellen kunnen parallel worden uitgevoerd.
- Onderhoudstaken voor tabellen kunnen eenvoudig worden bijgehouden in de Monitoring Hub. Zoek naar 'TableMaintenance'-tekst in de kolom activiteitsnaam op de hoofdpagina van de bewakingshub.