Lake-database

Artikel
12/19/2024

Met de Lake-database in Azure Synapse Analytics kunnen klanten databaseontwerp, metagegevens verzamelen over de gegevens die zijn opgeslagen en een mogelijkheid om te beschrijven hoe en waar de gegevens moeten worden opgeslagen. Lake Database is een oplossing voor de uitdaging van de data lakes van vandaag, waar het moeilijk is om te begrijpen hoe gegevens zijn gestructureerd.

Overzicht van Lake-database

Databaseontwerper

De nieuwe databaseontwerper in Synapse Studio biedt u de mogelijkheid om een gegevensmodel voor uw Lake-database te maken en er aanvullende informatie aan toe te voegen. Elke entiteit en kenmerk kunnen worden beschreven voor meer informatie over het model, dat niet alleen entiteiten maar ook relaties bevat. Met name het onvermogen om relaties te modelleren, is een uitdaging geweest voor de interactie met de data lake. Deze uitdaging wordt nu aangepakt met een geïntegreerde ontwerper die mogelijkheden biedt die beschikbaar zijn in databases, maar niet op het meer. Met de mogelijkheid om beschrijvingen en mogelijke demowaarden aan het model toe te voegen, kunnen mensen die ermee werken in de toekomst informatie krijgen waar ze deze nodig hebben om een beter inzicht te krijgen in de gegevens.

Notitie

De maximale grootte van metagegevens in een Lake-database is 10 GB. Het publiceren of bijwerken van een model dat groter is dan 10 GB, mislukt. U kunt dit probleem oplossen door de modelgrootte te verkleinen door tabellen en kolommen te verwijderen. Overweeg om grote modellen op te splitsen in meerdere Lake-databases om deze limiet te voorkomen.

Gegevensopslag

Lake-databases gebruiken een data lake in het Azure Storage-account om de gegevens van de database op te slaan. De gegevens kunnen worden opgeslagen in parquet-, Delta- of CSV-indeling en verschillende instellingen kunnen worden gebruikt om de opslag te optimaliseren. Elke Lake-database maakt gebruik van een gekoppelde service om de locatie van de hoofdgegevensmap te definiëren. Voor elke entiteit worden standaard afzonderlijke mappen gemaakt in deze databasemap op de data lake. Standaard gebruiken alle tabellen in een Lake-database dezelfde indeling, maar kunnen de indelingen en locatie van de gegevens per entiteit worden gewijzigd als dat wordt aangevraagd.

Notitie

Als u een Lake-database publiceert, worden geen onderliggende structuren of schema's gemaakt die nodig zijn om een query uit te voeren op de gegevens in Spark of SQL. Nadat u gegevens hebt gepubliceerd, laadt u gegevens in uw Lake-database met behulp van pijplijnen om er query's op uit te voeren.

Momenteel wordt ondersteuning voor Delta-indeling voor Lake-databases niet ondersteund in Synapse Studio.

De synchronisatie van lake-databaseobjecten tussen opslag en Synapse is één richting. Zorg ervoor dat u wijzigingen aan het maken of schema van Lake-databaseobjecten uitvoert met behulp van de databaseontwerper in Synapse Studio. Als u dergelijke wijzigingen vanuit Spark of rechtstreeks in de opslag aanbrengt, worden de definities van uw Lake-databases niet gesynchroniseerd. Als dit gebeurt, ziet u mogelijk oude lake-databasedefinities in de databaseontwerper. U moet dergelijke wijzigingen in de databaseontwerper repliceren en publiceren om uw Lake-databases weer gesynchroniseerd te maken.

Database-rekenproces

De Lake-database wordt weergegeven in de serverloze SQL-pool van Synapse SQL en Apache Spark, zodat gebruikers de mogelijkheid hebben om opslag los te koppelen van rekenkracht. De metagegevens die aan de Lake-database zijn gekoppeld, maken het eenvoudig voor verschillende berekeningsengines om niet alleen een geïntegreerde ervaring te bieden, maar ook aanvullende informatie (bijvoorbeeld relaties) te gebruiken die oorspronkelijk niet in de data lake zijn ondersteund.

Ga verder met het verkennen van de mogelijkheden van de databaseontwerper met behulp van de onderstaande koppelingen.

Delen via

Lake-database

Databaseontwerper

Gegevensopslag

Database-rekenproces

Feedback

Aanvullende resources

Delen via

Lake-database

Databaseontwerper

Gegevensopslag

Database-rekenproces

Gerelateerde inhoud

Feedback

Aanvullende resources