Wat is datawarehousing in Azure Databricks?
Datawarehousing verwijst naar het verzamelen en opslaan van gegevens uit meerdere bronnen, zodat deze snel kunnen worden geopend voor zakelijke inzichten en rapportage. Dit artikel bevat belangrijke concepten voor het bouwen van een datawarehouse in uw Data Lakehouse.
Datawarehousing in uw lakehouse
De lakehouse-architectuur en Databricks SQL bieden mogelijkheden voor datawarehousing in de cloud aan uw data lakes. Met behulp van vertrouwde gegevensstructuren, relaties en beheerhulpprogramma's kunt u een zeer goed presterend, rendabel datawarehouse modelleren dat rechtstreeks op uw data lake wordt uitgevoerd. Zie Wat is een data lakehouse voor meer informatie ?
Net als bij een traditioneel datawarehouse modelleerde u gegevens op basis van zakelijke vereisten en dient u deze vervolgens aan uw eindgebruikers voor analyse en rapporten. In tegenstelling tot een traditioneel datawarehouse kunt u voorkomen dat uw zakelijke analysegegevens worden gesilot of redundante kopieën worden gemaakt die snel verlopen.
Door een datawarehouse in uw lakehouse te bouwen, kunt u al uw gegevens in één systeem opnemen en kunt u profiteren van functies zoals Unity Catalog en Delta Lake.
Unity-Catalog voegt een geïntegreerd governancemodel toe, zodat u de toegang tot gegevens kunt beveiligen en controleren en herkomstinformatie kunt verstrekken over downstream-tables. Delta Lake voegt ACID-transacties en schema evolutie toe, waaronder krachtige hulpprogramma's om uw gegevens betrouwbaar, schaalbaar en van hoge kwaliteit te houden.
Wat is Databricks SQL?
Notitie
Databricks SQL Serverless is niet beschikbaar in Azure China. Databricks SQL is niet beschikbaar in Azure Government-regio's.
Databricks SQL is de verzameling services die datawarehousingmogelijkheden en -prestaties bieden aan uw bestaande data lakes. Databricks SQL ondersteunt open indelingen en standaard ANSI SQL. Met een in-platform SQL-editor en dashboardhulpprogramma's kunnen teamleden rechtstreeks in de werkruimte samenwerken met andere Databricks-gebruikers. Databricks SQL kan ook worden geïntegreerd met verschillende hulpprogramma's, zodat analisten query's en dashboards in hun favoriete omgevingen kunnen schrijven zonder dat ze zich hoeven aan te passen aan een nieuw platform.
Databricks SQL biedt algemene rekenresources die worden uitgevoerd op de tables in lakehouse. Databricks SQL wordt mogelijk gemaakt door SQL-warehouses, voorheen SQL-eindpunten genoemd, en biedt schaalbare SQL-rekenresources die losgekoppeld zijn van de opslag.
Zie Verbinding maken met een SQL-warehouse voor meer informatie over de standaardinstellingen en opties van SQL Warehouse.
Databricks SQL kan worden geïntegreerd met Unity Catalog, zodat u gegevensassets op één locatie kunt detecteren, controleren en beheren. Zie Wat is Unity Catalogvoor meer informatie?
Gegevensmodellering in Azure Databricks
Een lakehouse ondersteunt verschillende modelleringsstijlen. In de volgende afbeelding ziet u hoe gegevens worden gecureerd en gemodelleerd terwijl ze door verschillende lagen van een lakehouse worden verplaatst.
Medal medal architecture
De medal machtigingenarchitectuur is een gegevensontwerppatroon dat een reeks incrementele verfijnde gegevenslagen beschrijft die een basisstructuur in het lakehouse bieden. De brons-, zilver- en gouden lagen geven aan dat de gegevenskwaliteit op elk niveau wordt verhoogd, met goud dat de hoogste kwaliteit vertegenwoordigt. Zie Wat is de medaille-lakehousearchitectuur voor meer informatie.
In een lakehouse kan elke laag een of meer tablesbevatten. Het datawarehouse wordt gemodelleerd op de zilveren laag en voedt gespecialiseerde datamarts in de gouden laag.
Bronslaag
Gegevens kunnen uw lakehouse in elke indeling en via elke combinatie van batch- of stoomtransacties invoeren. De bronslaag biedt de landingsruimte voor al uw onbewerkte gegevens in de oorspronkelijke indeling. Die gegevens worden geconverteerd naar Delta tables.
Zilveren laag
De zilveren laag brengt de gegevens uit verschillende bronnen samen. Voor het deel van het bedrijf dat zich richt op data science- en machine learning-toepassingen, is dit where dat u begint met het verzamelen en beheren van zinvolle databronnen. Dit proces wordt vaak gemarkeerd door een focus op snelheid en flexibiliteit.
De zilveren laag is ook where u gegevens uit verschillende bronnen zorgvuldig kunt integreren om een datawarehouse te bouwen in overeenstemming met uw bestaande bedrijfsprocessen. Deze gegevens volgen vaak een derde normaal formulier (3NF) of Data Vault-model. Door beperkingen voor primaire en refererende sleutels op te geven, kunnen eindgebruikers inzicht hebben in table relaties bij het gebruik van Unity Catalog. Uw datawarehouse moet fungeren als de enige bron van waarheid voor uw datamarts.
Het datawarehouse zelf is schema-on-write en atomair. Het is geoptimaliseerd voor wijzigingen, zodat u het datawarehouse snel kunt aanpassen aan uw huidige behoeften wanneer uw bedrijfsprocessen veranderen of zich ontwikkelen.
Gouden laag
De gouden laag is de presentatielaag, die een of meer datamarts kan bevatten. Datamarts zijn vaak dimensionale modellen in de vorm van een set van gerelateerde tables die een specifiek bedrijfsperspectief vastleggen.
De gouden laag bevat ook afdelings- en data science-sandboxes om selfserviceanalyses en gegevenswetenschap in de hele onderneming mogelijk te maken. Als u deze sandboxs en hun eigen afzonderlijke rekenclusters oplevert, voorkomt u dat de zakelijke teams kopieën van gegevens buiten lakehouse maken.
Volgende stap
Zie Inleiding tot het goed ontworpen Data Lakehouse voor meer informatie over de principes en best practices voor het implementeren en gebruiken van een lakehouse met Databricks.