Delen via


Veelgestelde vragen over analyses op cloudschaal

Hier volgen veelgestelde vragen over analyses op cloudschaal.

Opslagaccounts

Waarom heb ik drie afzonderlijke opslagaccounts nodig? Kan ik er niet één hebben met drie containers voor elke laag (onbewerkt, verfijnd en gecureerd)?

De meeste patronen voor gegevensanalyse bestaan tegenwoordig met de drie lagen onbewerkt, verfijnd en samengesteld. Hoewel ze in dezelfde opslag kunnen worden bewaard, ontstaan er bij grootschalige implementaties problemen met het overschrijden van het aantal toegestane machtigingen voor op rollen gebaseerd toegangsbeheer (RBAC) en toegangsbeheerlijst (ACL) die beschikbaar zijn binnen één opslagaccount. Wanneer u afzonderlijke opslagaccounts gebruikt, kunnen de meeste implementaties dit probleem voorkomen.

Andere redenen worden besproken in Overzicht van Azure Data Lake Storage voor analyses op cloudschaal.

Databricks

Moeten we per product een Azure Databricks-werkruimte implementeren?

De aanbeveling is om de gedeelde azure Databricks-analyse- en data science-werkruimte binnen de landingszone te gebruiken.

Deze beslissing is genomen om de beheeroverhead voor het operationele team van het gegevensplatform te verminderen. Azure Databricks heeft een set zelfstandige beleidsregels die niet zijn geïntegreerd in het Azure-beleid. In een grote omgeving zorgt het instellen van meer Azure Databricks-werkruimten voor meer beheeroverhead. Bijvoorbeeld het onderhouden van beleidsregels en ondersteunde Apache Hive-versies, het bijwerken van ADB-versies en het afdwingen van externe Apache Hive-metastore. Het is niet mogelijk dat een centraal platformteam bepaalde instellingen binnen een van de Databricks-werkruimten kan afdwingen. We raden u aan om gedeelde werkruimten voor productteams in de landingszones te hebben, waar de teams van het gegevensplatform vervolgens het benodigde clusterbeleid en initialisatiescripts kunnen definiëren.

U wordt aangeraden VNet-peering te gebruiken tussen landingszones en privé-eindpunten. Gebruik VNet-injectie voor Azure Databricks. Omdat er een directe zichtlijn is naar alle eindpunten, zijn er geen verbindingsproblemen.

Volgende stappen

Het opnameproces met analyses op cloudschaal in Azure