Använda Azure Synapse Analytics med analys i molnskala
Azure Synapse Analytics är den etablerade, integrerade analystjänsten som ger snabbare insikter mellan informationslager och stordatasystem. Azure Synapse Analytics sammanför:
- De bästa SQL-teknikerna som används i företagsdatalager.
- Spark-tekniker som används för stordata.
- Pipelines för dataprogram (källjusterad) och extrahera, transformera och läsa in (ETL) eller extrahera, läsa in och transformera (ELT).
Azure Synapse Studio är ett verktyg i Azure Synapse som ger en enhetlig upplevelse för hantering, övervakning, kodning och säkerhet. Synapse Studio har djup integrering med andra Azure-tjänster som Power BI, Azure Cosmos DB och Azure Machine Learning.
Kommentar
Det här avsnittet syftar till att beskriva föreskrivna konfigurationer som är specifika för analys i molnskala. Det är en komplimang till den officiella Azure Synapse Analytics-dokumentationen.
Översikt
Under den första installationen av en datalandningszon kan du distribuera en enda Azure Synapse Analytics-arbetsyta för användning av alla analytiker och dataforskare. Du kan skapa fler arbetsytor för specifika dataintegreringar eller dataprodukter.
Du kan behöva extra Azure Synapse Analytics-arbetsytor om din dataprodukt behöver ge åtkomst till standardiserade data med säkerhet på radnivå och kolumnnivå. Du kan tillhandahålla dessa arbetsytor med Azure Synapse-pooler. Dataproduktteam kan behöva en egen arbetsyta för att skapa dataprodukter och en separat arbetsyta som endast är avsedd för produktteam med begränsad utvecklingsåtkomst.
Konfiguration av Azure Synapse Analytics
Det första steget i distributionen av Azure Synapse Analytics är att konfigurera en Azure Synapse-arbetsyta som är ansluten till ett Azure Purview-konto.
Azure Synapse Analytics-nätverk
En datalandningszon skapar arbetsytor med ett hanterat virtuellt Azure Synapse Analytics-nätverk. Kommunikation med Azure Synapse sker via de tre slutpunkter som den exponerar: SQL-pool, SQL på begäran och utvecklingsslutpunkten.
På nätverksnivå använder analys i molnskala synapse-hanterade privata slutpunkter. Dessa slutpunkter säkerställer att all trafik mellan datalandningszonens virtuella nätverk och Azure Synapse-arbetsytor flyttas helt över Microsofts stamnätverk.
Åtkomstkontroll för Azure Synapse-data
Använd åtkomstkontrollistor med Microsoft Entra-direkt i Azure Synapse Analytics för att hantera åtkomst till filerna i datasjön.
För data där du behöver begränsa kolumner och rader som returneras rekommenderar vi säkerhet på radnivå och kolumnnivå för att begränsa dataåtkomsten för tabellerna i azure Synapse SQL-dedikerad eller serverlös pool. Säkerhet på radnivå och säkerhet på kolumnnivå implementeras på databasnivå och utöver databasrollerna.
Säkerhet på radnivå säkerställer till exempel att användare i ett specifikt dataprogram (källjusterat) eller dataprodukt endast ser sina egna data. Även om tabellen innehåller data för hela företaget.
Du kan kombinera säkerhet på radnivå med säkerhet på kolumnnivå för att begränsa åtkomsten till kolumner med känsliga data. På så sätt tillämpar både säkerhet på radnivå och säkerhet på kolumnnivå logiken för åtkomstbegränsning på databasnivån i stället för programnivån. Behörigheten utvärderas varje gång dataåtkomst görs från valfri nivå.
Kommentar
Azure Synapse serverlös SQL-pool stöder säkerhet på kolumnnivå för vyer och inte för externa tabeller. Om det gäller externa tabeller kan man skapa en logisk vy ovanpå den externa tabellen och än tillämpa säkerhet på kolumnnivå. Vid säkerhet på radnivå kan anpassade vyer användas som en lösning.
Mer information finns i Azure Synapse Analytics-dataåtkomstkontroll.
Åtkomstkontroll för Azure Synapse-data i Azure Data Lake
När du distribuerar en Azure Synapse Analytics-arbetsyta behöver du ett Azure Data Lake Storage-konto från prenumerationen eller genom att använda lagringskontots URL manuellt. Det angivna lagringskontot anges som primärt för den distribuerade Azure Synapse-arbetsytan för att lagra sina data. Azure Synapse lagrar data i en container som innehåller Apache Spark-tabeller och Spark-programloggar i en mapp med namnet /synapse/{workspaceName}
. Den har också en container för att hantera alla bibliotek som du väljer att installera.
Dricks
Vi rekommenderar att du använder en dedikerad container på utvecklingsskiktet eller datasjöns tre-konto . Den här containern används som primär lagring för att lagra Spark-metadata.
Se Azure Synapse Analytics-dataåtkomstkontroll för rekommendationer om hur du konfigurerar dataåtkomst.