Delen via


Succesmethodologie voor Synapse-implementatie: Ontwerp voor gegevensintegratie evalueren

Notitie

Dit artikel maakt deel uit van het succes van de Azure Synapse-implementatie door ontwerpreeksen . Zie Azure Synapse-implementatie geslaagd voor een overzicht van de reeks.

Azure Synapse Analytics bevat dezelfde engine voor gegevensintegratie en ervaringen als Azure Data Factory (ADF), zodat u uitgebreide ETL-pijplijnen op schaal kunt maken zonder Azure Synapse Analytics te verlaten.

Afbeelding van de onderdelen van Azure Synapse, waarbij het Data-Integratie onderdeel is gemarkeerd.

In dit artikel wordt beschreven hoe u het ontwerp van de onderdelen voor gegevensintegratie voor uw project evalueert. Het helpt u met name te bepalen of Azure Synapse-pijplijnen het meest geschikt zijn voor uw vereisten voor gegevensintegratie. Tijd die is geïnvesteerd in het evalueren van het ontwerp voorafgaand aan de ontwikkeling van de oplossing, kan helpen onverwachte ontwerpwijzigingen te voorkomen die van invloed kunnen zijn op uw projecttijdlijn of -kosten.

Analyse van hiaat passend maken

U moet een grondige analyse van uw strategie voor gegevensintegratie uitvoeren. Als u Azure Synapse-pijplijnen als het hulpprogramma voor gegevensintegratie kiest, controleert u de volgende punten om ervoor te zorgen dat ze het meest geschikt zijn voor uw vereisten voor gegevensintegratie en indeling. Zelfs als u verschillende hulpprogramma's voor gegevensintegratie kiest, moet u nog steeds de volgende punten bekijken om te controleren of alle belangrijke ontwerppunten zijn overwogen en dat uw gekozen hulpprogramma uw oplossingsbehoeften ondersteunt. Deze informatie moet zijn vastgelegd tijdens uw evaluatie die eerder in deze methodologie is uitgevoerd.

  • Controleer uw gegevensbronnen en bestemmingen (doelen):
    • Valideer of bron- en doelarchieven ondersteunde gegevensarchieven zijn.
    • Als ze niet worden ondersteund, controleert u of u de uitbreidbare opties kunt gebruiken.
  • Bekijk de triggerpunten van uw gegevensintegratie en de frequentie:
    • Azure Synapse-pijplijnen bieden ondersteuning voor schema's, tumblingvensters en triggers voor opslagevenementen.
    • Valideer het minimale herhalingsinterval en ondersteunde opslaggebeurtenissen op basis van uw vereisten.
  • Bekijk de vereiste modi voor gegevensintegratie:
    • Geplande, periodieke en geactiveerde batchverwerking kan effectief worden ontworpen in Azure Synapse-pijplijnen.
    • Als u de functie Change Data Capture (CDC) wilt implementeren, gebruikt u producten van derden of maakt u een aangepaste oplossing.
    • Gebruik Azure Event Hubs, Azure Event Hubs, Azure Event Hubs van Apache Kafka of Azure IoT Hub om realtime streaming te ondersteunen.
    • Als u SSIS-pakketten (Microsoft SQL Server Integration Services) wilt uitvoeren, kunt u SSIS-workloads naar de cloud verplaatsen en verplaatsen.
  • Bekijk het rekenontwerp:
    • Moet de rekenkracht die nodig is voor de pijplijnen serverloos of ingericht zijn?
    • Azure Synapse-pijplijnen ondersteunen beide modi van Integration Runtime (IR): serverloos of zelf-hostend op een Windows-computer.
    • Valideer poorten en firewalls en proxy-instellingen bij gebruik van de zelf-hostende IR (ingericht).
  • Controleer de beveiligingsvereisten, netwerk- en firewallconfiguratie van de omgeving en vergelijk deze met het ontwerp voor beveiliging, netwerken en firewallconfiguratie:
    • Bekijk hoe de gegevensbronnen worden beveiligd en in het netwerk zijn opgeslagen.
    • Bekijk hoe de doelgegevensarchieven worden beveiligd en genetwerkt. Azure Synapse-pijplijnen hebben verschillende strategieën voor gegevenstoegang die een veilige manier bieden om gegevensarchieven te verbinden via privé-eindpunten of virtuele netwerken.
    • Gebruik Azure Key Vault om referenties op te slaan wanneer dit van toepassing is.
    • Gebruik ADF voor cmk-versleuteling (door de klant beheerde sleutel) van referenties en sla deze op in de zelf-hostende IR.
  • Bekijk het ontwerp voor doorlopende bewaking van alle onderdelen voor gegevensintegratie.

Overwegingen voor architectuur

Wanneer u het ontwerp voor gegevensintegratie bekijkt, moet u rekening houden met de volgende aanbevelingen en richtlijnen om ervoor te zorgen dat de onderdelen van de gegevensintegratie van uw oplossing doorlopende operationele uitmuntendheid, prestatie-efficiëntie, betrouwbaarheid en beveiliging bieden.

Operationele uitmuntendheid

Evalueer de volgende punten voor operationele uitmuntendheid.

  • Omgeving: Bij het plannen van uw omgevingen kunt u deze scheiden door ontwikkeling/test, UAT (User Acceptance Testing) en productie. Gebruik de organisatieopties voor mappen om uw pijplijnen en gegevenssets te ordenen op basis van zakelijke/ETL-taken ter ondersteuning van betere onderhoudbaarheid. Gebruik aantekeningen om uw pijplijnen te taggen, zodat u ze eenvoudig kunt bewaken. Maak herbruikbare pijplijnen met behulp van parameters en iteratie en voorwaardelijke activiteiten.
  • Bewaking en waarschuwingen: Synapse-werkruimten bevatten de Monitor Hub, met uitgebreide bewakingsgegevens van elke pijplijnuitvoering. Het kan ook worden geïntegreerd met Log Analytics voor verdere logboekanalyse en waarschuwingen. U moet deze functies implementeren om proactieve foutmeldingen te bieden. Gebruik ook bij foutpaden om aangepaste foutafhandeling te implementeren.
  • Geautomatiseerde implementatie en testen: Azure Synapse-pijplijnen zijn ingebouwd in de Synapse-werkruimte, zodat u kunt profiteren van werkruimteautomatisering en -implementatie. Gebruik ARM-sjablonen om handmatige activiteiten te minimaliseren bij het maken van Synapse-werkruimten. Integreer ook Synapse-werkruimten met Azure DevOps om codeversiebeheer te bouwen en publicatie te automatiseren.

Prestatie-efficiëntie

Evalueer de volgende punten voor prestatie-efficiëntie.

  • Volg de prestatierichtlijnen en optimalisatiefuncties bij het werken met de kopieeractiviteit.
  • Kies geoptimaliseerde connectors voor gegevensoverdracht in plaats van algemene connectors. Gebruik bijvoorbeeld PolyBase in plaats van bulksgewijs in te voegen bij het verplaatsen van gegevens van Azure Data Lake Storage Gen2 (ALDS Gen2) naar een toegewezen SQL-pool.
  • Wanneer u een nieuwe Azure IR maakt, stelt u de regiolocatie in als automatisch oplossen of selecteert u dezelfde regio als de gegevensarchieven.
  • Kies voor zelf-hostende IR de grootte van de virtuele Azure-machine (VM) op basis van de integratievereisten.
  • Kies een stabiele netwerkverbinding, zoals Azure ExpressRoute, voor snelle en consistente bandbreedte.

Betrouwbaarheid

Wanneer u een pijplijn uitvoert met behulp van Azure IR, is deze serverloos van aard en biedt deze dus standaard flexibiliteit. Er is weinig voor klanten om te beheren. Wanneer een pijplijn echter wordt uitgevoerd in een zelf-hostende IR, raden we u aan deze uit te voeren met behulp van een configuratie met hoge beschikbaarheid in Azure-VM's. Deze configuratie zorgt ervoor dat integratiepijplijnen niet worden verbroken, zelfs niet wanneer een virtuele machine offline gaat. U wordt ook aangeraden Azure ExpressRoute te gebruiken voor een snelle en betrouwbare netwerkverbinding tussen on-premises en Azure.

Beveiliging

Een beveiligd gegevensplatform is een van de belangrijkste vereisten van elke organisatie. U moet de beveiliging voor het hele platform grondig plannen in plaats van afzonderlijke onderdelen. Hier volgen enkele beveiligingsrichtlijnen voor Azure Synapse-pijplijnoplossingen.

  • Beveilig gegevensverplaatsing naar de cloud met behulp van privé-eindpunten van Azure Synapse.
  • Gebruik door Microsoft Entra beheerde identiteiten voor verificatie.
  • Gebruik op rollen gebaseerd toegangsbeheer (RBAC) en Synapse RBAC voor autorisatie.
  • Sla referenties, geheimen en sleutels op in Azure Key Vault in plaats van in de pijplijn. Zie Azure Key Vault-geheimen gebruiken in pijplijnactiviteiten voor meer informatie.
  • Maak verbinding met on-premises resources via Azure ExpressRoute of VPN via privé-eindpunten.
  • Schakel de opties voor beveiligde uitvoer en beveiligde invoer in pijplijnactiviteiten in wanneer parameters geheimen of wachtwoorden opslaan.

Volgende stappen

In het volgende artikel in de azure Synapse-serie met succes van ontwerp leert u hoe u het ontwerp van uw toegewezen SQL-pool evalueert om problemen te identificeren en te valideren dat deze voldoet aan richtlijnen en vereisten.