Delen via


Succesmethodologie voor Synapse-implementatie: Omgeving evalueren

Notitie

Dit artikel maakt deel uit van het succes van de Azure Synapse-implementatie door ontwerpreeksen . Zie Azure Synapse-implementatie geslaagd voor een overzicht van de reeks.

De eerste stap bij het implementeren van Azure Synapse Analytics is het uitvoeren van een evaluatie van uw omgeving. Een evaluatie biedt u de mogelijkheid om alle beschikbare informatie over uw bestaande omgeving, milieuvereisten, projectvereisten, beperkingen, tijdlijnen en pijnpunten te verzamelen. Deze informatie vormt de basis van latere evaluaties en controlepuntactiviteiten. Het zal waardevol blijken wanneer het tijd is om de projectoplossing te valideren en te vergelijken met de geplande, ontworpen en ontwikkelde projectoplossing. We raden u aan om een goede hoeveelheid tijd te besteden aan het verzamelen van alle informatie en ervoor te zorgen dat u de nodige discussies met relevante groepen hebt. Relevante groepen kunnen project belanghebbenden, zakelijke gebruikers, oplossingsontwerpers en deskundigen (KMO's) van de bestaande oplossing en omgeving omvatten.

De evaluatie wordt een handleiding voor het evalueren van het oplossingsontwerp en het maken van geïnformeerde technologieaanbevelingen voor het implementeren van Azure Synapse.

Workloadevaluatie

De workloadevaluatie houdt zich bezig met de omgeving, analytische workloadrollen, ETL/ELT, netwerken en beveiliging, de Azure-omgeving en het gegevensverbruik.

Omgeving

Evalueer voor de omgeving de volgende punten.

  • Beschrijf uw bestaande analytische workload:
    • Wat zijn de workloads (zoals datawarehouse of big data)?
    • Hoe helpt deze workload het bedrijf? Wat zijn de use-casescenario's?
    • Wat is het bedrijfsstuurprogramma voor dit analytische platform en voor mogelijke migratie?
    • Verzamel details over de bestaande architectuur, het ontwerp en de implementatie.
    • Verzamel details over alle bestaande upstream- en downstreamafhankelijke onderdelen en consumenten.
  • Migreert u een bestaand datawarehouse (zoals Microsoft SQL Server, Microsoft Analytics Platform System (APS), Netezza, Snowflake of Teradata)?
  • Migreert u een big data-platform (zoals Cloudera of Hortonworks)?
  • Verzamel de architectuur- en gegevensstroomdiagrammen voor de huidige analytische omgeving.
  • Waar bevinden zich de gegevensbronnen voor uw geplande analytische workloads (Azure, andere cloudproviders of on-premises)?
  • Wat is de totale grootte van bestaande gegevenssets (historisch en incrementeel)? Wat is de huidige groeisnelheid van uw gegevensset(s)? Wat is de verwachte groei van uw gegevenssets voor de komende 2-5 jaar?
  • Hebt u een bestaande data lake? Verzamel zoveel mogelijk details over bestandstypen (zoals Parquet of CSV), bestandsgrootten en beveiligingsconfiguratie.
  • Hebt u semi-gestructureerde of ongestructureerde gegevens die u wilt verwerken en analyseren?
  • Beschrijf de aard van de gegevensverwerking (batch- of realtimeverwerking).
  • Hebt u interactieve gegevensverkenning nodig van relationele gegevens, data lake of andere bronnen?
  • Hebt u realtime gegevensanalyse en -verkenning van operationele gegevensbronnen nodig?
  • Wat zijn de pijnpunten en beperkingen in de huidige omgeving?
  • Welke broncodebeheer- en DevOps-hulpprogramma's gebruikt u vandaag?
  • Hebt u een use-case voor het bouwen van een hybride (cloud- en on-premises) analytische oplossing, alleen cloud of meerdere clouds?
  • Verzamel informatie over de bestaande cloudomgeving. Is het een provider met één cloud of een provider met meerdere clouds?
  • Plannen verzamelen over de toekomstige cloudomgeving. Is het een provider met één cloud of een multicloudprovider?
  • Wat zijn de RPO/RTO/HA/SLA-vereisten in de bestaande omgeving?
  • Wat zijn de RPO/RTO/HA/SLA-vereisten in de geplande omgeving?

Rollen voor analytische werkbelasting

Evalueer de volgende punten voor de analytische workloadrollen.

  • Beschrijf de verschillende rollen (data scientist, data engineer, gegevensanalist en andere).
  • Beschrijf de vereiste voor toegangsbeheer van het analytische platform voor deze rollen.
  • Identificeer de eigenaar van het platform die verantwoordelijk is voor het inrichten van rekenresources en het verlenen van toegang.
  • Beschrijven hoe verschillende gegevensrollen momenteel samenwerken.
  • Werken er meerdere teams samen aan hetzelfde analytische platform? Zo ja, wat zijn de vereisten voor toegangsbeheer en isolatie voor elk van deze teams?
  • Wat zijn de clienthulpprogramma's die eindgebruikers gebruiken om te communiceren met het analytische platform?

ETL/ELT, transformatie en indeling

Evalueer de volgende punten voor ETL/ELT, transformatie en indeling.

  • Welke hulpprogramma's gebruikt u vandaag voor gegevensopname (ETL of ELT)?
  • Waar bevinden deze hulpprogramma's zich in de bestaande omgeving (on-premises of de cloud)?
  • Wat zijn uw huidige vereisten voor het laden en bijwerken van gegevens (realtime, microbatch, uur, dagelijks, wekelijks of maandelijks)?
  • Beschrijf de transformatievereisten voor elke laag (big data, data lake, datawarehouse).
  • Wat is de huidige programmeerbenadering voor het transformeren van de gegevens (geen code, weinig code, programmeren zoals SQL, Python, Scala, C# of andere)?
  • Wat is de voorkeursbenadering voor gepland programmeren om de gegevens te transformeren (zonder code, weinig code, programmeren zoals SQL, Python, Scala, C# of andere)?
  • Welke hulpprogramma's worden momenteel gebruikt voor gegevensindeling om het gegevensgestuurde proces te automatiseren?
  • Waar bevinden zich de gegevensbronnen voor uw bestaande ETL (Azure, andere cloudprovider of on-premises)?
  • Wat zijn de bestaande hulpprogramma's voor gegevensverbruik (rapportage, BI-hulpprogramma's, opensource-hulpprogramma's) waarvoor integratie met het analytische platform is vereist?
  • Wat zijn de hulpprogramma's voor gepland gegevensverbruik (rapportage, BI-hulpprogramma's, opensource-hulpprogramma's) waarvoor integratie met het analytische platform nodig is?

Netwerken en beveiliging

Evalueer de volgende punten voor netwerken en beveiliging.

  • Welke wettelijke vereisten hebt u voor uw gegevens?
  • Als uw gegevens klantinhoud, payment card industry (PCI) of Health Insurance Portability and Accountability Act van 1996 (HIPAA) gegevens bevatten, heeft uw beveiligingsgroep Azure gecertificeerd voor deze gegevens? Zo ja, voor welke Azure-services?
  • Beschrijf uw gebruikersautorisatie- en verificatievereisten.
  • Zijn er beveiligingsproblemen die de toegang tot gegevens tijdens de implementatie kunnen beperken?
  • Zijn er testgegevens beschikbaar voor gebruik tijdens het ontwikkelen en testen?
  • Beschrijf de netwerkbeveiligingsvereisten van de organisatie op de analytische berekening en opslag (privénetwerk, openbaar netwerk of firewallbeperkingen).
  • Beschrijf de netwerkbeveiligingsvereisten voor clienthulpprogramma's voor toegang tot analytische berekening en opslag (gekoppeld netwerk, privé-eindpunt of ander).
  • Beschrijf de huidige netwerkinstallatie tussen on-premises en Azure (Azure ExpressRoute, site-naar-site of ander).

Gebruik de volgende controlelijsten met mogelijke vereisten om uw evaluatie te begeleiden.

  • Gegevensbescherming:
    • In-transit-versleuteling
    • Versleuteling at rest (standaardsleutels of door de klant beheerde sleutels)
    • Detectie en classificatie van gegevens
  • Toegangsbeheer:
    • Beveiliging op objectniveau
    • Beveiliging op rijniveau
    • Beveiliging op kolomniveau
    • Dynamische gegevensmaskering
  • Verificatie:
    • SQL-aanmelding
    • Microsoft Entra ID
    • Multi-factor authentication (MFA)
  • Netwerkbeveiliging:
    • Virtuele netwerken
    • Firewall
    • Azure ExpressRoute
  • Beveiliging tegen bedreigingen:
    • Detectie van bedreigingen
    • Controle
    • Evaluatie van beveiligingsproblemen

Zie het technische document over beveiliging van Azure Synapse Analytics voor meer informatie.

Azure-omgeving

Evalueer de volgende punten voor de Azure-omgeving.

  • Gebruikt u momenteel Azure? Wordt deze gebruikt voor productieworkloads?
  • Als u Azure gebruikt, welke services gebruikt u? Welke regio's gebruikt u?
  • Gebruikt u Azure ExpressRoute? Wat is de bandbreedte?
  • Hebt u budgetgoedkeuring om de vereiste Azure-services in te richten?
  • Hoe richt u momenteel resources in (Azure Resource Manager (ARM) of Terraform?
  • Is uw belangrijkste team bekend met Synapse Analytics? Is er training vereist?

Gegevensverbruik

Evalueer voor gegevensverbruik de volgende punten.

  • Beschrijf hoe en welke hulpprogramma's u momenteel gebruikt om activiteiten uit te voeren, zoals opnemen, verkennen, voorbereiden en gegevensvisualisatie.
  • Bepaal welke hulpprogramma's u wilt gebruiken om activiteiten uit te voeren, zoals opnemen, verkennen, voorbereiden en gegevensvisualisatie.
  • Welke toepassingen zijn gepland om te communiceren met het analytische platform (Microsoft Power BI, Microsoft Excel, Microsoft SQL Server Reporting Services, Tableau of anderen)?
  • Identificeer alle gegevensgebruikers.
  • Vereisten voor gegevensexport en gegevensdeling identificeren.

Evaluatie van Azure Synapse-services

De Evaluatie van Azure Synapse-services houdt zich bezig met de services in Azure Synapse. Azure Synapse heeft de volgende onderdelen voor reken- en gegevensverplaatsing:

  • Synapse SQL: een gedistribueerd querysysteem voor Transact-SQL (T-SQL) waarmee scenario's voor datawarehousing en gegevensvirtualisatie mogelijk zijn. Het breidt ook T-SQL uit naar scenario's voor streaming en machine learning (ML). Synapse SQL biedt zowel serverloze als toegewezen resourcemodellen.
  • Serverloze SQL-pool: een gedistribueerd gegevensverwerkingssysteem dat is gebouwd voor grootschalige gegevens en rekenfuncties. Er is geen infrastructuur voor het instellen of onderhouden van clusters. Deze service is geschikt voor niet-geplande of burst-workloads. Aanbevolen scenario's omvatten snelle gegevensverkenning op bestanden rechtstreeks op het data lake, logische datawarehouse en gegevenstransformatie van onbewerkte gegevens.
  • Toegewezen SQL-pool: vertegenwoordigt een verzameling analytische resources die worden ingericht bij het gebruik van Synapse SQL. De grootte van een toegewezen SQL-pool (voorheen SQL DW) wordt bepaald door DWU’s (Data Warehousing Unit). Deze service is geschikt voor een datawarehouse met voorspelbare, hoogwaardige continue workloads voor gegevens die zijn opgeslagen in SQL-tabellen. 
  • Apache Spark-pool: Apache Spark is diep en naadloos geïntegreerd. Dit is de populairste open source big data-engine die wordt gebruikt voor gegevensvoorbereiding, data engineering, ETL en ML.
  • Pijplijnen voor gegevensintegratie: Azure Synapse bevat dezelfde gegevensintegratie-engine en ervaringen als Azure Data Factory (ADF). Hiermee kunt u uitgebreide ETL-pijplijnen op schaal maken zonder Azure Synapse te verlaten.

Evalueer de volgende punten om het beste type SQL-pool (toegewezen of serverloos) te bepalen.

  • Wilt u een traditioneel relationeel datawarehouse bouwen door verwerkingskracht te reserveren voor gegevens die zijn opgeslagen in SQL-tabellen?
  • Vraag uw use cases voorspelbare prestaties?
  • Wilt u een logisch datawarehouse bouwen boven op een data lake?
  • Wilt u rechtstreeks vanuit een data lake een query uitvoeren op gegevens?
  • Wilt u gegevens verkennen vanuit een data lake?

In de volgende tabel worden de twee Synapse SQL-pooltypen vergeleken.

Vergelijking Toegewezen SQL-pool Serverloze SQL-pool
Waardeproposities Volledig beheerde mogelijkheden van een datawarehouse. Voorspelbare en hoge prestaties voor continue workloads. Geoptimaliseerd voor beheerde (geladen) gegevens. Eenvoudig om aan de slag te gaan en data lake-gegevens te verkennen. Betere totale eigendomskosten (TCO) voor ad-hoc- en onregelmatige workloads. Geoptimaliseerd voor het opvragen van gegevens in een data lake.
Workloads Ideaal voor continue workloads. Laden verbetert de prestaties, met meer complexiteit. Opladen per DWU (wanneer de grootte goed is) is voordelig. Ideaal voor ad-hoc- of onregelmatige workloads. Het is niet nodig om gegevens te laden, dus het is eenvoudiger om te starten en uit te voeren. Het opladen per gebruik is voordelig.
Queryprestaties Biedt hoge gelijktijdigheid en lage latentie. Ondersteunt uitgebreide cachingopties, waaronder gerealiseerde weergaven. Er is de mogelijkheid om compromissen te kiezen met workloadbeheer (WLM). Niet geschikt voor dashboardquery's. Reactietijden van milliseconden worden niet verwacht. Het werkt alleen voor externe gegevens.

Evaluatie van toegewezen SQL-pools

Evalueer voor de evaluatie van de toegewezen SQL-pool de volgende platformpunten.

  • Wat is het huidige datawarehouseplatform (Microsoft SQL Server, Netezza, Teradata, Greenplum of andere)?
  • Voor een migratieworkload bepaalt u het merk en model van uw apparaat voor elke omgeving. Neem details op van CPU's, GPU's en geheugen.
  • Wanneer is de hardware aangeschaft voor een migratie van een apparaat? Is het apparaat volledig afgeschaft? Zo niet, wanneer eindigt de afschrijving? Hoeveel kapitaaluitgaven is er nog?
  • Zijn er hardware- en netwerkarchitectuurdiagrammen?
  • Waar bevinden zich de gegevensbronnen voor uw geplande datawarehouse (Azure, andere cloudprovider of on-premises)?
  • Wat zijn de gegevenshostingplatforms van de gegevensbronnen voor uw datawarehouse (Microsoft SQL Server, Azure SQL Database, DB2, Oracle, Azure Blob Storage, AWS, Hadoop of ander)?
  • Zijn een van de databronnen datawarehouses? Zo ja, welke?
  • Identificeer alle ETL-, ELT- en gegevenslaadscenario's (batchvensters, streaming, bijna realtime). Identificeer bestaande SLA's (Service Level Agreements) voor elk scenario en documenteer de verwachte SLA's in de nieuwe omgeving.
  • Wat is de huidige grootte van het datawarehouse?
  • Op welke snelheid van de groei van de gegevensset wordt de toegewezen SQL-pool toegepast?
  • Beschrijf de omgevingen die u momenteel gebruikt (ontwikkeling, test of productie).
  • Welke hulpprogramma's zijn momenteel aanwezig voor gegevensverplaatsing (ADF, Microsoft SQL Server Integration Services (SSIS), robocopy, Informatica, SFTP of anderen)?
  • Bent u van plan om realtime of bijna realtime gegevens te laden?

Evalueer de volgende databasepunten.

  • Wat is het aantal objecten in elk datawarehouse (schema's, tabellen, weergaven, opgeslagen procedures, functies)?
  • Is het een stervormig schema, sneeuwvlokschema of ander ontwerp?
  • Wat zijn de grootste tabellen in termen van grootte en aantal records?
  • Wat zijn de breedste tabellen in termen van het aantal kolommen?
  • Is er al een gegevensmodel ontworpen voor uw datawarehouse? Is het een Kimball-, Inmon- of stervormig schemaontwerp?
  • Worden langzaam veranderende dimensies (SCD's) gebruikt? Zo ja, welke typen?
  • Wordt een semantische laag geïmplementeerd met behulp van relationele datamarts of Analysis Services (tabellair of multidimensionaal) of een ander product?
  • Wat zijn de vereisten voor HA/RPO/RTO/gegevensarchivering?
  • Wat zijn de vereisten voor regioreplicatie?

Evalueer de volgende workloadkenmerken.

  • Wat is het geschatte aantal gelijktijdige gebruikers of taken dat tijdens piekuren toegang heeft tot het datawarehouse?
  • Wat is het geschatte aantal gelijktijdige gebruikers of taken dat tijdens daluren toegang heeft tot het datawarehouse?
  • Is er een periode waarin er geen gebruikers of taken zijn?
  • Wat zijn de verwachtingen van de prestaties van de queryuitvoering voor interactieve query's?
  • Wat zijn de verwachtingen voor de prestaties van uw gegevensbelasting voor dagelijkse/wekelijkse/maandelijkse gegevens die worden geladen of bijgewerkt?
  • Wat zijn de verwachtingen voor de uitvoering van uw query's voor rapportage en analytische query's?
  • Hoe complex zijn de meest uitgevoerde query's?
  • Welk percentage van de totale grootte van de gegevensset is uw actieve gegevensset?
  • Ongeveer welk percentage van de workload wordt verwacht voor het laden of bijwerken, batchverwerking of rapportage, interactieve query en analytische verwerking?
  • Identificeer de patronen en platforms die gegevens verbruiken:
    • Huidige en geplande rapportagemethode en hulpprogramma's.
    • Welke toepassings- of analytische hulpprogramma's hebben toegang tot het datawarehouse?
    • Aantal gelijktijdige query's?
    • Gemiddeld aantal actieve query's op enig moment?
    • Wat is de aard van gegevenstoegang (interactief, ad hoc, exporteren of anderen)?
    • Gegevensrollen en volledige beschrijving van hun gegevensvereisten.
    • Maximum aantal gelijktijdige verbindingen.
  • SLA-patroon voor queryprestaties op:
    • Dashboardgebruikers.
    • Batchrapportage.
    • ML-gebruikers.
    • ETL-proces.
  • Wat zijn de beveiligingsvereisten voor de bestaande omgeving en voor de nieuwe omgeving (beveiliging op rijniveau, beveiliging op kolomniveau, toegangsbeheer, versleuteling en andere)?
  • Hebt u vereisten voor het integreren van ML-modelscores met T-SQL?

Evaluatie van serverloze SQL-pools

Synapse Serverless SQL-pool ondersteunt drie belangrijke use cases.

  • Basisdetectie en -verkenning: Snel redeneren over de gegevens in verschillende indelingen (Parquet, CSV, JSON) in uw data lake, zodat u kunt plannen hoe u er inzichten uit kunt extraheren.
  • Logisch datawarehouse: bied een relationele abstractie boven op onbewerkte of verschillende gegevens zonder gegevens te verplaatsen en transformeren, zodat u altijd een actuele weergave van uw gegevens kunt bekijken.
  • Gegevenstransformatie: eenvoudige, schaalbare en performante manier om gegevens in het lake te transformeren met behulp van T-SQL, zodat deze kan worden ingevoerd in BI en andere hulpprogramma's of in een relationeel gegevensarchief (Synapse SQL-databases, Azure SQL Database of andere).

Verschillende gegevensrollen kunnen profiteren van een serverloze SQL-pool:

  • Data engineers kunnen de data lake verkennen, gegevens transformeren en voorbereiden met behulp van deze service en hun pijplijnen voor gegevenstransformatie vereenvoudigen.
  • Gegevenswetenschappers kunnen snel redeneren over de inhoud en structuur van de gegevens in de data lake, dankzij functies zoals OPENROWSET en automatische schemadeductie.
  • Gegevensanalisten kunnen gegevens en externe Spark-tabellen verkennen die zijn gemaakt door gegevenswetenschappers of data engineers met behulp van bekende T-SQL-instructies of hun favoriete queryhulpprogramma's.
  • BI-professionals kunnen snel Power BI-rapporten maken op basis van gegevens in de Data Lake - en Spark-tabellen.

Notitie

De T-SQL-taal wordt gebruikt in zowel een toegewezen SQL-pool als de serverloze SQL-pool, maar er zijn enkele verschillen in de set ondersteunde functies. Zie Transact-SQL-functies die worden ondersteund in Azure Synapse SQL voor meer informatie over T-SQL-functies die worden ondersteund in Synapse SQL (toegewezen en serverloos).

Evalueer de volgende punten voor de evaluatie van de serverloze SQL-pool.

  • Hebt u use cases voor het detecteren en verkennen van gegevens uit een data lake met behulp van relationele query's (T-SQL)?
  • Hebt u use cases voor het bouwen van een logisch datawarehouse boven op een data lake?
  • Bepaal of er use cases zijn om gegevens in de data lake te transformeren zonder eerst gegevens uit de data lake te verplaatsen.
  • Bevinden uw gegevens zich al in Azure Data Lake Storage (ADLS) of Azure Blob Storage?
  • Als uw gegevens zich al in ADLS bevinden, hebt u een goede partitiestrategie in de data lake?
  • Hebt u operationele gegevens in Azure Cosmos DB? Hebt u gebruiksvoorbeelden voor realtime analyses in Azure Cosmos DB zonder dat dit van invloed is op transacties?
  • Identificeer de bestandstypen in de data lake.
  • Identificeer de SLA voor queryprestaties. Vereist uw use-case voorspelbare prestaties en kosten?
  • Hebt u niet-geplande of bursty SQL-analytische workloads?
  • Het patroon en de platforms identificeren die gegevens verbruiken:
    • Huidige en geplande rapportagemethode en hulpprogramma's.
    • Welke toepassings- of analytische hulpprogramma's hebben toegang tot de serverloze SQL-pool?
    • Het gemiddelde aantal actieve query's op elk gewenst moment.
    • Wat is de aard van gegevenstoegang (interactief, ad hoc, exporteren of anderen)?
    • Gegevensrollen en volledige beschrijving van hun gegevensvereisten.
    • Maximum aantal gelijktijdige verbindingen.
    • Complexiteit van query's?
  • Wat zijn de beveiligingsvereisten (toegangsbeheer, versleuteling en andere)?
  • Wat is de vereiste T-SQL-functionaliteit (opgeslagen procedures of functies)?
  • Identificeer het aantal query's dat wordt verzonden naar de serverloze SQL-pool en de grootte van de resultatenset van elke query.

Fooi

Als u niet bekend bent met serverloze SQL-pools, raden we u aan om de oplossingen voor gegevensanalyse bouwen te doorlopen met behulp van het leertraject serverloze SQL-pools van Azure Synapse.

Evaluatie van Spark-pool

Spark-pools in Azure Synapse maken de volgende belangrijke scenario's mogelijk.

  • Data engineering/gegevensvoorbereiding: Apache Spark bevat veel taalfuncties ter ondersteuning van de voorbereiding en verwerking van grote hoeveelheden gegevens. De voorbereiding en verwerking kunnen de gegevens waardevoller maken en deze kunnen worden gebruikt door andere Azure Synapse-services. Het is ingeschakeld via meerdere talen (C#, Scala, PySpark, Spark SQL) en met behulp van opgegeven bibliotheken voor verwerking en connectiviteit.
  • Machine learning: Apache Spark wordt geleverd met MLlib. Dit is een ML-bibliotheek die is gebouwd op Spark die u kunt gebruiken vanuit een Spark-pool. Spark-pools bevatten ook Anaconda, een Python-distributie die bestaat uit verschillende pakketten voor gegevenswetenschap, waaronder ML. Daarnaast biedt Apache Spark in Synapse vooraf geïnstalleerde bibliotheken voor Microsoft Machine Learning. Dit is een fouttolerant, elastisch en RESTful ML-framework. In combinatie met ingebouwde ondersteuning voor notebooks hebt u een uitgebreide omgeving voor het maken van ML-toepassingen.

Notitie

Zie Apache Spark in Azure Synapse Analytics voor meer informatie.

Azure Synapse is ook compatibel met Linux Foundation Delta Lake. Delta Lake is een opensource-opslaglaag die ACID-transacties (atomiciteit, consistentie, isolatie en duurzaamheid) naar Apache Spark- en big data-workloads brengt. Zie Wat is Delta Lake voor meer informatie.

Evalueer de volgende punten voor de evaluatie van de Spark-pool.

  • Identificeer de workloads waarvoor data engineering of gegevensvoorbereiding is vereist.
  • Definieer duidelijk de typen transformaties.
  • Bepaal of u ongestructureerde gegevens hebt die moeten worden verwerkt.
  • Wanneer u migreert vanuit een bestaande Spark/Hadoop-workload:
    • Wat is het bestaande big data-platform (Cloudera, Hortonworks, cloudservices of andere)?
    • Als het een migratie van on-premises is, is hardware afgeschaft of zijn licenties verlopen? Als dat niet het geval is, wanneer vindt afschrijving of vervaldatum plaats?
    • Wat is het bestaande clustertype?
    • Wat zijn de vereiste bibliotheken en Spark-versies?
    • Is het een Hadoop-migratie naar Spark?
    • Wat zijn de huidige of voorkeursprogrammeertalen?
    • Wat is het type workload (big data, ML of andere)?
    • Wat zijn de bestaande en geplande clienthulpprogramma's en rapportageplatforms?
    • Wat zijn de beveiligingsvereisten?
    • Zijn er huidige pijnpunten en beperkingen?
  • Bent u van plan om Delta Lake te gebruiken of momenteel te gebruiken?
  • Hoe beheert u vandaag pakketten?
  • Identificeer de vereiste typen rekenclusters.
  • Bepaal of clusteraanpassing is vereist.

Fooi

Als u nog niet bekend bent met Spark-pools, raden we u aan om het leertraject Data Engineering uitvoeren met Azure Synapse Apache Spark Pools uit te voeren.

Volgende stappen

In het volgende artikel in de azure Synapse-serie voor succes van ontwerp leert u hoe u het Ontwerp van de Synapse-werkruimte evalueert en controleert of deze voldoet aan de richtlijnen en vereisten.