Delen via


Naast Oracle-migratie implementeert u een modern datawarehouse in Microsoft Azure

Dit artikel is deel zeven van een zevendelige reeks die richtlijnen biedt voor het migreren van Oracle naar Azure Synapse Analytics. De focus van dit artikel is aanbevolen procedures voor het implementeren van moderne datawarehouses.

Voorbij de migratie van het datawarehouse naar Azure

Een belangrijke reden voor het migreren van uw bestaande datawarehouse naar Azure Synapse Analytics is het gebruik van een wereldwijd veilige, schaalbare, goedkope, cloudeigen, betalen per gebruik analytische database. Met Azure Synapse kunt u uw gemigreerde datawarehouse integreren met het volledige analytische Microsoft Azure-ecosysteem om te profiteren van andere Microsoft-technologieën en uw gemigreerde datawarehouse te moderniseren. Deze technologieën omvatten:

  • Azure Data Lake Storage voor kosteneffectieve gegevensopname, fasering, opschoning en transformatie. Data Lake Storage kan de capaciteit van het datawarehouse vrijmaken door snel groeiende faseringstabellen.

  • Azure Data Factory voor gezamenlijke IT- en selfservicegegevensintegratie met connectors voor cloud- en on-premises gegevensbronnen en streaminggegevens.

  • Common Data Model voor het delen van consistente vertrouwde gegevens over meerdere technologieën, waaronder:

    • Azure Synapse
    • Azure Synapse Spark
    • Azure HDInsight
    • Power BI
    • Adobe Customer Experience Platform
    • Azure IoT
    • Microsoft ISV-partners
  • Microsoft-technologieën voor gegevenswetenschap, waaronder:

    • Azure Machine Learning Studio
    • Azure Machine Learning
    • Azure Synapse Spark (Spark as a service)
    • Jupyter Notebooks
    • RStudio
    • ML.NET
    • .NET voor Apache Spark, waarmee gegevenswetenschappers Azure Synapse-gegevens kunnen gebruiken om machine learning-modellen op schaal te trainen.
  • Azure HDInsight voor het verwerken van grote hoeveelheden gegevens en het samenvoegen van big data met Azure Synapse-gegevens door een logisch datawarehouse te maken met PolyBase.

  • Azure Event Hubs, Azure Stream Analytics en Apache Kafka om livestreaminggegevens van Azure Synapse te integreren.

De groei van big data heeft geleid tot een acute vraag naar machine learning om aangepaste, getrainde machine learning-modellen mogelijk te maken voor gebruik in Azure Synapse. Machine learning-modellen maken in-databaseanalyse mogelijk om op schaal in batch te worden uitgevoerd, op basis van gebeurtenissen en op aanvraag. De mogelijkheid om te profiteren van in-databaseanalyses in Azure Synapse vanuit meerdere BI-hulpprogramma's en toepassingen garandeert ook consistente voorspellingen en aanbevelingen.

Daarnaast kunt u Azure Synapse integreren met Microsoft-partnerhulpprogramma's in Azure om de waarde korter te maken.

Laten we eens kijken hoe u kunt profiteren van technologieën in het analytische microsoft-ecosysteem om uw datawarehouse te moderniseren nadat u naar Azure Synapse hebt gemigreerd.

Fasering van gegevens en ETL-verwerking offloaden naar Data Lake Storage en Data Factory

Digitale transformatie heeft een belangrijke uitdaging voor ondernemingen gecreëerd door een torrent met nieuwe gegevens te genereren voor vastleggen en analyseren. Een goed voorbeeld hiervan zijn transactiegegevens die zijn gemaakt door OLTP-systemen (Online Transactional Processing) te openen voor servicetoegang vanaf mobiele apparaten. Veel van deze gegevens vinden hun weg naar datawarehouses en OLTP-systemen zijn de belangrijkste bron. Nu klanten de transactiesnelheid stimuleren in plaats van werknemers, neemt het aantal gegevens in faseringstabellen van het datawarehouse snel toe.

Met de snelle instroom van gegevens in de onderneming, samen met nieuwe gegevensbronnen zoals Internet of Things (IoT), moeten bedrijven manieren vinden om de ETL-verwerking van gegevensintegratie op te schalen. Een methode is het offloaden van opname, gegevensopschoning, transformatie en integratie met een data lake en daar gegevens op schaal verwerken, als onderdeel van een moderniseringsprogramma voor datawarehouses.

Zodra u uw datawarehouse naar Azure Synapse hebt gemigreerd, kan Microsoft uw ETL-verwerking moderniseren door gegevens op te nemen en te faseren in Data Lake Storage. Vervolgens kunt u uw gegevens op schaal opschonen, transformeren en integreren met Behulp van Data Factory voordat u deze parallel in Azure Synapse laadt met behulp van PolyBase.

Voor ELT-strategieën kunt u overwegen om ELT-verwerking naar Data Lake Storage te offloaden om eenvoudig te schalen naarmate uw gegevensvolume of frequentie toeneemt.

Microsoft Azure Data Factory

Azure Data Factory is een service voor betalen per gebruik, hybride gegevensintegratie voor zeer schaalbare ETL- en ELT-verwerking. Data Factory biedt een webgebruikersinterface voor het bouwen van pijplijnen voor gegevensintegratie zonder code. Met Data Factory kunt u het volgende doen:

  • Bouw codeloos schaalbare pijplijnen voor gegevensintegratie.

  • Eenvoudig gegevens op schaal verkrijgen.

  • Alleen betalen voor wat u gebruikt.

  • Maak verbinding met on-premises, cloud- en SaaS-gegevensbronnen.

  • Gegevens op schaal opnemen, verplaatsen, opschonen, transformeren, integreren en analyseren.

  • U kunt naadloos pijplijnen ontwerpen, bewaken en beheren die zowel on-premises als in de cloud gegevensopslag omvatten.

  • U kunt betalen per gebruik uitschalen in overeenstemming met de groei van klanten.

U kunt deze functies gebruiken zonder code te schrijven of u kunt aangepaste code toevoegen aan Data Factory-pijplijnen. In de volgende schermopname ziet u een voorbeeld van een Data Factory-pijplijn.

Schermopname van een voorbeeld van een Data Factory-pijplijn.

Tip

Met Data Factory kunt u schaalbare pijplijnen voor gegevensintegratie bouwen zonder code.

Implementeer data factory-pijplijnontwikkeling vanaf een van de verschillende locaties, waaronder:

  • Microsoft Azure Portal.

  • Microsoft Azure PowerShell.

  • Programmatisch vanuit .NET en Python met behulp van een SDK voor meerdere talen.

  • Arm-sjablonen (Azure Resource Manager).

  • REST API's.

Tip

Data Factory kan verbinding maken met on-premises, cloud- en SaaS-gegevens.

Ontwikkelaars en gegevenswetenschappers die liever code schrijven, kunnen eenvoudig Data Factory-pijplijnen schrijven in Java, Python en .NET met behulp van de SDK's (Software Development Kits) die beschikbaar zijn voor die programmeertalen. Data Factory-pijplijnen kunnen hybride gegevenspijplijnen zijn, omdat ze verbinding kunnen maken, opnemen, opschonen, transformeren en analyseren van gegevens in on-premises datacenters, Microsoft Azure, andere clouds en SaaS-aanbiedingen.

Nadat u Data Factory-pijplijnen hebt ontwikkeld om gegevens te integreren en analyseren, kunt u deze pijplijnen globaal implementeren en plannen om ze in batch uit te voeren, ze op aanvraag als een service aan te roepen of in realtime uit te voeren op basis van gebeurtenissen. Een Data Factory-pijplijn kan ook worden uitgevoerd op een of meer uitvoeringsengines en de uitvoering bewaken om prestaties te garanderen en fouten bij te houden.

Tip

In Azure Data Factory beheren pijplijnen de integratie en analyse van gegevens. Data Factory is software voor gegevensintegratie van bedrijfsklasse die is gericht op IT-professionals en beschikt over gegevensverwerende mogelijkheden voor zakelijke gebruikers.

Gebruiksgevallen

Data Factory ondersteunt meerdere gebruiksvoorbeelden, zoals:

  • Bereid, integreer en verrijk gegevens uit cloud- en on-premises gegevensbronnen om uw gemigreerde datawarehouse en datamarts in Microsoft Azure Synapse te vullen.

  • Gegevens uit cloud- en on-premises gegevensbronnen voorbereiden, integreren en verrijken om trainingsgegevens te produceren voor gebruik in machine learning-modelontwikkeling en bij het opnieuw trainen van analytische modellen.

  • Gegevensvoorbereiding en -analyses organiseren om voorspellende en prescriptieve analytische pijplijnen te maken voor het verwerken en analyseren van gegevens in batch, zoals sentimentanalyses. Reageer op de resultaten van de analyse of vul uw datawarehouse in met de resultaten.

  • Gegevens voorbereiden, integreren en verrijken voor gegevensgestuurde zakelijke toepassingen die worden uitgevoerd in de Azure-cloud boven op operationele gegevensarchieven zoals Azure Cosmos DB.

Tip

Bouw trainingsgegevenssets in data science om machine learning-modellen te ontwikkelen.

Gegevensbronnen

Met Data Factory kunt u connectors uit zowel cloud- als on-premises gegevensbronnen gebruiken. Agentsoftware, ook wel een zelf-hostende Integration Runtime genoemd, heeft veilig toegang tot on-premises gegevensbronnen en ondersteunt beveiligde, schaalbare gegevensoverdracht.

Gegevens transformeren met Behulp van Azure Data Factory

Binnen een Data Factory-pijplijn kunt u elk type gegevens uit deze bronnen opnemen, opschonen, transformeren, integreren en analyseren. Gegevens kunnen gestructureerd, semi-gestructureerd zijn, zoals JSON of Avro, of ongestructureerd.

Zonder code te schrijven, kunnen professionele ETL-ontwikkelaars gegevensstromen van Data Factory-toewijzing gebruiken om gegevensstromen te filteren, splitsen, samenvoegen, verschillende typen, opzoeken, draaien, draaitabel opheffen, sorteren, samenvoegen en aggregeren van gegevens. Daarnaast ondersteunt Data Factory surrogaatsleutels, meerdere schrijfverwerkingsopties, zoals invoegen, upsert, bijwerken, tabelrecreatie en afkapping van tabellen, en verschillende typen doelgegevensarchieven, ook wel sinks genoemd. ETL-ontwikkelaars kunnen ook aggregaties maken, waaronder tijdreeksaggregaties waarvoor een venster op gegevenskolommen moet worden geplaatst.

Tip

Professionele ETL-ontwikkelaars kunnen Data Factory-toewijzingsgegevensstromen gebruiken om gegevens op te schonen, te transformeren en te integreren zonder dat ze code hoeven te schrijven.

U kunt toewijzingsgegevensstromen uitvoeren waarmee gegevens worden getransformeerd als activiteiten in een Data Factory-pijplijn. Indien nodig kunt u meerdere toewijzingsgegevensstromen in één pijplijn opnemen. Op deze manier kunt u de complexiteit beheren door uitdagende gegevenstransformatie- en integratietaken op te splitsen in kleinere toewijzingsgegevensstromen die kunnen worden gecombineerd. En u kunt zo nodig aangepaste code toevoegen. Naast deze functionaliteit bieden data factory-toewijzingsgegevensstromen de mogelijkheid om:

  • Definieer expressies voor het opschonen en transformeren van gegevens, rekenaggregaties en het verrijken van gegevens. Deze expressies kunnen bijvoorbeeld functie-engineering uitvoeren op een datumveld om het in meerdere velden op te splitsen om trainingsgegevens te maken tijdens het ontwikkelen van het machine learning-model. U kunt expressies maken uit een uitgebreide set functies met wiskundige, tijdelijke, gesplitste, samenvoeging, samenvoeging van tekenreeksen, voorwaarden, patroonovereenkomst, vervanging en vele andere functies.

  • Automatisch schemadrift verwerken, zodat pijplijnen voor gegevenstransformatie kunnen voorkomen dat dit wordt beïnvloed door schemawijzigingen in gegevensbronnen. Deze mogelijkheid is met name belangrijk voor het streamen van IoT-gegevens, waarbij schemawijzigingen kunnen plaatsvinden zonder dat u merkt dat apparaten worden bijgewerkt of wanneer de leeswaarden worden gemist door gatewayapparaten die IoT-gegevens verzamelen.

  • Partitiegegevens om transformaties parallel op schaal uit te voeren.

  • Inspecteer streaminggegevens om de metagegevens van een stream weer te geven die u wilt transformeren.

Tip

Data Factory ondersteunt de mogelijkheid om schemawijzigingen automatisch te detecteren en te beheren in binnenkomende gegevens, zoals in streaminggegevens.

In de volgende schermopname ziet u een voorbeeld van een Gegevensfactory-toewijzingsgegevensstroom.

Schermopname van een voorbeeld van een Gegevensfactory-toewijzingsgegevensstroom.

Data engineers kunnen de kwaliteit van gegevens profileeren en de resultaten van afzonderlijke gegevenstransformaties bekijken door foutopsporing mogelijk te maken tijdens de ontwikkeling.

Tip

Data Factory kan ook gegevens partitioneren om ETL-verwerking op schaal uit te voeren.

Indien nodig kunt u de transformatie- en analytische functionaliteit van Data Factory uitbreiden door een gekoppelde service toe te voegen die uw code in een pijplijn bevat. Een Azure Synapse Spark-poolnotebook kan bijvoorbeeld Python-code bevatten die gebruikmaakt van een getraind model om de gegevens te beoordelen die zijn geïntegreerd door een toewijzingsgegevensstroom.

U kunt geïntegreerde gegevens en eventuele resultaten van analyses in een Data Factory-pijplijn opslaan in een of meer gegevensarchieven, zoals Data Lake Storage, Azure Synapse of Hive-tabellen in HDInsight. U kunt ook andere activiteiten aanroepen om te reageren op inzichten die worden geproduceerd door een analytische pijplijn van Data Factory.

Tip

Data Factory-pijplijnen zijn uitbreidbaar omdat u met Data Factory uw eigen code kunt schrijven en deze kunt uitvoeren als onderdeel van een pijplijn.

Spark gebruiken om gegevensintegratie te schalen

Tijdens runtime maakt Data Factory intern gebruik van Azure Synapse Spark-pools, die Microsoft Spark als een serviceaanbieding zijn, om gegevens op te schonen en te integreren in de Azure-cloud. U kunt gegevens op grote schaal opschonen, integreren en analyseren, zoals klikstroomgegevens. Microsoft is van plan om ook Data Factory-pijplijnen uit te voeren op andere Spark-distributies. Naast het uitvoeren van ETL-taken in Spark, kan Data Factory Pig-scripts en Hive-query's aanroepen voor toegang tot en transformatie van gegevens die zijn opgeslagen in HDInsight.

Met gegevens wrangling kunnen zakelijke gebruikers, ook wel burgergegevensintegrators en data engineers genoemd, gebruikmaken van het platform om gegevens visueel te ontdekken, verkennen en voorbereiden zonder code te schrijven. Deze Data Factory-functie is eenvoudig te gebruiken en is vergelijkbaar met Microsoft Excel Power Query- of Microsoft Power BI-gegevensstromen, waarbij selfservice zakelijke gebruikers een gebruikersinterface in spreadsheetstijl gebruiken met vervolgkeuzelijsttransformaties om gegevens voor te bereiden en te integreren. In de volgende schermopname ziet u een voorbeeld van een gegevensstroom voor Data Factory-wrangling.

Schermopname van een voorbeeld van data factory-wrangling-gegevensstromen.

In tegenstelling tot Excel en Power BI maken gegevensstromen met Data Factory gebruik van Power Query om M-code te genereren en deze vervolgens te vertalen in een enorme parallelle Spark-taak in het geheugen voor uitvoering op cloudschaal. Met de combinatie van toewijzingsgegevensstromen en wrangling van gegevensstromen in Data Factory kunnen professionele ETL-ontwikkelaars en zakelijke gebruikers samenwerken om gegevens voor te bereiden, te integreren en te analyseren voor een gemeenschappelijk bedrijfsdoel. In het voorgaande diagram met toewijzingsgegevensstromen van Data Factory ziet u hoe zowel Data Factory- als Azure Synapse Spark-poolnotebooks kunnen worden gecombineerd in dezelfde Data Factory-pijplijn. De combinatie van toewijzings- en wranglinggegevensstromen in Data Factory helpt IT- en zakelijke gebruikers op de hoogte te blijven van de gegevensstromen die elk zijn gemaakt en ondersteunt hergebruik van gegevensstromen om het opnieuw uitvinden en maximaliseren van productiviteit en consistentie te minimaliseren.

Tip

Data Factory ondersteunt zowel wrangling-gegevensstromen als toewijzingsgegevensstromen, zodat zakelijke gebruikers en IT-gebruikers gegevens gezamenlijk kunnen integreren op een gemeenschappelijk platform.

Naast het opschonen en transformeren van gegevens, kan Data Factory gegevensintegratie en analyses in dezelfde pijplijn combineren. U kunt Data Factory gebruiken om zowel gegevensintegratie als analytische pijplijnen te maken. Dit laatste is een uitbreiding van de voormalige pijplijnen. U kunt een analytisch model in een pijplijn neerzetten om een analytische pijplijn te maken waarmee schone, geïntegreerde gegevens voor voorspellingen of aanbevelingen worden gegenereerd. Vervolgens kunt u direct reageren op de voorspellingen of aanbevelingen of deze opslaan in uw datawarehouse om nieuwe inzichten en aanbevelingen te bieden die kunnen worden weergegeven in BI-hulpprogramma's.

Als u uw gegevens in batches wilt scoren, kunt u een analytisch model ontwikkelen dat u aanroept als een service in een Data Factory-pijplijn. U kunt analytische modellen codevrij ontwikkelen met Azure Machine Learning-studio of met de Azure Machine Learning SDK met behulp van Azure Synapse Spark-poolnotebooks of R in RStudio. Wanneer u Spark Machine Learning-pijplijnen uitvoert op Azure Synapse Spark-poolnotebooks, wordt er op schaal een analyse uitgevoerd.

U kunt geïntegreerde gegevens en alle analytische pijplijnen van Data Factory opslaan in een of meer gegevensarchieven, zoals Data Lake Storage, Azure Synapse of Hive-tabellen in HDInsight. U kunt ook andere activiteiten aanroepen om te reageren op inzichten die worden geproduceerd door een analytische pijplijn van Data Factory.

Een Lake-database gebruiken om consistente vertrouwde gegevens te delen

Een belangrijk doel van het instellen van gegevensintegratie is de mogelijkheid om gegevens eenmaal te integreren en overal opnieuw te gebruiken, niet alleen in een datawarehouse. U kunt bijvoorbeeld geïntegreerde gegevens in data science gebruiken. Hergebruik vermijdt heruitvinding en zorgt voor consistente, algemeen begrepen gegevens die iedereen kan vertrouwen.

Common Data Model beschrijft kerngegevensentiteiten die kunnen worden gedeeld en hergebruikt in de hele onderneming. Voor hergebruik maakt Common Data Model een set algemene gegevensnamen en definities die logische gegevensentiteiten beschrijven. Voorbeelden van algemene gegevensnamen zijn Klant, Account, Product, Leverancier, Orders, Betalingen en Retourneert. IT- en zakelijke professionals kunnen software voor gegevensintegratie gebruiken om algemene gegevensassets te maken en op te slaan om hun hergebruik te maximaliseren en consistentie overal te stimuleren.

Azure Synapse biedt branchespecifieke databasesjablonen om gegevens in de lake te standaardiseren. Lake-databasesjablonen bieden schema's voor vooraf gedefinieerde bedrijfsgebieden, waardoor gegevens op een gestructureerde manier in een lake-database kunnen worden geladen. De kracht komt wanneer u software voor gegevensintegratie gebruikt om algemene gegevensassets voor Lake Database te maken, wat resulteert in zelfbeschrijfbare vertrouwde gegevens die kunnen worden gebruikt door toepassingen en analytische systemen. U kunt algemene gegevensassets maken in Data Lake Storage met behulp van Data Factory.

Tip

Data Lake Storage is gedeelde opslag die Microsoft Azure Synapse, Azure Machine Learning, Azure Synapse Spark en HDInsight ondersteunt.

Power BI, Azure Synapse Spark, Azure Synapse en Azure Machine Learning kunnen algemene gegevensassets gebruiken. In het volgende diagram ziet u hoe een Lake-database kan worden gebruikt in Azure Synapse.

Schermopname die laat zien hoe een Lake-database kan worden gebruikt in Azure Synapse.

Tip

Integreer gegevens om logische entiteiten voor Lake Database te maken in gedeelde opslag om het hergebruik van algemene gegevensassets te maximaliseren.

Integratie met Microsoft Data Science-technologieën in Azure

Een andere belangrijke doelstelling bij het moderniseren van een datawarehouse is het produceren van inzichten voor concurrentievoordeel. U kunt inzichten verkrijgen door uw gemigreerde datawarehouse te integreren met Microsoft- en data science-technologieën van derden in Azure. In de volgende secties worden machine learning- en data science-technologieën beschreven die door Microsoft worden aangeboden om te zien hoe ze kunnen worden gebruikt met Azure Synapse in een moderne datawarehouse-omgeving.

Microsoft-technologieën voor gegevenswetenschap in Azure

Microsoft biedt een scala aan technologieën die ondersteuning bieden voor geavanceerde analyse. Met deze technologieën kunt u voorspellende analytische modellen bouwen met behulp van machine learning of ongestructureerde gegevens analyseren met behulp van Deep Learning. De technologieën zijn onder andere:

  • Azure Machine Learning Studio

  • Azure Machine Learning

  • Azure Synapse Spark-poolnotebooks

  • ML.NET (API, CLI of ML.NET Model Builder voor Visual Studio)

  • .NET voor Apache Spark

Gegevenswetenschappers kunnen RStudio (R) en Jupyter Notebooks (Python) gebruiken om analytische modellen te ontwikkelen, of ze kunnen frameworks zoals Keras of TensorFlow gebruiken.

Tip

Ontwikkel machine learning-modellen met behulp van een benadering zonder/weinig code of met behulp van programmeertalen zoals Python, R en .NET.

Azure Machine Learning Studio

Azure Machine Learning-studio is een volledig beheerde cloudservice waarmee u predictive analytics kunt bouwen, implementeren en delen met behulp van een gebruikersinterface met slepen en neerzetten. In de volgende schermopname ziet u de Azure Machine Learning-studio-gebruikersinterface.

Schermopname van voorspellende analyse in de gebruikersinterface van Azure Machine Learning-studio.

Azure Machine Learning

Azure Machine Learning biedt een SDK en services voor Python die ondersteuning biedt voor het snel voorbereiden van gegevens en het trainen en implementeren van machine learning-modellen. U kunt Azure Machine Learning in Azure Notebooks gebruiken met Jupyter Notebook, met opensource-frameworks, zoals PyTorch, TensorFlow, scikit-learn of Spark MLlib, de machine learning-bibliotheek voor Spark.

Tip

Azure Machine Learning biedt een SDK voor het ontwikkelen van machine learning-modellen met behulp van verschillende opensource-frameworks.

U kunt Azure Machine Learning ook gebruiken om machine learning-pijplijnen te bouwen die end-to-end werkstroom beheren, programmatisch schalen in de cloud en modellen implementeren in de cloud en de rand. Azure Machine Learning bevat werkruimten. Dit zijn logische ruimten die u programmatisch of handmatig kunt maken in Azure Portal. Deze werkruimten houden rekendoelen, experimenten, gegevensarchieven, getrainde machine learning-modellen, Docker-installatiekopieën en geïmplementeerde services allemaal op één plek bij zodat teams kunnen samenwerken. U kunt Azure Machine Learning in Visual Studio gebruiken met de Visual Studio voor AI-extensie.

Tip

Organiseer en beheer gerelateerde gegevensarchieven, experimenten, getrainde modellen, Docker-installatiekopieën en geïmplementeerde services in werkruimten.

Azure Synapse Spark-poolnotebooks

Een Azure Synapse Spark-poolnotebook is een voor Azure geoptimaliseerde Apache Spark-service. Met Azure Synapse Spark-poolnotebooks:

  • Data engineers kunnen schaalbare taken voor gegevensvoorbereiding bouwen en uitvoeren met behulp van Data Factory.

  • Gegevenswetenschappers kunnen machine learning-modellen op schaal bouwen en uitvoeren met behulp van notebooks die zijn geschreven in talen zoals Scala, R, Python, Java en SQL om resultaten te visualiseren.

Tip

Azure Synapse Spark is een dynamisch schaalbare Spark as a Service-aanbieding van Microsoft. Spark biedt schaalbare uitvoering van gegevensvoorbereiding, modelontwikkeling en geïmplementeerde modeluitvoering.

Taken die worden uitgevoerd in Azure Synapse Spark-poolnotebooks kunnen gegevens op schaal ophalen, verwerken en analyseren vanuit Azure Blob Storage, Data Lake Storage, Azure Synapse, HDInsight en streaminggegevensservices zoals Apache Kafka.

Tip

Azure Synapse Spark heeft toegang tot gegevens in een reeks analytische gegevensarchieven van Microsoft in Azure.

Azure Synapse Spark-poolnotebooks ondersteunen automatisch schalen en automatisch beëindigen om de totale eigendomskosten (TCO) te verlagen. Gegevenswetenschappers kunnen het opensource-framework van MLflow gebruiken om de levenscyclus van machine learning te beheren.

ML.NET

ML.NET is een opensource-platformoverschrijdend machine learning-framework voor Windows, Linux, macOS. Microsoft heeft ML.NET gemaakt, zodat .NET-ontwikkelaars bestaande hulpprogramma's, zoals ML.NET Model Builder voor Visual Studio, kunnen gebruiken om aangepaste machine learning-modellen te ontwikkelen en te integreren in hun .NET-toepassingen.

Tip

Microsoft heeft de machine learning-mogelijkheden uitgebreid naar .NET-ontwikkelaars.

.NET voor Apache Spark

.NET voor Apache Spark breidt spark-ondersteuning uit buiten R, Scala, Python en Java naar .NET en streeft ernaar Spark toegankelijk te maken voor .NET-ontwikkelaars in alle Spark-API's. Hoewel .NET voor Apache Spark momenteel alleen beschikbaar is in Apache Spark in HDInsight, wil Microsoft .NET voor Apache Spark beschikbaar maken in Azure Synapse Spark-poolnotebooks.

Azure Synapse Analytics gebruiken met uw datawarehouse

Als u machine learning-modellen wilt combineren met Azure Synapse, kunt u het volgende doen:

  • Gebruik machine learning-modellen in batch of in realtime op streaminggegevens om nieuwe inzichten te produceren en voeg deze inzichten toe aan wat u al kent in Azure Synapse.

  • Gebruik de gegevens in Azure Synapse om nieuwe voorspellende modellen te ontwikkelen en te trainen voor implementatie elders, zoals in andere toepassingen.

  • Implementeer machine learning-modellen, waaronder modellen die elders zijn getraind, in Azure Synapse om gegevens in uw datawarehouse te analyseren en nieuwe bedrijfswaarde te stimuleren.

Tip

Machine Learning-modellen op schaal trainen, testen, evalueren en uitvoeren op azure Synapse Spark-poolnotebooks met behulp van gegevens in Azure Synapse.

Gegevenswetenschappers kunnen RStudio, Jupyter Notebooks en Azure Synapse Spark-poolnotebooks samen met Azure Machine Learning gebruiken om machine learning-modellen te ontwikkelen die op schaal worden uitgevoerd op Azure Synapse Spark-poolnotebooks met behulp van gegevens in Azure Synapse. Gegevenswetenschappers kunnen bijvoorbeeld een model zonder supervisie maken om klanten te segmenteren om verschillende marketingcampagnes te stimuleren. Gebruik machine learning onder supervisie om een model te trainen om een specifiek resultaat te voorspellen, zoals het voorspellen van de neiging van een klant om te verloop, of om het volgende beste aanbod voor een klant aan te bevelen om de waarde ervan te verhogen. In het volgende diagram ziet u hoe Azure Synapse kan worden gebruikt voor Azure Machine Learning.

Schermopname van een Azure Synapse-train- en predict-model.

In een ander scenario kunt u sociaal netwerk opnemen of websitegegevens bekijken in Data Lake Storage en vervolgens de gegevens op schaal voorbereiden en analyseren op een Azure Synapse Spark-poolnotebook met behulp van verwerking in natuurlijke taal om het gevoel van klanten over uw producten of merk te beoordelen. Vervolgens kunt u deze scores toevoegen aan uw datawarehouse. Door big data-analyses te gebruiken om inzicht te hebben in het effect van negatieve sentimenten op de productverkoop, voegt u toe aan wat u al kent in uw datawarehouse.

Tip

Maak nieuwe inzichten met behulp van machine learning in Azure in batch of in realtime en voeg toe aan wat u in uw datawarehouse weet.

Live streamen van gegevens integreren in Azure Synapse Analytics

Wanneer u gegevens in een modern datawarehouse analyseert, moet u streaminggegevens in realtime kunnen analyseren en deze kunnen koppelen aan historische gegevens in uw datawarehouse. Een voorbeeld is het combineren van IoT-gegevens met product- of assetgegevens.

Tip

Integreer uw datawarehouse met streaminggegevens van IoT-apparaten of clickstreams.

Zodra u uw datawarehouse hebt gemigreerd naar Azure Synapse, kunt u livestreaming van gegevens integreren als onderdeel van een datawarehouse-moderniseringsoefening door gebruik te maken van de extra functionaliteit in Azure Synapse. Hiervoor neemt u streaminggegevens op via Event Hubs, andere technologieën zoals Apache Kafka of mogelijk uw bestaande ETL-hulpprogramma als dit ondersteuning biedt voor de streaminggegevensbronnen. Sla de gegevens op in Data Lake Storage. Maak vervolgens een externe tabel in Azure Synapse met behulp van PolyBase en wijs deze aan op de gegevens die worden gestreamd naar Data Lake Storage, zodat uw datawarehouse nu nieuwe tabellen bevat die toegang bieden tot de realtime streaminggegevens. Voer een query uit op de externe tabel alsof de gegevens zich in het datawarehouse bevinden met behulp van standaard T-SQL vanuit een BI-hulpprogramma dat toegang heeft tot Azure Synapse. U kunt de streaminggegevens ook toevoegen aan andere tabellen met historische gegevens om weergaven te maken die livestreamgegevens toevoegen aan historische gegevens, zodat zakelijke gebruikers gemakkelijker toegang hebben tot de gegevens.

Tip

Streaminggegevens opnemen in Data Lake Storage vanuit Event Hubs of Apache Kafka en toegang krijgen tot de gegevens van Azure Synapse met behulp van externe PolyBase-tabellen.

In het volgende diagram is een realtime datawarehouse in Azure Synapse geïntegreerd met streaminggegevens in Data Lake Storage.

Schermopname van Azure Synapse met streaminggegevens in Data Lake Storage.

Een logisch datawarehouse maken met PolyBase

Met PolyBase kunt u een logisch datawarehouse maken om de gebruikerstoegang tot meerdere analytische gegevensarchieven te vereenvoudigen. Veel bedrijven hebben in de afgelopen jaren naast hun datawarehouses analytische gegevensarchieven 'geoptimaliseerd voor workloads' gebruikt. De analytische platforms in Azure zijn onder andere:

  • Data Lake Storage met Azure Synapse Spark-poolnotebook (Spark as a service) voor analyse van big data.

  • HDInsight (Hadoop as a Service), ook voor big data-analyses.

  • NoSQL Graph-databases voor grafiekanalyse, die kunnen worden uitgevoerd in Azure Cosmos DB.

  • Event Hubs en Stream Analytics, voor realtime analyse van gegevens in beweging.

Mogelijk hebt u niet-Microsoft-equivalenten van deze platforms of een MDM-systeem (Master Data Management) dat moet worden geopend voor consistente vertrouwde gegevens op klanten, leveranciers, producten, assets en meer.

Tip

PolyBase vereenvoudigt de toegang tot meerdere onderliggende analytische gegevensarchieven in Azure voor eenvoudigere toegang door zakelijke gebruikers.

Deze analytische platforms zijn ontstaan vanwege de explosie van nieuwe gegevensbronnen binnen en buiten de onderneming en de vraag van zakelijke gebruikers om de nieuwe gegevens vast te leggen en te analyseren. De nieuwe gegevensbronnen omvatten:

  • Door de machine gegenereerde gegevens, zoals IoT-sensorgegevens en clickstreamgegevens.

  • Door mensen gegenereerde gegevens, zoals gegevens van sociale netwerken, websitegegevens bekijken, binnenkomende e-mail, afbeeldingen en video van klanten.

  • Andere externe gegevens, zoals open overheidsgegevens en weergegevens.

Deze nieuwe gegevens gaan verder dan de gestructureerde transactiegegevens en belangrijkste gegevensbronnen die doorgaans datawarehouses invoeren en die vaak het volgende omvatten:

  • Semi-gestructureerde gegevens, zoals JSON, XML of Avro.
  • Ongestructureerde gegevens, zoals tekst, spraak, afbeelding of video, wat complexer is voor het verwerken en analyseren van gegevens.
  • Gegevens met een hoog volume, gegevens met hoge snelheid of beide.

Hierdoor zijn er nieuwe complexere analysetypen ontstaan, zoals verwerking van natuurlijke taal, grafiekanalyse, deep learning, streaminganalyse of complexe analyse van grote hoeveelheden gestructureerde gegevens. Dit soort analyses vindt doorgaans niet plaats in een datawarehouse, dus het is niet verrassend om verschillende analytische platforms te zien voor verschillende typen analytische workloads, zoals wordt weergegeven in het volgende diagram.

Schermopname van verschillende analytische platforms voor verschillende typen analytische workloads in Azure Synapse.

Tip

De mogelijkheid om gegevens in meerdere analytische gegevensarchieven eruit te laten zien alsof het allemaal in één systeem is en deze aan Azure Synapse koppelen, wordt een logische datawarehouse-architectuur genoemd.

Omdat deze platformen nieuwe inzichten opleveren, is het normaal dat u de nieuwe inzichten moet combineren met wat u al kent in Azure Synapse. Dit is wat PolyBase mogelijk maakt.

Met behulp van PolyBase-gegevensvirtualisatie in Azure Synapse kunt u een logisch datawarehouse implementeren waarbij gegevens in Azure Synapse zijn gekoppeld aan gegevens in andere Azure- en on-premises analytische gegevensarchieven, zoals HDInsight, Azure Cosmos DB of streaminggegevens die vanuit Stream Analytics of Event Hubs naar Data Lake Storage stromen. Deze aanpak verlaagt de complexiteit voor gebruikers die toegang hebben tot externe tabellen in Azure Synapse en hoeven niet te weten dat de gegevens die ze openen, worden opgeslagen in meerdere onderliggende analytische systemen. In het volgende diagram ziet u een complexe datawarehouse-structuur die toegankelijk is via relatief eenvoudigere maar nog steeds krachtige UI-methoden.

Schermopname van een voorbeeld van een complexe datawarehouse-structuur die toegankelijk is via UI-methoden.

In het diagram ziet u hoe andere technologieën in het analytische Microsoft-ecosysteem kunnen worden gecombineerd met de mogelijkheid van de logische datawarehouse-architectuur in Azure Synapse. U kunt bijvoorbeeld gegevens opnemen in Data Lake Storage en de gegevens cureren met behulp van Data Factory om vertrouwde gegevensproducten te maken die logische gegevensentiteiten van Microsoft Lake Database vertegenwoordigen. Deze vertrouwde, algemeen begrepen gegevens kunnen vervolgens worden gebruikt en hergebruikt in verschillende analytische omgevingen, zoals Azure Synapse, Azure Synapse Spark-poolnotebooks of Azure Cosmos DB. Alle inzichten die in deze omgevingen worden geproduceerd, zijn toegankelijk via een logische datawarehouse-datavirtualisatielaag die mogelijk wordt gemaakt door PolyBase.

Tip

Een logische datawarehouse-architectuur vereenvoudigt de toegang van zakelijke gebruikers tot gegevens en voegt nieuwe waarde toe aan wat u al kent in uw datawarehouse.

Conclusies

Nadat u uw datawarehouse naar Azure Synapse hebt gemigreerd, kunt u profiteren van andere technologieën in het analytische Microsoft-ecosysteem. Door dit te doen, moderniseert u niet alleen uw datawarehouse, maar brengt u inzichten die worden geproduceerd in andere analytische gegevensarchieven van Azure in een geïntegreerde analytische architectuur.

U kunt uw ETL-verwerking uitbreiden om gegevens van elk type op te nemen in Data Lake Storage en vervolgens de gegevens op schaal voorbereiden en integreren met Behulp van Data Factory om vertrouwde, algemeen begrepen gegevensassets te produceren. Deze assets kunnen worden gebruikt door uw datawarehouse en worden geopend door gegevenswetenschappers en andere toepassingen. U kunt realtime en batchgeoriënteerde analytische pijplijnen bouwen en machine learning-modellen maken om in batch, in realtime op streaminggegevens en on-demand als een service uit te voeren.

U kunt PolyBase gebruiken of COPY INTO verder gaan dan uw datawarehouse om de toegang tot inzichten van meerdere onderliggende analytische platforms in Azure te vereenvoudigen. Hiervoor maakt u holistische geïntegreerde weergaven in een logisch datawarehouse dat ondersteuning biedt voor toegang tot streaming, big data en traditionele datawarehouse-inzichten vanuit BI-hulpprogramma's en -toepassingen.

Door uw datawarehouse te migreren naar Azure Synapse, kunt u profiteren van het uitgebreide analytische Microsoft-ecosysteem dat wordt uitgevoerd in Azure om nieuwe waarde in uw bedrijf te creëren.

Volgende stappen

Zie Een datawarehouse migreren naar een toegewezen SQL-pool in Azure Synapse Analytics voor meer informatie over migratie naar een toegewezen SQL-pool.