Gegevensservices identificeren
Microsoft Azure is een cloudplatform dat de toepassingen en IT-infrastructuur mogelijk maakt voor een aantal van de grootste organisaties ter wereld. Het omvat veel services ter ondersteuning van cloudoplossingen, waaronder transactionele en analytische gegevensworkloads.
Hieronder worden enkele van de meest gebruikte cloudservices voor gegevens beschreven.
Notitie
In dit onderwerp worden slechts enkele van de meest gebruikte gegevensservices voor moderne transactionele en analytische oplossingen behandeld. Er zijn ook extra services beschikbaar.
Azure SQL
Azure SQL is de collectieve naam voor een reeks relationele databaseoplossingen op basis van de Microsoft SQL Server-database-engine. Specifieke Azure SQL-services zijn:
- Azure SQL Database : een volledig beheerde PaaS-database (Platform as a Service) die wordt gehost in Azure.
- Azure SQL Managed Instance : een gehost exemplaar van SQL Server met geautomatiseerd onderhoud, waardoor de configuratie flexibeler is dan Azure SQL DB, maar met meer administratieve verantwoordelijkheid voor de eigenaar.
- Azure SQL-VM : een virtuele machine met een installatie van SQL Server, waardoor maximale configuratie mogelijk is met volledige beheerverantwoordelijkheid.
Databasebeheerders richten doorgaans Azure SQL-databasesystemen in en beheren ter ondersteuning van LOB-toepassingen (Line-Of-Business) die transactionele gegevens moeten opslaan.
Data engineers kunnen Azure SQL-databasesystemen gebruiken als bronnen voor gegevenspijplijnen die ETL-bewerkingen (extract, transform, and load) uitvoeren om de transactionele gegevens op te nemen in een analytisch systeem.
Gegevensanalisten kunnen rechtstreeks query's uitvoeren op Azure SQL-databases om rapporten te maken, maar in grote organisaties worden de gegevens over het algemeen gecombineerd met gegevens uit andere bronnen in een analytische gegevensopslag ter ondersteuning van bedrijfsanalyses.
Opensource-databases in Azure
Azure bevat beheerde services voor populaire opensource-relationele databasesystemen, waaronder:
Azure Database for MySQL : een eenvoudig te gebruiken opensource-databasebeheersysteem dat vaak wordt gebruikt in Linux-, Apache-, MySQL- en PHP-stack-apps (LAMP).
Azure Database for MariaDB : een nieuwer databasebeheersysteem dat is gemaakt door de oorspronkelijke ontwikkelaars van MySQL. Het database-engine is sindsdien herontwikkeld en geoptimaliseerd voor betere prestaties. MariaDB biedt compatibiliteit met Oracle Database (een andere populair commercieel databasebeheersysteem).
Azure Database for PostgreSQL - een hybride relationele objectdatabase. U kunt gegevens opslaan in relationele tabellen, maar met een PostgreSQL-database kunt u ook aangepaste gegevenstypen opslaan, met hun eigen niet-relationele eigenschappen.
Net als bij Azure SQL-databasesystemen worden opensource-relationele databases beheerd door databasebeheerders om transactionele toepassingen te ondersteunen en een gegevensbron te bieden voor data engineers die pijplijnen bouwen voor analytische oplossingen en gegevensanalisten die rapporten maken.
Azure Cosmos DB
Azure Cosmos DB is een niet-relationeel databasesysteem (NoSQL) dat ondersteuning biedt voor meerdere API's (Application Programming Interfaces), waarmee u gegevens kunt opslaan en beheren als JSON-documenten, sleutel-waardeparen, kolomfamilies en grafieken.
In sommige organisaties kunnen Cosmos DB-exemplaren worden ingericht en beheerd door een databasebeheerder; hoewel softwareontwikkelaars noSQL-gegevensopslag vaak beheren als onderdeel van de algehele toepassingsarchitectuur. Data engineers moeten vaak Cosmos DB-gegevensbronnen integreren in analytische bedrijfsoplossingen die ondersteuning bieden voor modellering en rapportage door gegevensanalisten.
Azure Storage
Azure Storage is een azure-kernservice waarmee u gegevens kunt opslaan in:
- Blobcontainers : schaalbare, rendabele opslag voor binaire bestanden.
- Bestandsshares: netwerkbestandsshares , zoals u meestal in bedrijfsnetwerken vindt.
- Tabellen : sleutel-waardeopslag voor toepassingen die gegevenswaarden snel moeten lezen en schrijven.
Data engineers gebruiken Azure Storage voor het hosten van data lakes - blobopslag met een hiërarchische naamruimte waarmee bestanden in mappen in een gedistribueerd bestandssysteem kunnen worden georganiseerd.
Azure Data Factory
Azure Data Factory is een Azure-service waarmee u gegevenspijplijnen kunt definiëren en plannen om gegevens over te dragen en te transformeren. U kunt uw pijplijnen integreren met andere Azure-services, zodat u gegevens uit cloudgegevensarchieven kunt opnemen, de gegevens kunt verwerken met behulp van berekening in de cloud en de resultaten in een ander gegevensarchief kunt behouden.
Azure Data Factory wordt gebruikt door data engineers om ETL-oplossingen (extract, transform and load) te bouwen die analytische gegevensarchieven vullen met gegevens uit transactionele systemen in de hele organisatie.
Microsoft Fabric
Microsoft Fabric is een geïntegreerd SaaS-analyseplatform (Software-as-a-Service) op basis van een open en beheerd Lakehouse dat functionaliteit bevat ter ondersteuning van:
- Gegevensopname en ETL
- Data Lakehouse-analyse
- Datawarehouse-analyse
- Datawetenschap en machine learning
- Realtime analyse
- Gegevensvisualisatie
- Gegevensbeheer en -beheer
- Inzichten op basis van AI
Data engineers kunnen Microsoft Fabric gebruiken om een geïntegreerde oplossing voor gegevensanalyse te maken waarin pijplijnen voor gegevensopname, datawarehouses, realtime analyses, business intelligence en ai-inzichten worden gecombineerd via één service die allemaal centraal is opgeslagen met Microsoft OneLake.
Azure Databricks
Azure Databricks is een met Azure geïntegreerde versie van het populaire Databricks-platform, dat het Apache Spark-gegevensverwerkingsplatform combineert met semantiek van SQL-databases en een geïntegreerde beheerinterface om grootschalige gegevensanalyse mogelijk te maken.
Data engineers kunnen bestaande Databricks- en Spark-vaardigheden gebruiken om analytische gegevensarchieven te maken in Azure Databricks.
Gegevensanalist s kunnen de systeemeigen notebookondersteuning in Azure Databricks gebruiken om gegevens op te vragen en te visualiseren in een eenvoudig te gebruiken webinterface.
Azure Stream Analytics
Azure Stream Analytics is een realtime stroomverwerkingsengine die een gegevensstroom van een invoer vastlegt, een query toepast om gegevens uit de invoerstroom te extraheren en bewerken en de resultaten naar een uitvoer schrijft voor analyse of verdere verwerking.
Data engineers kunnen Azure Stream Analytics opnemen in gegevensanalysearchitecturen die streaminggegevens vastleggen voor opname in een analytische gegevensopslag of voor realtime visualisatie.
Azure Data Explorer
Azure Data Explorer is een volledig beheerd, zelfstandig, big data-analyseplatform dat krachtige query's biedt voor logboek- en telemetriegegevens.
Gegevensanalisten kunnen Azure Data Explorer gebruiken om gegevens op te vragen en te analyseren die een tijdstempelkenmerk bevatten, zoals meestal te vinden in logboekbestanden en IoT-telemetriegegevens (Internet of Things ).
Microsoft Purview
Microsoft Purview biedt een oplossing voor gegevensbeheer en detectie in de hele onderneming. U kunt Microsoft Purview gebruiken om een kaart van uw gegevens te maken en gegevensherkomst bij te houden in meerdere gegevensbronnen en systemen, zodat u betrouwbare gegevens kunt vinden voor analyse en rapportage.
Data engineers kunnen Microsoft Purview gebruiken om gegevensbeheer in de hele onderneming af te dwingen en de integriteit van gegevens te garanderen die worden gebruikt ter ondersteuning van analytische workloads.