Delen via


Azure Synapse Analytics-terminologie

In dit artikel wordt u begeleid bij de basisconcepten van Azure Synapse Analytics.

Synapse-werkruimte

Een Synapse-werkruimte is een beveiligbare samenwerkingsgrens voor het uitvoeren van zakelijke cloudanalyses in Azure. Een werkruimte wordt geïmplementeerd in een specifieke regio en heeft een gekoppeld Azure Data Lake Storage Gen2-account en bestandssysteem voor het opslaan van tijdelijke gegevens. Een werkruimte bevindt zich onder een resourcegroep.

Met een werkruimte kunt u analyses uitvoeren met SQL en Apache Spark. Resources die beschikbaar zijn voor SQL en Spark Analytics, zijn georganiseerd in SQL- en Spark-pools.

Gekoppelde services

Een werkruimte kan een willekeurig aantal gekoppelde services bevatten, in wezen verbindingsreeks s die de informatie definiëren die nodig is voor de werkruimte om verbinding te maken met externe resources.

Synapse SQL

Met Synapse SQL kunt u analyses op basis van Transact-SQL (T-SQL) uitvoeren in de Synapse-werkruimte. Synapse SQL heeft twee verbruiksmodellen: toegewezen en serverloos. Gebruik toegewezen SQL-pools voor het toegewezen model. Een werkruimte kan elk gewenst aantal pools bevatten. Gebruik de serverloze SQL-pools als u het serverloze model wilt gebruiken. Elke werkruimte heeft een van deze pools.

In Synapse Studio kunt u met SQL-pools werken door SQL-scripts uit te voeren.

Notitie

Toegewezen SQL-pool in Azure Synapse verschilt van toegewezen SQL-pool (voorheen SQL DW). Niet alle functies van de toegewezen SQL-pool in Azure Synapse-werkruimten zijn van toepassing op toegewezen SQL-pool (voorheen SQL DW) en omgekeerd. Als u werkruimtefuncties wilt inschakelen voor een bestaande toegewezen SQL-pool (voorheen SQL DW), raadpleegt u Werkruimtefuncties inschakelen voor een toegewezen SQL-pool (voorheen SQL DW).

Apache Spark for Synapse

Maak en gebruik serverloze Apache Spark-pools in uw Synapse-werkruimte als u Spark-analyses wilt gebruiken. Wanneer u een Spark-pool gaat gebruiken, maakt de werkruimten een Spark-sessie om de resources te verwerken die aan die sessie zijn gekoppeld.

Binnen Synapse zijn er twee manieren om Spark te gebruiken:

  • Spark Notebooks voor data science en engineering met behulp van Scala, PySpark, C# en SparkSQL
  • Spark-taakdefinities voor het uitvoeren van Batch Spark-taken met behulp van JAR-bestanden

SynapseML

SynapseML (voorheen bekend als MMLSpark) is een opensource-bibliotheek die het maken van zeer schaalbare machine learning-pijplijnen (ML) vereenvoudigt. Het is een ecosysteem van hulpprogramma's dat wordt gebruikt om het Apache Spark-framework in verschillende nieuwe richtingen uit te breiden. SynapseML integreert verschillende bestaande machine learning-frameworks en nieuwe Microsoft-algoritmen in één schaalbare API die kan worden gebruikt in Python, R, Scala, .NET en Java. Zie Wat is SynapseML voor meer informatie?

Pipelines

Pijplijnen zijn hoe Azure Synapse gegevensintegratie biedt, zodat u gegevens kunt verplaatsen tussen services en activiteiten kunt organiseren.

  • Pijplijnen zijn een logische groepering van activiteiten die een taak samen uitvoeren.
  • Activiteiten definiëren acties in een pijplijn die moeten worden uitgevoerd op gegevens, zoals het kopiëren van gegevens of het uitvoeren van een Notebook- of SQL-script.
  • Gegevensstromen zijn een specifieke vorm van activiteit die een ervaring zonder code biedt voor het uitvoeren van gegevenstransformaties die gebruikmaken van Synapse Spark.
  • Met de trigger wordt een pijplijn uitgevoerd. Het kan handmatig of automatisch worden uitgevoerd (planning, tumblingvenster of gebeurtenisgebaseerde).
  • Integratiegegevensset is een benoemde weergave van gegevens die simpelweg verwijst naar de gegevens die in een activiteit moeten worden gebruikt als invoer en uitvoer. Het behoort tot een gekoppelde service.

Data Explorer (preview)

Azure Synapse Data Explorer biedt klanten een interactieve query-ervaring voor het ontgrendelen van inzichten uit logboek- en telemetriegegevens.

  • Data Explorer-pools zijn toegewezen clusters met twee of meer rekenknooppunten met lokale SSD-opslag (hot cache) voor geoptimaliseerde queryprestaties en meerdere opslagblobs (koude cache) voor persistentie.
  • Data Explorer-databases worden gehost in Data Explorer-pools en zijn logische entiteiten die bestaan uit verzamelingen tabellen en andere databaseobjecten. U kunt meer dan één database per pool hebben.
  • Tabellen zijn databaseobjecten die gegevens bevatten die zijn geordend met behulp van een traditioneel relationeel gegevensmodel. Gegevens worden opgeslagen in records die voldoen aan het goed gedefinieerde tabelschema van Data Explorer waarmee een geordende lijst met kolommen wordt gedefinieerd, waarbij elke kolom een naam en scalaire gegevenstype heeft. Scalaire gegevenstypen kunnen worden gestructureerd (int, real, datetime of tijdspanne), semi-gestructureerd (dynamisch) of vrije tekst (tekenreeks). Het dynamische type is vergelijkbaar met JSON omdat het één scalaire waarde, een matrix of een woordenlijst van dergelijke waarden kan bevatten.
  • Externe tabellen zijn tabellen die verwijzen naar een opslag- of SQL-gegevensbron buiten de Data Explorer-database. Net als bij tabellen heeft een externe tabel een goed gedefinieerd schema (een geordende lijst met kolomnaam- en gegevenstypeparen). In tegenstelling tot Data Explorer-tabellen waarin gegevens worden opgenomen in Data Explorer-pools, werken externe tabellen op gegevens die zijn opgeslagen en beheerd buiten pools. Externe tabellen behouden geen gegevens en worden gebruikt om gegevens op te vragen of te exporteren naar een extern gegevensarchief.