Partilhar via


Terminologia do Azure Synapse Analytics

Este artigo orienta você pelos conceitos básicos do Azure Synapse Analytics.

Área de trabalho do Azure Synapse

Um espaço de trabalho Synapse é um limite de colaboração protegível para fazer análises empresariais baseadas na nuvem no Azure. Um espaço de trabalho é implantado em uma região específica e tem uma conta e um sistema de arquivos do Azure Data Lake Storage Gen2 associados para armazenar dados temporários. Uma área de trabalho está num grupo de recursos.

Uma área de trabalho permite-lhe realizar análises com o SQL e o Apache Spark. Os recursos disponíveis para análise SQL e Spark são organizados em pools SQL e Spark.

Serviços ligados

Um espaço de trabalho pode conter qualquer número de serviços vinculados, essencialmente cadeias de conexão que definem as informações necessárias para que o espaço de trabalho se conecte a recursos externos.

SQL do Synapse

O Synapse SQL permite executar análises baseadas em Transact-SQL (T-SQL) no espaço de trabalho Synapse. Synapse SQL tem dois modelos de consumo: dedicado e sem servidor. Para o modelo dedicado, use pools SQL dedicados. Um espaço de trabalho pode ter qualquer número desses pools. Para usar o modelo sem servidor, use os pools SQL sem servidor. Cada espaço de trabalho tem um desses pools.

Dentro do Synapse Studio, você pode trabalhar com pools SQL executando scripts SQL.

Nota

O pool SQL dedicado no Azure Synapse é diferente do pool SQL dedicado (anteriormente SQL DW). Nem todos os recursos do pool SQL dedicado nos espaços de trabalho do Azure Synapse se aplicam ao pool SQL dedicado (anteriormente SQL DW) e vice-versa. Para habilitar recursos de espaço de trabalho para um pool SQL dedicado existente (anteriormente SQL DW), consulte Habilitar recursos de espaço de trabalho para um pool SQL dedicado (anteriormente SQL DW).

Apache Spark para Sinapse

Para usar a análise do Spark, crie e use pools do Apache Spark sem servidor em seu espaço de trabalho Synapse. Quando você começa a usar um pool do Spark, os espaços de trabalho criam uma sessão do Spark para manipular os recursos associados a essa sessão.

Existem duas maneiras de usar o Spark no Synapse:

  • Spark Notebooks para ciência e engenharia de dados usando Scala, PySpark, C# e SparkSQL
  • Definições de trabalho do Spark para executar trabalhos do Spark em lote usando arquivos jar

SinapseML

SynapseML (anteriormente conhecido como MMLSpark) é uma biblioteca de código aberto que simplifica a criação de pipelines de aprendizado de máquina (ML) massivamente escaláveis. É um ecossistema de ferramentas usadas para expandir a estrutura do Apache Spark em várias novas direções. O SynapseML unifica várias estruturas de aprendizado de máquina existentes e novos algoritmos da Microsoft em uma única API escalável que pode ser usada em Python, R, Scala, .NET e Java. Para saber mais, consulte O que é SynapseML?

Pipelines

Os pipelines são a forma como o Azure Synapse fornece integração de dados, permitindo-lhe mover dados entre serviços e orquestrar atividades.

  • Os pipelines são um agrupamento lógico de atividades que executam uma tarefa em conjunto.
  • As atividades definem ações dentro de um pipeline a serem executadas em dados, como copiar dados ou executar um bloco de anotações ou script SQL.
  • Os fluxos de dados são uma forma específica de atividade que fornece uma experiência sem código para fazer a transformação de dados que usa o Synapse Spark sob as cobertas.
  • Trigger executa um pipeline. Ele pode ser executado manualmente ou automaticamente (agendamento, janela de tombamento ou baseado em eventos).
  • O conjunto de dados de integração é uma exibição nomeada de dados que simplesmente aponta ou faz referência aos dados a serem usados em uma atividade como entrada e saída. Pertence a um serviço ligado.

Data Explorer (Pré-visualização)

O Azure Synapse Data Explorer fornece aos clientes uma experiência de consulta interativa para desbloquear informações de dados de log e telemetria.

  • Os pools do Data Explorer são clusters dedicados que incluem dois ou mais nós de computação com armazenamento SSD local (hot cache) para desempenho de consulta otimizado e vários blobs de armazenamento (cache frio) para persistência.
  • Os bancos de dados do Data Explorer são hospedados em pools do Data Explorer e são entidades lógicas compostas por coleções de tabelas e outros objetos de banco de dados. Você pode ter mais de um banco de dados por pool.
  • As tabelas são objetos de banco de dados que contêm dados organizados usando um modelo de dados relacional tradicional. Os dados são armazenados em registros que aderem ao esquema de tabela bem definido do Data Explorer que define uma lista ordenada de colunas, com cada coluna tendo um nome e um tipo de dados escalares. Os tipos de dados escalares podem ser estruturados (int, real, datetime ou timepan), semiestruturados (dinâmicos) ou texto livre (string). O tipo dinâmico é semelhante ao JSON na medida em que pode conter um único valor escalar, uma matriz ou um dicionário desses valores.
  • Tabelas externas são tabelas que fazem referência a um armazenamento ou fonte de dados SQL fora do banco de dados do Data Explorer. Semelhante às tabelas, uma tabela externa tem um esquema bem definido (uma lista ordenada de nomes de colunas e pares de tipos de dados). Ao contrário das tabelas do Data Explorer em que os dados são ingeridos em pools do Data Explorer, as tabelas externas operam em dados armazenados e gerenciados fora de pools. As tabelas externas não persistem dados e são usadas para consultar ou exportar dados para um armazenamento de dados externo.