Neste guia, você encontrará as perguntas mais frequentes sobre o Azure Synapse Analytics.
Geral
Como posso usar funções RBAC para proteger meu espaço de trabalho?
O Azure Synapse apresenta várias funções e escopos para atribuí-los que simplificarão a proteção do seu espaço de trabalho.
Synapse RBAC funções:
- Administrador do Synapse
- Synapse Administrador SQL
- Administrador Synapse Spark
- Contribuidor Synapse
- Editora Synapse Artifact
- Usuário do Artefato Sinapse
- Operador de computação sinapse
- Usuário de credenciais Synapse
- Synapse Gestor de Dados Ligados
- Usuário Synapse
Para proteger seu espaço de trabalho Synapse, atribua as funções RBAC a estes escopos RBAC:
- Áreas de Trabalho
- Conjuntos do Apache Spark
- Tempos de execução de integração
- Serviços ligados
- Credenciais
Além disso, com pools SQL dedicados, você tem todos os mesmos recursos de segurança que você conhece e adora.
Como faço para controlar pools SQL dedicados, pools SQL sem servidor e pools Spark sem servidor?
Como ponto de partida, o Azure Synapse funciona com a análise de custos interna e alertas de custo disponíveis no nível de assinatura do Azure.
Pools SQL dedicados - você tem visibilidade direta do custo e controle sobre o custo, porque cria e especifica os tamanhos dos pools SQL dedicados. Você pode controlar ainda mais quais usuários podem criar ou dimensionar pools SQL dedicados com funções RBAC do Azure.
Pools SQL sem servidor - você tem controles de monitoramento e gerenciamento de custos que permitem limitar os gastos em um nível diário, semanal e mensal. Consulte Gerenciamento de custos para pool SQL sem servidor para obter mais informações.
Pools do Spark sem servidor - você pode restringir quem pode criar pools do Spark com funções Synapse RBAC.
O espaço de trabalho Synapse suportará pasta, organização de objetos e granularidade no GA?
Os espaços de trabalho Synapse suportam pastas definidas pelo usuário.
Posso vincular mais de um espaço de trabalho do Power BI a um único Espaço de Trabalho do Azure Sinapse?
Sim, a partir de 10 de junho de 2021, o Synapse Studio agora permite que você adicione mais de um espaço de trabalho do Power BI a um único Espaço de Trabalho do Azure Synapse.
O Azure Synapse Link para o Azure Cosmos DB está disponível em geral?
Atualmente, o Azure Synapse Analytics dá suporte ao Azure Synapse Link do Azure Cosmos DB para o Synapse, Apache Spark e pool SQL sem servidor. O Azure Synapse Link for Apache Spark é GA. Synapse Link para pool SQL sem servidor está em visualização. Para obter mais informações, consulte Azure Synapse Link for Azure Cosmos DB.
O Azure Synapse Link for SQL está disponível em geral?
O Azure Synapse Link for SQL está geralmente disponível para o SQL Server 2022 e o Banco de Dados SQL do Azure. Para obter mais informações, consulte O que é o Azure Synapse Link for SQL?.
O espaço de trabalho do Azure Synapse suporta CI/CD?
Sim! Todos os artefatos do Pipeline, blocos de anotações, scripts SQL e definições de trabalho do Spark residirão no Git. Todas as definições de pool serão armazenadas no Git como modelos do Azure Resource Manager (ARM). Objetos de pool SQL dedicados (esquemas, tabelas, exibições, etc.) serão gerenciados com projetos de banco de dados com suporte a CI/CD. Para mais informações, consulte este Guia de CI e CD.
Quais são as diferenças funcionais entre pools SQL dedicados e pools sem servidor?
Os recursos e requisitos são diferentes entre os dois tipos de pools. As diferenças incluem objetos de banco de dados, recursos de linguagem de consulta, segurança, ferramentas, acesso a dados e formato de dados. Para obter uma comparação detalhada de pools SQL e pools sem servidor, visite Comparação de pools. Para obter as práticas recomendadas ao usar qualquer tipo de pool, consulte Práticas recomendadas para pool SQL dedicado e Práticas recomendadas para pool SQL sem servidor.
O que são tabelas Delta e por que devo usá-las?
Lakehouse é baseado em formatos de dados abertos de acesso direto, como o Apache Parquet. Ele tem suporte de primeira classe para aprendizado de máquina e ciência de dados. Uma tabela Delta é uma exibição de dados contidos em um Delta Lake, que suporta a maioria das opções fornecidas pelas APIs de leitura e gravação do Apache Spark DataFrame. A Lakehouses pode ajudar com grandes desafios com armazéns de dados, como atraso de dados, confiabilidade, custo total de propriedade e bloqueio de dados. Em tabelas Delta, otimizações como compactação automática e planos de consulta adaptáveis estão disponíveis. Para obter um guia detalhado do Delta Lake, visite Delta Lake Guide.
O que é Auto Compaction?
A compactação automática é um dos dois recursos complementares do Auto Otimize para tabelas Delta. Depois que uma gravação em uma tabela é bem-sucedida, a compactação automática pode compactar ainda mais os arquivos para partições que têm o maior número de arquivos pequenos. Optar pela compactação automática é recomendado para casos de uso de streaming em que a adição de minutos de latência é aceitável e quando você não tem chamadas regulares do OTIMIZE em sua mesa. Para obter mais informações sobre a Otimização Automática e a Compactação Automática, consulte este Guia de Otimização Automática.
Pipelines
Como posso garantir que sei qual credencial está sendo usada para executar um pipeline?
Cada atividade em um Synapse Pipeline é executada usando a credencial especificada dentro do serviço vinculado.
Os IRs SSIS são suportados no Synapse Integrate?
Neste momento, não.
Como os pipelines do Azure Data Factory e os pipelines do Azure Synapse são diferentes?
Alguns exemplos de diferenças são o suporte para parâmetros globais, o monitoramento de Spark Jobs for Data Flow e o compartilhamento do Integration Runtime. Para mais informações, consulte este documento para Integração de Dados - Sinapse vs ADF.
Como faço para migrar pipelines existentes do Azure Data Factory para um espaço de trabalho do Azure Synapse?
Neste momento, você deve recriar manualmente seus pipelines do Azure Data Factory e artefatos relacionados exportando o JSON do pipeline original e importando-o para seu espaço de trabalho Synapse.
Como faço para usar uma definição de trabalho do Apache Spark?
Consulte este Guia de Início Rápido.
Posso chamar blocos de anotações a partir de pipelines do ADF?
Há duas opções para este caso de uso. Uma opção é manter pipelines no ADF, e você terá que envolver em uma atividade na web. Para obter mais informações sobre esta opção, consulte este Guia de Atividade na Web. A outra opção é migrar os pipelines para Synapse. Para obter mais informações sobre a segunda opção, confira este exemplo de código de migração.
Apache Spark
Qual é a diferença entre Apache Spark for Synapse e Apache Spark?
Apache Spark for Synapse é o Apache Spark com suporte adicional para integrações com outros serviços (Microsoft Entra ID, AzureML, etc.) e bibliotecas adicionais (mssparktuils, Hummingbird) e configurações de desempenho pré-ajustadas.
Qualquer carga de trabalho atualmente em execução no Apache Spark será executada no Apache Spark para Azure Synapse sem alterações.
Que versões do Spark estão disponíveis?
A partir de setembro de 2023, o Azure Synapse Apache Spark suporta totalmente o Spark 3.3. Para obter uma lista completa dos componentes principais e das versões atualmente suportadas, consulte Suporte à versão do Apache Spark.
Existe um equivalente ao DButils no Azure Synapse Spark?
Sim, o Azure Synapse Apache Spark fornece a biblioteca mssparkutils . Para obter a documentação completa do utilitário, consulte Introdução aos utilitários Microsoft Spark.
Como faço para definir parâmetros de sessão no Apache Spark?
Para definir os parâmetros da sessão, use %%configure magic available. É necessário reiniciar a sessão para que os parâmetros entrem em vigor.
Como faço para definir parâmetros de nível de cluster em um pool do Spark sem servidor?
Para definir parâmetros de nível de cluster, você pode fornecer um arquivo spark.conf para o pool do Spark. Esse pool honrará os parâmetros passados no arquivo de configuração.
Posso executar um Spark Cluster multiusuário no Azure Synapse Analytics?
O Azure Synapse fornece mecanismos criados especificamente para casos de uso específicos. O Apache Spark for Synapse foi projetado como um serviço de trabalho e não como um modelo de cluster. Há dois cenários em que as pessoas pedem um modelo de cluster multiusuário.
Cenário #1: Muitos usuários acessando um cluster para servir dados para fins de BI.
A maneira mais fácil de realizar essa tarefa é cozinhar os dados com o Spark e, em seguida, aproveitar os recursos de serviço do Synapse SQL para que eles possam conectar o Power BI a esses conjuntos de dados.
Cenário #2: Ter vários desenvolvedores em um único cluster para economizar dinheiro.
Para satisfazer esse cenário, você deve dar a cada desenvolvedor um pool do Spark sem servidor que está definido para usar um pequeno número de recursos do Spark. Como os pools Spark sem servidor não custam nada, até que sejam usados ativamente minimiza o custo quando há vários desenvolvedores. Os pools compartilham metadados (tabelas Spark) para que possam trabalhar facilmente uns com os outros.
Como faço para incluir, gerenciar e instalar bibliotecas?
Você pode instalar pacotes externos por meio de um arquivo requirements.txt ao criar o pool do Spark, no espaço de trabalho de sinapse ou no portal do Azure. Consulte Gerenciar bibliotecas para o Apache Spark no Azure Synapse Analytics.
Que ferramentas estão disponíveis para mim no Synapse Spark?
MSSparkUtils no Synapse Spark oferece uma variedade de utilitários para melhorar sua experiência e facilitar a integração com outras ferramentas e serviços. Trabalhe com sistemas de arquivos, obtenha variáveis de ambiente, encadeie blocos de anotações e trabalhe com segredos com etapas manuais mínimas. Para obter a documentação completa, visite Microsoft Spark Utilities.
Conjuntos de SQL Dedicados
Qual é a diferença entre pools SQL dedicados (SQL DW) e pools SQL dedicados nos espaços de trabalho do Azure Synapse?
Os pools SQL dedicados (anteriormente SQL DW) são uma plataforma de armazenamento de dados corporativos da Plataforma como Serviço (PaaS) do Azure. Você pode consultar pools SQL dedicados existentes (anteriormente SQL DW) e também criar novos pools SQL dedicados em seu espaço de trabalho do Azure Synapse. Nem todos os recursos do pool SQL dedicado nos espaços de trabalho do Azure Synapse se aplicam a um pool SQL dedicado autônomo (anteriormente SQL DW) e vice-versa. Para obter mais informações, consulte Qual é a diferença entre pools SQL dedicados do Azure Synapse (anteriormente SQL DW) e pools SQL dedicados em um espaço de trabalho do Azure Synapse Analytics?. Para habilitar os recursos do espaço de trabalho do Azure Synapse para um pool SQL dedicado existente (anteriormente SQL DW), consulte Como habilitar um espaço de trabalho para seu pool SQL dedicado (anteriormente SQL DW).
Quais são as diferenças funcionais entre pools SQL dedicados e pools sem servidor?
Você pode encontrar uma lista completa de diferenças nas diferenças de recursos T-SQL no Synapse SQL.
Agora que o Azure Synapse é GA, como movo meus pools SQL dedicados que anteriormente eram autônomos para o Azure Synapse?
Não há necessidade de "movimento" ou "migração". Você pode optar por habilitar novos recursos de espaço de trabalho em seus pools existentes. Se você fizer isso, não haverá alterações de quebra, em vez disso, você poderá usar novos recursos, como Synapse Studio, Spark e pools SQL sem servidor. Nem todos os recursos do pool SQL dedicado nos espaços de trabalho do Azure Synapse se aplicam ao pool SQL dedicado (anteriormente SQL DW) e vice-versa. Para habilitar recursos de espaço de trabalho para um pool SQL dedicado existente (anteriormente SQL DW), consulte Como habilitar um espaço de trabalho para seu pool SQL dedicado (anteriormente SQL DW).
Qual é a implantação padrão de pools SQL dedicados agora?
Por padrão, todos os novos pools SQL dedicados serão implantados em um espaço de trabalho; no entanto, se necessário, você ainda pode criar um pool SQL dedicado (anteriormente SQL DW) em um fator de forma autônomo.
Segurança da rede
Como posso proteger o acesso ao meu espaço de trabalho do Azure Synapse?
Com ou sem uma rede virtual gerenciada, você pode se conectar ao seu espaço de trabalho a partir de redes públicas. Para obter mais informações, consulte Configurações de conectividade. O acesso a partir de redes públicas pode ser controlado ativando o recurso de acesso à rede pública ou o firewall do espaço de trabalho. Como alternativa, você pode se conectar ao seu espaço de trabalho usando um ponto de extremidade privado gerenciado e um Link Privado. Os espaços de trabalho Synapse sem a Rede Virtual Gerenciada do Azure Synapse Analytics não têm a capacidade de se conectar por meio de pontos de extremidade privados gerenciados.