Perguntas mais frequentes sobre a análise à escala da cloud
Seguem-se perguntas comuns sobre a análise à escala da cloud.
Contas de armazenamento
Por que motivo preciso de três contas de armazenamento separadas? Não posso ter apenas um com três contentores para cada camada (não processado, refinado e organizado)?
A maioria dos padrões de análise de dados existem atualmente com as três camadas de crus, refinados e organizados. Embora possam ser mantidos no mesmo armazenamento, quando se trata de implementações em grande escala, cria problemas com a exceção do número de permissões de controlo de acesso baseado em funções (RBAC) e de lista de controlo de acesso (ACL) permitidas que estão disponíveis numa única conta de armazenamento. Quando utiliza contas de armazenamento separadas, a maioria das implementações pode evitar este problema.
Outros motivos são abordados na Descrição geral de Azure Data Lake Storage para análise à escala da cloud.
Databricks
Devemos implementar uma área de trabalho do Azure Databricks por produto?
A recomendação é utilizar o produto partilhado Azure Databricks analytics e a área de trabalho de ciência de dados dentro da zona de destino.
Esta decisão foi tomada para reduzir a sobrecarga de gestão da equipa de operações da plataforma de dados. O Azure Databricks tem um conjunto de políticas autónomas que não estão integradas nas políticas do Azure. Num ambiente grande, a configuração de mais áreas de trabalho do Azure Databricks cria mais sobrecarga de gestão. Por exemplo, manter políticas e versões suportadas do Apache Hive, atualizar versões do ADB e impor o metastore externo do Apache Hive. Não é possível que uma equipa de plataforma central possa impor determinadas definições em qualquer uma das áreas de trabalho do Databricks. Recomendamos que tenha áreas de trabalho partilhadas para equipas de produtos nas zonas de destino, onde as equipas de operações da plataforma de dados podem definir as políticas de cluster necessárias e os scripts de inicialização.
Recomendamos que utilize o VNet Peering entre zonas de destino e pontos finais privados. Para o Azure Databricks, utilize a injeção de VNet. Como existe uma linha de visão direta para todos os pontos finais, não existem problemas de conectividade.
Passos seguintes
O processo de ingestão com análise à escala da cloud no Azure