Compartilhar via


Perguntas frequentes sobre a análise de escala de nuvem

Veja a seguir as perguntas comuns sobre a análise de escala de nuvem.

Contas de armazenamento

Por que preciso de três contas de armazenamento separadas? Não posso ter apenas uma conta com três contêineres para cada camada (raw, refinada e coletada)?

A maioria dos padrões de análise de dados existem hoje com as três camadas de raw, refinada e coletada. Embora eles possam ser mantidos no mesmo armazenamento, quando se trata de implementações em larga escala, ele cria problemas ao exceder o número de permissões de RBAC (controle de acesso baseado em função) permitidas e de ACL (lista de controle de acesso) disponíveis em uma única conta de armazenamento. Quando você usa contas de armazenamento separadas, a maioria das implementações pode evitar esse problema.

Outros motivos são discutidos em Visão geral do Azure Data Lake Storage para análise de escala de nuvem.

Databricks

Devemos implantar um workspace do Azure Databricks por produto?

A recomendação é usar o produto compartilhado do workspace de análise e ciência de dados do Azure Databricks dentro da zona de destino.

Essa decisão foi tomada para reduzir a sobrecarga de gerenciamento da equipe de operações da plataforma de dados. O Azure Databricks tem um conjunto de políticas autônomas que não estão integradas às políticas do Azure. Em um ambiente grande, a configuração de mais workspaces do Azure Databricks cria mais sobrecarga de gerenciamento. Por exemplo, manter políticas e versões do Apache Hive com suporte, atualizar versões do ADB e impor o metastore externo do Apache Hive. Não há como uma equipe da plataforma central impor certas configurações em qualquer um dos workspaces do Databricks. É recomendável ter workspaces compartilhados para equipes de produto nas zonas de destino, onde as equipes de operações da plataforma de dados possam definir as políticas de cluster e os scripts de inicialização necessários.

Recomendamos o uso do emparelhamento VNet entre as zonas de destino e os pontos de extremidade privados. Para o Azure Databricks, use a injeção de VNet. Como há uma linha de visão direta para todos os pontos de extremidade, não há nenhum problema de conectividade.

Próximas etapas

O processo de ingestão com a análise de escala de nuvem no Azure