O processo de ingestão com análises em escala de nuvem no Azure
O Azure fornece vários serviços para ingerir e liberar dados para plataformas nativas e de terceiros. Diferentes serviços podem ser usados, dependendo do volume, velocidade, variedade e direção. Alguns desses serviços são:
- do Azure Data Factory é um serviço criado para todas as necessidades e níveis de habilidade de aplicativos de dados (alinhados à fonte). Escreva seu próprio código ou construa, extraia, carregue e transforme processos dentro do ambiente visual intuitivo e sem código. Com mais de 90+ conectores construídos nativamente e isentos de manutenção, integre visualmente fontes de dados sem custo adicional. Os engenheiros podem usar pontos de extremidade privados e vincular serviços para se conectar com segurança aos recursos de PaaS (plataforma Azure como serviço) sem usar os pontos de extremidade públicos do recurso PaaS. Os engenheiros podem usar tempos de execução de integração para estender pipelines a ambientes de terceiros, como fontes de dados locais e outras nuvens.
Alguns desses conectores suportam ser usados como fonte (leitura) ou como coletor (gravação). Os serviços nativos do Azure, Oracle, SAP e outros podem ser usados como fonte ou coletor, mas nem todos os conectores oferecem suporte a isso. Nesses casos, você pode usar conectores genéricos como ODBC (Open Database Connectivity), o sistema de arquivos ou conectores SFTP (SSH File Transfer Protocol).
Azure Databricks é um serviço de análise rápido, fácil e colaborativo baseado no Apache-Spark. Para um pipeline de big data, pode-se ingerir dados (brutos ou estruturados) no Azure através do Azure Data Factory por lotes ou transmitidos em quase tempo real com Apache Kafka, Azure Event Hubs ou IoT Hub. Esses dados são armazenados em um data lake para armazenamento de longo prazo e persistente no Azure Data Lake Storage. O Azure Databricks pode ler dados de várias fontes de dados como parte do fluxo de trabalho.
A Microsoft Power Platform fornece conectores para centenas de serviços que podem ser orientados por eventos, agendamento ou push. O Microsoft Power Automate pode atuar em eventos e acionar fluxos de trabalho otimizados para registros únicos ou pequenos volumes de dados.
Ferramentas nativas e de terceiros proprietárias fornecem recursos de nicho para integração com sistemas especializados e replicação quase em tempo real.
- O Azure Data Share ajuda as organizações a partilharem dados de forma segura com vários clientes e parceiros externos. Depois de criar uma conta de compartilhamento de dados e adicionar produtos de dados, os clientes e parceiros podem ser convidados para o compartilhamento de dados. Os fornecedores de dados controlam sempre os dados que partilharam. O Compartilhamento de Dados do Azure simplifica o gerenciamento e o monitoramento de quais dados são compartilhados, quando foram compartilhados e quem os compartilhou.
Importante
Cada zona de aterrissagem de dados pode ter um grupo de recursos de ingestão de dados que existe para empresas com um mecanismo de ingestão agnóstica de dados. Se você não tiver esse mecanismo de estrutura, o único recurso recomendado é implantar um espaço de trabalho de análise do Azure Databricks, que seria usado por integrações de dados para executar ingestão complexa. Consulte o mecanismo de ingestão agnóstica de dados para possíveis padrões de automação.
Considerações de ingestão para o Azure Data Factory
Se você tiver um mecanismo de ingestão agnóstica de dados, deverá implantar um único Data Factory para cada zona de aterrissagem de dados no grupo de recursos de ingestão de dados. O espaço de trabalho do Data Factory deve ser fechado a utilizadores, e somente as identidades geridas e os principais de serviços terão acesso para efetuar implementações. As operações da zona de aterrissagem de dados devem ter acesso de leitura para permitir a depuração do pipeline.
O aplicativo de dados pode ter o próprio Data Factory para movimentação de dados. Ter um Data Factory em cada grupo de recursos de aplicativos de dados dá suporte a uma experiência completa de integração contínua (CI) e implantação contínua (CD), permitindo apenas que pipelines sejam implantados a partir do Azure DevOps ou GitHub.
Todos os espaços de trabalho do Data Factory usarão principalmente o recurso de rede virtual gerida (VNet) no Data Factory ou o tempo de execução de integração auto-hospedado para a sua zona de receção de dados dentro da zona de receção de gestão de dados. Os engenheiros são incentivados a usar o recurso de rede virtual gerenciada para se conectar com segurança ao recurso PaaS do Azure.
No entanto, é possível criar mais runtimes de integração para fazer ingestão de dados de fontes locais internas, nuvens de terceiros e software como serviço (SaaS) de terceiros.
Considerações sobre a ingestão de dados para o Azure Databricks
As presentes orientações debruçam-se sobre as informações contidas:
Protegendo o acesso ao Azure Data Lake Storage Gen2 a partir do Azure Databricks
Para desenvolvimento, as operações de integração devem ter os seus próprios ambientes do Azure Databricks antes de inserir o código a ser implantado no único espaço de trabalho do Azure Databricks durante os testes e a produção.
O Data Factory no grupo de recursos da aplicação de dados (alinhado com a origem) deve fornecer a estrutura para executar trabalhos no Azure Databricks.
As equipes de aplicativos de dados podem implantar trabalhos curtos e automatizados no Azure Databricks e esperar que seus clusters iniciem rapidamente, executem o trabalho e terminem. É recomendável configurar pools do Azure Databricks para reduzir o tempo necessário para que os clusters sejam iniciados para executar tarefas.
Recomendamos que as organizações usem o Azure DevOps para implementar uma estrutura de implantação para novos pipelines. A estrutura será usada para criar as pastas do conjunto de dados, atribuir listas de controle de acesso e criar uma tabela com ou sem impor controles de acesso à tabela Databricks.
Ingestão de fluxo
As organizações podem precisar oferecer suporte a cenários em que os editores geram fluxos de eventos de alta velocidade. Para este padrão, recomenda-se uma fila de mensagens, por exemplo, Hubs de Eventos ou Hub IoT, para a ingestão desses fluxos.
Os Hubs de Eventos e o Hub IoT são serviços de processamento de eventos escaláveis que podem ingerir e processar grandes volumes de eventos e dados com baixa latência e alta confiabilidade. O Event Hubs é projetado como um serviço de transmissão de dados massivos e ingestão de eventos. O Hub IoT é um serviço gerenciado que serve como um hub de mensagens central para comunicação bidirecional entre um aplicativo IoT e os dispositivos que ele gerencia. A partir daí, os dados podem ser exportados de forma regular para um data lake (em modo de lote) e processados quase em tempo real com o Azure Databricks, através do Apache Spark Streaming, Azure Data Explorer, Stream Analytics ou Time Series Insights.
Os últimos Hubs de Eventos ou a zona de aterragem do Apache Kafka dentro da zona de aterragem específica do caso de uso devem enviar os seus dados agregados para a camada 'raw' do data lake em uma das zonas de aterragem de dados e para os Hubs de Eventos relacionados ao grupo de recursos do aplicativo de dados (alinhado à fonte) na zona de aterragem de dados.
Monitorizar a ingestão
O de monitoramento de pipeline do Azure Data Factory pronto para uso
O monitoramento interno é um dos principais motivos para usar o Azure Data Factory como uma ferramenta de orquestração principal, e o Azure Policy pode ajudar a automatizar essa configuração.