Criar uma solução de ingestão de dados
Para mover e transformar dados, você pode usar um pipeline de ingestão de dados. Um pipeline de ingestão de dados é uma sequência de tarefas que movem e transformam os dados. Ao criar um pipeline, você pode optar por disparar as tarefas manualmente ou agendar o pipeline quando quiser que as tarefas sejam automatizadas.
Criar um pipeline de ingestão de dados
Para criar um pipeline de ingestão de dados, você pode escolher qual serviço do Azure usar.
Azure Synapse Analytics
Uma abordagem comumente usada para criar e executar pipelines para ingestão de dados é usar o recurso de integração de dados do Azure Synapse Analytics, também conhecido como Pipelines do Azure Synapse. Com o os Pipelines do Azure Synapse, você pode criar e agendar pipelines de ingestão de dados por meio da interface do usuário fácil de usar ou definindo o pipeline no formato JSON.
Ao criar um pipeline do Azure Synapse, você pode copiar facilmente dados de uma fonte para um armazenamento de dados usando um dos muitos conectores padrão.
Dica
Saiba mais sobre a atividade de cópia no Azure Synapse Analytics e todos os formatos e armazenamentos de dados compatíveis.
Para adicionar uma tarefa de transformação de dados ao pipeline, você pode usar uma ferramenta de interface do usuário como o fluxo de dados de mapeamento ou usar uma linguagem como SQL, Python ou R.
O Azure Synapse Analytics permite que você escolha entre diferentes tipos de computação que podem lidar com grandes transformações de dados em escala: pools de SQL sem servidor, pools de SQL dedicados ou pools do Spark.
Dica
Saiba mais sobre como executar a integração de dados em escala com o Azure Synapse Analytics.
Azure Databricks
Sempre que preferir uma ferramenta code-first e usar SQL, Python ou R para criar seus pipelines, você também poderá usar o Azure Databricks. O Azure Databricks permite que você defina seus pipelines em um notebook, que você pode agendar para execução.
O Azure Databricks usa clusters Spark, que distribuem a computação para transformar grandes quantidades de dados em menos tempo do que quando você não usa computação distribuída.
Dica
Saiba mais sobre engenharia de dados com o Azure Databricks e como preparar dados para aprendizado de máquina com o Azure Databricks
Azure Machine Learning
O Azure Machine Learning fornece clusters de computação, que escalam e reduzem verticalmente automaticamente quando necessário. Você pode criar um pipeline com o Designer ou criando uma coleção de scripts. Embora os pipelines do Azure Machine Learning sejam comumente usados para treinar modelos de machine learning, você também pode usá-los para extrair, transformar e armazenar os dados em preparação para treinar um modelo de machine learning.
Sempre que você quiser executar todas as tarefas dentro da mesma ferramenta, criar e agendar um pipeline do Azure Machine Learning para ser executado com o cluster de computação sob demanda pode atender melhor às suas necessidades.
No entanto, o Azure Synapse Analytics e o Azure Databricks oferecem computação mais escalonável que permite que as transformações sejam distribuídas entre nós de computação. Portanto, suas transformações de dados podem ter um desempenho melhor quando você as executa com o Azure Synapse Analytics ou o Azure Databricks em vez de usar o Azure Machine Learning.
Criar uma solução de ingestão de dados
Um benefício do uso de tecnologias de nuvem é a flexibilidade para criar e usar os serviços que melhor atendem às suas necessidades. Para criar uma solução, você pode vincular serviços uns aos outros e representar a solução em uma arquitetura.
Por exemplo, uma abordagem comum para uma solução de ingestão de dados é:
- Extrair dados brutos da respectiva fonte (como um sistema CRM ou dispositivo IoT).
- Copiar e transformar dados com o Azure Synapse Analytics.
- Armazenar os dados preparados em um Armazenamento de Blobs do Azure.
- Treinar o modelo com o Azure Machine Learning.
É uma prática recomendada pensar sobre a arquitetura de uma solução de ingestão de dados antes de treinar seu modelo. Pensar em como os dados são extraídos automaticamente e preparados para treinamento de modelo ajudará você a se preparar para quando o modelo estiver pronto para produção.