O que é o Azure Data Factory?
Vamos começar com uma visão geral do Azure Data Factory para ajudá-lo a determinar se é uma boa opção para organizar seus dados para criar insights de negócios.
O Azure Data Factory é um serviço de extração, transformação, carregamento (ETL) e integração de dados baseado na nuvem que o ajuda a criar fluxos de trabalho orientados por dados para:
- Orquestre a movimentação de dados.
- Transforme dados em escala.
Nota
Os fluxos de trabalho orientados por dados também são conhecidos como pipelines.
Usando o Azure Data Factory, você pode reorganizar dados brutos em armazenamentos de dados significativos e data lakes, fornecendo uma base para tomar melhores decisões de negócios.
O que é a análise de dados?
A análise de dados é o processo de coletar dados brutos e examiná-los para tirar conclusões a partir deles. Esse processo pode ser difícil se os dados estiverem em vários locais, como bancos de dados hospedados e locais locais.
Gorjeta
Dados brutos são dados que foram coletados de uma fonte e não foram processados. Às vezes é referido como dados não organizados.
O Azure fornece várias tecnologias que pode implementar para ajudar com a análise de dados da sua organização, incluindo:
- Azure Synapse Analytics
- Armazenamento de Blobs do Azure
- Azure Data Lake Storage
- Azure Data Lake Analytics
- Azure Analysis Services
- Azure HDInsight
- Azure Databricks
- Azure Machine Learning
Você pode usar alguns ou todos esses serviços, conforme necessário, para analisar os dados da sua organização. No entanto, nenhum desses serviços aborda a integração de dados. A integração de dados permite coletar dados de várias fontes e, em seguida, carregar esses dados combinados em um local adequado para análise de dados. Se necessário, você pode transformar os dados durante esse processo. Embora você possa executar essas tarefas manualmente, você pode considerar o uso do Azure Data Factory.
Definição do Azure Data Factory
O Azure Data Factory é um serviço de integração de dados baseado em nuvem projetado para atender às necessidades de duas comunidades específicas, conforme descrito na tabela a seguir:
Comunidade | Descrição das necessidades da comunidade |
---|---|
Comunidade de Big Data | Essa comunidade depende de tecnologias para gerenciar grandes quantidades de dados diversos. Para eles, o Azure Data Factory fornece um meio de criar e executar pipelines na nuvem. Esses pipelines podem acessar serviços de dados locais e na nuvem. Esses pipelines normalmente funcionam com tecnologias como Azure Synapse Analytics, Azure Blobs e Azure Data Lake. Além disso, Azure HDInsight, Azure Databricks e Azure Machine Learning. |
Comunidade de armazenamento de dados relacionais | Essa comunidade normalmente depende de tecnologias como o Microsoft SQL Server. O SQL Server Integration Services (SSIS) é frequentemente usado para criar pacotes SSIS. O Azure Data Factory fornece a essa comunidade a capacidade de executar pacotes SSIS no Azure, dando-lhes acesso a serviços de dados locais e na nuvem. |
Nota
Um pacote é semelhante a um pipeline do Azure Data Factory. Cada pacote define um processo para extrair, carregar, transformar ou trabalhar com dados.
O ponto principal é que o Azure Data Factory é um único serviço de nuvem para integração de dados. Ele fornece um único conjunto de ferramentas e uma interface de gerenciamento comum para toda a sua integração de dados, suportando todas as suas fontes de dados, onde quer que estejam localizadas:
- Azure
- Local
- Uma plataforma de nuvem pública de terceiros
Como o Azure Data Factory pode ajudar com a análise de dados
Usando o Azure Data Factory, você pode:
Crie processos complexos de ETL. Esses processos podem transformar dados visualmente usando fluxos de dados ou serviços de computação, como:
- Azure HDInsight Hadoop
- Azure Databricks
- Base de Dados SQL do Azure
Publique esses dados transformados em armazenamentos de dados para que os aplicativos de business intelligence consumam.
No gráfico a seguir, as fontes de dados externas são conectadas ao Azure Data Factory. Um blob de armazenamento é usado para ingerir os dados, enquanto o Azure Synapse Analytics é usado como armazenamento. Estes elementos fornecem a orquestração. Os componentes de análise e visualização, o Azure Analysis Service e o Power BI também estão conectados ao Azure Data Factory.
Gorjeta
O Azure Data Factory fornece mais de 90 conectores internos e isentos de manutenção.