Descrever a arquitetura de armazenamento de dados
A arquitetura de análise de dados em larga escala pode variar, assim como as tecnologias específicas usadas para implementá-la; Mas, em geral, estão incluídos os seguintes elementos:
- Ingestão e processamento de dados – dados de um ou mais armazenamentos de dados transacionais, arquivos, fluxos em tempo real ou outras fontes são carregados em um data lake ou um data warehouse relacional. A operação de carga geralmente envolve um processo de extração, transformação e carga (ETL) ou extração, carga e transformação (ELT) no qual os dados são limpos, filtrados e reestruturados para análise. Em processos ETL, os dados são transformados antes de serem carregados em um armazenamento analítico, enquanto em um processo ELT os dados são copiados para o armazenamento e, em seguida, transformados. De qualquer forma, a estrutura de dados resultante é otimizada para consultas analíticas. O processamento de dados é frequentemente realizado por sistemas distribuídos que podem processar grandes volumes de dados em paralelo usando clusters de vários nós. A ingestão de dados inclui o processamento em lote de dados estáticos e o processamento em tempo real de dados de streaming.
- Armazenamento de dados analíticos – os armazenamentos de dados para análises de grande escala incluem armazéns de dados relacionais, data lakes baseados em sistemas de arquivos e arquiteturas híbridas que combinam recursos de data warehouses e data lakes (às vezes chamados de data lakehouses ou bancos de dados lake). Discutiremos isso mais detalhadamente mais adiante.
- Modelo de dados analíticos – embora analistas de dados e cientistas de dados possam trabalhar com os dados diretamente no armazenamento de dados analíticos, é comum criar um ou mais modelos de dados que pré-agregam os dados para facilitar a produção de relatórios, painéis e visualizações interativas. Muitas vezes, esses modelos de dados são descritos como cubos, nos quais os valores de dados numéricos são agregados em uma ou mais dimensões (por exemplo, para determinar as vendas totais por produto e região). O modelo encapsula as relações entre valores de dados e entidades dimensionais para dar suporte à análise de "drill-up/drill-down".
- Visualização de dados – os analistas de dados consomem dados de modelos analíticos e diretamente de repositórios analíticos para criar relatórios, painéis e outras visualizações. Além disso, os usuários em uma organização que podem não ser profissionais de tecnologia podem realizar análises e relatórios de dados de autoatendimento. As visualizações dos dados mostram tendências, comparações e indicadores-chave de desempenho (KPIs) para uma empresa ou outra organização, e podem assumir a forma de relatórios impressos, gráficos e tabelas em documentos ou apresentações do PowerPoint, painéis baseados na Web e ambientes interativos nos quais os usuários podem explorar dados visualmente.