Ferramentas para migração do armazém de dados netezza para o Azure Synapse Analytics
Este artigo é a sexta parte de uma série de sete partes que fornece orientações sobre como migrar do Netezza para o Azure Synapse Analytics. O foco deste artigo são as melhores práticas para a Microsoft e ferramentas de terceiros.
Ferramentas de migração do armazém de dados
Ao migrar o seu armazém de dados existente para Azure Synapse, beneficia de:
Uma base de dados analítica globalmente segura, dimensionável, de baixo custo, nativa da cloud, pay as you use.
O rico ecossistema analítico da Microsoft que existe no Azure. Este ecossistema consiste em tecnologias para ajudar a modernizar o armazém de dados assim que for migrado e expandir as suas capacidades analíticas para impulsionar um novo valor.
Várias ferramentas da Microsoft e de parceiros de terceiros podem ajudá-lo a migrar o seu armazém de dados existente para Azure Synapse. Este artigo aborda os seguintes tipos de ferramentas:
Ferramentas de migração de dados e bases de dados da Microsoft.
Ferramentas de automatização de armazém de dados de terceiros para automatizar e documentar a migração para Azure Synapse.
Ferramentas de migração de armazém de dados de terceiros para migrar esquemas e dados para Azure Synapse.
Ferramentas de terceiros para colmatar as diferenças de SQL entre o DBMS do armazém de dados existente e o Azure Synapse.
Ferramentas de migração de dados da Microsoft
A Microsoft oferece várias ferramentas para o ajudar a migrar o seu armazém de dados existente para Azure Synapse, tais como:
Serviços Microsoft para transferência de dados físicos.
Serviços Microsoft para ingestão de dados.
As secções seguintes abordam estas ferramentas mais detalhadamente.
Microsoft Azure Data Factory
O Data Factory é um serviço de integração de dados híbrido totalmente gerido e pay as you use para processamento de ETL e ELT altamente dimensionável. Utiliza o Apache Spark para processar e analisar dados em paralelo e dentro da memória para maximizar o débito.
Dica
O Data Factory permite-lhe criar pipelines de integração de dados dimensionáveis sem código.
Os conectores do Data Factory suportam ligações a origens de dados e bases de dados externas e incluem modelos para tarefas comuns de integração de dados. Uma IU visual baseada no browser permite que os não programadores criem e executem pipelines para ingerir, transformar e carregar dados. Os programadores mais experientes podem incorporar código personalizado, como programas Python.
Dica
O Data Factory permite o desenvolvimento colaborativo entre profissionais empresariais e de TI.
O Data Factory também é uma ferramenta de orquestração e é a melhor ferramenta da Microsoft para automatizar o processo de migração ponto a ponto. A automatização reduz o risco, o esforço e o tempo de migração e torna o processo de migração facilmente repetível. O diagrama seguinte mostra um fluxo de dados de mapeamento no Data Factory.
A captura de ecrã seguinte mostra um fluxo de dados de wrangling no Data Factory.
No Data Factory, pode desenvolver processos ETL e ELT simples ou abrangentes sem codificação ou manutenção com apenas alguns cliques. Os processos ETL/ELT ingerem, movem, preparam, transformam e processam os seus dados. Pode criar e gerir agendamentos e acionadores no Data Factory para criar um ambiente automatizado de integração e carregamento de dados. No Data Factory, pode definir, gerir e agendar processos de carregamento de dados em massa do PolyBase.
Dica
O Data Factory inclui ferramentas para ajudar a migrar os seus dados e todo o armazém de dados para o Azure.
Pode utilizar o Data Factory para implementar e gerir um ambiente híbrido com dados no local, cloud, transmissão em fluxo e SaaS de forma segura e consistente. Os dados SaaS podem ser provenientes de aplicações como o Salesforce.
Os fluxos de dados de wrangling são uma nova capacidade no Data Factory. Esta capacidade abre o Data Factory aos utilizadores empresariais que pretendem detetar, explorar e preparar dados visualmente em escala sem escrever código. Os fluxos de dados wrangling oferecem preparação de dados self-service, semelhante aos fluxos de dados do Microsoft Excel, Power Query e Microsoft Power BI. Os utilizadores empresariais podem preparar e integrar dados através de uma IU de estilo folha de cálculo com opções de transformação pendentes.
O Data Factory é a abordagem recomendada para implementar a integração de dados e os processos ETL/ELT no ambiente Azure Synapse, especialmente se quiser refatorizar processos legados existentes.
Serviços Microsoft para transferência de dados físicos
As secções seguintes abordam uma variedade de produtos e serviços que a Microsoft oferece para ajudar os clientes com a transferência de dados.
Azure ExpressRoute
O Azure ExpressRoute cria ligações privadas entre datacenters do Azure e infraestrutura no seu local ou num ambiente de colocação. As ligações do ExpressRoute não passam pela Internet pública e oferecem mais fiabilidade, velocidades mais rápidas e latências mais baixas do que as ligações típicas à Internet. Em alguns casos, pode obter benefícios significativos em termos de custos ao utilizar ligações do ExpressRoute para transferir dados entre sistemas no local e o Azure.
AzCopy
O AzCopy é um utilitário de linha de comandos que copia ficheiros para Armazenamento de Blobs do Azure através de uma ligação à Internet padrão. Num projeto de migração de armazém, pode utilizar o AzCopy para carregar ficheiros de texto extraídos, comprimidos e delimitados antes de os carregar para Azure Synapse com o PolyBase. O AzCopy pode carregar ficheiros individuais, seleções de ficheiros ou pastas de ficheiros. Se os ficheiros exportados estiverem no formato Parquet, utilize um leitor parquet nativo.
Azure Data Box
O Azure Data Box é um serviço Microsoft que lhe fornece um dispositivo de armazenamento físico proprietário para o qual pode copiar dados de migração. Em seguida, envia o dispositivo para um datacenter do Azure para carregamento de dados para o armazenamento na cloud. Este serviço pode ser rentável para grandes volumes de dados, como dezenas ou centenas de terabytes, ou onde a largura de banda de rede não está prontamente disponível. Normalmente, o Azure Data Box é utilizado para uma grande carga de dados históricos pontuais para Azure Synapse.
Azure Data Box Gateway
O Azure Data Box Gateway é um dispositivo de gateway de armazenamento na cloud virtualizado que reside no seu local e envia as suas imagens, multimédia e outros dados para o Azure. Utilize o Data Box Gateway para tarefas de migração pontuais ou carregamentos de dados incrementais contínuos.
Serviços Microsoft para ingestão de dados
As secções seguintes abordam os produtos e serviços que a Microsoft oferece para ajudar os clientes com a ingestão de dados.
COPY INTO
A instrução COPY INTO fornece a maior flexibilidade para a ingestão de dados de débito elevado em Azure Synapse. Para obter mais informações sobre COPY INTO
as capacidades, veja COPY (Transact-SQL).
PolyBase
O PolyBase é o método mais rápido e dimensionável para a carga de dados em massa em Azure Synapse. O PolyBase utiliza a arquitetura de processamento paralelo em massa (MPP) de Azure Synapse para o carregamento paralelo de dados para alcançar o débito mais rápido. O PolyBase pode ler dados de ficheiros simples no Armazenamento de Blobs do Azure ou diretamente a partir de origens de dados externas e outras bases de dados relacionais através de conectores.
Dica
O PolyBase pode carregar dados em paralelo de Armazenamento de Blobs do Azure para Azure Synapse.
O PolyBase também pode ler diretamente a partir de ficheiros comprimidos com gzip para reduzir o volume físico de dados durante um processo de carga. O PolyBase suporta formatos de dados populares, como texto delimitado, ORC e Parquet.
Dica
Pode invocar o PolyBase a partir do Data Factory como parte de um pipeline de migração.
O PolyBase está totalmente integrado no Data Factory para suportar o desenvolvimento rápido de processos ETL/ELT de carregamento de dados. Pode agendar processos de carregamento de dados através de uma IU visual para uma produtividade mais elevada e menos erros do que o código escrito à mão. A Microsoft recomenda o PolyBase para ingestão de dados em Azure Synapse, especialmente para ingestão de dados de grande volume.
O PolyBase utiliza CREATE TABLE AS
ou INSERT...SELECT
instruções para carregar dados.
CREATE TABLE AS
minimiza o registo para obter o débito mais elevado. O formato de entrada mais eficiente para a carga de dados é os ficheiros de texto delimitados comprimidos. Para obter o débito máximo, divida ficheiros de entrada grandes em múltiplos ficheiros menores e carregue-os em paralelo. Para o carregamento mais rápido para uma tabela de teste, defina a tabela de destino como HEAP
tipo e utilize a distribuição round robin.
O PolyBase tem algumas limitações, requer que o comprimento da linha de dados seja inferior a 1 megabyte e não suporta formatos aninhados de largura fixa, como JSON e XML.
Parceiros da Microsoft para migrações netezza
Os parceiros da Microsoft oferecem ferramentas, serviços e conhecimentos especializados para o ajudar a migrar a sua plataforma legada do armazém de dados no local para Azure Synapse.
Passos seguintes
Para saber mais sobre a implementação de armazéns de dados modernos, consulte o próximo artigo desta série: Beyond Netezza migration (Além da migração netezza), implemente um armazém de dados moderno no Microsoft Azure.