Guia de início rápido: ingerir dados usando o Azure Synapse Pipelines (Visualização)

Artigo
01/10/2024

Neste início rápido, você aprenderá a carregar dados de uma fonte de dados no pool do Azure Synapse Data Explorer.

Pré-requisitos

Uma subscrição do Azure. Crie uma conta do Azure gratuita.
Criar um pool do Data Explorer usando o Synapse Studio ou o portal do Azure

Crie um banco de dados do Data Explorer.

No Synapse Studio, no painel do lado esquerdo, selecione Dados.

Selecione + (Adicionar novo recurso) >Pool do Data Explorer e use as seguintes informações:

Definição	Valor sugerido	Description
Nome do conjunto	contosodataexplorer	O nome do pool do Data Explorer a ser usado
Nome	TestDatabase	O nome da base de dados tem de ser exclusivo dentro do cluster.
Período de retenção predefinido	365	O período de tempo (em dias) durante o qual é garantido que os dados são mantidos disponíveis para consulta. O intervalo de tempo é medido desde o momento em que os dados são ingeridos.
Período de cache padrão	31	O período de tempo (em dias) durante o qual manter os dados frequentemente consultados disponíveis no armazenamento SSD ou RAM, em vez de no armazenamento a longo prazo.

Selecione Criar para criar o banco de dados. Normalmente, a criação demora menos de um minuto.

Criar uma tabela
1. No Synapse Studio, no painel esquerdo, selecione Desenvolver.
2. Em Scripts KQL, Selecione + (Adicionar novo recurso) >Script KQL. No painel do lado direito, você pode nomear seu script.
3. No menu Conectar a, selecione contosodataexplorer.
4. No menu Usar banco de dados, selecione TestDatabase.
5. Cole no comando a seguir e selecione Executar para criar a tabela.
```
.create table StormEvents (StartTime: datetime, EndTime: datetime, EpisodeId: int, EventId: int, State: string, EventType: string, InjuriesDirect: int, InjuriesIndirect: int, DeathsDirect: int, DeathsIndirect: int, DamageProperty: int, DamageCrops: int, Source: string, BeginLocation: string, EndLocation: string, BeginLat: real, BeginLon: real, EndLat: real, EndLon: real, EpisodeNarrative: string, EventNarrative: string, StormSummary: dynamic)
```
Gorjeta

Verifique se a tabela foi criada com êxito. No painel esquerdo, selecione Dados, selecione o menu contosodataexplorer mais e selecione Atualizar. Em contosodataexplorer, expanda Tabelas e verifique se a tabela StormEvents aparece na lista.
Obtenha os pontos de extremidade de Consulta e Ingestão de Dados. Você precisará do ponto de extremidade de consulta para configurar seu serviço vinculado.
1. No Synapse Studio, no painel esquerdo, selecione Gerenciar>pools do Data Explorer.
2. Selecione o pool do Data Explorer que você deseja usar para exibir seus detalhes.
3. Anote os pontos de extremidade de Consulta e Ingestão de Dados. Use o ponto de extremidade de consulta como o cluster ao configurar conexões com seu pool do Data Explorer. Ao configurar SDKs para ingestão de dados, use o ponto de extremidade de ingestão de dados.

Criar um serviço ligado

No Azure Synapse Analytics, um serviço associado é onde define as informações de ligação a outros serviços. Nesta seção, você criará um serviço vinculado para o Azure Data Explorer.

No Synapse Studio, no painel esquerdo, selecione Gerenciar>serviços vinculados.
Selecione + Novo.
Selecione o serviço Azure Data Explorer na galeria e, em seguida, selecione Continuar.

Na página Novos Serviços Vinculados, use as seguintes informações:

Definição	Valor sugerido	Description
Name	contosodataexplorerlinkedservice	O nome do novo serviço vinculado do Azure Data Explorer.
Método de autenticação	Identidade Gerida	O método de autenticação para o novo serviço.
Método de seleção de conta	Insira manualmente	O método para especificar o ponto de extremidade Query.
Ponto final	https://contosodataexplorer.contosoanalytics.dev.kusto.windows.net	O ponto de extremidade Query do qual você anotou anteriormente.
Base de dados	TestDatabase	O banco de dados onde você deseja ingerir dados.

Screenshot of the new Linked services details pane, showing the fields that need to be completed for the new service.

Selecione Testar conexão para validar as configurações e, em seguida, selecione Criar.

Criar um pipeline para ingerir dados

Um pipeline contém o fluxo lógico para uma execução de um conjunto de atividades. Nesta seção, você criará um pipeline contendo uma atividade de cópia que ingere dados de sua fonte preferida em um pool do Data Explorer.

No Synapse Studio, no painel esquerdo, selecione Integrar.
Selecione +>Pipeline. No painel do lado direito, você pode nomear seu pipeline.
Em Atividades>Mover & transformar, arraste Copiar dados para a tela do pipeline.
Selecione a atividade de cópia e vá para a guia Origem. Selecione ou crie um novo conjunto de dados de origem como a fonte da qual copiar dados.
Vá para a guia Coletor. Selecione Novo para criar um novo conjunto de dados de coletor.
Selecione o conjunto de dados do Azure Data Explorer na galeria e, em seguida, selecione Continuar.

No painel Definir propriedades, use as seguintes informações e selecione OK.

Definição	Valor sugerido	Description
Name	AzureDataExplorerTable	O nome do novo pipeline.
Serviço ligado	contosodataexplorerlinkedservice	O serviço vinculado criado anteriormente.
Tabela	StormEvents	A tabela que você criou anteriormente.

Screenshot of the pipeline copy activity set properties pane, showing the fields that need to be completed for the new sink.

Para validar o pipeline, selecione Validar na barra de ferramentas. Você vê o resultado da saída de validação do pipeline no lado direito da página.

Debug and publish the pipeline (Depurar e publicar o pipeline)

Depois de concluir a configuração do pipeline, você pode executar uma execução de depuração antes de publicar seus artefatos para verificar se tudo está correto.

Selecione Depurar na barra de ferramentas. Verá o estado da execução do pipeline no separador Saída, na parte inferior da janela.
Quando a execução do pipeline for bem-sucedida, na barra de ferramentas superior, selecione Publicar tudo. Esta ação publica entidades (conjuntos de dados e pipelines) que você criou no serviço Synapse Analytics.
Aguarde até ver a mensagem Publicação com êxito. Para ver as mensagens de notificação, selecione o botão de sino no canto superior direito.

Acionar e monitorar o pipeline

Nesta seção, você aciona manualmente o pipeline publicado na etapa anterior.

Selecione Adicionar gatilho na barra de ferramentas e, em seguida, selecione Gatilho agora. Na página Execução de pipeline, selecione OK.
Vá para a guia Monitor localizada na barra lateral esquerda. Verá uma execução de pipeline que é acionada por um acionador manual.
Quando a execução do pipeline for concluída com êxito, selecione o link na coluna Nome do pipeline para exibir os detalhes da execução da atividade ou para executar novamente o pipeline . Neste exemplo, há apenas uma atividade, portanto, você vê apenas uma entrada na lista.
Para obter detalhes sobre a operação de cópia, selecione o link Detalhes (ícone de óculos) na coluna Nome da atividade. Você pode monitorar detalhes como o volume de dados copiados da origem para o coletor, taxa de transferência de dados, etapas de execução com duração correspondente e configurações usadas.
Para voltar para a exibição de execuções de pipeline, selecione o link Todas as execuções de pipeline na parte superior. Selecione Atualizar para atualizar a lista.
Verifique se os dados estão escritos corretamente no pool do Data Explorer.

Partilhar via

Guia de início rápido: ingerir dados usando o Azure Synapse Pipelines (Visualização)

Pré-requisitos

Criar um serviço ligado

Criar um pipeline para ingerir dados

Debug and publish the pipeline (Depurar e publicar o pipeline)

Acionar e monitorar o pipeline

Próximos passos

Comentários

Recursos adicionais