Partilhar via


Guia de início rápido: ingerir dados usando o Azure Synapse Pipelines (Visualização)

Neste início rápido, você aprenderá a carregar dados de uma fonte de dados no pool do Azure Synapse Data Explorer.

Pré-requisitos

  • Uma subscrição do Azure. Crie uma conta do Azure gratuita.

  • Criar um pool do Data Explorer usando o Synapse Studio ou o portal do Azure

  • Crie um banco de dados do Data Explorer.

    1. No Synapse Studio, no painel do lado esquerdo, selecione Dados.

    2. Selecione + (Adicionar novo recurso) >Pool do Data Explorer e use as seguintes informações:

      Definição Valor sugerido Description
      Nome do conjunto contosodataexplorer O nome do pool do Data Explorer a ser usado
      Nome TestDatabase O nome da base de dados tem de ser exclusivo dentro do cluster.
      Período de retenção predefinido 365 O período de tempo (em dias) durante o qual é garantido que os dados são mantidos disponíveis para consulta. O intervalo de tempo é medido desde o momento em que os dados são ingeridos.
      Período de cache padrão 31 O período de tempo (em dias) durante o qual manter os dados frequentemente consultados disponíveis no armazenamento SSD ou RAM, em vez de no armazenamento a longo prazo.
    3. Selecione Criar para criar o banco de dados. Normalmente, a criação demora menos de um minuto.

  • Criar uma tabela

    1. No Synapse Studio, no painel esquerdo, selecione Desenvolver.
    2. Em Scripts KQL, Selecione + (Adicionar novo recurso) >Script KQL. No painel do lado direito, você pode nomear seu script.
    3. No menu Conectar a, selecione contosodataexplorer.
    4. No menu Usar banco de dados, selecione TestDatabase.
    5. Cole no comando a seguir e selecione Executar para criar a tabela.
    .create table StormEvents (StartTime: datetime, EndTime: datetime, EpisodeId: int, EventId: int, State: string, EventType: string, InjuriesDirect: int, InjuriesIndirect: int, DeathsDirect: int, DeathsIndirect: int, DamageProperty: int, DamageCrops: int, Source: string, BeginLocation: string, EndLocation: string, BeginLat: real, BeginLon: real, EndLat: real, EndLon: real, EpisodeNarrative: string, EventNarrative: string, StormSummary: dynamic)
    

    Gorjeta

    Verifique se a tabela foi criada com êxito. No painel esquerdo, selecione Dados, selecione o menu contosodataexplorer mais e selecione Atualizar. Em contosodataexplorer, expanda Tabelas e verifique se a tabela StormEvents aparece na lista.

  • Obtenha os pontos de extremidade de Consulta e Ingestão de Dados. Você precisará do ponto de extremidade de consulta para configurar seu serviço vinculado.

    1. No Synapse Studio, no painel esquerdo, selecione Gerenciar>pools do Data Explorer.

    2. Selecione o pool do Data Explorer que você deseja usar para exibir seus detalhes.

      Screenshot of the Data Explorer pools screen, showing the list of existing pools.

    3. Anote os pontos de extremidade de Consulta e Ingestão de Dados. Use o ponto de extremidade de consulta como o cluster ao configurar conexões com seu pool do Data Explorer. Ao configurar SDKs para ingestão de dados, use o ponto de extremidade de ingestão de dados.

      Screenshot of the Data Explorer pools properties pane, showing the Query and Data Ingestion URI addresses.

Criar um serviço ligado

No Azure Synapse Analytics, um serviço associado é onde define as informações de ligação a outros serviços. Nesta seção, você criará um serviço vinculado para o Azure Data Explorer.

  1. No Synapse Studio, no painel esquerdo, selecione Gerenciar>serviços vinculados.

  2. Selecione + Novo.

    Screenshot of the Linked services screen, showing the list of existing services and highlighting the add new button.

  3. Selecione o serviço Azure Data Explorer na galeria e, em seguida, selecione Continuar.

    Screenshot of the new Linked services pane, showing the list of available services and highlighting the add new Azure Data Explorer service.

  4. Na página Novos Serviços Vinculados, use as seguintes informações:

    Definição Valor sugerido Description
    Name contosodataexplorerlinkedservice O nome do novo serviço vinculado do Azure Data Explorer.
    Método de autenticação Identidade Gerida O método de autenticação para o novo serviço.
    Método de seleção de conta Insira manualmente O método para especificar o ponto de extremidade Query.
    Ponto final https://contosodataexplorer.contosoanalytics.dev.kusto.windows.net O ponto de extremidade Query do qual você anotou anteriormente.
    Base de dados TestDatabase O banco de dados onde você deseja ingerir dados.

    Screenshot of the new Linked services details pane, showing the fields that need to be completed for the new service.

  5. Selecione Testar conexão para validar as configurações e, em seguida, selecione Criar.

Criar um pipeline para ingerir dados

Um pipeline contém o fluxo lógico para uma execução de um conjunto de atividades. Nesta seção, você criará um pipeline contendo uma atividade de cópia que ingere dados de sua fonte preferida em um pool do Data Explorer.

  1. No Synapse Studio, no painel esquerdo, selecione Integrar.

  2. Selecione +>Pipeline. No painel do lado direito, você pode nomear seu pipeline.

    Screenshot showing the selection for creating a new pipeline.

  3. Em Atividades>Mover & transformar, arraste Copiar dados para a tela do pipeline.

  4. Selecione a atividade de cópia e vá para a guia Origem. Selecione ou crie um novo conjunto de dados de origem como a fonte da qual copiar dados.

  5. Vá para a guia Coletor. Selecione Novo para criar um novo conjunto de dados de coletor.

    Screenshot of the pipeline copy activity, showing the selection for creating a new sink.

  6. Selecione o conjunto de dados do Azure Data Explorer na galeria e, em seguida, selecione Continuar.

  7. No painel Definir propriedades, use as seguintes informações e selecione OK.

    Definição Valor sugerido Description
    Name AzureDataExplorerTable O nome do novo pipeline.
    Serviço ligado contosodataexplorerlinkedservice O serviço vinculado criado anteriormente.
    Tabela StormEvents A tabela que você criou anteriormente.

    Screenshot of the pipeline copy activity set properties pane, showing the fields that need to be completed for the new sink.

  8. Para validar o pipeline, selecione Validar na barra de ferramentas. Você vê o resultado da saída de validação do pipeline no lado direito da página.

Debug and publish the pipeline (Depurar e publicar o pipeline)

Depois de concluir a configuração do pipeline, você pode executar uma execução de depuração antes de publicar seus artefatos para verificar se tudo está correto.

  1. Selecione Depurar na barra de ferramentas. Verá o estado da execução do pipeline no separador Saída, na parte inferior da janela.

  2. Quando a execução do pipeline for bem-sucedida, na barra de ferramentas superior, selecione Publicar tudo. Esta ação publica entidades (conjuntos de dados e pipelines) que você criou no serviço Synapse Analytics.

  3. Aguarde até ver a mensagem Publicação com êxito. Para ver as mensagens de notificação, selecione o botão de sino no canto superior direito.

Acionar e monitorar o pipeline

Nesta seção, você aciona manualmente o pipeline publicado na etapa anterior.

  1. Selecione Adicionar gatilho na barra de ferramentas e, em seguida, selecione Gatilho agora. Na página Execução de pipeline, selecione OK.

  2. Vá para a guia Monitor localizada na barra lateral esquerda. Verá uma execução de pipeline que é acionada por um acionador manual.

  3. Quando a execução do pipeline for concluída com êxito, selecione o link na coluna Nome do pipeline para exibir os detalhes da execução da atividade ou para executar novamente o pipeline . Neste exemplo, há apenas uma atividade, portanto, você vê apenas uma entrada na lista.

  4. Para obter detalhes sobre a operação de cópia, selecione o link Detalhes (ícone de óculos) na coluna Nome da atividade. Você pode monitorar detalhes como o volume de dados copiados da origem para o coletor, taxa de transferência de dados, etapas de execução com duração correspondente e configurações usadas.

  5. Para voltar para a exibição de execuções de pipeline, selecione o link Todas as execuções de pipeline na parte superior. Selecione Atualizar para atualizar a lista.

  6. Verifique se os dados estão escritos corretamente no pool do Data Explorer.

Próximos passos