Conjunto de dados no Azure Data Factory e no Azure Synapse Analytics
APLICA-SE A: Azure Data Factory Azure Synapse Analytics
Dica
Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!
Este artigo descreve o que são conjuntos de dados, como eles são definidos no formato JSON e como são usados em pipelines do Azure Data Factory e do Synapse.
Se estiver conhecendo o Azure Data Factory agora, confira Introdução ao Azure Data Factory para obter uma visão geral. Para obter mais informações sobre o Azure Synapse, confira O que é o Azure Synapse
Visão geral
Um workspace do Azure Data Factory ou do Synapse pode ter um ou mais pipelines. Um pipeline é um agrupamento lógico de atividades que juntas executam uma tarefa. As atividades em um pipeline definem ações para executar em seus dados. Por outro lado, um conjunto de dados é uma exibição nomeada de dados que simplesmente aponta ou faz referência aos dados que você deseja usar em suas atividades como entradas e saídas. Conjuntos de dados identificam dados em armazenamentos de dados diferentes, como tabelas, arquivos, pastas e documentos. Por exemplo, um conjunto de dados de Blob do Azure especifica o contêiner de blobs e a pasta no Armazenamento de Blobs dos quais a atividade deve ler os dados.
Antes de criar um conjunto de dados, crie um serviço vinculado para vincular seu armazenamento de dados ao serviço. Serviços vinculados são como cadeias de conexão, que definem as informações de conexão necessárias para que o serviço se conecte a recursos externos. Pense dessa maneira: o conjunto de dados representa a estrutura dos dados nos armazenamentos de dados vinculados e o serviço vinculado define a conexão à fonte de dados. Por exemplo, um serviço vinculado do Armazenamento do Azure vincula uma conta de armazenamento. Um conjunto de dados de Blob do Azure representa o contêiner de blob e a pasta na conta de Armazenamento do Azure que contém os blobs de entrada a serem processados.
Veja abaixo um cenário de exemplo. Para copiar dados do armazenamento de Blobs para um banco de dados SQL, crie dois serviços vinculados: Armazenamento do Azure Blob e Banco de Dados SQL do Azure. Em seguida, crie dois conjuntos de dados: o conjunto de dados de texto Delimitado (que se refere ao serviço vinculado, assuminfo que você tenha arquivos de texto como origem do Armazenamento Blob do Azure) e o conjunto de dados de Tabela do SQL do Azure (que se refere ao serviço vinculado do Banco de Dados SQL do Azure). Os serviços vinculados do Armazenamento de Blobs do Azure e do Banco de Dados SQL do Azure contêm cadeias de caracteres de conexão que o serviço usa em runtime para se conectar respectivamente ao Armazenamento do Azure e ao Banco de Dados SQL do Azure. O conjunto de dados de texto delimitado especifica o contêiner de blob e a pasta de blob que contém os blobs de entrada no Armazenamento de Blobs, juntamente com as configurações relacionadas ao formato. O conjunto de dados de Tabela do SQL do Azure especifica a tabela do SQL no Banco de Dados SQL no qual os dados serão copiados.
O seguinte diagrama mostra a relação entre pipeline, atividade, conjunto de dados e serviço vinculado:
Criar um conjunto de dados com a interface do usuário
Para criar um conjunto de dados com o Azure Data Factory Studio, selecione a guia Criar (com o ícone de lápis) seguida do ícone de sinal de adição para escolher Conjunto de dados.
Você verá a janela de novo conjunto de dados para escolher qualquer um dos conectores disponíveis no Azure Data Factory a fim de configurar um serviço vinculado novo ou existente.
Em seguida, você será solicitado a escolher o formato do conjunto de dados.
Por fim, você pode escolher um serviço vinculado existente do tipo selecionado para o conjunto de dados ou criar um, se nenhum estiver definido.
Depois de criar o conjunto de dados, você poderá usá-lo em qualquer pipeline no Azure Data Factory.
Conjunto de dados do JSON
Um conjunto de dados é definido no seguinte formato JSON:
{
"name": "<name of dataset>",
"properties": {
"type": "<type of dataset: DelimitedText, AzureSqlTable etc...>",
"linkedServiceName": {
"referenceName": "<name of linked service>",
"type": "LinkedServiceReference",
},
"schema":[
],
"typeProperties": {
"<type specific property>": "<value>",
"<type specific property 2>": "<value 2>",
}
}
}
A tabela a seguir descreve as propriedades no JSON acima:
Propriedade | Descrição | Obrigatório |
---|---|---|
name | Nome do conjunto de dados. Confira Regras de Nomenclatura. | Sim |
type | Tipo de conjunto de dados. Especifique um dos tipos com suporte no Data Factory (por exemplo: DelimitedText, AzureSqlTable). Para obter detalhes, consulte Tipos de conjunto de dados. |
Sim |
esquema | O squema no conjunto de dados representa o tipo e a forma de dados físicos. | Não |
typeProperties | As propriedades de tipo são diferentes para cada tipo. Para obter detalhes sobre os tipos com suporte e suas propriedades, consulte Tipo de conjunto de dados. | Sim |
Quando importar o esquema de um conjunto de dados, selecione o botão Importar esquema e importe da fonte ou de um arquivo local. Na maioria dos casos, você importará o esquema diretamente da fonte. Mas se já tiver um arquivo de esquema local (um arquivo Parquet ou CSV com cabeçalhos), você poderá instruir o serviço a basear-se no esquema nesse arquivo.
Em atividade de cópia, os conjunto de dados são utilizados em origem e coletor. O esquema definido em DataSet é opcional como referência. Se você quiser aplicar o mapeamento de coluna/campo entre a origem e o coletor, consulte esquema e mapeamento de tipo.
No Fluxo de Dados, os conjuntos de dados são usados em transformações da fonte e do coletor. Os conjuntos de dados definem os esquemas de dados básicos. Se os dados não tiverem um esquema, use o descompasso de esquema para a fonte e o coletor. Os metadados dos conjuntos de dados aparecem na transformação da fonte como a projeção da fonte. A projeção na transformação da fonte representa os dados do Fluxo de Dados com nomes e tipos definidos.
Tipo de conjunto de dados
O serviço dá suporte a muitos tipos diferentes de conjuntos de dados, dependendo dos armazenamentos que você usa. Você pode encontrar a lista de armazenamentos de dados com suporte no artigo Visão geral do conector. Selecione um armazenamento de dados para saber como criar um serviço vinculado e um conjunto de dados para ele.
Por exemplo, para um conjunto de texto delimitado, o tipo DataSet é definido como DelimitedText, conforme mostrado no exemplo de JSON a seguir:
{
"name": "DelimitedTextInput",
"properties": {
"linkedServiceName": {
"referenceName": "AzureBlobStorage",
"type": "LinkedServiceReference"
},
"annotations": [],
"type": "DelimitedText",
"typeProperties": {
"location": {
"type": "AzureBlobStorageLocation",
"fileName": "input.log",
"folderPath": "inputdata",
"container": "adfgetstarted"
},
"columnDelimiter": ",",
"escapeChar": "\\",
"quoteChar": "\""
},
"schema": []
}
}
Observação
O valor do esquema é definido usando a sintaxe JSON. Para obter informações mais detalhadas sobre mapeamento de esquema e mapeamento de tipo de dados, confira a documentação do Esquema de Atividade de Cópia do Azure Data Factory e do Mapeamento de Tipos.
Criar conjuntos de dados
Você pode criar conjuntos de dados usando uma dessas ferramentas ou SDKs: API do .NET, PowerShell, API REST, modelo do Azure Resource Manager e Portal do Azure
Conjuntos de dados da versão atual vs. versão 1
Aqui estão algumas diferenças entre conjuntos de valores na versão atual do Data Factory (e Azure Synapse) e o Data Factory herdado versão 1:
- A propriedade externa não é compatível com a versão atual. Ela é substituída por um gatilho.
- As propriedades de disponibilidade e política não são compatíveis com a versão atual. A hora de início de um pipeline depende de gatilhos.
- Os conjuntos de dados com escopo (conjuntos de dados definidos em um pipeline) não são compatíveis com a versão atual.
Conteúdo relacionado
Inícios rápidos
Consulte os seguintes tutoriais para obter instruções passo a passo para criar pipelines e conjuntos de dados usando uma destas ferramentas ou SDKs.
- Início rápido: criar um data factory usando o .NET
- Início rápido: criar um data factory usando o PowerShell
- Início rápido: criar um data factory usando a API REST
- Início rápido: criar um data factory usando o portal do Azure