Formato Avro no Azure Data Factory e Synapse Analytics

Artigo
07/03/2024

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

Siga este artigo quando quiser analisar arquivos Avro ou gravar os dados no formato Avro.

O formato Avro é suportado para os seguintes conectores: Amazon S3, Amazon S3 Compatible Storage, Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, HTTP, Oracle Cloud Storage e SFTP.

Propriedades do conjunto de dados

Para obter uma lista completa de seções e propriedades disponíveis para definir conjuntos de dados, consulte o artigo Conjuntos de dados. Esta seção fornece uma lista de propriedades suportadas pelo conjunto de dados Avro.

Property	Descrição	Obrigatório
tipo	A propriedade type do conjunto de dados deve ser definida como Avro.	Sim
localização	Configurações de localização do(s) arquivo(s). Cada conector baseado em arquivo tem seu próprio tipo de local e propriedades suportadas em `location`. Consulte os detalhes no artigo do conector -> seção Propriedades do conjunto de dados.	Sim
avroCompressionCodec	O codec de compressão a ser usado ao gravar em arquivos Avro. Ao ler a partir de arquivos Avro, o serviço determina automaticamente o codec de compressão com base nos metadados do arquivo. Os tipos suportados são "none" (padrão), "deflate", "snappy". Observação Atualmente, a atividade de cópia não suporta Snappy quando arquivos Avro de leitura/gravação.	Não

Nota

Espaço em branco no nome da coluna não é suportado para arquivos Avro.

Abaixo está um exemplo do conjunto de dados Avro no Armazenamento de Blob do Azure:

{
    "name": "AvroDataset",
    "properties": {
        "type": "Avro",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, retrievable during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder",
            },
            "avroCompressionCodec": "snappy"
        }
    }
}

Propriedades da atividade Copy

Para obter uma lista completa de seções e propriedades disponíveis para definir atividades, consulte o artigo Pipelines . Esta seção fornece uma lista de propriedades suportadas pela fonte e pelo coletor Avro.

Avro como fonte

As propriedades a seguir são suportadas na seção copy activity *source* .

Property	Descrição	Obrigatório
tipo	A propriedade type da fonte de atividade de cópia deve ser definida como AvroSource.	Sim
storeSettings	Um grupo de propriedades sobre como ler dados de um armazenamento de dados. Cada conector baseado em arquivo tem suas próprias configurações de leitura suportadas em `storeSettings`. Veja os detalhes no artigo do conector -> Seção Copiar propriedades da atividade.	Não

Avro como pia

As propriedades a seguir são suportadas na seção de atividade de cópia *sink* .

Property	Descrição	Obrigatório
tipo	A propriedade type da fonte de atividade de cópia deve ser definida como AvroSink.	Sim
formatConfigurações	Um grupo de propriedades. Consulte a tabela de configurações de gravação do Avro abaixo.	Não
storeSettings	Um grupo de propriedades sobre como gravar dados em um armazenamento de dados. Cada conector baseado em arquivo tem suas próprias configurações de gravação suportadas em `storeSettings`. Veja os detalhes no artigo do conector -> Seção Copiar propriedades da atividade.	Não

Configurações de gravação Avro suportadas emformatSettings:

Property	Descrição	Obrigatório
tipo	O tipo de formatSettings deve ser definido como AvroWriteSettings.	Sim
maxRowsPerFile	Ao gravar dados em uma pasta, você pode optar por gravar em vários arquivos e especificar o máximo de linhas por arquivo.	Não
fileNamePrefix	Aplicável quando `maxRowsPerFile` configurado. Especifique o prefixo do nome do arquivo ao gravar dados em vários arquivos, resultando neste padrão: `<fileNamePrefix>_00000.<fileExtension>`. Se não for especificado, o prefixo do nome do arquivo será gerado automaticamente. Essa propriedade não se aplica quando a origem é armazenamento baseado em arquivo ou armazenamento de dados habilitado para opção de partição.	Não

Mapeando propriedades de fluxo de dados

No mapeamento de fluxos de dados, você pode ler e gravar no formato avro nos seguintes armazenamentos de dados: Azure Blob Storage, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2 e SFTP, e pode ler o formato avro no Amazon S3.

Propriedades de origem

A tabela abaixo lista as propriedades suportadas por uma fonte avro. Você pode editar essas propriedades na guia Opções de origem .

Nome	Descrição	Obrigatório	Valores permitidos	Propriedade do script de fluxo de dados
Caminhos curinga	Todos os arquivos correspondentes ao caminho curinga serão processados. Substitui a pasta e o caminho do arquivo definidos no conjunto de dados.	não	String[]	wildcardCaminhos
Caminho da raiz da partição	Para dados de arquivo particionados, você pode inserir um caminho raiz de partição para ler pastas particionadas como colunas	não	String	partitionRootPath
Lista de arquivos	Se sua fonte está apontando para um arquivo de texto que lista os arquivos a serem processados	não	`true` ou `false`	Lista de arquivos
Coluna para armazenar o nome do arquivo	Criar uma nova coluna com o nome do arquivo de origem e o caminho	não	String	rowUrlColumn
Após a conclusão	Exclua ou mova os arquivos após o processamento. O caminho do arquivo começa a partir da raiz do contêiner	não	Eliminar: `true` ou `false` Movimentar-se: `['<from>', '<to>']`	purgeFiles moveFiles
Filtrar por última modificação	Opte por filtrar ficheiros com base na data em que foram alterados pela última vez	não	Carimbo de Data/Hora	modificadoApós modificadoAntes
Não permitir que nenhum arquivo seja encontrado	Se verdadeiro, um erro não é lançado se nenhum arquivo for encontrado	não	`true` ou `false`	ignoreNoFilesFound

Propriedades do lavatório

A tabela abaixo lista as propriedades suportadas por um coletor avro. Você pode editar essas propriedades na guia Configurações .

Nome	Descrição	Obrigatório	Valores permitidos	Propriedade do script de fluxo de dados
Limpar a pasta	Se a pasta de destino for limpa antes da gravação	não	`true` ou `false`	truncate
Opção de nome de arquivo	O formato de nomenclatura dos dados gravados. Por padrão, um arquivo por partição no formato `part-#####-tid-<guid>`	não	Padrão: String Por partição: String[] Como dados na coluna: String Saída para um único arquivo: `['<fileName>']`	filePattern partitionFileNames rowUrlColumn partitionFileNames
Citar tudo	Colocar todos os valores entre aspas	não	`true` ou `false`	citaçãoTodos

Suporte a tipos de dados

Atividade Copiar

Não há suporte para tipos de dados complexos Avro (registros, enums, matrizes, mapas, uniões e fixos) na Atividade de cópia.

Fluxos de dados

Ao trabalhar com arquivos Avro em fluxos de dados, você pode ler e gravar tipos de dados complexos, mas certifique-se de limpar o esquema físico do conjunto de dados primeiro. Em fluxos de dados, você pode definir sua projeção lógica e derivar colunas que são estruturas complexas e, em seguida, mapear automaticamente esses campos para um arquivo Avro.

Partilhar via

Formato Avro no Azure Data Factory e Synapse Analytics

Propriedades do conjunto de dados

Propriedades da atividade Copy

Avro como fonte

Avro como pia

Mapeando propriedades de fluxo de dados

Propriedades de origem

Propriedades do lavatório

Suporte a tipos de dados

Atividade Copiar

Fluxos de dados

Comentários

Recursos adicionais

Partilhar via

Formato Avro no Azure Data Factory e Synapse Analytics

Propriedades do conjunto de dados

Propriedades da atividade Copy

Avro como fonte

Avro como pia

Mapeando propriedades de fluxo de dados

Propriedades de origem

Propriedades do lavatório

Suporte a tipos de dados

Atividade Copiar

Fluxos de dados

Conteúdos relacionados

Comentários

Recursos adicionais