Partilhar via


Formato Parquet no Data Factory no Microsoft Fabric

Este artigo descreve como configurar o formato Parquet no pipeline de dados do Data Factory no Microsoft Fabric.

Capacidades suportadas

O formato Parquet é suportado para as seguintes atividades e conectores como origem e destino.

Categoria Conector/Atividade
Conector suportado Amazon S3
Compatível com Amazon S3
Armazenamento de Blobs do Azure
Armazenamento do Azure Data Lake Ger1
Azure Data Lake Storage Gen2 (Armazenamento do Azure Data Lake Gen2)
Ficheiros do Azure
Sistema de ficheiros
FTP
Google Cloud Storage
HTTP
Arquivos Lakehouse
Armazenamento em nuvem Oracle
SFTP
Atividade apoiada Atividade de cópia (origem/destino)
Atividade de Pesquisa
Atividade GetMetadata
Excluir atividade

Formato Parquet na atividade de cópia

Para configurar o formato Parquet, escolha sua conexão na origem ou no destino da atividade de cópia do pipeline de dados e selecione Parquet na lista suspensa de Formato de arquivo. Selecione Configurações para configuração adicional deste formato.

Captura de ecrã a mostrar definições de formato de ficheiro.

Formato de parquet como fonte

Depois de selecionar Configurações na seção Formato de arquivo , as seguintes propriedades são mostradas na caixa de diálogo pop-up Configurações de formato de arquivo.

Captura de tela mostrando a origem do formato de arquivo parquet.

  • Tipo de compactação: escolha o codec de compactação usado para ler arquivos Parquet na lista suspensa. Você pode escolher entre Nenhum, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) ou lz4hadoop.

Formato de parquet como destino

Depois de selecionar Configurações, as seguintes propriedades são mostradas na caixa de diálogo pop-up Configurações de formato de arquivo.

Captura de tela mostrando o destino do formato de arquivo parquet.

  • Tipo de compactação: escolha o codec de compactação usado para gravar arquivos Parquet na lista suspensa. Você pode escolher entre Nenhum, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) ou lz4hadoop.

  • Use V-Order: habilite uma otimização do tempo de gravação para o formato de arquivo parquet. Para obter mais informações, consulte Otimização da tabela Delta Lake e V-Order. Ele é ativado por padrão.

Em Configurações avançadas na guia Destino , as seguintes propriedades relacionadas ao formato Parquet são exibidas.

  • Máximo de linhas por arquivo: Ao gravar dados em uma pasta, você pode optar por gravar em vários arquivos e especificar o máximo de linhas por arquivo. Especifique o máximo de linhas que você deseja escrever por arquivo.
  • Prefixo do nome do arquivo: Aplicável quando o máximo de linhas por arquivo é configurado. Especifique o prefixo do nome do arquivo ao gravar dados em vários arquivos, resultando neste padrão: <fileNamePrefix>_00000.<fileExtension>. Se não for especificado, o prefixo do nome do arquivo será gerado automaticamente. Essa propriedade não se aplica quando a origem é um armazenamento baseado em arquivo ou um armazenamento de dados habilitado para opção de partição.

Resumo da tabela

Parquet como fonte

As propriedades a seguir são suportadas na seção Fonte da atividade de cópia ao usar o formato Parquet.

Nome Descrição valor Necessário Propriedade de script JSON
Formato do ficheiro O formato de ficheiro que pretende utilizar. Parquet Sim tipo (em datasetSettings):
Parquet
Tipo de compressão O codec de compressão usado para ler arquivos Parquet. Escolha entre:
Nenhuma
gzip (.gz)
Ágil
LZO
Brotli (.br)
Zstandard
LZ4
lz4frame
bzip2 (.bz2)
lz4hadoop
Não compressãoCodec:

gzip
snappy
LZO
Brotli
ZSTD
lz4
lz4frame
BZ2
lz4hadoop

Parquet como destino

As propriedades a seguir são suportadas na seção Destino da atividade de cópia ao usar o formato Parquet.

Nome Descrição valor Necessário Propriedade de script JSON
Formato do ficheiro O formato de ficheiro que pretende utilizar. Parquet Sim tipo (em datasetSettings):
Parquet
Usar V-Order Uma otimização do tempo de gravação para o formato de arquivo parquet. selecionado ou não selecionado Não enableVertiParquet
Tipo de compressão O codec de compressão usado para escrever arquivos Parquet. Escolha entre:
Nenhuma
gzip (.gz)
Ágil
LZO
Brotli (.br)
Zstandard
LZ4
lz4frame
bzip2 (.bz2)
lz4hadoop
Não compressãoCodec:

gzip
snappy
LZO
Brotli
ZSTD
lz4
lz4frame
BZ2
lz4hadoop
Máximo de linhas por ficheiro Ao gravar dados em uma pasta, você pode optar por gravar em vários arquivos e especificar o máximo de linhas por arquivo. Especifique o máximo de linhas que você deseja escrever por arquivo. <o máximo de linhas por ficheiro> Não maxRowsPerFile
Prefixo do nome do arquivo Aplicável quando o máximo de linhas por arquivo é configurado. Especifique o prefixo do nome do arquivo ao gravar dados em vários arquivos, resultando neste padrão: <fileNamePrefix>_00000.<fileExtension>. Se não for especificado, o prefixo do nome do arquivo será gerado automaticamente. Essa propriedade não se aplica quando a origem é um armazenamento baseado em arquivo ou um armazenamento de dados habilitado para opção de partição. <seu prefixo de nome de arquivo> Não fileNamePrefix