Partilhar via


Formato de texto delimitado no Data Factory no Microsoft Fabric

Este artigo descreve como configurar o formato de texto delimitado no pipeline de dados do Data Factory no Microsoft Fabric.

Capacidades suportadas

O formato de texto delimitado é suportado para as seguintes atividades e conectores como origem e destino.

Categoria Conector/Atividade
Conector suportado Amazon S3
Compatível com Amazon S3
Armazenamento de Blobs do Azure
Armazenamento do Azure Data Lake Ger1
Azure Data Lake Storage Gen2 (Armazenamento do Azure Data Lake Gen2)
Ficheiros do Azure
Sistema de ficheiros
FTP
Google Cloud Storage
HTTP
Arquivos Lakehouse
Armazenamento em nuvem Oracle
SFTP
Atividade apoiada Atividade de cópia (origem/destino)
Atividade de Pesquisa
Atividade GetMetadata
Excluir atividade

Formato de texto delimitado na atividade de cópia

Para configurar o formato de texto delimitado, escolha sua conexão na origem ou no destino da atividade de cópia do pipeline de dados e selecione DelimitedText na lista suspensa de Formato de arquivo. Selecione Configurações para configuração adicional deste formato.

Captura de ecrã a mostrar definições de formato de ficheiro.

Formato de texto delimitado como fonte

Depois de selecionar Configurações na seção Formato de arquivo , as seguintes propriedades são mostradas na caixa de diálogo pop-up Configurações de formato de arquivo.

Captura de tela mostrando as configurações de formato de arquivo de origem.

  • Tipo de compressão: O codec de compressão usado para ler arquivos de texto delimitados. Você pode escolher entre Nenhum, bzip2, gzip, deflate, ZipDeflate, TarGzip ou tipo tar na lista suspensa.

    Se você selecionar ZipDeflate como tipo de compactação, Preservar nome de arquivo zip como pasta aparecerá em Configurações avançadas na guia Origem .

    • Preservar o nome do arquivo zip como pasta: indica se o nome do arquivo zip de origem deve ser preservado como estrutura de pasta durante a cópia.
      • Se essa caixa estiver marcada (padrão), o serviço gravará arquivos descompactados em <specified file path>/<folder named as source zip file>/.
      • Se essa caixa estiver desmarcada, o serviço gravará arquivos descompactados diretamente no <specified file path>. Certifique-se de que não tem nomes de ficheiros duplicados em ficheiros zip de origem diferentes para evitar corridas ou comportamentos inesperados.

    Se você selecionar TarGzip/tar como tipo de compactação, Preservar nome do arquivo de compactação como pasta aparecerá em Configurações avançadas na guia Origem .

    • Preservar o nome do arquivo de compactação como pasta: indica se o nome do arquivo compactado de origem deve ser preservado como estrutura de pasta durante a cópia.
      • Se essa caixa estiver marcada (padrão), o serviço gravará arquivos descompactados em <specified file path>/<folder named as source compressed file>/.
      • Se essa caixa estiver desmarcada, o serviço grava arquivos descompactados diretamente no <specified file path>. Certifique-se de que não tem nomes de ficheiros duplicados em ficheiros zip de origem diferentes para evitar corridas ou comportamentos inesperados.
  • Nível de compactação: especifique a taxa de compactação ao selecionar um tipo de compactação. Você pode escolher entre Optimal ou Fastest.

    • Mais rápido: A operação de compressão deve ser concluída o mais rápido possível, mesmo que o arquivo resultante não seja compactado de forma ideal.
    • Ideal: A operação de compressão deve ser compactada de forma ideal, mesmo que a operação demore mais tempo para ser concluída. Para obter mais informações, consulte o tópico Nível de compactação.
  • Delimitador de coluna: o(s) caractere(s) usado(s) para separar colunas em um arquivo. O valor padrão é vírgula (,).

  • Delimitador de linha: especifique o caractere usado para separar linhas em um arquivo. Só é permitido um caráter. O valor padrão é feed de \nlinha .

  • Codificação: O tipo de codificação usado para ler/gravar arquivos de teste. O valor padrão é UTF-8.

  • Caractere de escape: o único caractere para escapar de aspas dentro de um valor cotado. O valor padrão é barra invertida\. Quando o caractere de escape é definido como cadeia de caracteres vazia, o caractere Aspas também deve ser definido como cadeia de caracteres vazia, caso em que certifique-se de que todos os valores de coluna não contenham delimitadores.

  • Caractere de aspas: o caractere único para citar valores de coluna se contiver delimitador de coluna. O valor padrão é aspas duplas". Quando o caractere Quote é definido como string vazia, isso significa que não há char de aspas e o valor da coluna não está entre aspas, e o caractere de escape é usado para escapar do delimitador de coluna e de si mesmo.

  • Primeira linha como cabeçalho: especifica se a primeira linha deve ser tratada/feita como uma linha de cabeçalho com nomes de colunas. Os valores permitidos são selecionados e desmarcados (padrão). Quando a primeira linha como cabeçalho estiver desmarcada, observe que a visualização de dados da interface do usuário e a saída da atividade de pesquisa geram automaticamente nomes de colunas como Prop_{n} (a partir de 0), a atividade de cópia requer mapeamento explícito da origem para o destino e localiza colunas por ordinal (a partir de 1).

  • Valor nulo: Especifica a representação da cadeia de caracteres do valor nulo. O valor padrão é cadeia de caracteres vazia.

Em Configurações avançadas na guia Origem , outras propriedades relacionadas ao formato de texto delimitado são expostas.

Formato de texto delimitado como destino

Depois de selecionar Configurações na seção Formato de arquivo , as seguintes propriedades são mostradas na caixa de diálogo pop-up Configurações de formato de arquivo.

Captura de tela mostrando as configurações de formato de arquivo de destino.

  • Tipo de compressão: O codec de compressão usado para escrever arquivos de texto delimitados. Você pode escolher entre Nenhum, bzip2, gzip, deflate, ZipDeflate, TarGzip ou tipo tar na lista suspensa.

  • Nível de compactação: especifique a taxa de compactação ao selecionar um tipo de compactação. Você pode escolher entre Optimal ou Fastest.

    • Mais rápido: A operação de compressão deve ser concluída o mais rápido possível, mesmo que o arquivo resultante não seja compactado de forma ideal.
    • Ideal: A operação de compressão deve ser compactada de forma ideal, mesmo que a operação demore mais tempo para ser concluída. Para obter mais informações, consulte o tópico Nível de compactação.
  • Delimitador de coluna: o(s) caractere(s) usado(s) para separar colunas em um arquivo. O valor padrão é vírgula (,).

  • Delimitador de linha: o caractere usado para separar linhas em um arquivo. Só é permitido um caráter. O valor padrão é feed de \nlinha .

  • Codificação: O tipo de codificação usado para gravar arquivos de teste. O valor padrão é UTF-8.

  • Caractere de escape: o único caractere para escapar de aspas dentro de um valor cotado. O valor padrão é barra invertida\. Quando o caractere de escape é definido como cadeia de caracteres vazia, o caractere Aspas também deve ser definido como cadeia de caracteres vazia, caso em que certifique-se de que todos os valores de coluna não contenham delimitadores.

  • Caractere de aspas: o caractere único para citar valores de coluna se contiver delimitador de coluna. O valor padrão é aspas duplas". Quando o caractere Quote é definido como string vazia, isso significa que não há char de aspas e o valor da coluna não está entre aspas, e o caractere de escape é usado para escapar do delimitador de coluna e de si mesmo.

  • Primeira linha como cabeçalho: especifica se a primeira linha deve ser tratada/feita como uma linha de cabeçalho com nomes de colunas. Os valores permitidos são selecionados e desmarcados (padrão). Quando a primeira linha como cabeçalho estiver desmarcada, observe que a visualização de dados da interface do usuário e a saída da atividade de pesquisa geram automaticamente nomes de colunas como Prop_{n} (a partir de 0), a atividade de cópia requer mapeamento explícito da origem para o destino e localiza colunas por ordinal (a partir de 1).

  • Valor nulo: Especifica a representação da cadeia de caracteres do valor nulo. O valor padrão é cadeia de caracteres vazia.

Em Configurações avançadas na guia Destino , outras propriedades relacionadas ao formato de texto delimitado são exibidas.

  • Citar todo o texto: Coloque todos os valores entre aspas.

  • Extensão de arquivo: A extensão de arquivo usada para nomear os arquivos de saída, por exemplo, .csv, .txt.

  • Máximo de linhas por arquivo: Ao gravar dados em uma pasta, você pode optar por gravar em vários arquivos e especificar o máximo de linhas por arquivo.

  • Prefixo do nome do arquivo: Aplicável quando o máximo de linhas por arquivo é configurado. Especifique o prefixo do nome do arquivo ao gravar dados em vários arquivos, resultando neste padrão: <fileNamePrefix>_00000.<fileExtension>. Se não for especificado, o prefixo do nome do arquivo será gerado automaticamente. Essa propriedade não se aplica quando a origem é armazenamento baseado em arquivo ou armazenamento de dados habilitado para opção de partição.

Resumo da tabela

Texto delimitado como fonte

As propriedades a seguir são suportadas na seção Fonte da atividade de cópia ao usar o formato de texto delimitado.

Designação Descrição Value Necessário Propriedade de script JSON
 Formato do ficheiro O formato de ficheiro que pretende utilizar. DelimitadoTexto Sim tipo (em datasetSettings):
DelimitadoTexto
Tipo de compressão O codec de compressão usado para ler arquivos de texto delimitados. Escolha entre:
Nenhuma
bzip2
gzip
deflacionar
ZipDeflate
TarGzip
alcatrão
Não tipo (em compression):

bzip2
gzip
deflacionar
ZipDeflate
TarGzip
alcatrão
Preservar o nome do arquivo zip como pasta Indica se o nome do arquivo zip de origem deve ser preservado como estrutura de pastas durante a cópia. Aplica-se quando você seleciona a compactação ZipDeflate . Selecionado ou desmarcado Não preserveZipFileNameAsFolder
(em compressionProperties->type como ZipDeflateReadSettings)
Preservar o nome do arquivo de compactação como pasta Indica se o nome do arquivo compactado de origem deve ser preservado como estrutura de pasta durante a cópia. Aplica-se quando seleciona a compressão TarGzip/tar . Selecionado ou desmarcado Não preserveCompressionFileNameAsFolder
(em compressionProperties->type como TarGZipReadSettings ou TarReadSettings)
Nível de compressão  A taxa de compressão. Os valores permitidos são Ótimo ou Mais Rápido. Ótimo ou mais rápido Não nível (em compression):
Mais rápido
Ótimo
Delimitador de coluna  O(s) caractere(s) usado(s) para separar colunas em um arquivo.  < O delimitador de coluna selecionado >
vírgula , (por padrão)
Não columnDelimiter
Delimitador de linha O caráter utilizado para separar linhas num ficheiro. < O delimitador de linha selecionado >
\r,\n (por defeito), ou r\n
Não rowDelimiter
Encoding (Codificação) O tipo de codificação usado para ler/gravar arquivos de teste. "UTF-8" (por padrão),"UTF-8 sem BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM77" 37", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Não encodingName
Personagem de fuga O caractere único para escapar de aspas dentro de um valor cotado. Quando o caractere de escape é definido como cadeia de caracteres vazia, o caractere Aspas também deve ser definido como cadeia de caracteres vazia, caso em que certifique-se de que todos os valores de coluna não contenham delimitadores. < seu personagem de fuga selecionado >
barra invertida \ (por padrão)
Não escapeChar
Caractere de citação O caractere único para citar valores de coluna se contiver delimitador de coluna. Quando o caractere Quote é definido como string vazia, isso significa que não há char de aspas e o valor da coluna não está entre aspas, e o caractere de escape é usado para escapar do delimitador de coluna e de si mesmo. < seu personagem de cotação selecionado >
aspas duplas " (por padrão)
Não quoteChar
Primeira linha como cabeçalho Especifica se a primeira linha na planilha/intervalo determinado deve ser tratada como uma linha de cabeçalho com nomes de colunas. Selecionado ou não selecionado Não firstRowAsHeader:
true ou false (padrão)
Valor nulo Especifica a representação da cadeia de caracteres do valor nulo. O valor padrão é cadeia de caracteres vazia. < a representação de cadeia de caracteres do valor nulo >
string vazia (por padrão)
Não nullValue

Texto delimitado como destino

As propriedades a seguir são suportadas na seção Destino da atividade de cópia ao usar o formato de texto delimitado.

Designação Descrição Value Necessário Propriedade de script JSON
 Formato do ficheiro O formato de ficheiro que pretende utilizar. DelimitadoTexto Sim tipo (em datasetSettings):
DelimitadoTexto
Tipo de compressão O codec de compressão usado para escrever arquivos de texto delimitados. Escolha entre:
Nenhuma
bzip2
gzip
deflacionar
ZipDeflate
TarGzip
alcatrão
Não tipo (em compression):

bzip2
gzip
deflacionar
ZipDeflate
TarGzip
alcatrão
Preservar o nome do arquivo zip como pasta Indica se o nome do arquivo zip de origem deve ser preservado como estrutura de pastas durante a cópia. Selecionado ou desmarcado Não preserveZipFileNameAsFolder
(em compressionProperties->type como ZipDeflateReadSettings)
Preservar o nome do arquivo de compactação como pasta Indica se o nome do arquivo compactado de origem deve ser preservado como estrutura de pasta durante a cópia. Selecionado ou desmarcado Não preserveCompressionFileNameAsFolder
(em compressionProperties->type como TarGZipReadSettings ou TarReadSettings)
Nível de compressão  A taxa de compressão. Os valores permitidos são Ótimo ou Mais Rápido. Ótimo ou mais rápido Não nível (em compression):
Mais rápido
Ótimo
Delimitador de coluna  O(s) caractere(s) usado(s) para separar colunas em um arquivo.  < O delimitador de coluna selecionado >
vírgula , (por padrão)
Não columnDelimiter
Delimitador de linha O caráter utilizado para separar linhas num ficheiro. < O delimitador de linha selecionado >
\r,\n (por defeito), ou r\n
Não rowDelimiter
Encoding (Codificação) O tipo de codificação usado para ler/gravar arquivos de teste. "UTF-8" (por padrão),"UTF-8 sem BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM77" 37", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Não encodingName
Personagem de fuga O caractere único para escapar de aspas dentro de um valor cotado. Quando o caractere de escape é definido como cadeia de caracteres vazia, o caractere Aspas também deve ser definido como cadeia de caracteres vazia, caso em que certifique-se de que todos os valores de coluna não contenham delimitadores. < seu personagem de fuga selecionado >
barra invertida \ (por padrão)
Não escapeChar
Caractere de citação O caractere único para citar valores de coluna se contiver delimitador de coluna. Quando o caractere Quote é definido como string vazia, isso significa que não há char de aspas e o valor da coluna não está entre aspas, e o caractere de escape é usado para escapar do delimitador de coluna e de si mesmo. < seu personagem de cotação selecionado >
aspas duplas " (por padrão)
Não quoteChar
Primeira linha como cabeçalho Especifica se a primeira linha na planilha/intervalo determinado deve ser tratada como uma linha de cabeçalho com nomes de colunas. Selecionado ou não selecionado Não firstRowAsHeader:
true ou false (padrão)
Citar todo o texto Coloque todos os valores entre aspas. Selecionado (padrão) ou não selecionado Não citaçãoAllText:
true (padrão) ou false
Extensão do arquivo A extensão de arquivo usada para nomear os arquivos de saída. < Sua extensão de arquivo >
.txt (por defeito)
Não fileExtension
Máximo de linhas por ficheiro Ao gravar dados em uma pasta, você pode optar por gravar em vários arquivos e especificar o máximo de linhas por arquivo. < o máximo de linhas por ficheiro > Não maxRowsPerFile
Prefixo do nome do arquivo Aplicável quando o máximo de linhas por arquivo é configurado. Especifique o prefixo do nome do arquivo ao gravar dados em vários arquivos, resultando neste padrão: <fileNamePrefix>_00000.<fileExtension>. Se não for especificado, o prefixo do nome do arquivo será gerado automaticamente. Essa propriedade não se aplica quando a origem é armazenamento baseado em arquivo ou armazenamento de dados habilitado para opção de partição. < seu prefixo de nome de arquivo > Não fileNamePrefix