Formato de texto delimitado no Data Factory no Microsoft Fabric
Este artigo descreve como configurar o formato de texto delimitado no pipeline de dados do Data Factory no Microsoft Fabric.
Funcionalidades com suporte
Há suporte para o formato de texto delimitado para as seguintes atividades e conectores como origem e destino.
Categoria | Conector/Atividade |
---|---|
Conector compatível | Amazon S3 |
Amazon S3 Compatible | |
Armazenamento de Blobs do Azure | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Arquivos do Azure | |
Sistema de arquivos | |
FTP | |
Google Cloud Storage | |
HTTP | |
Arquivos do Lakehouse | |
Oracle Cloud Storage | |
SFTP | |
Atividade com suporte | atividade Copy (Origem/Destino) |
Atividade de pesquisa | |
Atividade GetMetadata | |
Excluir atividade |
Formato de texto delimitado na atividade de cópia
Para configurar o formato de texto delimitado, escolha sua conexão na origem ou no destino da atividade de cópia do pipeline de dados e selecione DelimitedText na lista suspensa de Formato de arquivo. Selecione Configurações para configuração adicional desse formato.
Formato de texto delimitado como origem
Depois de selecionar Configurações na seção Formato de arquivo, as propriedades a seguir são mostradas na caixa de diálogo pop-up Configurações de formato de arquivo.
Tipo de compactação: o codec de compactação usado para ler arquivos de texto delimitados. Você pode escolher entre Nenhum, bzip2, gzip, deflate, ZipDeflate, TarGzip ou tipo tar na lista suspensa.
Se você selecionar ZipDeflate como tipo de compactação, Preservar o nome do arquivo zip como pasta aparecerá em Configurações avançadas na guia Origem.
- Preserve zip file name as folder: Indica se o nome do arquivo zip de origem deve ser preservado como estrutura de pasta durante a cópia.
- Se essa caixa estiver marcada (padrão), o serviço gravará arquivos descompactados em
<specified file path>/<folder named as source zip file>/
. - Se essa caixa estiver desmarcada, o serviço gravará arquivos descompactados diretamente em
<specified file path>
. Verifique se não há nomes de arquivo duplicados nos arquivos zip de origem diferentes para evitar a corrida ou comportamento inesperado.
- Se essa caixa estiver marcada (padrão), o serviço gravará arquivos descompactados em
Se você selecionar TarGzip/tar como tipo de compactação, Preservar o nome do arquivo de compactação como pasta aparecerá em Configurações avançadas na guia Origem.
- Preserve compression file name as folder: Indica se o nome do arquivo compactado de origem deve ser preservado como estrutura de pasta durante a cópia.
- Se essa caixa estiver marcada (padrão), o serviço gravará arquivos descompactados em
<specified file path>/<folder named as source compressed file>/
. - Se essa caixa estiver desmarcada, o serviço gravará arquivos descompactados diretamente em
<specified file path>
. Verifique se não há nomes de arquivo duplicados nos arquivos zip de origem diferentes para evitar a corrida ou comportamento inesperado.
- Se essa caixa estiver marcada (padrão), o serviço gravará arquivos descompactados em
- Preserve zip file name as folder: Indica se o nome do arquivo zip de origem deve ser preservado como estrutura de pasta durante a cópia.
Nível de compactação: especifique a taxa de compactação ao selecionar um tipo de compactação. Você pode escolher entre Ideal ou Mais Rápido.
- Mais rápida: a operação de compactação deve ser concluída o mais rápido possível, mesmo se o arquivo resultante não for compactado da maneira ideal.
- Ideal: a operação de compactação deve ser concluída da maneira ideal, mesmo se a operação demorar mais tempo para ser concluída. Para saber mais, veja o tópico Nível de compactação .
Delimitador de coluna: O(s) caractere(s) usado(s) para separar colunas em um arquivo. O valor padrão é vírgula (
,
).Delimitador de linha: especifique o caractere usado para separar linhas em um arquivo. É permitido somente um caractere. O valor padrão é o avanço de linha
\n
.Codificação: O tipo de codificação usado para ler/gravar arquivos de teste. O valor padrão é UTF-8.
Caractere de escape: O caractere único para escapar das aspas dentro de um valor entre aspas. O valor padrão é barra invertida
\
. Quando o caractere de escape é definido como cadeia vazia, o Caractere de aspas também deve ser definido como cadeia vazia; nesse caso, certifique-se de que todos os valores da coluna não contenham delimitadores.Caractere de aspas: O caractere único para citar os valores da coluna se ela contiver um delimitador de coluna. O valor padrão é aspas duplas
"
. Quando o Caractere de aspas é definido como string vazia, significa que não há caractere de citação e que o valor da coluna não está entre aspas, e o caractere de escape é usado para escapar do delimitador de coluna e de si mesmo.Primeira linha como cabeçalho: Especifica se a primeira linha deve ser tratada/feita como uma linha de cabeçalho com nomes de colunas. Os valores permitidos são selecionados e não selecionados (padrão). Quando a primeira linha como cabeçalho não está selecionada, observe que a visualização de dados da interface do usuário e a saída da atividade de pesquisa geram automaticamente os nomes das colunas como Prop_{n} (a partir de 0), a atividade de cópia requer um mapeamento explícito da origem para o destino e localiza as colunas por ordinal (a partir de 1).
Valor nulo: Especifica a representação em cadeia do valor nulo. O valor padrão pode ser uma cadeia de caracteres vazia.
Em Configurações avançadas na guia Origem, outras propriedades relacionadas ao formato de texto delimitado são expostas.
Formato de texto delimitado como destino
Depois de selecionar Configurações na seção Formato de arquivo, as propriedades a seguir são mostradas na caixa de diálogo pop-up Configurações de formato de arquivo.
Tipo de compactação: o codec de compactação usado para gravar arquivos de texto delimitados. Você pode escolher entre Nenhum, bzip2, gzip, deflate, ZipDeflate, TarGzip ou tipo tar na lista suspensa.
Nível de compactação: especifique a taxa de compactação ao selecionar um tipo de compactação. Você pode escolher entre Ideal ou Mais Rápido.
- Mais rápida: a operação de compactação deve ser concluída o mais rápido possível, mesmo se o arquivo resultante não for compactado da maneira ideal.
- Ideal: a operação de compactação deve ser concluída da maneira ideal, mesmo se a operação demorar mais tempo para ser concluída. Para saber mais, veja o tópico Nível de compactação .
Delimitador de coluna: O(s) caractere(s) usado(s) para separar colunas em um arquivo. O valor padrão é vírgula (
,
).Delimitador de linha: O caractere usado para separar as linhas em um arquivo. É permitido somente um caractere. O valor padrão é o avanço de linha
\n
.Codificação: O tipo de codificação usado para gravar arquivos de teste. O valor padrão é UTF-8.
Caractere de escape: O caractere único para escapar das aspas dentro de um valor entre aspas. O valor padrão é barra invertida
\
. Quando o caractere de escape é definido como cadeia vazia, o Caractere de aspas também deve ser definido como cadeia vazia; nesse caso, certifique-se de que todos os valores da coluna não contenham delimitadores.Caractere de aspas: O caractere único para citar os valores da coluna se ela contiver um delimitador de coluna. O valor padrão é aspas duplas
"
. Quando o Caractere de aspas é definido como string vazia, significa que não há caractere de citação e que o valor da coluna não está entre aspas, e o caractere de escape é usado para escapar do delimitador de coluna e de si mesmo.Primeira linha como cabeçalho: Especifica se a primeira linha deve ser tratada/feita como uma linha de cabeçalho com nomes de colunas. Os valores permitidos são selecionados e não selecionados (padrão). Quando a primeira linha como cabeçalho não está selecionada, observe que a visualização de dados da interface do usuário e a saída da atividade de pesquisa geram automaticamente os nomes das colunas como Prop_{n} (a partir de 0), a atividade de cópia requer um mapeamento explícito da origem para o destino e localiza as colunas por ordinal (a partir de 1).
Valor nulo: Especifica a representação em cadeia do valor nulo. O valor padrão pode ser uma cadeia de caracteres vazia.
Em Configurações avançadas na guia Destino, são exibidas outras propriedades relacionadas ao formato de texto delimitado.
Citar todo o texto: coloque todos os valores entre aspas.
Extensão do arquivo: A extensão do arquivo usada para nomear os arquivos de saída, por exemplo,
.csv
,.txt
.Máximo de linhas por arquivo: Ao gravar dados em uma pasta, você pode optar por gravar em vários arquivos e especificar o máximo de linhas por arquivo.
Prefixo de nome de arquivo: aplicável quando o máximo de linhas por arquivo é configurado. Especifique o prefixo do nome do arquivo ao gravar dados em vários arquivos, resultando neste padrão:
<fileNamePrefix>_00000.<fileExtension>
. Se não for especificado, o prefixo de nome de arquivo será gerado automaticamente. Essa propriedade não se aplica quando a origem é o repositório baseado em arquivo ou o armazenamento de dados habilitado para partição.
Resumo da tabela
Texto delimitado como fonte
As propriedades a seguir têm suporte na seção Origem da atividade de cópia ao usar o formato de texto delimitado.
Nome | Descrição | Valor | Obrigatório | Propriedade de script JSON |
---|---|---|---|---|
Formato de arquivo | O formato de arquivo que você deseja usar. | DelimitedText | Sim | tipo (em datasetSettings ):DelimitedText |
Tipo de compactação | O codec de compactação usado para ler arquivos de texto delimitados. | Escolha uma destas opções: Nenhuma bzip2 gzip deflate ZipDeflate TarGzip tar |
Não | tipo (em compression ):bzip2 gzip deflate ZipDeflate TarGzip tar |
Preservar o nome do arquivo zip como pasta | Indica se o nome do arquivo zip de origem deve ser preservado como estrutura de pastas durante a cópia. Aplica-se quando você seleciona Compactação ZipDeflate. | Selecionado ou desmarcado | Nenhum | preserveZipFileNameAsFolder (em compressionProperties ->type como ZipDeflateReadSettings ) |
Preservar o nome do arquivo de compactação como pasta | Indica se o nome do arquivo zip de origem deve ser preservado como estrutura de pastas durante a cópia. Aplica-se quando você seleciona a compactação TarGzip/tar. | Selecionado ou desmarcado | Não | preserveCompressionFileNameAsFolder (em compressionProperties ->type como TarGZipReadSettings ou TarReadSettings ) |
Nível de compactação | A taxa de compactação. Os valores permitidos são Ideal ou Mais rápida. | Ideal ou mais rápido | Nenhum | nível (em compression ):Fastest Ideal |
Delimitador de coluna | O(s) caractere(s) usado(s) para separar as colunas em um arquivo. | < o delimitador de coluna selecionado > vírgula , (por padrão) |
Não | columnDelimiter |
Delimitador de linha | o caractere usado para separar linhas em um arquivo. | < o delimitador de linha selecionado > \r , \n (por padrão), o r\n |
Nenhum | rowDelimiter |
Codificação | O tipo de codificação usado para ler/gravar arquivos de teste. | "UTF-8" (por padrão),"UTF-8 sem BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Nenhum | encodingName |
Caractere de escape | O caractere individual para o escape das aspas dentro de um valor entre aspas. Quando o caractere de escape é definido como cadeia vazia, o Caractere de aspas também deve ser definido como cadeia vazia; nesse caso, certifique-se de que todos os valores da coluna não contenham delimitadores. | < seu caractere de escape selecionado > barra invertida \ (por padrão) |
Não | escapeChar |
Caractere de aspas | O caractere individual para citar valores de coluna se ele contiver delimitador de coluna. Quando o Caractere de aspas é definido como string vazia, significa que não há caractere de citação e que o valor da coluna não está entre aspas, e o caractere de escape é usado para escapar do delimitador de coluna e de si mesmo. | < o caractere de aspas selecionado > aspas duplas " (por padrão) |
Não | quoteChar |
Primeira linha como cabeçalho | Especifica se deve tratar a primeira linha na planilha/intervalo fornecido como uma linha de cabeçalho com nomes de colunas. | Selecionado ou desmarcado | Não | firstRowAsHeader: true ou false (padrão) |
Valor nulo | Especifica a representação de cadeia de caracteres do valor nulo. O valor padrão pode ser uma cadeia de caracteres vazia. | < a representação em string do valor nulo > cadeia de caracteres vazia (por padrão) |
Não | nullValue |
Texto delimitado como destino
As propriedades a seguir têm suporte na seção Destino da atividade de cópia ao usar o formato de texto delimitado.
Nome | Descrição | Valor | Obrigatório | Propriedade de script JSON |
---|---|---|---|---|
Formato de arquivo | O formato de arquivo que você deseja usar. | DelimitedText | Sim | tipo (em datasetSettings ):DelimitedText |
Tipo de compactação | O codec de compactação usado para gravar arquivos de texto delimitados. | Escolha uma destas opções: Nenhuma bzip2 gzip deflate ZipDeflate TarGzip tar |
Não | tipo (em compression ):bzip2 gzip deflate ZipDeflate TarGzip tar |
Preservar o nome do arquivo zip como pasta | Indica se o nome do arquivo zip de origem deve ser preservado como estrutura de pastas durante a cópia. | Selecionado ou desmarcado | Nenhum | preserveZipFileNameAsFolder (em compressionProperties ->type como ZipDeflateReadSettings ) |
Preservar o nome do arquivo de compactação como pasta | Indica se o nome do arquivo zip de origem deve ser preservado como estrutura de pastas durante a cópia. | Selecionado ou desmarcado | Não | preserveCompressionFileNameAsFolder (em compressionProperties ->type como TarGZipReadSettings ou TarReadSettings ) |
Nível de compactação | A taxa de compactação. Os valores permitidos são Ideal ou Mais rápida. | Ideal ou mais rápido | Nenhum | nível (em compression ):Fastest Ideal |
Delimitador de coluna | O(s) caractere(s) usado(s) para separar as colunas em um arquivo. | < o delimitador de coluna selecionado > vírgula , (por padrão) |
Não | columnDelimiter |
Delimitador de linha | o caractere usado para separar linhas em um arquivo. | < o delimitador de linha selecionado > \r , \n (por padrão), o r\n |
Nenhum | rowDelimiter |
Codificação | O tipo de codificação usado para ler/gravar arquivos de teste. | "UTF-8" (por padrão),"UTF-8 sem BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Nenhum | encodingName |
Caractere de escape | O caractere individual para o escape das aspas dentro de um valor entre aspas. Quando o caractere de escape é definido como cadeia vazia, o Caractere de aspas também deve ser definido como cadeia vazia; nesse caso, certifique-se de que todos os valores da coluna não contenham delimitadores. | < seu caractere de escape selecionado > barra invertida \ (por padrão) |
Não | escapeChar |
Caractere de aspas | O caractere individual para citar valores de coluna se ele contiver delimitador de coluna. Quando o Caractere de aspas é definido como string vazia, significa que não há caractere de citação e que o valor da coluna não está entre aspas, e o caractere de escape é usado para escapar do delimitador de coluna e de si mesmo. | < o caractere de aspas selecionado > aspas duplas " (por padrão) |
Não | quoteChar |
Primeira linha como cabeçalho | Especifica se deve tratar a primeira linha na planilha/intervalo fornecido como uma linha de cabeçalho com nomes de colunas. | Selecionado ou desmarcado | Não | firstRowAsHeader: true ou false (padrão) |
Citar todo o texto | Colocar todos os valores entre aspas. | Selecionado (padrão) ou não selecionado | Não | quoteAllText: true (padrão) ou false |
Extensão de arquivo | A extensão de arquivo usada para nomear os arquivos de saída. | < sua extensão de arquivo > .txt (por padrão) |
Não | fileExtension |
Máximo de linhas por arquivo | Ao gravar dados em uma pasta, você pode optar por gravar em vários arquivos e especificar o máximo de linhas por arquivo. | < suas linhas máximas por arquivo > | Não | maxRowsPerFile |
Prefixo de nome de arquivo | Aplicável quando o Máximo de linhas por arquivo é configurado. Especifique o prefixo do nome do arquivo ao gravar dados em vários arquivos, resultando neste padrão: <fileNamePrefix>_00000.<fileExtension> . Se não for especificado, o prefixo de nome de arquivo será gerado automaticamente. Essa propriedade não se aplica quando a origem é o repositório baseado em arquivo ou o armazenamento de dados habilitado para partição. |
< seu prefixo de nome de arquivo > | Não | fileNamePrefix |