Formato de texto delimitado no Data Factory no Microsoft Fabric
Este artigo descreve como configurar o formato de texto delimitado no pipeline de dados do Data Factory no Microsoft Fabric.
Capacidades suportadas
O formato de texto delimitado é suportado para as seguintes atividades e conectores como origem e destino.
Categoria | Conector/Atividade |
---|---|
Conector suportado | Amazon S3 |
Compatível com Amazon S3 | |
Armazenamento de Blobs do Azure | |
Armazenamento do Azure Data Lake Ger1 | |
Azure Data Lake Storage Gen2 (Armazenamento do Azure Data Lake Gen2) | |
Ficheiros do Azure | |
Sistema de ficheiros | |
FTP | |
Google Cloud Storage | |
HTTP | |
Arquivos Lakehouse | |
Armazenamento em nuvem Oracle | |
SFTP | |
Atividade apoiada | Atividade de cópia (origem/destino) |
Atividade de Pesquisa | |
Atividade GetMetadata | |
Excluir atividade |
Formato de texto delimitado na atividade de cópia
Para configurar o formato de texto delimitado, escolha sua conexão na origem ou no destino da atividade de cópia do pipeline de dados e selecione DelimitedText na lista suspensa de Formato de arquivo. Selecione Configurações para configuração adicional deste formato.
Formato de texto delimitado como fonte
Depois de selecionar Configurações na seção Formato de arquivo , as seguintes propriedades são mostradas na caixa de diálogo pop-up Configurações de formato de arquivo.
Tipo de compressão: O codec de compressão usado para ler arquivos de texto delimitados. Você pode escolher entre Nenhum, bzip2, gzip, deflate, ZipDeflate, TarGzip ou tipo tar na lista suspensa.
Se você selecionar ZipDeflate como tipo de compactação, Preservar nome de arquivo zip como pasta aparecerá em Configurações avançadas na guia Origem .
- Preservar o nome do arquivo zip como pasta: indica se o nome do arquivo zip de origem deve ser preservado como estrutura de pasta durante a cópia.
- Se essa caixa estiver marcada (padrão), o serviço gravará arquivos descompactados em
<specified file path>/<folder named as source zip file>/
. - Se essa caixa estiver desmarcada, o serviço gravará arquivos descompactados diretamente no
<specified file path>
. Certifique-se de que não tem nomes de ficheiros duplicados em ficheiros zip de origem diferentes para evitar corridas ou comportamentos inesperados.
- Se essa caixa estiver marcada (padrão), o serviço gravará arquivos descompactados em
Se você selecionar TarGzip/tar como tipo de compactação, Preservar nome do arquivo de compactação como pasta aparecerá em Configurações avançadas na guia Origem .
- Preservar o nome do arquivo de compactação como pasta: indica se o nome do arquivo compactado de origem deve ser preservado como estrutura de pasta durante a cópia.
- Se essa caixa estiver marcada (padrão), o serviço gravará arquivos descompactados em
<specified file path>/<folder named as source compressed file>/
. - Se essa caixa estiver desmarcada, o serviço grava arquivos descompactados diretamente no
<specified file path>
. Certifique-se de que não tem nomes de ficheiros duplicados em ficheiros zip de origem diferentes para evitar corridas ou comportamentos inesperados.
- Se essa caixa estiver marcada (padrão), o serviço gravará arquivos descompactados em
- Preservar o nome do arquivo zip como pasta: indica se o nome do arquivo zip de origem deve ser preservado como estrutura de pasta durante a cópia.
Nível de compactação: especifique a taxa de compactação ao selecionar um tipo de compactação. Você pode escolher entre Optimal ou Fastest.
- Mais rápido: A operação de compressão deve ser concluída o mais rápido possível, mesmo que o arquivo resultante não seja compactado de forma ideal.
- Ideal: A operação de compressão deve ser compactada de forma ideal, mesmo que a operação demore mais tempo para ser concluída. Para obter mais informações, consulte o tópico Nível de compactação.
Delimitador de coluna: o(s) caractere(s) usado(s) para separar colunas em um arquivo. O valor padrão é vírgula (
,
).Delimitador de linha: especifique o caractere usado para separar linhas em um arquivo. Só é permitido um caráter. O valor padrão é feed de
\n
linha .Codificação: O tipo de codificação usado para ler/gravar arquivos de teste. O valor padrão é UTF-8.
Caractere de escape: o único caractere para escapar de aspas dentro de um valor cotado. O valor padrão é barra invertida
\
. Quando o caractere de escape é definido como cadeia de caracteres vazia, o caractere Aspas também deve ser definido como cadeia de caracteres vazia, caso em que certifique-se de que todos os valores de coluna não contenham delimitadores.Caractere de aspas: o caractere único para citar valores de coluna se contiver delimitador de coluna. O valor padrão é aspas duplas
"
. Quando o caractere Quote é definido como string vazia, isso significa que não há char de aspas e o valor da coluna não está entre aspas, e o caractere de escape é usado para escapar do delimitador de coluna e de si mesmo.Primeira linha como cabeçalho: especifica se a primeira linha deve ser tratada/feita como uma linha de cabeçalho com nomes de colunas. Os valores permitidos são selecionados e desmarcados (padrão). Quando a primeira linha como cabeçalho estiver desmarcada, observe que a visualização de dados da interface do usuário e a saída da atividade de pesquisa geram automaticamente nomes de colunas como Prop_{n} (a partir de 0), a atividade de cópia requer mapeamento explícito da origem para o destino e localiza colunas por ordinal (a partir de 1).
Valor nulo: Especifica a representação da cadeia de caracteres do valor nulo. O valor padrão é cadeia de caracteres vazia.
Em Configurações avançadas na guia Origem , outras propriedades relacionadas ao formato de texto delimitado são expostas.
Formato de texto delimitado como destino
Depois de selecionar Configurações na seção Formato de arquivo , as seguintes propriedades são mostradas na caixa de diálogo pop-up Configurações de formato de arquivo.
Tipo de compressão: O codec de compressão usado para escrever arquivos de texto delimitados. Você pode escolher entre Nenhum, bzip2, gzip, deflate, ZipDeflate, TarGzip ou tipo tar na lista suspensa.
Nível de compactação: especifique a taxa de compactação ao selecionar um tipo de compactação. Você pode escolher entre Optimal ou Fastest.
- Mais rápido: A operação de compressão deve ser concluída o mais rápido possível, mesmo que o arquivo resultante não seja compactado de forma ideal.
- Ideal: A operação de compressão deve ser compactada de forma ideal, mesmo que a operação demore mais tempo para ser concluída. Para obter mais informações, consulte o tópico Nível de compactação.
Delimitador de coluna: o(s) caractere(s) usado(s) para separar colunas em um arquivo. O valor padrão é vírgula (
,
).Delimitador de linha: o caractere usado para separar linhas em um arquivo. Só é permitido um caráter. O valor padrão é feed de
\n
linha .Codificação: O tipo de codificação usado para gravar arquivos de teste. O valor padrão é UTF-8.
Caractere de escape: o único caractere para escapar de aspas dentro de um valor cotado. O valor padrão é barra invertida
\
. Quando o caractere de escape é definido como cadeia de caracteres vazia, o caractere Aspas também deve ser definido como cadeia de caracteres vazia, caso em que certifique-se de que todos os valores de coluna não contenham delimitadores.Caractere de aspas: o caractere único para citar valores de coluna se contiver delimitador de coluna. O valor padrão é aspas duplas
"
. Quando o caractere Quote é definido como string vazia, isso significa que não há char de aspas e o valor da coluna não está entre aspas, e o caractere de escape é usado para escapar do delimitador de coluna e de si mesmo.Primeira linha como cabeçalho: especifica se a primeira linha deve ser tratada/feita como uma linha de cabeçalho com nomes de colunas. Os valores permitidos são selecionados e desmarcados (padrão). Quando a primeira linha como cabeçalho estiver desmarcada, observe que a visualização de dados da interface do usuário e a saída da atividade de pesquisa geram automaticamente nomes de colunas como Prop_{n} (a partir de 0), a atividade de cópia requer mapeamento explícito da origem para o destino e localiza colunas por ordinal (a partir de 1).
Valor nulo: Especifica a representação da cadeia de caracteres do valor nulo. O valor padrão é cadeia de caracteres vazia.
Em Configurações avançadas na guia Destino , outras propriedades relacionadas ao formato de texto delimitado são exibidas.
Citar todo o texto: Coloque todos os valores entre aspas.
Extensão de arquivo: A extensão de arquivo usada para nomear os arquivos de saída, por exemplo,
.csv
,.txt
.Máximo de linhas por arquivo: Ao gravar dados em uma pasta, você pode optar por gravar em vários arquivos e especificar o máximo de linhas por arquivo.
Prefixo do nome do arquivo: Aplicável quando o máximo de linhas por arquivo é configurado. Especifique o prefixo do nome do arquivo ao gravar dados em vários arquivos, resultando neste padrão:
<fileNamePrefix>_00000.<fileExtension>
. Se não for especificado, o prefixo do nome do arquivo será gerado automaticamente. Essa propriedade não se aplica quando a origem é armazenamento baseado em arquivo ou armazenamento de dados habilitado para opção de partição.
Resumo da tabela
Texto delimitado como fonte
As propriedades a seguir são suportadas na seção Fonte da atividade de cópia ao usar o formato de texto delimitado.
Designação | Descrição | Value | Necessário | Propriedade de script JSON |
---|---|---|---|---|
Formato do ficheiro | O formato de ficheiro que pretende utilizar. | DelimitadoTexto | Sim | tipo (em datasetSettings ):DelimitadoTexto |
Tipo de compressão | O codec de compressão usado para ler arquivos de texto delimitados. | Escolha entre: Nenhuma bzip2 gzip deflacionar ZipDeflate TarGzip alcatrão |
Não | tipo (em compression ): bzip2 gzip deflacionar ZipDeflate TarGzip alcatrão |
Preservar o nome do arquivo zip como pasta | Indica se o nome do arquivo zip de origem deve ser preservado como estrutura de pastas durante a cópia. Aplica-se quando você seleciona a compactação ZipDeflate . | Selecionado ou desmarcado | Não | preserveZipFileNameAsFolder (em compressionProperties ->type como ZipDeflateReadSettings ) |
Preservar o nome do arquivo de compactação como pasta | Indica se o nome do arquivo compactado de origem deve ser preservado como estrutura de pasta durante a cópia. Aplica-se quando seleciona a compressão TarGzip/tar . | Selecionado ou desmarcado | Não | preserveCompressionFileNameAsFolder (em compressionProperties ->type como TarGZipReadSettings ou TarReadSettings ) |
Nível de compressão | A taxa de compressão. Os valores permitidos são Ótimo ou Mais Rápido. | Ótimo ou mais rápido | Não | nível (em compression ): Mais rápido Ótimo |
Delimitador de coluna | O(s) caractere(s) usado(s) para separar colunas em um arquivo. | < O delimitador de coluna selecionado > vírgula , (por padrão) |
Não | columnDelimiter |
Delimitador de linha | O caráter utilizado para separar linhas num ficheiro. | < O delimitador de linha selecionado > \r ,\n (por defeito), ou r\n |
Não | rowDelimiter |
Encoding (Codificação) | O tipo de codificação usado para ler/gravar arquivos de teste. | "UTF-8" (por padrão),"UTF-8 sem BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM77" 37", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Não | encodingName |
Personagem de fuga | O caractere único para escapar de aspas dentro de um valor cotado. Quando o caractere de escape é definido como cadeia de caracteres vazia, o caractere Aspas também deve ser definido como cadeia de caracteres vazia, caso em que certifique-se de que todos os valores de coluna não contenham delimitadores. | < seu personagem de fuga selecionado > barra invertida \ (por padrão) |
Não | escapeChar |
Caractere de citação | O caractere único para citar valores de coluna se contiver delimitador de coluna. Quando o caractere Quote é definido como string vazia, isso significa que não há char de aspas e o valor da coluna não está entre aspas, e o caractere de escape é usado para escapar do delimitador de coluna e de si mesmo. | < seu personagem de cotação selecionado > aspas duplas " (por padrão) |
Não | quoteChar |
Primeira linha como cabeçalho | Especifica se a primeira linha na planilha/intervalo determinado deve ser tratada como uma linha de cabeçalho com nomes de colunas. | Selecionado ou não selecionado | Não | firstRowAsHeader: true ou false (padrão) |
Valor nulo | Especifica a representação da cadeia de caracteres do valor nulo. O valor padrão é cadeia de caracteres vazia. | < a representação de cadeia de caracteres do valor nulo > string vazia (por padrão) |
Não | nullValue |
Texto delimitado como destino
As propriedades a seguir são suportadas na seção Destino da atividade de cópia ao usar o formato de texto delimitado.
Designação | Descrição | Value | Necessário | Propriedade de script JSON |
---|---|---|---|---|
Formato do ficheiro | O formato de ficheiro que pretende utilizar. | DelimitadoTexto | Sim | tipo (em datasetSettings ):DelimitadoTexto |
Tipo de compressão | O codec de compressão usado para escrever arquivos de texto delimitados. | Escolha entre: Nenhuma bzip2 gzip deflacionar ZipDeflate TarGzip alcatrão |
Não | tipo (em compression ): bzip2 gzip deflacionar ZipDeflate TarGzip alcatrão |
Preservar o nome do arquivo zip como pasta | Indica se o nome do arquivo zip de origem deve ser preservado como estrutura de pastas durante a cópia. | Selecionado ou desmarcado | Não | preserveZipFileNameAsFolder (em compressionProperties ->type como ZipDeflateReadSettings ) |
Preservar o nome do arquivo de compactação como pasta | Indica se o nome do arquivo compactado de origem deve ser preservado como estrutura de pasta durante a cópia. | Selecionado ou desmarcado | Não | preserveCompressionFileNameAsFolder (em compressionProperties ->type como TarGZipReadSettings ou TarReadSettings ) |
Nível de compressão | A taxa de compressão. Os valores permitidos são Ótimo ou Mais Rápido. | Ótimo ou mais rápido | Não | nível (em compression ): Mais rápido Ótimo |
Delimitador de coluna | O(s) caractere(s) usado(s) para separar colunas em um arquivo. | < O delimitador de coluna selecionado > vírgula , (por padrão) |
Não | columnDelimiter |
Delimitador de linha | O caráter utilizado para separar linhas num ficheiro. | < O delimitador de linha selecionado > \r ,\n (por defeito), ou r\n |
Não | rowDelimiter |
Encoding (Codificação) | O tipo de codificação usado para ler/gravar arquivos de teste. | "UTF-8" (por padrão),"UTF-8 sem BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM77" 37", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Não | encodingName |
Personagem de fuga | O caractere único para escapar de aspas dentro de um valor cotado. Quando o caractere de escape é definido como cadeia de caracteres vazia, o caractere Aspas também deve ser definido como cadeia de caracteres vazia, caso em que certifique-se de que todos os valores de coluna não contenham delimitadores. | < seu personagem de fuga selecionado > barra invertida \ (por padrão) |
Não | escapeChar |
Caractere de citação | O caractere único para citar valores de coluna se contiver delimitador de coluna. Quando o caractere Quote é definido como string vazia, isso significa que não há char de aspas e o valor da coluna não está entre aspas, e o caractere de escape é usado para escapar do delimitador de coluna e de si mesmo. | < seu personagem de cotação selecionado > aspas duplas " (por padrão) |
Não | quoteChar |
Primeira linha como cabeçalho | Especifica se a primeira linha na planilha/intervalo determinado deve ser tratada como uma linha de cabeçalho com nomes de colunas. | Selecionado ou não selecionado | Não | firstRowAsHeader: true ou false (padrão) |
Citar todo o texto | Coloque todos os valores entre aspas. | Selecionado (padrão) ou não selecionado | Não | citaçãoAllText: true (padrão) ou false |
Extensão do arquivo | A extensão de arquivo usada para nomear os arquivos de saída. | < Sua extensão de arquivo > .txt (por defeito) |
Não | fileExtension |
Máximo de linhas por ficheiro | Ao gravar dados em uma pasta, você pode optar por gravar em vários arquivos e especificar o máximo de linhas por arquivo. | < o máximo de linhas por ficheiro > | Não | maxRowsPerFile |
Prefixo do nome do arquivo | Aplicável quando o máximo de linhas por arquivo é configurado. Especifique o prefixo do nome do arquivo ao gravar dados em vários arquivos, resultando neste padrão: <fileNamePrefix>_00000.<fileExtension> . Se não for especificado, o prefixo do nome do arquivo será gerado automaticamente. Essa propriedade não se aplica quando a origem é armazenamento baseado em arquivo ou armazenamento de dados habilitado para opção de partição. |
< seu prefixo de nome de arquivo > | Não | fileNamePrefix |