Partilhar via


Opções da solicitação de perfil Padrão de Coluna (tarefa Criação de Perfil de Dados)

Use o painel Propriedades da Solicitação da página Solicitações de Perfil para definir as opções da Solicitação de Perfil de Padrão de Coluna selecionada no painel de solicitações. Um perfil de Padrão de Coluna informa um conjunto de expressões regulares que cobrem a porcentagem especificada de valores em uma coluna de cadeia de caracteres. Esse perfil pode ajudá-lo a identificar problemas em seus dados, como cadeias de caracteres inválidas, além de sugerir expressões regulares que podem ser usadas posteriormente para validar novos valores. Por exemplo, um perfil de padrão de uma coluna Códigos Postais dos Estados Unidos pode produzir as expressões regulares: \d{5}-\d{4}, \d{5} e \d{9}. Se você vir outras expressões regulares, seus dados provavelmente conterão valores inválidos ou que estão em um formato incorreto.

ObservaçãoObservação

As opções descritas neste tópico são exibidas na página Solicitações de Perfil do Editor da Tarefa Criação de Perfil de Dados. Para obter mais informações sobre essa página do editor, consulte Editor da tarefa Criação de Perfil de Dados (página Solicitações de Perfil).

Para obter mais informações sobre como usar a Tarefa Criação de Perfil de Dados, consulte Configurando a tarefa de criação de perfil de dados. Para obter mais informações sobre como usar o Visualizador de Perfil de Dados para analisar a saída da Tarefa Criação de Perfil de Dados, consulte Exibindo perfil de saída no Visualizador de Perfil de Dados.

Compreendendo o uso de delimitadores e símbolos

Antes de computar os padrões para uma Solicitação de Perfil de Padrão de Coluna, a Tarefa Criação de Perfil de Dados gera tokens a partir dos dados. Ou seja, a tarefa separa os valores da cadeia de caracteres em unidades menores conhecidas como tokens. A tarefa separa cadeias de caracteres em tokens com base nos delimitadores e símbolos especificados para as propriedades de Delimitadores e Símbolos:

  • Delimitadores   Por padrão, a lista de delimitadores contém os seguintes caracteres: espaço, guia horizontal (\t), nova linha (\n) e retorno de carro (\r). É possível especificar delimitadores adicionais, mas não é possível remover os delimitadores padrão.

  • Símbolos   Por padrão, a lista de Símbolos contém os seguintes caracteres: ,.;:-"'`~=&/\@!?()<>[]{}|#*^%. Por exemplo, se os símbolos forem "()-", será gerado o token ["(", "425", ")", "123", "-", "4567", ")"] para o valor "(425) 123-4567".

Um caractere não pode ser um delimitador e um símbolo ao mesmo tempo.

Todos os delimitadores são normalizados em um único espaço como parte do processo de geração de tokens, enquanto os símbolos são retidos.

Compreendendo o uso da tabela de marcas

Como opção, é possível agrupar tokens relacionados com uma única marca armazenando marcas e os seus termos relacionados em uma tabela especial criada em um banco de dados do SQL Server. É necessário que a tabela de marcas tenha duas colunas de cadeias de caracteres: "Marca" e "Termo". Essas colunas podem ser dos tipos char, nchar, varchar ou nvarchar, mas não text ou ntext. É possível combinar várias marcas e os termos correspondentes em uma única tabela. Uma Solicitação de Perfil de Padrão de Coluna pode usar uma só tabela de marcas. É possível usar um gerenciador de conexões ADO.NET separado para se conectar à tabela de marcas. Portanto, a tabela de marcas pode estar localizada em um banco de dados diferente ou em um servidor diferente do banco de dados de origem.

Por exemplo, é possível agrupar os valores "Leste", "Oeste", "Norte" e "Sul" que podem aparecer em endereços usando uma única marca: "Direção". A tabela a seguir é um exemplo de uma tabela de marcas desse tipo.

Marca

Termo

Direção

Leste

Direção

Oeste

Direção

Norte

Direção

Sul

Também seria possível usar outra marca para agrupar as palavras que especificam o logradouro em endereços:

Marca

Termo

Logradouro

Rua

Logradouro

Avenida

Logradouro

Vila

Logradouro

Travessa

Com base nessa combinação de marcas, o padrão resultante para um endereço poderia se assemelhar ao seguinte padrão:

\d+\ LookupTag=Direction \d+\p{L}+\ LookupTag=Street

ObservaçãoObservação

Usar uma tabela de marcas diminui o desempenho da tarefa Criação de Perfil de Dados. Não use mais de 10 marcas nem mais de 100 termos por marca.

O mesmo termo pode pertencer a mais de uma marca.

Opções de Propriedades da Solicitação

Para uma Solicitação de Perfil de Padrão de Coluna, o painel Propriedades da Solicitação exibe os seguintes grupos de opções:

  • Dados que incluem as opções TableOrView e Column

  • Geral

  • Opções

Opções de dados

  • ConnectionManager
    Selecione o gerenciador de conexões do ADO.NET que usa o .NET Data Provider para o SQL Server (SqlClient) para se conectar com o banco de dados do SQL Server que contém a tabela ou a exibição cujo perfil deseja criar.

  • TableOrView
    Selecione a tabela ou exibição existente que contém a coluna para a qual será criado um perfil.

    Para obter mais informações, consulte a seção "Opções TableOrView" neste tópico.

  • Coluna
    Selecione a coluna existente para a qual um perfil será criado. Selecione (*) para criar um perfil para todas as colunas.

    Para obter mais informações, consulte a seção “Opções Column” neste tópico.

Opções de TableOrView

  • Schema
    Especifica o esquema ao qual a tabela selecionada pertence. Esta opção é somente leitura.

  • Table
    Exibe o nome da tabela selecionada. Esta opção é somente leitura.

Opções de Coluna

  • IsWildCard
    Especifica se o curinga (*) foi selecionado. Esta opção será definida como Verdadeiro se você selecionou (*) para criar um perfil para todas as colunas. Será Falso se você selecionou uma coluna individual para a criação de um perfil. Esta opção é somente leitura.

  • ColumnName
    Exibe o nome da coluna selecionada. Esta opção estará em branco se você selecionou (*) para criar um perfil para todas colunas. Esta opção é somente leitura.

  • StringCompareOptions
    Esta opção não é aplicável ao Perfil de Criação de Coluna.

Opções gerais

  • RequestID
    Digite um nome descritivo para identificar esta solicitação de perfil. Normalmente, não é necessário alterar o valor gerado automaticamente.

Opções

  • MaxNumberOfPatterns
    Especifique o número máximo de padrões que deve ser computado pelo perfil. O valor padrão desta opção é 10. O valor máximo é 100.

  • PercentageDataCoverageDesired
    Especifique a porcentagem dos dados a ser coberta pelos padrões computados. O valor padrão desta opção é 95 (por cento).

  • CaseSensitive
    Indique se os padrões deveriam fazer distinção entre letras maiúsculas e minúsculas. O valor padrão desta opção é Falso.

  • Delimitadores
    Liste os caracteres que deveriam ser tratados como equivalentes a espaços entre palavras ao gerar tokens para texto. Por padrão, a lista de Delimitadores contém os seguintes caracteres: espaço, guia horizontal (\t), nova linha (\n) e retorno de carro (\r). É possível especificar delimitadores adicionais, mas não é possível remover os delimitadores padrão.

    Para obter mais informações, consulte "Compreendendo o uso de delimitadores e símbolos" anteriormente neste tópico.

  • Símbolos
    Liste os símbolos que deveriam ser retidos como parte de padrões. Exemplos poderiam incluir "/" para datas, ":" para horários e "@" para endereços de email. Por padrão, a lista de Símbolos contém os seguintes caracteres: ,.;:-"'`~=&/\@!?()<>[]{}|#*^%.

    Para obter mais informações, consulte "Compreendendo o uso de delimitadores e símbolos" anteriormente neste tópico.

  • TagTableConnectionManager
    Selecione o gerenciador de conexões do ADO.NET que usa o .NET Data Provider para o SQL Server (SqlClient) para conexão com o banco de dados do SQL Server que contém a tabela de marcas.

    Para obter mais informações, consulte "Compreendendo o uso da tabela de marcas" anteriormente neste tópico.

  • TagTableName
    Selecione a tabela de marcas existente, a qual deve ter duas colunas de cadeia de caracteres: Marca e Termo.

    Para obter mais informações, consulte "Compreendendo o uso da tabela de marcas" anteriormente neste tópico.