Adicionando uma exibição da fonte de dados aos dados de call center (Tutorial de mineração de dados intermediário)
Nesta tarefa, você adiciona uma exibição da fonte de dados que será usada para acessar os dados do call center. Os mesmos dados serão usados para criar o modelo de rede neural inicial para exploração e o modelo de regressão logística que você usará para fazer recomendações.
Você também usará o Designer de Exibição da Fonte de Dados para adicionar uma coluna para o dia da semana. Isso é porque, embora os dados de origem acompanhem os dados do call center por datas, sua experiência diz que há padrões recorrentes em termos de volume de chamadas e qualidade de serviço, dependendo se o dia for um fim de semana ou um dia útil.
Procedimentos
Para adicionar uma exibição da fonte de dados
Em Gerenciador de Soluções, clique com o botão direito do mouse em Exibições da Fonte de Dados e selecione Novo Modo de Exibição de Fonte de Dados.
O Assistente de Exibição da Fonte de Dados é exibido.
Na página Bem-vindo ao Assistente de Exibição da Fonte de Dados , clique em Próximo.
Na página Selecionar uma Fonte de Dados , em Fontes de dados relacionais, selecione a fonte de dados Adventure Works DW Multidimensional 2012. Se você não tiver essa fonte de dados, consulte Tutorial básico de mineração de dados. Clique em Próximo.
Na página Selecionar Tabelas e Exibições , selecione a tabela a seguir e clique na seta para a direita para adicioná-la à exibição da fonte de dados:
FactCallCenter (dbo)
DimDate
Clique em Próximo.
Na página Concluindo o Assistente , por padrão, a exibição da fonte de dados é denominada Adventure Works DW Multidimensional 2012. Altere o nome para CallCenter e clique em Concluir.
O modo de exibição da fonte de dados Designer é aberto para exibir a exibição da fonte de dados do CallCenter.
Clique com o botão direito do mouse no painel Exibição da Fonte de Dados e selecione Adicionar/Remover Tabelas. Selecione a tabela DimDate e clique em OK.
Uma relação deve ser adicionada automaticamente entre as
DateKey
colunas em cada tabela. Você usará essa relação para obter a coluna EnglishDayNameOfWeek da tabela DimDate e usá-la em seu modelo.No Designer de Exibição da Fonte de Dados, clique com o botão direito do mouse na tabela FactCallCenter e selecione Novo Cálculo Nomeado.
Na caixa de diálogo Criar Cálculo Nomeado , digite os seguintes valores:
Nome da coluna DayOfWeek Descrição Obter dia de semana da tabela DimDate Expression (SELECT EnglishDayNameOfWeek AS DayOfWeek FROM DimDate where FactCallCenter.DateKey = DimDate.DateKey)
Para verificar se a expressão cria os dados necessários, clique com o botão direito do mouse na tabela FactCallCenter e selecione Explorar Dados.
Reserve um minuto para revisar os dados disponíveis, para que você possa entender como são usados na mineração de dados:
Nome da coluna | Contém |
---|---|
FactCallCenterID | Uma chave arbitrária criada durante a importação dos dados para o data warehouse. Esta coluna identifica registros exclusivos e deve ser usada como o chave de caso para o modelo de mineração de dados. |
DateKey | A data da operação do call center, expressa como um inteiro. Chaves de datas em valores inteiros são usadas frequentemente em data warehouses, mas você pode obter a data no formato data/hora se agrupar por valores de data. Observe que as datas não são exclusivas porque o fornecedor oferece um relatório separado para cada turno em cada dia de operação. |
WageType | Indica se o dia foi um dia da semana, um fim de semana ou um feriado. É possível que haja uma diferença na qualidade do atendimento ao cliente nos fins de semana versus dias da semana, portanto, você usará essa coluna como entrada. |
Shift | Indica o turno para o qual as chamadas são registradas. Esse call center divide o dia de trabalho em quatro turnos: AM, PM1, PM2 e Meia-noite. É possível que o turno influencie na qualidade de atendimento ao consumidor; então, você usará isso como entrada. |
LevelOneOperators | Indica o número de operadores de Nível 1 em serviço. Os funcionários do call center começam no Nível 1. Então, esses funcionários são menos experientes. |
LevelTwoOperators | Indica o número de operadores de Nível 2 em serviço. Um funcionário deve registrar um certo número de horas de serviço para ser qualificado como operador de Nível 2. |
TotalOperators | O número total de operadores presentes durante o turno. |
Chamadas | O número de chamadas recebidas durante o turno. |
AutomaticResponses | O número de chamadas administradas totalmente pelo processamento de chamada automatizado (Resposta Interativa de Voz ou IVR). |
Pedidos | O número de pedidos resultantes das chamadas. |
IssuesRaised | O número de emissões geradas pelas chamadas que exigem acompanhamento. |
AverageTimePerIssue | O tempo médio necessário para responder a uma chamada de entrada. |
ServiceGrade | Uma métrica que indica a qualidade geral do serviço, medida como a taxa de abandono de toda a mudança. Quanto maior a taxa de abandono, maior a probabilidade de insatisfação dos clientes e de perda dos pedidos em potencial. |
Observe que os dados incluem quatro colunas diferentes baseadas em uma única coluna de data: WageType
, DayOfWeek, Shift
e DateKey
. Normalmente, na mineração de dados não é uma boa ideia usar várias colunas derivadas dos mesmos dados, já que os valores se correlacionam entre si muito fortemente e podem ofuscar outros padrões.
No entanto, não usaremos DateKey
no modelo porque ele contém muitos valores exclusivos. Não há nenhuma relação direta entre Shift
e DayOfWeek, e WageType
DayOfWeek estão apenas parcialmente relacionados. Se você estivesse preocupado com a colinearidade, poderia criar a estrutura usando todas as colunas disponíveis e depois ignorar colunas diferentes em cada modelo e testar o efeito.
Próxima tarefa da lição
Criando uma estrutura e um modelo de rede neural (Tutorial de mineração de dados intermediário)