Crie visualizações de influenciadores chave
APLICA-SE A: Serviço Power BI do Power BI Desktop
O visual dos principais influenciadores ajuda você a entender os fatores que impulsionam uma métrica que lhe interessa. Ele analisa seus dados, classifica os fatores que importam e os exibe como influenciadores-chave. Por exemplo, suponha que você queira descobrir o que influencia a rotatividade de funcionários, que também é conhecida como churn. Um fator pode ser a duração do contrato de trabalho, e outro fator pode ser o tempo de deslocamento.
Quando usar os principais influenciadores
O visual dos principais influenciadores é uma ótima opção se você quiser:
- Veja quais fatores afetam a métrica que está sendo analisada.
- Compare a importância relativa desses fatores. Por exemplo, os contratos de curto prazo afetam mais o churn do que os contratos de longo prazo?
Características do visual dos principais influenciadores
Separadores: selecione um separador e alterne entre vistas. Os principais influenciadores mostram os principais contribuintes para o valor da métrica selecionada. Segmentos superiores mostra os segmentos superiores que contribuem para o valor da métrica selecionada. Um segmento é constituído por uma combinação de valores. Por exemplo, um segmento pode ser o de consumidores que são clientes de longo prazo e vivem na região oeste.
Caixa suspensa: O valor da métrica sob investigação. Neste exemplo, observe a métrica Rating. O valor selecionado é Baixo.
Restatement: Ajuda a interpretar o visual no painel esquerdo.
Painel esquerdo: O painel esquerdo contém um visual. Nesse caso, o painel esquerdo mostra uma lista dos principais influenciadores.
Restatement: Ajuda a interpretar o visual no painel direito.
Painel direito: o painel direito contém um visual. Nesse caso, o gráfico de colunas exibe todos os valores para o Tema do influenciador principal que foi selecionado no painel esquerdo. O valor específico de usabilidade do painel esquerdo é mostrado em verde. Todos os outros valores para Tema são mostrados em preto.
Linha média: A média é calculada para todos os valores possíveis para Tema , exceto usabilidade (que é o influenciador selecionado). Assim, o cálculo aplica-se a todos os valores em preto. Diz-lhe qual a percentagem dos outros Temas que tiveram uma classificação baixa. Neste caso, 11,35% tiveram uma classificação baixa (mostrada pela linha pontilhada).
Caixa de seleção: filtra o visual no painel direito para mostrar apenas valores que são influenciadores para esse campo. Neste exemplo, o visual é filtrado para exibir usabilidade, segurança e navegação.
Analise uma métrica que seja categórica
- Seu gerente de produto quer que você descubra quais fatores levam os clientes a deixar avaliações negativas sobre seu serviço de nuvem. Para acompanhar no Power BI Desktop, abra o arquivo PBIX de Comentários do Cliente.
Nota
O conjunto de dados de Customer Feedback baseia-se em [Moro et al., 2014] S. Moro, P. Cortez e P. Rita. "Uma abordagem orientada por dados para prever o sucesso do telemarketing bancário." Decision Support Systems, Elsevier, 62:22-31, junho de 2014.
Em Criar visual no painel Visualizações , selecione o ícone Principais influenciadores .
Mova a métrica que deseja investigar para o campo Analisar . Para ver o que leva uma classificação do cliente do serviço a ser baixa, selecione Classificação da tabela>do cliente.
Mova os campos que você acha que podem influenciar a Classificação para o campo Explicar por . Você pode mover quantos campos quiser. Neste caso, comece com:
- Country-Region
- Papel na Organização
- Tipo de subscrição
- Dimensão da Empresa
- Tema
Deixe o campo Expandir por vazio. Este campo só é usado ao analisar uma medida ou campo resumido.
Para se concentrar nas classificações negativas, selecione Baixo na caixa suspensa O que influencia a classificação a ser .
A análise é executada no nível da tabela do campo que está sendo analisado. Neste caso, é a métrica Rating . Essa métrica é definida no nível do cliente. Cada cliente dá uma pontuação alta ou uma pontuação baixa. Todos os fatores explicativos devem ser definidos ao nível do cliente para que o visual os utilize.
No exemplo anterior, todos os fatores explicativos têm uma relação um-para-um ou muitos-para-um com a métrica. Neste caso, cada cliente atribuiu um único tema à sua classificação. Da mesma forma, os clientes vêm de um país ou região, têm um tipo de associação e desempenham uma função em sua organização. Os fatores explicativos já são atributos de um cliente, e não são necessárias transformações. O visual pode fazer uso imediato deles.
Mais adiante no tutorial, você verá exemplos mais complexos que têm relações um-para-muitos. Nesses casos, as colunas devem primeiro ser agregadas até o nível do cliente antes que você possa executar a análise.
Medidas e agregados usados como fatores explicativos também são avaliados no nível da tabela da métrica Analyze . Alguns exemplos são mostrados mais adiante neste artigo.
Interpretar influenciadores-chave categóricos
Vamos dar uma olhada nos principais influenciadores para classificações baixas.
Principal fator individual que influencia a probabilidade de uma classificação baixa
O cliente neste exemplo pode ter três funções: consumidor, administrador e editor. Ser consumidor é o principal fator que contribui para uma classificação baixa.
Mais precisamente, seus consumidores têm 2,57 vezes mais probabilidade de dar ao seu serviço uma pontuação negativa. O gráfico dos principais influenciadores lista Papel na organização é o consumidor em primeiro lugar na lista à esquerda. Ao selecionar Função na organização é consumidor, o Power BI mostra mais detalhes no painel direito. O efeito comparativo de cada papel sobre a probabilidade de uma classificação baixa é mostrado.
- 14,93% dos consumidores dão uma pontuação baixa.
- Em média, todas as outras funções dão uma pontuação baixa 5,78% do tempo.
- Os consumidores são 2,57 vezes mais propensos a dar uma pontuação baixa em comparação com todos os outros papéis. Você pode determinar essa pontuação dividindo a barra verde pela linha pontilhada vermelha.
Segundo fator único que influencia a probabilidade de uma classificação baixa
O visual dos principais influenciadores compara e classifica fatores de muitas variáveis diferentes. O segundo influenciador não tem nada a ver com Role in Org. Selecione o segundo influenciador na lista, que é Tema é usabilidade.
O segundo fator mais importante está relacionado ao tema da avaliação do cliente. Os clientes que comentaram sobre a usabilidade do produto tiveram 2,55 vezes mais probabilidade de dar uma pontuação baixa em comparação com os clientes que comentaram sobre outros temas, como confiabilidade, design ou velocidade.
Entre os visuais, a média, que é mostrada pela linha pontilhada vermelha, passou de 5,78% para 11,35%. A média é dinâmica porque se baseia na média de todos os outros valores. Para o primeiro influenciador, a média excluiu o papel do cliente. Para o segundo influenciador, excluiu o tema usabilidade.
Marque a caixa de seleção Mostrar apenas valores que são influenciadores para filtrar usando apenas os valores influentes. Neste caso, são as funções que geram uma pontuação baixa. Doze temas são reduzidos aos quatro que o Power BI identificou como os temas que geram classificações baixas.
Interaja com outros elementos visuais
Sempre que você seleciona uma segmentação de dados, filtro ou outro visual na tela, o visual dos principais influenciadores reexecuta sua análise na nova parte dos dados. Por exemplo, você pode mover o Tamanho da Empresa para o relatório e usá-lo como uma segmentação de dados. Use-o para ver se os principais influenciadores para seus clientes corporativos são diferentes da população em geral. A dimensão de uma empresa é superior a 50 000 trabalhadores.
Selecione >50.000 para executar novamente a análise e você pode ver que os influenciadores mudaram. Para clientes de grandes empresas, o principal influenciador para classificações baixas tem um tema relacionado à segurança. Você pode querer investigar mais para ver se há recursos de segurança específicos com os quais seus grandes clientes estão insatisfeitos.
Interprete influenciadores chave contínuos
Até agora, você aprendeu como usar o visual para explorar como diferentes campos categóricos influenciam classificações baixas. Também é possível ter fatores contínuos como idade, altura e preço no campo Explicar por . Vejamos o que acontece quando o Tenure é movido da tabela do cliente para o Explain by. A posse representa por quanto tempo um cliente usa o serviço.
À medida que a posse aumenta, a probabilidade de receber uma classificação mais baixa também aumenta. Esta tendência sugere que os clientes a mais longo prazo são mais propensos a dar uma pontuação negativa. Essa perceção é interessante e que você pode querer acompanhar mais tarde.
A visualização mostra que cada vez que a posse sobe 13,44 meses, em média, a probabilidade de uma classificação baixa aumenta em 1,23 vezes. Neste caso, 13,44 meses representam o desvio padrão da posse. Assim, a perceção que você recebe analisa como aumentar a posse em um valor padrão, que é o desvio padrão da posse, afeta a probabilidade de receber uma classificação baixa.
O gráfico de dispersão no painel direito plota a porcentagem média de classificações baixas para cada valor de posse. Destaca a inclinação com uma linha de tendência.
Principais influenciadores contínuos vinculados
Em alguns casos, você pode achar que seus fatores contínuos foram automaticamente transformados em categóricos. Se a relação entre as variáveis não é linear, não podemos descrever a relação como simplesmente aumentando ou diminuindo (como fazemos no exemplo anterior).
Executamos testes de correlação para determinar o quão linear o influenciador é comparado ao alvo. Se o destino for contínuo, executaremos a correlação de Pearson e, se o alvo for categórico, executaremos testes de correlação Point Biseria. Se detetarmos que a relação não é suficientemente linear, realizamos encadernação supervisionada e geramos um máximo de cinco compartimentos. Para descobrir quais lixeiras fazem mais sentido, usamos um método de encadernação supervisionada. O método de encadernação supervisionada analisa a relação entre o fator explicativo e o alvo a ser analisado.
Interpretar medidas e agregados como influenciadores-chave
Você pode usar medidas e agregados como fatores explicativos dentro de sua análise. Por exemplo, que efeito tem a contagem de tíquetes de suporte ao cliente na pontuação que você recebe. Ou, que efeito tem a duração média de um bilhete aberto na pontuação que você recebe.
Nesse caso, você quer ver se o número de tíquetes de suporte que um cliente tem influencia a pontuação que ele dá. Agora você traz o ID do tíquete de suporte da tabela de tíquetes de suporte. Como um cliente pode ter vários tíquetes de suporte, você agrega o ID ao nível do cliente. A agregação é importante porque a análise é executada no nível do cliente, portanto, todos os drivers devem ser definidos nesse nível de granularidade.
Vejamos a contagem de IDs. Cada linha de cliente tem uma contagem de tíquetes de suporte associados a ela. Neste caso, à medida que a contagem de tickets de suporte aumenta, a probabilidade de a classificação ser baixa sobe 4,08 vezes. A captura de tela mostra o número médio de tíquetes de suporte por diferentes valores de classificação avaliados no nível do cliente.
Interpretar os resultados: Principais segmentos
Você pode usar a guia Principais influenciadores para avaliar cada fator individualmente. Você também pode usar a guia Segmentos superiores para ver como uma combinação de fatores afeta a métrica que você está analisando.
Os segmentos principais mostram inicialmente uma visão geral de todos os segmentos descobertos pelo Power BI. O exemplo a seguir mostra que seis segmentos foram encontrados. A percentagem de classificações baixas dentro do segmento determina a classificação. O segmento 1, por exemplo, tem 74,3% de avaliações de clientes baixas. Quanto maior a bolha, maior a proporção de classificações baixas. O tamanho da bolha representa quantos clientes estão dentro do segmento.
A seleção de uma bolha exibe os detalhes desse segmento. Se você selecionar o Segmento 1, por exemplo, verá que ele representa clientes estabelecidos. Eles são clientes há mais de 29 meses e têm mais de quatro tíquetes de suporte. Finalmente, eles não são editores, portanto, são consumidores ou administradores.
Neste grupo, 74,3% dos clientes deram uma classificação baixa. O cliente médio deu uma classificação baixa 11,7% das vezes, de modo que este segmento tem uma proporção maior de classificações baixas. É 63 pontos percentuais a mais. O segmento 1 também contém aproximadamente 2,2% dos dados, portanto, representa uma parcela endereçável da população.
Adicionar contagens
Às vezes, um influenciador pode ter um efeito significativo, mas representa pouco dos dados. Por exemplo, Tema é usabilidade é o terceiro maior influenciador para baixas classificações. No entanto, pode ter havido apenas um punhado de clientes que reclamaram da usabilidade. As contagens podem ajudá-lo a priorizar em quais influenciadores você deseja se concentrar.
Você pode ativar as contagens por meio do cartão Análise do painel de formatação.
Depois que as contagens forem ativadas, você verá um anel ao redor da bolha de cada influenciador, que representa a porcentagem aproximada de dados que o influenciador contém. Quanto mais bolha o anel circular, mais dados ele contém. Podemos ver que Tema é usabilidade contém uma pequena proporção de dados.
Você também pode usar a alternância Classificar por no canto inferior esquerdo do visual para classificar as bolhas por contagem primeiro em vez de impacto. Tipo de assinatura é Premier é o principal influenciador com base na contagem.
Ter um anel completo ao redor do círculo significa que o influenciador contém 100% dos dados. Você pode alterar o tipo de contagem para ser relativo ao influenciador máximo usando a lista suspensa Tipo de contagem no cartão Análise do painel de formatação. Agora, o influenciador com a maior quantidade de dados é representado por um anel completo e todas as outras contagens são relativas a ele.
Analisar uma métrica numérica
Se você mover um campo numérico não resumido para o campo Analisar , poderá escolher como lidar com esse cenário. Você pode alterar o comportamento do visual entrando no Painel de Formatação e alternando entre Tipo de Análise Categórica e Tipo de Análise Contínua.
Um tipo de análise categórica é descrito anteriormente neste artigo. Por exemplo, se você olhar para as pontuações da pesquisa que variam de 1 a 10, você pode perguntar "O que influencia as pontuações da pesquisa a serem 1?"
Um tipo de análise contínua muda a pergunta para uma pergunta contínua. Usando o exemplo anterior, nossa nova pergunta é "O que influencia as pontuações da pesquisa a aumentar/diminuir?"
Essa distinção é útil quando você tem muitos valores exclusivos no campo que está analisando. No exemplo seguinte, analisamos os preços das casas. Não faz sentido perguntar "O que influencia o preço da casa a ser 156.214?", pois isso é específico e provavelmente não teremos dados suficientes para inferir um padrão.
Em vez disso, podemos perguntar "O que influencia o aumento do preço da casa", o que nos permite tratar os preços das casas como uma gama e não como valores distintos.
Interpretar os resultados: Principais influenciadores
Nota
Os exemplos nesta seção usam dados de Preços de Casas de domínio público. Você pode baixar o conjunto de dados de exemplo se quiser acompanhar.
Neste cenário, analisamos "O que influencia o aumento do preço da casa". Uma série de fatores explicativos podem afetar o preço de uma casa como Year Built (ano em que a casa foi construída), KitchenQual (qualidade da cozinha) e YearRemodAdd (ano em que a casa foi remodelada).
No exemplo abaixo, olhamos para o nosso principal influenciador, que é a qualidade da cozinha ser excelente. Os resultados são semelhantes aos que vimos quando analisamos métricas categóricas com algumas diferenças importantes:
- O gráfico de colunas à direita está olhando para as médias em vez de porcentagens. Portanto, mostra-nos qual é o preço médio de uma casa com uma excelente cozinha (bar verde) em comparação com o preço médio de uma casa sem uma excelente cozinha (linha pontilhada)
- O número na bolha ainda é a diferença entre a linha pontilhada vermelha e a barra verde, mas é expresso como um número (US$ 158,49 mil) em vez de uma probabilidade (1,93 vezes). Assim, em média, casas com excelentes cozinhas são quase US $ 160 K mais caras do que casas sem cozinhas excelentes.
No exemplo abaixo, analisamos o impacto que um fator contínuo (ano em que a casa foi remodelada) tem no preço da casa. As diferenças em comparação com a forma como analisamos influenciadores contínuos para métricas categóricas são as seguintes:
- O gráfico de dispersão no painel direito traça o preço médio da casa para cada valor distinto do ano remodelado.
- O valor na bolha mostra o quanto o preço médio da casa aumenta (neste caso, US $ 2,87 mil) quando o ano em que a casa foi remodelada aumenta pelo seu desvio padrão (neste caso, 20 anos)
Finalmente, no caso das medidas, estamos a olhar para o ano médio em que uma casa foi construída. A análise é a seguinte:
- O gráfico de dispersão no painel direito plota o preço médio da casa para cada valor distinto na tabela
- O valor na bolha mostra o quanto o preço médio da casa aumenta (neste caso, US $ 1,35 K) quando o ano médio aumenta pelo seu desvio padrão (neste caso, 30 anos)
Interpretar os resultados: Top Segments
Os segmentos superiores para metas numéricas mostram grupos em que os preços das casas são, em média, mais elevados do que no conjunto de dados global. Por exemplo, abaixo podemos ver que o Segmento 1 é composto por casas onde o GarageCars (número de carros que a garagem pode encaixar) é maior que 2 e o RoofStyle é Hip. Casas com essas características têm um preço médio de US $ 355 K em comparação com a média geral nos dados, que é de US $ 180 K.
Analisar uma métrica que é uma medida ou uma coluna resumida
Para uma medida ou coluna resumida, o padrão da análise é o Tipo de Análise Contínua descrito anteriormente neste artigo. Não pode ser alterado. A maior diferença entre analisar uma coluna de medida/resumida e uma coluna numérica não resumida é o nível em que a análise é executada.
Para colunas não resumidas, a análise sempre é executada no nível da tabela. No exemplo do preço da casa, analisámos a métrica do preço da casa para ver o que influencia o aumento / diminuição do preço da casa. A análise é executada automaticamente no nível da tabela. A nossa tabela tem um ID único para cada casa, pelo que a análise corre ao nível da casa.
Para medidas e colunas resumidas, não sabemos imediatamente em que nível analisá-las. Se o Preço da Casa fosse resumido como uma Média, teríamos de considerar o nível que gostaríamos que esse preço médio da casa fosse calculado. É o preço médio da casa a nível de bairro? Ou talvez a nível regional?
Medidas e colunas resumidas são analisadas automaticamente no nível dos campos Explicar por usados. Imagine que queremos examinar três campos em Explicar por: Qualidade da cozinha, Tipo de construção e Ar condicionado. O Preço Médio da Casa seria calculado para cada combinação única desses três campos. Muitas vezes, é útil mudar para uma vista de tabela para ver como são os dados que estão a ser avaliados.
Essa análise é muito resumida e, portanto, pode ser difícil para o modelo de regressão encontrar quaisquer padrões nos dados com os quais possa aprender. Devemos executar a análise a um nível mais detalhado para obter melhores resultados. Se quiséssemos analisar o preço da casa ao nível da casa, teríamos de adicionar explicitamente o campo ID à análise. No entanto, não queremos que o ID da casa seja considerado um influenciador. Não é útil aprender que, à medida que a identificação da casa aumenta, o preço de uma casa aumenta. A opção Expandir por poço de campo é útil aqui. Você pode usar Expandir por para adicionar campos que deseja usar para definir o nível da análise sem procurar novos influenciadores.
Dê uma olhada na aparência da visualização quando adicionarmos ID a Expandir por. Depois de definir o nível em que deseja que sua medida seja avaliada, interpretar influenciadores é exatamente o mesmo que para colunas numéricas não resumidas.
Para saber como o Power BI usa ML.NET bastidores para raciocinar sobre dados e revelar insights de forma natural, consulte O Power BI identifica os principais influenciadores usando o ML.NET.
Considerações e solução de problemas
Quais são as limitações para o visual?
O visual dos principais influenciadores tem algumas limitações:
- O Direct Query não é suportado
- Não há suporte para conexão em tempo real com o Azure Analysis Services e o SQL Server Analysis Services
- Não há suporte para publicação na Web
- É necessário o .NET Framework 4.6 ou superior
- Não há suporte para a incorporação do SharePoint Online
Vejo um erro de que nenhum influenciador ou segmento foi encontrado. Porquê?
Este erro ocorre quando você incluiu campos em Explicar por , mas nenhum influenciador foi encontrado.
- Você incluiu a métrica que estava analisando em Analisar e Explicar por. Remova-o de Explicar por.
- Os seus campos explicativos têm demasiadas categorias com poucas observações. Essa situação torna difícil para a visualização determinar quais fatores são influenciadores. É difícil generalizar com base em apenas algumas observações. Se estiver analisando um campo numérico, convém alternar de Análise Categórica para Análise Contínua no Painel de Formatação no cartão Análise.
- Seus fatores explicativos têm observações suficientes para generalizar, mas a visualização não encontrou correlações significativas para relatar.
Vejo um erro de que a métrica que estou analisando não tem dados suficientes para executar a análise. Porquê?
A visualização funciona observando padrões nos dados de um grupo em comparação com outros grupos. Por exemplo, procura clientes que deram classificações baixas em comparação com clientes que deram classificações altas. Se os dados em seu modelo tiverem apenas algumas observações, os padrões serão difíceis de encontrar. Se a visualização não tiver dados suficientes para encontrar influenciadores significativos, isso indica que mais dados são necessários para executar a análise.
Recomendamos que você tenha pelo menos 100 observações para o estado selecionado. Neste caso, o Estado são os clientes que churn. Você também precisa de pelo menos 10 observações para os estados que você usa para comparação. Neste caso, o estado de comparação são os clientes que não fazem churn.
Se estiver analisando um campo numérico, convém alternar de Análise Categórica para Análise Contínua no Painel de Formatação no cartão Análise.
Vejo um erro que, quando 'Analisar' não é resumido, a análise sempre é executada no nível da linha de sua tabela pai. Não é permitido alterar este nível através dos campos 'Expandir por'. Porquê?
Ao analisar uma coluna numérica ou categórica, a análise sempre é executada no nível da tabela. Por exemplo, se estiver a analisar os preços das casas e a sua tabela contiver uma coluna ID, a análise é executada automaticamente ao nível da ID da casa.
Ao analisar uma medida ou coluna resumida, você precisa declarar explicitamente em que nível deseja que a análise seja executada. Você pode usar Expandir por para alterar o nível da análise para medidas e colunas resumidas sem adicionar novos influenciadores. Se o preço da casa foi definido como uma medida, você pode adicionar a coluna ID da casa a Expandir por para alterar o nível da análise.
Vejo um erro de que um campo em Explicar por não está exclusivamente relacionado à tabela que contém a métrica que estou analisando. Porquê?
A análise é executada no nível da tabela do campo que está sendo analisado. Por exemplo, se você analisar o feedback do cliente para o seu serviço, poderá ter uma tabela que informa se um cliente deu uma classificação alta ou baixa. Nesse caso, sua análise está sendo executada no nível da tabela do cliente.
Se você tiver uma tabela relacionada definida em um nível mais granular do que a tabela que contém sua métrica, verá esse erro. Eis um exemplo:
- Você analisa o que leva os clientes a dar baixas classificações do seu serviço.
- Você quer ver se o dispositivo no qual o cliente está consumindo seu serviço influencia as avaliações que ele dá.
- Um cliente pode consumir o serviço de várias maneiras diferentes.
- No exemplo a seguir, o cliente 10000000 usa um navegador e um tablet para interagir com o serviço.
Se você tentar usar a coluna do dispositivo como um fator explicativo, verá o seguinte erro:
Este erro aparece porque o dispositivo não está definido ao nível do cliente. Um cliente pode consumir o serviço em vários dispositivos. Para que a visualização encontre padrões, o dispositivo deve ser um atributo do cliente. Existem várias soluções que dependem do seu entendimento do negócio:
- Você pode alterar o resumo de dispositivos para contar. Por exemplo, use a contagem se o número de dispositivos puder afetar a pontuação que um cliente dá.
- Você pode girar a coluna do dispositivo para ver se o consumo do serviço em um dispositivo específico influencia a classificação de um cliente.
Neste exemplo, os dados foram pivotados para criar novas colunas para navegador, celular e tablet (certifique-se de excluir e recriar seus relacionamentos na exibição de modelagem depois de dinamizar os dados). Agora você pode usar esses dispositivos específicos em Explicar por. Todos os dispositivos acabam por ser influenciadores, e o navegador tem o maior efeito na pontuação do cliente.
Mais precisamente, os clientes que não usam o navegador para consumir o serviço têm 3,79 vezes mais probabilidade de dar uma pontuação baixa do que os clientes que o fazem. Mais abaixo na lista, para dispositivos móveis o inverso é verdadeiro. Os clientes que usam o aplicativo móvel são mais propensos a dar uma pontuação baixa do que os clientes que não usam.
Vejo um aviso de que as medidas não foram incluídas na minha análise. Porquê?
A análise é executada no nível da tabela do campo que está sendo analisado. Se você analisar a rotatividade de clientes, poderá ter uma tabela que informa se um cliente mudou ou não. Nesse caso, sua análise é executada no nível da tabela do cliente.
As medidas e agregados são, por padrão, analisados no nível da tabela. Se houvesse uma medida para o gasto médio mensal, ela seria analisada no nível da tabela do cliente.
Se a tabela do cliente não tiver um identificador exclusivo, você não poderá avaliar a medida e ela será ignorada pela análise. Para evitar essa situação, verifique se a tabela com sua métrica tem um identificador exclusivo. Nesse caso, é a tabela do cliente e o identificador exclusivo é o ID do cliente. Também é fácil adicionar uma coluna de índice utilizando o Power Query.
Vejo um aviso de que a métrica que estou analisando tem mais de 10 valores únicos e que essa quantidade pode afetar a qualidade da minha análise. Porquê?
A visualização de IA pode analisar campos categóricos e campos numéricos. Para campos categóricos, um exemplo pode ser Churn é Sim ou Não, e Satisfação do Cliente é Alta, Média ou Baixa. Aumentar o número de categorias a analisar significa que há menos observações por categoria. Essa situação torna mais difícil para a visualização encontrar padrões nos dados.
Ao analisar campos numéricos, você pode escolher entre tratar os campos numéricos como texto, caso em que executa a mesma análise que para dados categóricos (Análise Categórica). Se você tiver muitos valores distintos, recomendamos que mude a análise para Análise Contínua, pois isso significa que podemos inferir padrões a partir de quando os números aumentam ou diminuem, em vez de tratá-los como valores distintos. Você pode alternar de Análise Categórica para Análise Contínua no Painel de Formatação no cartão Análise .
Para encontrar influenciadores mais fortes, recomendamos que você agrupe valores semelhantes em uma única unidade. Por exemplo, se você tiver uma métrica de preço, provavelmente obterá melhores resultados agrupando preços semelhantes em categorias Alto, Médio e Baixo em vez de usar pontos de preço individuais.
Há fatores nos meus dados que parecem que deveriam ser influenciadores-chave, mas não são. Como é que isso pode acontecer?
No exemplo a seguir, os clientes que são consumidores geram classificações baixas, com 14,93% das classificações baixas. O cargo de administrador também tem uma alta proporção de avaliações baixas, com 13,42%, mas não é considerado um influenciador.
A razão para essa determinação é que a visualização também considera o número de pontos de dados quando encontra influenciadores. O exemplo a seguir tem mais de 29.000 consumidores e 10 vezes menos administradores, cerca de 2.900. Apenas 390 deles deram uma classificação baixa. O visual não tem dados suficientes para determinar se encontrou um padrão com classificações de administrador ou se é apenas uma descoberta casual.
Quais são os limites de pontos de dados para os principais influenciadores? Executamos a análise em uma amostra de 10.000 pontos de dados. As bolhas de um lado mostram todos os influenciadores que foram encontrados. Os gráficos de colunas e gráficos de dispersão do outro lado seguem as estratégias de amostragem para esses visuais principais.
Como calcular os principais influenciadores para análise categórica?
Nos bastidores, a visualização de IA usa ML.NET para executar uma regressão logística para calcular os principais influenciadores. Uma regressão logística é um modelo estatístico que compara diferentes grupos entre si.
Se você quiser ver o que impulsiona classificações baixas, a regressão logística analisa como os clientes que deram uma pontuação baixa diferem dos clientes que deram uma pontuação alta. Se você tiver várias categorias, como pontuações altas, neutras e baixas, verá como os clientes que deram uma classificação baixa diferem dos clientes que não deram uma classificação baixa. Neste caso, como é que os clientes que deram uma pontuação baixa diferem dos clientes que deram uma classificação alta ou uma classificação neutra?
A regressão logística procura padrões nos dados e procura como os clientes que deram uma classificação baixa podem diferir dos clientes que deram uma classificação alta. Ele pode descobrir, por exemplo, que os clientes com mais tíquetes de suporte dão uma porcentagem maior de classificações baixas do que os clientes com poucos ou nenhum tíquete de suporte.
A regressão logística também considera quantos pontos de dados estão presentes. Por exemplo, se os clientes que desempenham uma função de administrador derem proporcionalmente mais pontuações negativas, mas houver apenas alguns administradores, esse fator não será considerado influente. Essa determinação é feita porque não há pontos de dados suficientes disponíveis para inferir um padrão. Um teste estatístico, conhecido como teste de Wald, é usado para determinar se um fator é considerado um influenciador. O visual usa um valor p de 0,05 para determinar o limite.
Como calcular os principais influenciadores para análise numérica?
Nos bastidores, a visualização de IA usa ML.NET para executar uma regressão linear para calcular os principais influenciadores. Uma regressão linear é um modelo estatístico que analisa como o resultado do campo que você está analisando muda com base em seus fatores explicativos.
Por exemplo, se analisarmos os preços das casas, uma regressão linear analisa o efeito que ter uma excelente cozinha hAs no preço da casa. As casas com excelentes cozinhas geralmente têm preços mais baixos ou mais altos em comparação com casas sem cozinhas excelentes?
A regressão linear também considera o número de pontos de dados. Por exemplo, se casas com quadras de tênis têm preços mais altos, mas temos poucas casas com quadra de tênis, esse fator não é considerado influente. Essa determinação é feita porque não há pontos de dados suficientes disponíveis para inferir um padrão. Um teste estatístico, conhecido como teste de Wald, é usado para determinar se um fator é considerado um influenciador. O visual usa um valor p de 0,05 para determinar o limite.
Como se calculam os segmentos?
Nos bastidores, a visualização de IA usa ML.NET para executar uma árvore de decisão para encontrar subgrupos interessantes. O objetivo da árvore de decisão é acabar com um subgrupo de pontos de dados que é relativamente alto na métrica em que você está interessado. Podem ser clientes com classificações baixas ou casas com preços elevados.
A árvore de decisão toma cada fator explicativo e tenta raciocinar qual fator lhe dá a melhor divisão. Por exemplo, se você filtrar os dados para incluir apenas clientes de grandes empresas, isso separa os clientes que deram uma classificação alta de uma classificação baixa? Ou talvez seja melhor filtrar os dados para incluir apenas os clientes que comentaram sobre segurança?
Depois que a árvore de decisão faz uma divisão, ela pega o subgrupo de dados e determina a próxima melhor divisão para esses dados. Neste caso, o subgrupo são clientes que comentaram sobre segurança. Após cada divisão, a árvore de decisão também considera se tem pontos de dados suficientes para que esse grupo seja representativo o suficiente para inferir um padrão. Se não, então é uma anomalia nos dados e não um segmento real. Outro teste estatístico é aplicado para verificar a significância estatística da condição split com p-valor de 0,05.
Depois que a árvore de decisão termina de ser executada, ela usa todas as divisões, como comentários de segurança e grandes empresas, e cria filtros do Power BI. Esta combinação de filtros é embalada como um segmento no visual.
Por que certos fatores se tornam influenciadores ou deixam de ser influenciadores à medida que passo mais campos para o campo Explicar por ?
A visualização avalia todos os fatores explicativos em conjunto. Um fator pode ser um influenciador por si só, mas quando considerado com outros fatores pode não ser. Suponha que você queira analisar o que leva o preço de uma casa a ser alto, com quartos e tamanho da casa como fatores explicativos:
- Por si só, mais quartos podem ser um impulsionador para que os preços das casas sejam altos.
- Incluir o tamanho da casa na análise significa que agora você olha para o que acontece com os quartos, enquanto o tamanho da casa permanece constante.
- Se o tamanho da casa é fixado em 1.500 pés quadrados, é improvável que um aumento contínuo no número de quartos aumente drasticamente o preço da casa.
- Os quartos podem não ser um fator tão importante como era antes do tamanho da casa ser considerado.
Compartilhar seu relatório com um colega do Power BI requer que ambos tenham licenças individuais do Power BI Pro ou que o relatório seja salvo na capacidade Premium. Consulte Partilha de relatórios.