Tenho um conjunto de dados de uma pesquisa de clientes. Quero implantar um teste estatístico para verificar se há diferença de significância entre o produto 1 e o produto 2.
Aqui está um conjunto de dados de avaliações de clientes.
A taxa é de muito ruim, ruim, ok, boa e muito boa.
customer product1 product2
1 very good very bad
2 good bad
3 okay bad
4 very good okay
5 bad very good
6 okay good
7 bad okay
8 very good very bad
9 good good
10 good very good
11 okay okay
12 very good good
13 good good
14 very good okay
15 very good okay
Quais métodos devo usar para verificar se há alguma diferença entre esses dois produtos?
Respostas:
Para classificação por diferentes juízes, pode-se usar o teste de Friedman. http://en.wikipedia.org/wiki/Friedman_test
Você pode converter classificações de muito ruins para muito boas em números de -2, -1, 0, 1 e 2. Em seguida, coloque os dados em formato longo e aplique friedman.test com o cliente como fator de bloqueio:
A classificação da diferença entre 2 produtos não é significativa.
Editar:
A seguir, é apresentado o resultado da regressão:
fonte
Uma possibilidade é que você poderia usar o teste de sinal.
Isso depende das comparações entre os clientes para verificar se a classificação de produto1 para produto2 subiu, diminuiu ou permaneceu a mesma (sob o teste do sinal binomial, a suposição é de que você só obtém resultados "altos" ou "baixos", mas existem várias maneiras comuns de abordar os vínculos entre pares, como o cliente 9's
good
vsgood
).Uma abordagem comum é excluir as classificações vinculadas, como as do cliente 9 (para que a conclusão seja sobre a proporção relativa de diferenças de aumento e redução na população, assumindo amostragem aleatória de clientes).
Nesse caso, você tinha 4 clientes que deram classificações mais altas ao segundo produto, 8 que deram notas mais baixas e três que deram o mesmo.
Nesse caso, com seus dados, 4 de um sinal e 8 do outro, um teste de sinal bicaudal não chegaria perto da rejeição em nenhum nível de significância típico. Aqui está a análise em R:
O valor p é bastante alto.
Agora, se você estiver preparado para atribuir pontuações (ou mesmo apenas para classificar) aos tamanhos relativos das mudanças nas classificações dentro de cada par - ou seja, se a mudança "boa" para "ruim" do cliente 2 é maior, menor ou o mesmo que o cliente 4 é "muito bom" para "ok" e assim por diante, então você pode aplicar um teste de classificação assinado nessas classificações ou fazer um teste de permutação emparelhado nas pontuações atribuídas (embora você também deva lidar com laços pesados, isso pode ser feito prontamente permutando os conjuntos de classificações ou pontuações que você realmente possui).
Existem outras opções que você pode considerar - mas não acho que a escolha da análise altere o resultado; Eu acho que todos eles deixarão de rejeitar em níveis de significância típicos nesses dados.
fonte
very bad
paragood
é completamente idêntica a uma mudança debad
paravery good
, você não pode reivindicá-la depois de codificá-los como números ... (ctd)Você tem dados ordinais dependentes. Você deve usar o teste de classificação assinada da Wilcoxon para testar a diferença significativa entre os dois produtos em todos os clientes.
Mas, dados os dados acima, o teste de postos assinados de Wilcoxon não produz resultados significativos.
fonte
good
,bad
) ou (very good
,okay
) para um conjunto de classificações assinadas, pois isso tornaria as suposições feitas ao longo do caminho mais óbvias.Use o emparelhado t -teste
Contanto que você tenha classificações suficientes (15 é suficiente e eu ficaria feliz mesmo com menos) e alguma variação nas diferenças de classificação, não há nenhum problema ao usar o teste t emparelhado . Em seguida, você obtém estimativas muito fáceis de interpretar - as classificações médias em uma escala numérica de 1 a 5 + sua diferença (entre produtos).
Código R
É muito fácil fazer no R:
Primeiro vamos verificar as classificações médias:
E o teste t nos dá:
O valor é 0,13, o que não sugere fortemente que os produtos sejam classificados de forma diferente, apesar da aparente diferença de 0,8 (mas observe o intervalo de confiança bastante - precisamos realmente de mais dados).p
Dados falsos?
Curiosa e inesperadamente, um teste t não pareado fornece um valor p mais baixo .
Isso sugere que os dados de exemplo são falsos. Para dados reais, seria de esperar uma correlação positiva (bastante alta) entre as classificações do mesmo cliente. Aqui a correlação é negativa (embora não seja estatisticamente significativa):
Dados ausentes
Quando nem todos os clientes classificaram os dois produtos (ou seja, dados desequilibrados), uma abordagem melhor é usar um modelo de efeitos mistos:
Vamos primeiro converter os dados para o formato numérico:
E converta-o para o formato 'longo':
E, finalmente, ajuste um modelo de efeitos mistos com o cliente como um efeito aleatório:
O valor é 0,0834. Normalmente, para dados balanceados, será quase idêntico ao valor p de um teste t emparelhado . Aqui está mais próximo do valor- p de um teste t não pareado , devido à correlação negativa. Observe que a variação para o efeito do cliente (interceptação aleatória) é quase zero. Isso raramente aconteceria com dados reais.p
Sumário
Em resumo, use o teste t emparelhado . Em seguida, você obtém estimativas fáceis de interpretar (médias numéricas simples).
Se nem todos os clientes classificaram os dois produtos, use um modelo de efeitos mistos. (Isso fornecerá aproximadamente os mesmos resultados que o teste t emparelhado quando todos tiverem classificado os dois produtos, para que você sempre o use.)
fonte