Seguindo esta pergunta : Imagine que você deseja testar as diferenças na tendência central entre dois grupos (por exemplo, homens e mulheres) em um item Likert de 5 pontos (por exemplo, satisfação com a vida: insatisfeito com satisfeito). Penso que um teste t seria suficientemente preciso para a maioria dos propósitos, mas que um teste de autoinicialização das diferenças entre as médias dos grupos geralmente proporcionaria uma estimativa mais precisa dos intervalos de confiança. Que teste estatístico você usaria?
t-test
ordinal-data
likert
scales
Jeromy Anglim
fonte
fonte
Respostas:
Clason & Dormody discutiram a questão do teste estatístico para itens do Likert ( Analisando dados medidos por itens individuais do tipo Likert ). Eu acho que um teste de bootstrap é bom quando as duas distribuições parecem semelhantes (em forma de sino e variação igual). No entanto, um teste para dados categóricos (por exemplo, tendência ou teste de Fisher, ou regressão logística ordinal) seria muito interessante uma vez que permite verificar a distribuição de resposta através das categorias de itens, veja o livro de Agresti em Categorical Análise de Dados (Capítulo 7 em modelos Logit para respostas multinomiais ).
Além disso, você pode imaginar situações em que o teste t ou outros testes não paramétricos falhariam se a distribuição da resposta estivesse fortemente desequilibrada entre os dois grupos. Por exemplo, se todas as pessoas do grupo A responderem 1 ou 5 (na mesma proporção), enquanto todas as pessoas do grupo B responderem a 3, você terminará com média idêntica dentro do grupo e o teste não terá sentido algum, embora neste caso a suposição de homoscedasticidade é amplamente violada.
fonte
Dependendo do tamanho do conjunto de dados em questão, um teste de permutação pode ser preferível a um bootstrap, pois ele pode fornecer um teste exato da hipótese (e um IC exato).
fonte
IMHO você não pode usar um teste t para escalas Likert. A escala de Likert é ordinal e "conhece" apenas as relações de valores de uma variável: por exemplo, "totalmente insatisfeito" é pior do que "de alguma forma insatisfeito". Um teste t, por outro lado, precisa calcular médias e mais e, portanto, precisa de dados de intervalo. Você pode mapear as pontuações da escala Likert para os dados do intervalo ("totalmente insatisfeito" é 1 e assim por diante), mas ninguém garante que "totalmente insatisfeito" esteja à mesma distância de "insatisfeito", pois "insatisfeito" é de "nem nem". A propósito: qual é a diferença entre "totalmente insatisfeito" e "de alguma forma insatisfeito"? Então, no final, você faria um teste t nos valores codificados dos seus dados ordinais, mas isso simplesmente não faz sentido.
fonte
Se cada item do questionário é ordinal, e eu não acho que esse ponto possa ser contestado, uma vez que não há como saber se a diferença quantitativa entre "concordo totalmente" e "concordo" é a mesma que entre " discordo totalmente "e" discordo ", então por que o somatório de todas essas escalas de nível ordinal produziria um valor que compartilhe as propriedades dos dados verdadeiros no nível de intervalo?
Por exemplo, se estamos interpretando os resultados de um inventário de depressão, não faz sentido (pelo menos para mim) dizer que uma pessoa com uma pontuação de "20" está duas vezes mais deprimida do que uma pessoa com uma pontuação de " 10 ". Isso ocorre porque cada item do questionário não está medindo as diferenças reais nos níveis de depressão (supondo que a depressão seja um distúrbio orgânico estável, intenal), mas sim a classificação subjetiva de concordância da pessoa com uma afirmação específica. Quando perguntado, "quão deprimido você diria que seu humor está em uma escala de 1 a 4, sendo 1 muito deprimido e 4 absolutamente deprimido", como sei que a classificação subjetiva de um respondente de 1 é igual à de outro respondente ? Ou como posso saber se a diferença entre 4 e 3 é igual à de 3 e 4 em termos da pessoa " nível atual de depressão. Se não podemos saber nada disso, não faz sentido tratar a soma de todos esses itens ordinais como dados em nível de intervalo. Mesmo que os dados formem uma distribuição normal, não acho apropriado tratar as diferenças entre as pontuações como dados no nível do intervalo, se eles foram calculados somando todas as respostas a itens de likert. Uma distribuição normal de dados significa apenas que as respostas provavelmente são representativas da população maior; isso não implica que os valores obtidos nos inventários compartilhem propriedades importantes dos dados no nível do intervalo. acho que é apropriado tratar as diferenças entre as pontuações como dados no nível do intervalo, se elas foram calculadas somando todas as respostas a um item do tipo likert. Uma distribuição normal de dados significa apenas que as respostas provavelmente são representativas da população maior; isso não implica que os valores obtidos nos inventários compartilhem propriedades importantes dos dados no nível do intervalo. acho que é apropriado tratar as diferenças entre as pontuações como dados no nível do intervalo, se elas foram calculadas somando todas as respostas a um item do tipo likert. Uma distribuição normal de dados significa apenas que as respostas provavelmente são representativas da população maior; isso não implica que os valores obtidos nos inventários compartilhem propriedades importantes dos dados no nível do intervalo.
Precisamos ter cuidado nas ciências comportamentais sobre como usamos a estatística para falar com as variáveis latentes que estamos estudando, pois, como não há maneira direta de medir essas construções hipotéticas, haverá problemas significativos quando tentarmos quantificá-las. para testes paramétricos. Novamente, simplesmente porque atribuímos valores a um conjunto de respostas não significa que as diferenças entre esses valores sejam significativas.
fonte
O modelo proporcional de odds ratio é melhor que o teste t para a escala de itens do Likert.
fonte
Vou tentar explicar o modelo proporcional de odds ratio neste contexto, uma vez que foi sugerido e indicado em pelo menos 2 respostas a esta pergunta.
O teste de pontuação de um modelo de chances proporcionais é equivalente ao teste de soma da classificação de Wilcoxon.
Mais precisamente, a estatística do teste de pontuação para nenhum efeito de uma única covariável dicotômica em um modelo de regressão logística cumulativa de chances proporcionais (McCullagh 1980) para o resultado ordinal mostrou-se igual à estatística do teste da soma da classificação de Wilcoxon. (Prova em uma extensão do teste Wilcoxon Rank-Sum para dados complexos de pesquisa de amostra .)
Assim como o teste de soma da classificação de Wilcoxon, este teste detecta se duas amostras foram retiradas de distribuições diferentes, independentemente dos valores esperados.
Este teste é inválido se você deseja detectar apenas se duas amostras foram retiradas de distribuições com diferentes valores esperados, assim como o teste de soma da classificação de Wilcoxon.
fonte