Quais são as boas estatísticas básicas a serem usadas para dados ordinais?

67

Tenho alguns dados ordinais obtidos com perguntas da pesquisa. No meu caso, são respostas no estilo Likert (discordo totalmente - discordo - neutro - concordo - concordo totalmente). Nos meus dados, eles são codificados como 1-5.

Eu não acho que meios significaria muito aqui, então quais estatísticas resumidas básicas são consideradas úteis?

PaulHurleyuk
fonte
2
Escolhas mais comuns incluem - medianas, modos, proporções ou proporções cumulativas em cada grupo
Glen_b

Respostas:

29

Uma tabela de frequências é um bom lugar para começar. Você pode fazer a contagem e a frequência relativa de cada nível. Além disso, a contagem total e o número de valores ausentes podem ser úteis.

Você também pode usar uma tabela de contingência para comparar duas variáveis ​​ao mesmo tempo. Também pode exibir usando um gráfico de mosaico.

Neil McGuigan
fonte
32

A partir de uma perspectiva aplicada, argumentarei que a média geralmente é a melhor opção para resumir a tendência central de um item do Likert. Especificamente, estou pensando em contextos como pesquisas de satisfação do aluno, escalas de pesquisa de mercado, pesquisas de opinião de funcionários, itens de teste de personalidade e muitos itens de pesquisas de ciências sociais.

Em tais contextos, os consumidores de pesquisa geralmente desejam respostas para perguntas como:

  • Quais afirmações têm mais ou menos concordância em relação às outras?
  • Quais grupos concordaram mais ou menos com uma determinada afirmação?
  • Com o tempo, o acordo aumentou ou diminuiu?

Para esses fins, a média tem vários benefícios:

1. A média é fácil de calcular:

  • É fácil ver a relação entre os dados brutos e a média.
  • É pragmaticamente fácil de calcular. Assim, a média pode ser facilmente incorporada nos sistemas de relatórios.
  • Também facilita a comparabilidade entre contextos e configurações.

2. A média é relativamente bem compreendida e intuitiva:

  • A média é frequentemente usada para relatar tendência central dos itens do Likert. Assim, é mais provável que os consumidores de pesquisa entendam o meio (e, assim, confiem nele e agam sobre ele).
  • Alguns pesquisadores preferem a opção, sem dúvida ainda mais intuitiva, de relatar a porcentagem da amostra respondendo a 4 ou 5. Ou seja, possui a interpretação relativamente intuitiva de "concordância percentual". Em essência, essa é apenas uma forma alternativa da média, com a 0, 0, 0, 1, 1codificação.
  • Além disso, com o tempo, os consumidores de pesquisa constroem quadros de referência. Por exemplo, quando você está comparando seu desempenho no ensino de um ano para o outro, ou entre disciplinas, cria uma sensação diferenciada do que uma média de 3,7, 3,9 ou 4,1 indica.

3. A média é um número único:

  • Um único número é particularmente valioso quando você deseja fazer reivindicações como "os alunos ficaram mais satisfeitos com o Assunto X do que o Assunto Y".
  • Eu também acho, empiricamente, que um único número é realmente a principal informação de interesse em um item do Likert. O desvio padrão tende a estar relacionado à extensão em que a média está próxima da pontuação central (por exemplo, 3,0). Obviamente, empiricamente, isso pode não se aplicar ao seu contexto. Por exemplo, li em algum lugar que, quando as classificações do You Tube tinham o sistema de estrelas, havia um grande número de classificações mais baixa ou mais alta. Por esse motivo, é importante inspecionar as frequências de categoria.

4. Não faz muita diferença

  • Embora eu não o tenha testado formalmente, eu hipotetizaria que, com o objetivo de comparar as classificações de tendência central entre itens, grupos de participantes ou ao longo do tempo, qualquer escolha razoável de escala para gerar a média produziria conclusões semelhantes.
Jeromy Anglim
fonte
4
Bela postagem! Você pensa em como diferentes culturas / países podem usar escalas de Likert que impactariam drasticamente esse tipo de resultado?
Chase
@chase Há pesquisas sobre isso, mas já faz um tempo desde que eu as analisei. Aqui está um exemplo de pesquisa no Google scholar.google.com.au/…
Jeromy Anglim
Concordo com a justificativa do Sr. Jeromy Anglim sobre o uso da média (isto é, a média ponderada para ser exato) como a interpretação mais descritiva, mais confiável e imparcial, das variáveis ​​categóricas ordenadas, como o uso da escala Likert, em que cada um dos pontos de dados contribui para a média final.
28

Para resumos básicos, concordo que as tabelas de frequência dos relatórios e algumas indicações sobre a tendência central são boas. Por inferência, um artigo recente publicado no PARE discutiu o teste t vs. MWW, itens Likert de cinco pontos: teste t versus Mann-Whitney-Wilcoxon .

Para um tratamento mais elaborado, eu recomendaria a leitura da revisão de Agresti sobre variáveis ​​categóricas ordenadas:

Liu, Y e Agresti, A (2005). A análise de dados categóricos ordenados: uma visão geral e uma pesquisa de desenvolvimentos recentes . Sociedad de Estadística and Investigación Operativa Test , 14 (1), 1-73.

Ele se estende amplamente além das estatísticas usuais, como o modelo baseado em limites (por exemplo, razão de chances proporcional) e vale a pena ler no lugar do livro CDA da Agresti .

Abaixo, mostro uma figura de três maneiras diferentes de tratar um item do Likert; de cima para baixo, a visualização "frequência" (nominal), a visualização "numérica" ​​e a visualização "probabilística" (um modelo de crédito parcial ):

texto alternativo

Os dados provêm dos Sciencedados do ltmpacote, onde o item diz respeito à tecnologia ("Nova tecnologia não depende de pesquisa científica básica", com resposta "discordo totalmente" a "concordo totalmente", em uma escala de quatro pontos)

chl
fonte
14

A prática convencional é usar a soma da classificação estatística não paramétrica e a classificação média para descrever dados ordinais.

Veja como eles funcionam:

Soma de classificação

  • atribuir uma classificação a cada membro em cada grupo;

  • por exemplo, suponha que você esteja procurando objetivos para cada jogador em dois times de futebol adversários e depois classifique cada membro em ambos os times do primeiro ao último;

  • calcular a soma da classificação adicionando as classificações por grupo ;

  • a magnitude da soma do ranking indica a proximidade entre as fileiras de cada grupo

Classificação ruim

M / R é uma estatística mais sofisticada que R / S porque compensa tamanhos desiguais nos grupos que você está comparando. Portanto, além das etapas acima, você divide cada soma pelo número de membros no grupo.

Depois de ter essas duas estatísticas, você pode, por exemplo, testar z a soma da classificação para ver se a diferença entre os dois grupos é estatisticamente significativa (acredito que seja conhecido como o teste da soma da classificação de Wilcoxon , que é intercambiável, ou seja, funcionalmente). equivalente ao teste U de Mann-Whitney).

Funções R para essas estatísticas (as que eu conheço, de qualquer maneira):

wilcox.test na instalação padrão do R

meanranks no pacote de manivelas

doug
fonte
3

Baseado no resumo Este artigo pode ser útil para comparar várias variáveis ​​da escala Likert. Ele compara dois tipos de testes de comparação múltipla não paramétricos: um baseado em classificações e outro baseado em um teste de Chacko. Inclui simulações.

Peter Flom - Restabelece Monica
fonte
No momento, isso quase parece um comentário, @ PeterFlom. Embora a biblioteca digital do ACM seja provavelmente menos suscetível à podridão do link, você se importaria em dizer algo sobre o artigo, talvez um resumo das informações úteis que ele fornece?
gung - Restabelece Monica
2
Oi @gung Eu não tinha certeza de onde colocar o comentário neste tópico longo. Eu adicionei a citação aqui desde que a pergunta postada hoje foi encerrada, e este artigo parece útil (e cobre questões que não vi em outros lugares)
Peter Flom - Reinstate Monica
2

Eu geralmente gosto de usar o enredo Mosaic. Você pode criá-los ao incorporar outras covariáveis ​​de interesse (como sexo, fatores estratificados, etc.)

Teoria de Galois
fonte
2

Eu concordo com a avaliação de Jeromy Anglim. Lembre-se de que as respostas do Likert são estimativas - você não está usando uma régua perfeitamente confiável para medir um objeto físico com dimensões estáveis. A média é uma medida poderosa ao usar tamanhos razoáveis ​​de amostra.

Em P&D de negócios e produtos, a média é de longe a estatística mais comum usada nas escalas Likert. Ao usar escalas Likert, geralmente escolhi uma medida que se encaixa idealmente na questão de pesquisa. Por exemplo, se você está falando sobre "preferência" ou "atitudes", pode usar vários indicadores baseados no Likert, com cada indicador fornecendo uma visão ligeiramente diferente.

Para avaliar a questão "como é que as pessoas no segmento reagir ao serviço que oferece ," Eu posso olhar para (1) média aritmética, (2) média exata, (3) porcentagem resposta mais favorável (top box), (4)% duas caixas principais, (5) proporção entre duas caixas superiores e duas caixas inferiores, (6) porcentagem dentro de caixas intermediárias ... etc. Cada medida conta uma parte diferente da história. Em um projeto muito crítico, eu uso vários indicadores baseados em Likert. Também usarei vários indicadores com pequenas amostras e quando uma guia cruzada específica tiver uma estrutura "interessante" ou parecer rica em informações. Ahhh ... a arte da estatística.iX

VARNOLD
fonte
1

As "pontuações de caixa" são frequentemente usadas para resumir dados ordinais, principalmente quando se trata de âncoras verbais significativas. Em outras palavras, você pode relatar "top 2 box", a porcentagem que escolheu "concordo" ou "concordo totalmente".

Jonathan
fonte