Calcular média da variável ordinal

20

Eu li em vários lugares que o cálculo da média de uma variável ordinal é inadequado. Estou tentando entender por que isso pode ser inapropriado. Eu acho que é porque, em geral, uma variável ordinal não é normalmente distribuída e, portanto, calcular a média dará uma representação imprecisa. Alguém poderia fornecer um raciocínio mais detalhado sobre por que o cálculo da média de uma variável ordinal pode ser inadequado?

luciano
fonte
8
Para calcular uma média, você primeiro precisa de uma soma. Para que uma soma seja significativa, você precisa que 4 + 2 seja igual a 3 + 3; equivalentemente, você precisa de 4-3 = 3-2 = 2-1. Com dados ordinais - mesmo quando suas categorias são rotuladas como "1", "2", "3", "4" -, esse não é (explicitamente) o que é necessariamente o caso.
Glen_b -Reinstala Monica
E por que a mediana seria mais apropriada do que a média aritmética?

Respostas:

24

Uma resposta curta é que isso é controverso. Ao contrário do que você menciona, as pessoas em muitos campos usam meios da balança ordinal e geralmente ficam felizes com o que querem. As médias de notas ou o equivalente em muitos sistemas educacionais são um exemplo.

No entanto, dados ordinais que não estão sendo distribuídos normalmente não são uma razão válida, porque a média é

  • amplamente utilizado para distribuições não normais

  • matematicamente bem definido para muitas distribuições não normais, exceto em alguns casos patológicos.

Pode não ser uma boa ideia usar a média na prática se os dados definitivamente não forem normalmente distribuídos, mas isso é diferente.

Uma razão mais forte para não usar a média com dados ordinais é que seu valor depende de convenções de codificação. Códigos numéricos como 1, 2, 3, 4 são geralmente escolhidos apenas por simplicidade ou conveniência, mas, em princípio, poderiam igualmente ser 1, 23, 456, 7890, na medida em que correspondam a uma ordem definida em questão. Tomar a média em ambos os casos envolveria tomar essas convenções literalmente (a saber, como se os números não fossem arbitrários, mas justificáveis), e não há motivos rigorosos para isso. Você precisa de uma escala de intervalo na qual diferenças iguais entre valores possam ser tomadas literalmente para justificar a obtenção de médias. Considero o argumento principal, mas, como já indicado, as pessoas geralmente o ignoram e deliberadamente, porque acham meios úteis, independentemente do que dizem os teóricos da medição.

Aqui está um exemplo extra. Freqüentemente, as pessoas são convidadas a escolher um dos "discordo totalmente" ... "concordo totalmente" e (dependendo em parte do que o software deseja), os pesquisadores codificam isso como 1 .. 5 ou 0 .. 4 ou o que quiserem, ou o declaram como um fator ordenado (ou qualquer termo que o software use). Aqui a codificação é arbitrária e oculta às pessoas que respondem à pergunta.

Mas muitas vezes também são perguntadas às pessoas (digamos) em uma escala de 1 a 5, como você avalia alguma coisa? Existem muitos exemplos: sites, esportes, outros tipos de competições e, de fato, educação. Aqui, as pessoas estão sendo mostradas uma escala e sendo solicitadas a usá-la. É amplamente entendido que não-inteiros fazem sentido, mas você só pode usar números inteiros como uma convenção. Essa escala é ordinal? Alguns dizem que sim, outros dizem que não. Em outras palavras, parte do problema é que o que é escala ordinal é em si uma área confusa ou debatida.

Considere novamente as notas para o trabalho acadêmico, diga E a A. Muitas vezes, essas notas também são tratadas numericamente, digamos como 1 a 5, e rotineiramente as pessoas calculam médias para estudantes, cursos, escolas etc. e fazem análises adicionais desses dados. Embora continue sendo verdade que qualquer mapeamento para pontuações numéricas é arbitrário, mas aceitável, desde que preserve a ordem, na prática, as pessoas que atribuem e recebem notas sabem que as pontuações têm equivalentes numéricos e sabem que as notas serão calculadas em média .

Uma razão pragmática para o uso de meios é que medianas e modos geralmente são resumos ruins das informações contidas nos dados. Suponha que você tenha uma escala que discorde totalmente, concorde totalmente e, por conveniência, codifique os pontos 1 a 5. Agora imagine uma amostra codificada 1, 1, 2, 2, 2 e outra 1, 2, 2, 4, 5. Agora, aumente suas mãos se você acha que mediana e moda são os únicos resumos justificáveis ​​porque é uma escala ordinal. Agora levante a mão se você achar útil a média também, independentemente de as somas estarem bem definidas, etc.

Naturalmente, a média seria um resumo hipersensível se os códigos fossem quadrados ou cubos de 1 a 5, digamos, e talvez não seja o que você deseja. (Se seu objetivo é identificar os participantes rapidamente, pode ser exatamente o que você deseja!) Mas é exatamente por isso que a codificação convencional com códigos inteiros sucessivos é uma opção prática, porque geralmente funciona muito bem na prática. Esse não é um argumento que tenha qualquer peso com os teóricos da medição, nem deveria, mas os analistas de dados devem estar interessados ​​em produzir resumos ricos em informações.

Concordo com quem diz: use toda a distribuição de frequências, mas esse não é o ponto em questão.

Nick Cox
fonte
1
Ótima resposta e pragmatismo são importantes, mas eu acrescentaria uma nota de cautela. Uma boa razão para usar apenas métodos formalmente estabelecidos é que você tenha acesso a estimativas de certeza etc. Por exemplo, se tivermos dois GPAs, digamos 4.53 e 4.34, talvez desejemos saber se um é "significativamente" melhor que o outro. Mas, devido à falta de formalidade na média das notas, não temos coisas como intervalos de confiança etc.
Stephen McAteer
1
@StephenMcAteer Entendo o seu ponto de vista nos métodos ensinados em um texto ou curso introdutório típico. Mas se esse fosse o desejo, o bootstrapping forneceu uma tecnologia que permite intervalos de confiança há quase 40 anos.
Nick Cox
3

Suponha que adotemos valores ordinais, por exemplo, 1 para discordo totalmente, 2 para discordo, 3 para concordo e 4 para concordo totalmente. Se quatro pessoas derem as respostas 1,2,3 e 4, qual seria o significado? É (1 + 2 + 3 + 4) /4=2,50.

Como isso deve ser interpretado, quando a resposta média de quatro pessoas é "discorda ou concorda"? É por isso que não devemos usar mean para dados ordinais.

SAAN
fonte
3
Interpretando um pouco o advogado do diabo, neste exemplo, eu interpretaria 2,5 como estando no meio do caminho entre 2, "discordo" e 3, "concordo". Isso faz sentido como uma média, uma vez que "discordo totalmente" vs "concordo totalmente" e "discordo" vs "concordo".
precisa saber é o seguinte
1
Concordo com a média de 2,5 neste contexto ainda faz sentido para mim - a meio caminho entre discordo e concordo, ou seja, neutro.
22613 luciano
3
Eu acho que Azeem precisa de um exemplo mais forte. Você pode objetar 2,5 como a média de 1, 2, 3, 4 filhos por família pelos mesmos motivos, como isso deve ser interpretado, pois não é um dos valores definidos. Isso levanta questões diferentes.
Nick Cox
2
Eu acho que você pode fortalecer sua resposta e encorajo você a fazer isso. "porque a média pode ser um valor indefinido" não é um argumento forte aqui, lógica ou psicologicamente, e não se concentra na questão mais profunda de se diferenças iguais realmente significam diferenças iguais.
Nick Cox
1
Não sei como posso deixar isso mais claro, mas (por exemplo) "0-4", "5-19", "20-114" são ordenados (ordinais), pois há apenas uma ordem natural para essas medições (sem reversão). Se você quiser chamá-los de outras coisas também, tudo bem para mim.
Nick Cox
2

Eu concordo totalmente com @Azeem. Mas apenas para levar esse ponto para casa, deixe-me elaborar um pouco mais.

Digamos que você tenha dados ordinais, como no exemplo de @Azeem, onde sua escala varia de 1 a 4. E também digamos que algumas pessoas classifiquem algo (como sorvete) nessa escala. Imagine que você obtenha os seguintes resultados:

  • A pessoa A disse 4
  • A pessoa B disse 3
  • Pessoa C disse 1
  • Pessoa D disse 2

Quando você deseja interpretar os resultados, pode concluir algo na extensão de:

  • A pessoa A gostou mais do sorvete do que a pessoa B
  • A pessoa D gostou mais de sorvete do que a pessoa C

No entanto, você não sabe nada sobre os intervalos entre as classificações. A diferença entre 1 e 2 é a mesma que entre 3 e 4? Uma classificação de 4 realmente significa que a pessoa gosta de sorvete 4 vezes mais do que alguém que o classifica como 1? E assim por diante ... Quando você calcula a média aritmética, trata os números como se as diferenças entre eles fossem iguais. Mas essa é uma suposição bastante forte com dados ordinais e você teria que justificá-la.

Jens Kouros
fonte
Eu editei a referência para a resposta acima. As respostas podem mudar de ordem e, de fato, a resposta acima está neste momento abaixo, e isso pode mudar. Portanto, consulte os pôsteres, não a posição.
Nick Cox
0

Concordo com o conceito de que a média aritmética não pode ser verdadeiramente justificada nos dados da escala ordinal. Em vez de calcular a média, podemos usar o modo ou a mediana em situações que podem nos dar uma interpretação mais significativa de nossos resultados.

ayaz
fonte
Isso não aborda a questão de por que pode ser inapropriado.
Nick Cox