Eu li em vários lugares que o cálculo da média de uma variável ordinal é inadequado. Estou tentando entender por que isso pode ser inapropriado. Eu acho que é porque, em geral, uma variável ordinal não é normalmente distribuída e, portanto, calcular a média dará uma representação imprecisa. Alguém poderia fornecer um raciocínio mais detalhado sobre por que o cálculo da média de uma variável ordinal pode ser inadequado?
mean
ordinal-data
luciano
fonte
fonte
Respostas:
Uma resposta curta é que isso é controverso. Ao contrário do que você menciona, as pessoas em muitos campos usam meios da balança ordinal e geralmente ficam felizes com o que querem. As médias de notas ou o equivalente em muitos sistemas educacionais são um exemplo.
No entanto, dados ordinais que não estão sendo distribuídos normalmente não são uma razão válida, porque a média é
amplamente utilizado para distribuições não normais
matematicamente bem definido para muitas distribuições não normais, exceto em alguns casos patológicos.
Pode não ser uma boa ideia usar a média na prática se os dados definitivamente não forem normalmente distribuídos, mas isso é diferente.
Uma razão mais forte para não usar a média com dados ordinais é que seu valor depende de convenções de codificação. Códigos numéricos como 1, 2, 3, 4 são geralmente escolhidos apenas por simplicidade ou conveniência, mas, em princípio, poderiam igualmente ser 1, 23, 456, 7890, na medida em que correspondam a uma ordem definida em questão. Tomar a média em ambos os casos envolveria tomar essas convenções literalmente (a saber, como se os números não fossem arbitrários, mas justificáveis), e não há motivos rigorosos para isso. Você precisa de uma escala de intervalo na qual diferenças iguais entre valores possam ser tomadas literalmente para justificar a obtenção de médias. Considero o argumento principal, mas, como já indicado, as pessoas geralmente o ignoram e deliberadamente, porque acham meios úteis, independentemente do que dizem os teóricos da medição.
Aqui está um exemplo extra. Freqüentemente, as pessoas são convidadas a escolher um dos "discordo totalmente" ... "concordo totalmente" e (dependendo em parte do que o software deseja), os pesquisadores codificam isso como 1 .. 5 ou 0 .. 4 ou o que quiserem, ou o declaram como um fator ordenado (ou qualquer termo que o software use). Aqui a codificação é arbitrária e oculta às pessoas que respondem à pergunta.
Mas muitas vezes também são perguntadas às pessoas (digamos) em uma escala de 1 a 5, como você avalia alguma coisa? Existem muitos exemplos: sites, esportes, outros tipos de competições e, de fato, educação. Aqui, as pessoas estão sendo mostradas uma escala e sendo solicitadas a usá-la. É amplamente entendido que não-inteiros fazem sentido, mas você só pode usar números inteiros como uma convenção. Essa escala é ordinal? Alguns dizem que sim, outros dizem que não. Em outras palavras, parte do problema é que o que é escala ordinal é em si uma área confusa ou debatida.
Considere novamente as notas para o trabalho acadêmico, diga E a A. Muitas vezes, essas notas também são tratadas numericamente, digamos como 1 a 5, e rotineiramente as pessoas calculam médias para estudantes, cursos, escolas etc. e fazem análises adicionais desses dados. Embora continue sendo verdade que qualquer mapeamento para pontuações numéricas é arbitrário, mas aceitável, desde que preserve a ordem, na prática, as pessoas que atribuem e recebem notas sabem que as pontuações têm equivalentes numéricos e sabem que as notas serão calculadas em média .
Uma razão pragmática para o uso de meios é que medianas e modos geralmente são resumos ruins das informações contidas nos dados. Suponha que você tenha uma escala que discorde totalmente, concorde totalmente e, por conveniência, codifique os pontos 1 a 5. Agora imagine uma amostra codificada 1, 1, 2, 2, 2 e outra 1, 2, 2, 4, 5. Agora, aumente suas mãos se você acha que mediana e moda são os únicos resumos justificáveis porque é uma escala ordinal. Agora levante a mão se você achar útil a média também, independentemente de as somas estarem bem definidas, etc.
Naturalmente, a média seria um resumo hipersensível se os códigos fossem quadrados ou cubos de 1 a 5, digamos, e talvez não seja o que você deseja. (Se seu objetivo é identificar os participantes rapidamente, pode ser exatamente o que você deseja!) Mas é exatamente por isso que a codificação convencional com códigos inteiros sucessivos é uma opção prática, porque geralmente funciona muito bem na prática. Esse não é um argumento que tenha qualquer peso com os teóricos da medição, nem deveria, mas os analistas de dados devem estar interessados em produzir resumos ricos em informações.
Concordo com quem diz: use toda a distribuição de frequências, mas esse não é o ponto em questão.
fonte
Suponha que adotemos valores ordinais, por exemplo, 1 para discordo totalmente, 2 para discordo, 3 para concordo e 4 para concordo totalmente. Se quatro pessoas derem as respostas 1,2,3 e 4, qual seria o significado? É (1 + 2 + 3 + 4) /4=2,50.
Como isso deve ser interpretado, quando a resposta média de quatro pessoas é "discorda ou concorda"? É por isso que não devemos usar mean para dados ordinais.
fonte
Eu concordo totalmente com @Azeem. Mas apenas para levar esse ponto para casa, deixe-me elaborar um pouco mais.
Digamos que você tenha dados ordinais, como no exemplo de @Azeem, onde sua escala varia de 1 a 4. E também digamos que algumas pessoas classifiquem algo (como sorvete) nessa escala. Imagine que você obtenha os seguintes resultados:
Quando você deseja interpretar os resultados, pode concluir algo na extensão de:
No entanto, você não sabe nada sobre os intervalos entre as classificações. A diferença entre 1 e 2 é a mesma que entre 3 e 4? Uma classificação de 4 realmente significa que a pessoa gosta de sorvete 4 vezes mais do que alguém que o classifica como 1? E assim por diante ... Quando você calcula a média aritmética, trata os números como se as diferenças entre eles fossem iguais. Mas essa é uma suposição bastante forte com dados ordinais e você teria que justificá-la.
fonte
Concordo com o conceito de que a média aritmética não pode ser verdadeiramente justificada nos dados da escala ordinal. Em vez de calcular a média, podemos usar o modo ou a mediana em situações que podem nos dar uma interpretação mais significativa de nossos resultados.
fonte