Por que as medidas de dispersão são menos intuitivas que a centralidade?

11

Parece haver algo em nosso entendimento humano que cria dificuldades em compreender intuitivamente a idéia de variação. Num sentido estrito, a resposta é imediata: a quadratura nos afasta da nossa compreensão reflexiva. Mas, é apenas a variação que apresenta problemas ou é toda a idéia de espalhar nos dados? Buscamos refúgio no intervalo, ou apenas declarando o mínimo e o máximo, mas estamos apenas evitando a dificuldade real? Na média (modo ou mediana), encontramos o centro, o resumo ... uma simplificação; a variação espalha as coisas e as deixa desconfortáveis. O homem primitivo certamente usaria a média na caça de animais, triangulando com a oração, mas presumo que muito mais tarde sentimos a necessidade de quantificar a propagação das coisas. De fato, o termo variância foi introduzido pela primeira vez por Ronald Fisher em 1918 no artigo "A correlação entre parentes na suposição de herança mendeliana".

A maioria das pessoas que acompanham as notícias teria ouvido a história do discurso infeliz de Larry Summers sobre aptidões matemáticas por gênero , possivelmente relacionado à sua saída de Harvard. Em poucas palavras, ele sugeriu uma variação mais ampla na distribuição da competência matemática entre homens do que em mulheres, embora ambos os sexos tenham a mesma média. Independentemente da adequação ou implicações políticas, isso parece ser substanciado na literatura científica .

Mais importante, talvez o entendimento de questões como as mudanças climáticas - por favor, perdoe-me por trazer à tona tópicos que poderiam levar a discussões desnecessárias - pela população em geral poderia ser auxiliada por uma maior familiaridade com a idéia de variação.

A questão é agravada quando tentamos compreender a covariância, como mostrado neste post , com uma ótima e colorida resposta de @whuber aqui .

Pode ser tentador descartar essa questão como muito geral, mas é claro que estamos discutindo indiretamente, como neste post , onde as matemáticas são triviais, mas o conceito continua sendo esquivo, desmentindo uma aceitação mais confortável do alcance como em oposição à variação de idéia mais sutil .

Em uma carta de Fisher à EBFord , referindo-se à controvérsia sobre sua suspeita nos experimentos mendelianos, lemos: "Agora, quando os dados foram falsificados, sei muito bem como geralmente as pessoas subestimam a frequência de grandes desvios de chance , de modo que o a tendência é sempre fazê-los concordar muito bem com as expectativas ... os desvios [nos dados de Mendel] são surpreendentemente pequenos ". O grande RA Fisher está tão interessado em suspeitar de pequenas variações em pequenas amostras que ele escreve : "continua sendo uma possibilidade, entre outras coisas, que Mendel tenha sido enganado por algum assistente que sabia muito bem o que era esperado".

E é inteiramente possível que esse viés em direção à disseminação de subestimação ou incompreensão persista hoje. Em caso afirmativo, existe alguma explicação para o motivo de estarmos mais à vontade com os conceitos de centralidade do que com a dispersão? Existe algo que possamos fazer para internalizar a ideia?

Alguns conceitos "vemos" num piscar de olhos, e depois não o vemos, ainda os aceitamos e seguimos em frente. Por exemplo, ou , mas na verdade nem precisamos saber sobre essas identidades para tomar decisões em nossas vidas diárias. O mesmo não se aplica à variação. Então, não deveria ser mais intuitivo?E = m c 2eiπ+1=0E=mc2

Nassim Taleb fez uma fortuna aplicando sua percepção (bem, na verdade de Benoit Mandelbrot ) de compreensão falha da variância para explorar tempos de crise, e tentou tornar o conceito compreensível para as massas com frases como "a variância da variância é, epistemologicamente" , uma medida de falta de conhecimento sobre a falta de conhecimento da média "- sim, há mais contexto para esse bocado ... E, para seu crédito, ele também simplificou a idéia da Turquia do Dia de Ação de Graças . Alguém pode argumentar que a chave para investir é entender a variação (e covariância).

Então, por que é tão escorregadio e como remediá-lo? Sem fórmulas ... apenas a intuição de anos de lidar com a incerteza ... não sei a resposta, mas não é matemática (necessariamente, isso é): por exemplo, me pergunto se a idéia de curtose interfere na variação. No gráfico a seguir, temos dois histogramas sobrepostos com praticamente a mesma variação; no entanto, minha reação instintiva é que aquela com as caudas mais longas e o pico mais alto (curtose mais alta) está mais "espalhada":

Antoni Parellada
fonte
2
A variação é difícil de entender principalmente porque é ao quadrado, eu acho. As pessoas não parecem ter muita dificuldade com o desvio médio absoluto. (Eu costumo usar essa idéia para trabalhar até o desvio padrão, por exemplo.)
gung - Reintegrar Monica
É difícil desaprender o que se aprendeu, mas não tenho certeza de que a premissa do título esteja correta. Por exemplo, as diferenças, incluindo o intervalo, parecem, de certa forma, mais intuitivas do que resumos como média ou mediana. Contas diferem; mas, embora a média ocorra na matemática clássica, seu uso para resumir dados emergiu apenas lenta e dolorosamente por volta do século XVII.
Nick Cox
1
Na esperança de que as respostas para isso não sejam desviadas para detalhes que não necessariamente se relacionem com o problema - essa questão é mais sobre variação em si (para a qual a discussão sobre quadratura pode ser relevante) ou sobre o conceito mais geral de variabilidade (dispersão, propagação, variação - para a qual não o faria)? [Gostaria também de saber sobre a extensão em que realmente podemos generalizar sobre o senso de outras pessoas de intuição em relação]
Glen_b -Reinstate Monica
O último. Eu deveria deixar claro. Não tenho certeza sobre a questão em geral. Sinta-se livre para fechá-lo.
Antoni Parellada
@ Antoni Por que eu gostaria de fechá-lo? Qualquer forma seria uma boa pergunta; é só que as respostas seriam diferentes.
Glen_b -Reinstala Monica 23/11

Respostas:

9

Partilho seu sentimento de que a variação é um pouco menos intuitiva. Mais importante, a variação como medida é otimizada para certas distribuições e tem menos valor para distribuições assimétricas. A diferença absoluta média da média não é muito mais intuitiva, a meu ver, porque exige que se escolha a média como a medida da tendência central. Prefiro a diferença média de Gini - a diferença absoluta média sobre todos os pares de observações. É intuitivo, robusto e eficiente. Em eficiência, se os dados vierem de uma distribuição gaussiana, a diferença média de Gini com um fator de redimensionamento apropriado aplicado a ele é 0,98 tão eficiente quanto o desvio padrão da amostra. Existe uma fórmula de computação eficiente para a diferença média de Gini depois que os dados são classificados. O código R está abaixo.

w <- 4 * ((1:n) - (n - 1)/2)/n/(n - 1)
sum(w * sort(x - mean(x)))
Frank Harrell
fonte
Isso tende a enfatizar demais a dispersão? Eu estava jogando com o seu código aqui
Antoni Parellada
1
É uma medida válida de dispersão. Se você gosta de sua definição, ela não enfatiza demais nada.
Frank Harrell
Absolutamente. Tomo sua postagem como uma oportunidade de aprender e meu comentário foi minha maneira de demonstrar interesse. Eu só tenho que ler mais sobre isso. Obrigado!
Antoni Parellada
1
Somente se o vetor xjá tiver sido classificado.
Frank Harrell
4

Aqui estão alguns dos meus pensamentos. Ele não trata de todos os ângulos dos quais você pode olhar para a sua pergunta; de fato, há muito que não aborda (a pergunta parece um pouco ampla).

Por que é difícil para os leigos entender o cálculo matemático da variação?

A variação é essencialmente como as coisas estão espalhadas. Isso é fácil de entender, mas a maneira como é calculada pode parecer contra-intuitiva para um leigo.

A questão é que as diferenças em relação à média são ao quadrado (em seguida, calculadas a média) e depois com raiz quadrada para obter o desvio padrão. Nós entender por que este método é necessário - a quadratura é fazer com que os valores positivos e, em seguida, eles são quadrados enraizada para obter as unidades originais. No entanto, é provável que um leigo se confunda com o motivo pelo qual os números são quadrados e com raiz quadrada. Parece que ele se cancela (não), então parece inútil / estranho.

O que é mais intuitivo para eles é encontrar o spread simplesmente calculando a média das diferenças absolutas entre a média e cada ponto (chamado desvio absoluto médio). Esse método não requer quadrado e raiz quadrada, portanto, é muito mais intuitivo.

Observe que, apenas porque o Desvio médio absoluto é mais direto, não significa que seja 'melhor'. O debate sobre o uso de quadrados ou valores absolutos vem ocorrendo há um século, envolvendo muitos estatísticos importantes, de modo que uma pessoa aleatória como eu não pode simplesmente aparecer aqui e dizer que é melhor. (Quadrados médios para encontrar variação são obviamente mais populares)

Em poucas palavras: o quadrado para encontrar variação parece menos intuitivo para os leigos que considerariam a média das diferenças absolutas mais direta. No entanto, eu não acho que as pessoas têm um problema com a compreensão da idéia de propagação próprio

Yang Li
fonte
3
+1 para apontar o efeito da quadratura. Mas acho que o problema vai além da construção matemática real para medir a propagação. Está em um nível mais radical do tronco cerebral - longe do centro não parece natural; o ponto central é.
Antoni Parellada 23/11
Ah entendo. Eu não tinha certeza se era sobre 'spread' ou a maneira matemática específica de encontrar o spread. Eu tenho medo Eu não posso ajudá-lo com o ex - pessoalmente eu não acho que as pessoas têm que muito de um problema com a compreensão do conceito de propagação ...
Yang Li
Eu faço. Tenho muitos problemas para entender o grau de incerteza, que em grande parte é imediatamente uma consequência da variação. Eu simplesmente não sei o porquê.
Antoni Parellada
3

Aqui vai minha opinião sobre sua pergunta.

Começarei questionando uma resposta acima mencionada e depois tentarei expressar meu ponto de vista.

Pergunta para hipótese anterior:

Será que os quadrados dificultam a compreensão das medidas de dispersão, como o desvio médio quadrado? Concordo que o quadrado torna mais difícil, trazendo complexidade matemática, mas se a resposta fosse apenas os quadrados, o Desvio Médio Absoluto seria tão simples de entender e medidas de centralidade.

Opinião:

Penso que o que dificulta a compreensão de medidas de dispersão é que a própria dispersão é uma informação bidimensional. Tentar resumir uma informação bidimensional em uma métrica implica uma perda parcial de informações, o que consequentemente causa confusão.

Exemplo:

Um exemplo que pode ajudar a explicar o conceito acima é o seguinte. Vamos obter 2 conjuntos diferentes de dados:

  1. Segue uma distribuição gaussiana
  2. Segue uma distribuição desconhecida e assimétrica

Suponhamos também que a dispersão em termos de desvio padrão seja 1,0.

Minha mente tende a interpretar a dispersão do conjunto 1 muito mais clara que a do conjunto 2. Nesse caso específico, a razão do meu melhor entendimento é explicada, pois saber antecipadamente a forma bidimensional da distribuição me permite entender a medida de distribuição em questão. termos de probabilidade em torno da média gaussiana centralizada. Em outras palavras, a distribuição gaussiana me deu a dica bidimensional que eu precisava para traduzir melhor a partir da medida da dispersão.

Conclusão:

Em suma, não há maneira tangível de capturar em uma Medida de Desvio tudo o que existe em uma informação bidimensional. O que costumo fazer para entender a dispersão sem olhar diretamente para a própria distribuição é combinar muitas medidas que explicam uma certa distribuição. Eles estabelecerão o contexto para que minha mente tenha uma melhor compreensão da própria medida de dispersão. Se eu pudesse usar gráficos, certamente os gráficos de caixa são realmente úteis para visualizá-lo.

Ótima discussão que me fez pensar muito sobre o assunto. Eu ficaria feliz em ouvir sua opinião.

fernandosjp
fonte
1
Uma resposta bem pensada +1. Eu realmente não tenho nada a acrescentar, exceto que acho que provavelmente existem outras razões que valem a pena investigar.
Yang Li
1

Penso que uma razão simples pela qual as pessoas têm mais dificuldade com a variabilidade (variação, desvio padrão, MAD ou qualquer outra coisa) é que você não pode realmente entender a variabilidade até depois de entender a ideia de centro. Isso ocorre porque todas as medidas de variabilidade são medidas com base na distância do centro.

Conceitos como média e mediana são conceitos paralelos, você pode aprender primeiro um e algumas pessoas podem ter uma melhor compreensão de uma e outras pessoas entenderão a outra melhor. Mas o spread é medido a partir do centro (para alguma definição de centro), então não pode realmente ser entendido primeiro.

Greg Snow
fonte
+1 Isso faz muito sentido - é um conceito secundário ...
Antoni Parellada
@ Greg Snow: exceto que não está correto; veja Gini significa diferença da resposta de Frank Harrells, que não mede o desvio de um centro.
Kjetil b halvorsen