Parece haver algo em nosso entendimento humano que cria dificuldades em compreender intuitivamente a idéia de variação. Num sentido estrito, a resposta é imediata: a quadratura nos afasta da nossa compreensão reflexiva. Mas, é apenas a variação que apresenta problemas ou é toda a idéia de espalhar nos dados? Buscamos refúgio no intervalo, ou apenas declarando o mínimo e o máximo, mas estamos apenas evitando a dificuldade real? Na média (modo ou mediana), encontramos o centro, o resumo ... uma simplificação; a variação espalha as coisas e as deixa desconfortáveis. O homem primitivo certamente usaria a média na caça de animais, triangulando com a oração, mas presumo que muito mais tarde sentimos a necessidade de quantificar a propagação das coisas. De fato, o termo variância foi introduzido pela primeira vez por Ronald Fisher em 1918 no artigo "A correlação entre parentes na suposição de herança mendeliana".
A maioria das pessoas que acompanham as notícias teria ouvido a história do discurso infeliz de Larry Summers sobre aptidões matemáticas por gênero , possivelmente relacionado à sua saída de Harvard. Em poucas palavras, ele sugeriu uma variação mais ampla na distribuição da competência matemática entre homens do que em mulheres, embora ambos os sexos tenham a mesma média. Independentemente da adequação ou implicações políticas, isso parece ser substanciado na literatura científica .
Mais importante, talvez o entendimento de questões como as mudanças climáticas - por favor, perdoe-me por trazer à tona tópicos que poderiam levar a discussões desnecessárias - pela população em geral poderia ser auxiliada por uma maior familiaridade com a idéia de variação.
A questão é agravada quando tentamos compreender a covariância, como mostrado neste post , com uma ótima e colorida resposta de @whuber aqui .
Pode ser tentador descartar essa questão como muito geral, mas é claro que estamos discutindo indiretamente, como neste post , onde as matemáticas são triviais, mas o conceito continua sendo esquivo, desmentindo uma aceitação mais confortável do alcance como em oposição à variação de idéia mais sutil .
Em uma carta de Fisher à EBFord , referindo-se à controvérsia sobre sua suspeita nos experimentos mendelianos, lemos: "Agora, quando os dados foram falsificados, sei muito bem como geralmente as pessoas subestimam a frequência de grandes desvios de chance , de modo que o a tendência é sempre fazê-los concordar muito bem com as expectativas ... os desvios [nos dados de Mendel] são surpreendentemente pequenos ". O grande RA Fisher está tão interessado em suspeitar de pequenas variações em pequenas amostras que ele escreve : "continua sendo uma possibilidade, entre outras coisas, que Mendel tenha sido enganado por algum assistente que sabia muito bem o que era esperado".
E é inteiramente possível que esse viés em direção à disseminação de subestimação ou incompreensão persista hoje. Em caso afirmativo, existe alguma explicação para o motivo de estarmos mais à vontade com os conceitos de centralidade do que com a dispersão? Existe algo que possamos fazer para internalizar a ideia?
Alguns conceitos "vemos" num piscar de olhos, e depois não o vemos, ainda os aceitamos e seguimos em frente. Por exemplo, ou , mas na verdade nem precisamos saber sobre essas identidades para tomar decisões em nossas vidas diárias. O mesmo não se aplica à variação. Então, não deveria ser mais intuitivo?E = m c 2
Nassim Taleb fez uma fortuna aplicando sua percepção (bem, na verdade de Benoit Mandelbrot ) de compreensão falha da variância para explorar tempos de crise, e tentou tornar o conceito compreensível para as massas com frases como "a variância da variância é, epistemologicamente" , uma medida de falta de conhecimento sobre a falta de conhecimento da média "- sim, há mais contexto para esse bocado ... E, para seu crédito, ele também simplificou a idéia da Turquia do Dia de Ação de Graças . Alguém pode argumentar que a chave para investir é entender a variação (e covariância).
Então, por que é tão escorregadio e como remediá-lo? Sem fórmulas ... apenas a intuição de anos de lidar com a incerteza ... não sei a resposta, mas não é matemática (necessariamente, isso é): por exemplo, me pergunto se a idéia de curtose interfere na variação. No gráfico a seguir, temos dois histogramas sobrepostos com praticamente a mesma variação; no entanto, minha reação instintiva é que aquela com as caudas mais longas e o pico mais alto (curtose mais alta) está mais "espalhada":
fonte
Respostas:
Partilho seu sentimento de que a variação é um pouco menos intuitiva. Mais importante, a variação como medida é otimizada para certas distribuições e tem menos valor para distribuições assimétricas. A diferença absoluta média da média não é muito mais intuitiva, a meu ver, porque exige que se escolha a média como a medida da tendência central. Prefiro a diferença média de Gini - a diferença absoluta média sobre todos os pares de observações. É intuitivo, robusto e eficiente. Em eficiência, se os dados vierem de uma distribuição gaussiana, a diferença média de Gini com um fator de redimensionamento apropriado aplicado a ele é 0,98 tão eficiente quanto o desvio padrão da amostra. Existe uma fórmula de computação eficiente para a diferença média de Gini depois que os dados são classificados. O código R está abaixo.
fonte
x
já tiver sido classificado.Aqui estão alguns dos meus pensamentos. Ele não trata de todos os ângulos dos quais você pode olhar para a sua pergunta; de fato, há muito que não aborda (a pergunta parece um pouco ampla).
Por que é difícil para os leigos entender o cálculo matemático da variação?
A variação é essencialmente como as coisas estão espalhadas. Isso é fácil de entender, mas a maneira como é calculada pode parecer contra-intuitiva para um leigo.
A questão é que as diferenças em relação à média são ao quadrado (em seguida, calculadas a média) e depois com raiz quadrada para obter o desvio padrão. Nós entender por que este método é necessário - a quadratura é fazer com que os valores positivos e, em seguida, eles são quadrados enraizada para obter as unidades originais. No entanto, é provável que um leigo se confunda com o motivo pelo qual os números são quadrados e com raiz quadrada. Parece que ele se cancela (não), então parece inútil / estranho.
O que é mais intuitivo para eles é encontrar o spread simplesmente calculando a média das diferenças absolutas entre a média e cada ponto (chamado desvio absoluto médio). Esse método não requer quadrado e raiz quadrada, portanto, é muito mais intuitivo.
Observe que, apenas porque o Desvio médio absoluto é mais direto, não significa que seja 'melhor'. O debate sobre o uso de quadrados ou valores absolutos vem ocorrendo há um século, envolvendo muitos estatísticos importantes, de modo que uma pessoa aleatória como eu não pode simplesmente aparecer aqui e dizer que é melhor. (Quadrados médios para encontrar variação são obviamente mais populares)
Em poucas palavras: o quadrado para encontrar variação parece menos intuitivo para os leigos que considerariam a média das diferenças absolutas mais direta. No entanto, eu não acho que as pessoas têm um problema com a compreensão da idéia de propagação próprio
fonte
Aqui vai minha opinião sobre sua pergunta.
Começarei questionando uma resposta acima mencionada e depois tentarei expressar meu ponto de vista.
Pergunta para hipótese anterior:
Será que os quadrados dificultam a compreensão das medidas de dispersão, como o desvio médio quadrado? Concordo que o quadrado torna mais difícil, trazendo complexidade matemática, mas se a resposta fosse apenas os quadrados, o Desvio Médio Absoluto seria tão simples de entender e medidas de centralidade.
Opinião:
Penso que o que dificulta a compreensão de medidas de dispersão é que a própria dispersão é uma informação bidimensional. Tentar resumir uma informação bidimensional em uma métrica implica uma perda parcial de informações, o que consequentemente causa confusão.
Exemplo:
Um exemplo que pode ajudar a explicar o conceito acima é o seguinte. Vamos obter 2 conjuntos diferentes de dados:
Suponhamos também que a dispersão em termos de desvio padrão seja 1,0.
Minha mente tende a interpretar a dispersão do conjunto 1 muito mais clara que a do conjunto 2. Nesse caso específico, a razão do meu melhor entendimento é explicada, pois saber antecipadamente a forma bidimensional da distribuição me permite entender a medida de distribuição em questão. termos de probabilidade em torno da média gaussiana centralizada. Em outras palavras, a distribuição gaussiana me deu a dica bidimensional que eu precisava para traduzir melhor a partir da medida da dispersão.
Conclusão:
Em suma, não há maneira tangível de capturar em uma Medida de Desvio tudo o que existe em uma informação bidimensional. O que costumo fazer para entender a dispersão sem olhar diretamente para a própria distribuição é combinar muitas medidas que explicam uma certa distribuição. Eles estabelecerão o contexto para que minha mente tenha uma melhor compreensão da própria medida de dispersão. Se eu pudesse usar gráficos, certamente os gráficos de caixa são realmente úteis para visualizá-lo.
Ótima discussão que me fez pensar muito sobre o assunto. Eu ficaria feliz em ouvir sua opinião.
fonte
Penso que uma razão simples pela qual as pessoas têm mais dificuldade com a variabilidade (variação, desvio padrão, MAD ou qualquer outra coisa) é que você não pode realmente entender a variabilidade até depois de entender a ideia de centro. Isso ocorre porque todas as medidas de variabilidade são medidas com base na distância do centro.
Conceitos como média e mediana são conceitos paralelos, você pode aprender primeiro um e algumas pessoas podem ter uma melhor compreensão de uma e outras pessoas entenderão a outra melhor. Mas o spread é medido a partir do centro (para alguma definição de centro), então não pode realmente ser entendido primeiro.
fonte