Na definição do desvio padrão, por que nós temos que conciliar a diferença da média para obter a média (E) e tomar a raiz quadrada de volta no final? Não podemos simplesmente pegar o valor absoluto da diferença e obter o valor esperado (médio) desses, e isso também não mostraria a variação dos dados? O número será diferente do método quadrado (o método do valor absoluto será menor), mas ainda deve mostrar a propagação dos dados. Alguém sabe por que adotamos essa abordagem quadrada como padrão?
A definição de desvio padrão:
Não podemos simplesmente pegar o valor absoluto e ainda assim ser uma boa medida?
Respostas:
Se o objetivo do desvio padrão é resumir a propagação de um conjunto de dados simétrico (ou seja, em geral a que distância cada dado está da média), precisamos de um bom método para definir como medir essa propagação.
Os benefícios da quadratura incluem:
A quadratura, no entanto, tem um problema como uma medida de spread e é que as unidades são todas ao quadrado, embora possamos preferir que o spread esteja nas mesmas unidades que os dados originais (pense em libras ao quadrado, dólares ao quadrado ou maçãs ao quadrado) . Portanto, a raiz quadrada nos permite retornar às unidades originais.
Suponho que você possa dizer que a diferença absoluta atribui peso igual à difusão de dados, enquanto a quadratura enfatiza os extremos. Tecnicamente, como outros salientaram, o quadrado torna a álgebra muito mais fácil de trabalhar e oferece propriedades que o método absoluto não possui (por exemplo, a variação é igual ao valor esperado do quadrado da distribuição menos o quadrado da média da distribuição)
É importante observar, no entanto, que não há razão para que você não consiga fazer a diferença absoluta, se essa é a sua preferência sobre como você deseja visualizar o 'spread' (tipo como algumas pessoas veem 5% como um limite mágico para os valores de, quando de fato depende da situação). De fato, existem de fato vários métodos concorrentes para medir o spread.p
Minha opinião é usar os valores ao quadrado porque gosto de pensar em como eles se relacionam com o teorema de estatística pitagórico: ... isso também me lembra que, ao trabalhar com variáveis aleatórias independentes, as variações adicionam, os desvios padrão não. Mas essa é apenas a minha preferência subjetiva pessoal, que eu principalmente uso apenas como auxílio à memória, fique à vontade para ignorar este parágrafo.c = a2+ b2------√
Uma análise muito mais aprofundada pode ser lida aqui .
fonte
A diferença quadrada tem propriedades matemáticas mais agradáveis; é continuamente diferenciável (agradável quando você deseja minimizá-la), é uma estatística suficiente para a distribuição gaussiana e é (uma versão) da norma L2 que é útil para provar a convergência e assim por diante.
O desvio médio absoluto (a notação de valor absoluto que você sugere) também é usado como uma medida de dispersão, mas não é tão "bem-comportado" quanto o erro ao quadrado.
fonte
Uma maneira de pensar nisso é que o desvio padrão é semelhante a uma "distância da média".
Compare isso com as distâncias no espaço euclidiano - isso fornece a verdadeira distância, onde o que você sugeriu (que, aliás, é o desvio absoluto ) é mais como um cálculo de distância de manhattan .
fonte
A razão pela qual calculamos o desvio padrão em vez do erro absoluto é que estamos assumindo que o erro seja normalmente distribuído . É uma parte do modelo.
Suponha que você estava medindo comprimentos muito pequenos com uma régua; o desvio padrão é uma métrica ruim para o erro, porque você sabe que nunca medirá acidentalmente um comprimento negativo. Uma métrica melhor seria uma que ajude a ajustar uma distribuição gama às suas medidas:
Como o desvio padrão, isso também não é negativo e diferenciável, mas é uma estatística de erro melhor para esse problema.
fonte
A resposta que melhor me satisfez é que ela se desvanece naturalmente da generalização de uma amostra para o espaço euclidiano n-dimensional. Certamente é discutível se isso é algo que deve ser feito, mas em qualquer caso:
Suponha que suas medidas X i sejam cada um um eixo em R n . Então seus dados x i definem um ponto x nesse espaço. Agora você pode notar que os dados são todos muito semelhantes entre si, para que possa representá-los com um único parâmetro de localização μ que é obrigado a mentir sobre a linha definida por X i = μ . Projetando sua datapoint para esta linha faz com que você μ = ˉ x , e a distância do ponto projetado μ 1 ao datapoint real é √n Xi Rn xi x μ Xi=μ μ^=x¯ μ^1 .n−1n−−−√σ^=∥x−μ^1∥
Esta abordagem também deixa uma interpretação geométrica para .ρ^=cos∠(x~⃗ ,y~⃗ )
fonte
O quadrado da diferença da média tem duas razões.
A variação é definida como o 2º momento do desvio (o VD aqui é ) e, portanto, o quadrado como momentos é simplesmente a expectativa de potências mais altas da variável aleatória.(x−μ)
Ter um quadrado em oposição à função de valor absoluto fornece uma boa função contínua e diferenciável (o valor absoluto não é diferenciável em 0) - o que a torna a escolha natural, especialmente no contexto da análise de estimativa e regressão.
A formulação ao quadrado também cai naturalmente fora dos parâmetros da Distribuição Normal.
fonte
Ainda outro motivo (além dos excelentes acima) vem do próprio Fisher, que mostrou que o desvio padrão é mais "eficiente" do que o desvio absoluto. Aqui, eficiente tem a ver com o quanto uma estatística flutuará em valor em diferentes amostras de uma população. Se sua população é normalmente distribuída, o desvio padrão de várias amostras dessa população tenderá, em média, a fornecer valores bastante semelhantes entre si, enquanto o desvio absoluto fornecerá números que se espalham um pouco mais. Agora, obviamente, isso está em circunstâncias ideais, mas esse motivo convenceu muitas pessoas (juntamente com a matemática sendo mais limpa), então a maioria das pessoas trabalhou com desvios padrão.
fonte
Para que as pessoas saibam, há uma pergunta sobre estouro de matemática sobre o mesmo tópico.
Por que é tão legal assim como números quadrados em termos de encontrar o desvio padrão
A mensagem de retirada é que o uso da raiz quadrada da variação leva a matemática mais fácil. Uma resposta semelhante é dada por Rich e Reed acima.
fonte
Observe o que isso torna possível: diga que eu jogue uma moeda justa 900 vezes. Qual é a probabilidade de que o número de cabeças recebidas esteja entre 440 e 455, inclusive? Basta encontrar o número esperado de cabeças ( ) e a variação do número de cabeças ( 225 = 15 2 ) e, em seguida, encontrar a probabilidade com uma distribuição normal (ou gaussiana) com a expectativa 450 e o desvio padrão 15 entre 439,5 e 455,5 . Abraham de Moivre fez isso com lançamentos de moedas no século 18, mostrando primeiro que a curva em forma de sino vale alguma coisa.450 225=152 450 15 439.5 455.5
fonte
Eu acho que o contraste entre o uso de desvios absolutos e quadrados é mais claro quando você ultrapassa uma única variável e pensa em regressão linear. Há uma boa discussão em http://en.wikipedia.org/wiki/Least_absolute_deviations , particularmente a seção "Contrastando os mínimos quadrados com os mínimos desvios absolutos", que contém links para alguns exercícios dos alunos com um conjunto de miniaplicativos em http: // www .math.wpi.edu / Material_do_Curso / SAS / lablets / 7.3 / 73_choices.html .
Para resumir, os desvios mínimos absolutos são mais robustos para os valores extremos do que os mínimos quadrados comuns, mas podem ser instáveis (pequenas alterações em um único dado podem gerar grandes alterações na linha ajustada) e nem sempre têm uma solução única - pode haver toda uma gama de linhas ajustadas. Além disso, desvios mínimos absolutos exigem métodos iterativos, enquanto os mínimos quadrados comuns têm uma solução simples de forma fechada, embora isso não seja tão importante agora como era nos dias de Gauss e Legendre, é claro.
fonte
Existem muitas razões; provavelmente o principal é que ele funciona bem como parâmetro de distribuição normal.
fonte
De muitas maneiras, o uso do desvio padrão para resumir a dispersão está chegando a uma conclusão. Você poderia dizer que o SD assume implicitamente uma distribuição simétrica por causa de seu tratamento igual da distância abaixo da média e da distância acima da média. O DS é surpreendentemente difícil de interpretar para não estatísticos. Alguém poderia argumentar que a diferença média de Gini tem aplicação mais ampla e é significativamente mais interpretável. Não é necessário declarar sua escolha de uma medida de tendência central, como o uso do DS faz para a média. A diferença média de Gini é a diferença absoluta média entre duas observações diferentes. Além de robusto e fácil de interpretar, passa a ser 0,98 tão eficiente quanto o SD se a distribuição fosse realmente gaussiana.
fonte
Estimar o desvio padrão de uma distribuição requer escolher uma distância.
Qualquer uma das seguintes distâncias pode ser usada:
Geralmente usamos a distância euclidiana natural ( ), que é a que todos usam na vida cotidiana. A distância que você propõe é aquela com n = 1 . Ambos são bons candidatos, mas são diferentes.n=2 n=1
Pode-se decidir usar também.n=3
Não tenho certeza de que você gostará da minha resposta, meu argumento contrário aos outros não é demonstrar que é melhor. Penso que se você deseja estimar o desvio padrão de uma distribuição, pode absolutamente usar uma distância diferente.n=2
fonte
Depende do que você está falando quando diz "disseminação dos dados". Para mim, isso pode significar duas coisas:
Para o ponto 1), não há razão específica para usar o desvio padrão como uma medida de spread, exceto quando você tem uma distribuição de amostra normal. A medida é uma medida mais apropriada no caso de uma distribuição de Amostragem de Laplace . Meu palpite é que o desvio padrão seja usado aqui por causa da intuição herdada do ponto 2). Provavelmente também devido ao sucesso da modelagem de mínimos quadrados em geral, para a qual o desvio padrão é a medida apropriada. Provavelmente também porque calcular E ( X 2 ) é geralmente mais fácil do que calcular E ( |E(|X−μ|) E(X2) para a maioria das distribuições.E(|X|)
Agora, para o ponto 2), há uma boa razão para usar a variância / desvio padrão como a medida do spread, em um caso particular, mas muito comum. Você pode vê-lo na aproximação de Laplace a uma posterior. Com Dados e informações anteriores I , escreva o posterior para um parâmetro θ como:D I θ
Se inserirmos essa aproximação, obtemos:
fonte
"Por que quadrado a diferença" em vez de "tomar valor absoluto"? Para responder com muita exatidão, há literatura que fornece os motivos pelos quais foi adotado e o motivo pelo qual a maioria desses motivos não se aplica. "Não podemos simplesmente pegar o valor absoluto ...?". Estou ciente da literatura em que a resposta é sim, está sendo feita, e isso é considerado vantajoso.
O autor Gorard afirma, primeiro, que o uso de quadrados foi adotado anteriormente por motivos de simplicidade de cálculo, mas que esses motivos originais não se sustentam mais. Gorard afirma, em segundo lugar, que o OLS foi adotado porque Fisher descobriu que os resultados em amostras de análises que usavam o OLS tinham desvios menores do que aqueles que usavam diferenças absolutas (grosso modo). Assim, parece que o OLS pode ter benefícios em algumas circunstâncias ideais; no entanto, Gorard observa que existe algum consenso (e ele afirma que Fisher concordou) de que, em condições reais (medição imperfeita de observações, distribuições não uniformes, estudos de uma população sem inferência de uma amostra), o uso de quadrados é pior do que diferenças absolutas.
A resposta de Gorard à sua pergunta "Não podemos simplesmente pegar o valor absoluto da diferença e obter o valor esperado (médio) deles?" é sim. Outra vantagem é que o uso de diferenças produz medidas (medidas de erros e variações) que estão relacionadas à maneira como experimentamos essas idéias na vida. Gorard diz imaginar pessoas que dividem a conta do restaurante de maneira uniforme e algumas podem intuitivamente perceber que esse método é injusto. Ninguém lá vai corrigir os erros; as diferenças são o ponto.
Finalmente, o uso de diferenças absolutas, ele observa, trata cada observação igualmente, enquanto, ao contrário do quadrado, as diferenças dão às observações um peso muito menor do que as bem previstas, o que é como permitir que certas observações fossem incluídas no estudo várias vezes. Em resumo, seu impulso geral é que hoje não existem muitas razões vencedoras para usar quadrados e que, ao contrário, usar diferenças absolutas tem vantagens.
Referências:
fonte
Porque os quadrados podem permitir o uso de muitas outras operações ou funções matemáticas mais facilmente do que valores absolutos.
Exemplo: os quadrados podem ser integrados, diferenciados, podem ser usados em funções trigonométricas, logarítmicas e outras, com facilidade.
fonte
Ao adicionar variáveis aleatórias, suas variações adicionam, para todas as distribuições. A variação (e, portanto, o desvio padrão) é uma medida útil para quase todas as distribuições e não se limita às distribuições gaussianas (também conhecidas como "normais"). Isso favorece usá-lo como nossa medida de erro. A falta de exclusividade é um problema sério com diferenças absolutas, pois geralmente há um número infinito de "ajustes" de medidas iguais, e ainda assim claramente o "que está no meio" é o mais realisticamente favorecido. Além disso, mesmo nos computadores atuais, a eficiência computacional é importante. Trabalho com grandes conjuntos de dados e o tempo da CPU é importante. No entanto, não existe uma "melhor" medida absoluta única de resíduos, como apontado por algumas respostas anteriores. Às vezes, circunstâncias diferentes exigem medidas diferentes.
fonte
Naturalmente, você pode descrever a dispersão de uma distribuição de qualquer forma significativa (desvio absoluto, quantis, etc.).
Um fato interessante é que a variação é o segundo momento central e toda distribuição é descrita exclusivamente por seus momentos, se existirem. Outro fato interessante é que a variação é muito mais tratável matematicamente do que qualquer métrica comparável. Outro fato é que a variância é um dos dois parâmetros da distribuição normal para a parametrização usual, e a distribuição normal possui apenas 2 momentos centrais diferentes de zero, que são esses dois parâmetros. Mesmo para distribuições não normais, pode ser útil pensar em uma estrutura normal.
A meu ver, a razão pela qual o desvio padrão existe é que, em aplicações, a raiz quadrada da variação aparece regularmente (como para padronizar uma variável aleatória), o que exigia um nome para ela.
fonte
Uma abordagem diferente e talvez mais intuitiva é quando você pensa em regressão linear versus regressão mediana.
Em outras palavras, o uso de erro absoluto ou quadrado depende se você deseja modelar o valor esperado ou o valor mediano.
Koenker e Hallock têm um bom artigo sobre regressão quantílica, onde a regressão mediana é um caso especial: http://master272.com/finance/QR/QRJEP.pdf .
fonte
Meu palpite é o seguinte: a maioria das populações (distribuições) tende a se reunir em torno da média. Quanto mais longe um valor estiver da média, mais raro será. Para expressar adequadamente o quão "fora de linha" é um valor, é necessário levar em consideração a distância da média e a consciência (normalmente falando) da ocorrência. Quadrar a diferença da média faz isso, em comparação com valores que têm desvios menores. Depois de calcular a média de todas as variações, não há problema em obter a raiz quadrada, que retorna as unidades às suas dimensões originais.
fonte
A quadratura amplia desvios maiores.
Se sua amostra tiver valores que estão em todo o gráfico, para trazer os 68,2% para o primeiro desvio padrão, seu desvio padrão precisará ser um pouco maior. Se todos os seus dados tendem a cair em torno da média, σ pode ser mais rígido.
Alguns dizem que é para simplificar os cálculos. Usar a raiz quadrada positiva do quadrado teria resolvido isso, para que o argumento não flutue.
Portanto, se a simplicidade algébrica fosse o objetivo, seria assim:
Obviamente, ao quadrado, isso também tem o efeito de amplificar erros externos (doh!).
fonte
sqrt((x-mu)^2)
, sua fórmula é enganosa. Além disso, o fato de o quadrado ter o efeito de amplificar desvios maiores não significa que essa é a razão para preferir a variação sobre o MAD . Se é que isso é uma propriedade neutra, já que muitas vezes queremos algo mais robusto como o MAD . Por fim, o fato de a variação ser mais matematicamente tratável do que o MAD é uma questão muito mais profunda matematicamente do que você transmitiu neste post.Quadramos a diferença dos xs da média, porque a distância euclidiana, proporcional à raiz quadrada dos graus de liberdade (número de xs, em uma medida populacional), é a melhor medida de dispersão.
Cálculo de Distância
Qual é a distância do ponto 0 ao ponto 5?
Ok, isso é trivial porque é uma dimensão única.
Que tal a distância de um ponto no ponto 0, 0 ao ponto 3, 4?
Se pudermos apenas ir em uma dimensão por vez (como nos quarteirões da cidade), basta adicionar os números. (Isso às vezes é conhecido como a distância de Manhattan).
Mas e quanto a ir em duas dimensões ao mesmo tempo? Então (pelo teorema de Pitágoras que todos aprendemos no ensino médio), arredondamos a distância em cada dimensão, somamos os quadrados e pegamos a raiz quadrada para encontrar a distância da origem ao ponto.
Que tal a distância de um ponto em 0, 0, 0 até o ponto 1, 2, 2?
Isso é apenas
porque a distância para os dois primeiros x's forma a perna para calcular a distância total com o x final.
Podemos continuar estendendo a regra de quadratura da distância de cada dimensão, isso generaliza para o que chamamos de distância euclidiana, para medições ortogonais no espaço hiperdimensional, assim:
e assim a soma dos quadrados ortogonais é a distância ao quadrado:
O que torna uma medição ortogonal (ou perpendicularmente) a outra? A condição é que não há relação entre as duas medições. Procuramos que essas medidas sejam independentes e distribuídas individualmente ( iid ).
Variação
Agora, lembre-se da fórmula da variação populacional (da qual obteremos o desvio padrão):
Se já centralizamos os dados em 0 subtraindo a média, temos:
Desvio padrão
Então temos o desvio padrão, que é apenas a raiz quadrada da variação:
Qual é, equivalentemente, a distância , dividida pela raiz quadrada dos graus de liberdade:
Desvio médio absoluto
Desvio absoluto médio (MAD), é uma medida de dispersão que usa a distância de Manhattan ou a soma dos valores absolutos das diferenças em relação à média.
Novamente, supondo que os dados estejam centralizados (a média subtraída), temos a distância de Manhattan dividida pelo número de medições:
Discussão
Esta tabela reflete as informações acima de uma maneira mais concisa:
Comentários:
Aqui estão 10 simulações de um milhão de amostras da distribuição normal padrão:
Conclusão
Preferimos as diferenças quadráticas ao calcular uma medida de dispersão, porque podemos explorar a distância euclidiana, o que nos dá uma melhor estatística descritiva da dispersão. Quando existem valores relativamente extremos, a distância euclidiana é responsável pela estatística, enquanto a distância de Manhattan dá a cada medida o mesmo peso.
fonte