Por que quadrado a diferença em vez de assumir o valor absoluto no desvio padrão?

408

Na definição do desvio padrão, por que nós temos que conciliar a diferença da média para obter a média (E) e tomar a raiz quadrada de volta no final? Não podemos simplesmente pegar o valor absoluto da diferença e obter o valor esperado (médio) desses, e isso também não mostraria a variação dos dados? O número será diferente do método quadrado (o método do valor absoluto será menor), mas ainda deve mostrar a propagação dos dados. Alguém sabe por que adotamos essa abordagem quadrada como padrão?

A definição de desvio padrão:

σ=E[(Xμ)2].

Não podemos simplesmente pegar o valor absoluto e ainda assim ser uma boa medida?

σ=E[|Xμ|]

c4il
fonte
25
De certa forma, a medida que você propôs é amplamente usada em caso de análise de erro (qualidade do modelo) - então é chamada MAE, "erro absoluto médio".
8
Ao aceitar uma resposta, parece-me importante prestar atenção se a resposta é circular. A distribuição normal é baseada nessas medições de variação de termos de erro quadrático, mas isso não é, por si só, uma justificativa para o uso de (XM) ^ 2 sobre | XM |.
russellpierce
2
Você acha que o termo padrão significa que esse é o padrão hoje? Não é como perguntar por que o componente principal é "principal" e não secundário?
22610 robin girard
51
Todas as respostas oferecidas até agora são circulares. Eles se concentram na facilidade de cálculos matemáticos (o que é bom, mas de maneira alguma fundamental) ou nas propriedades da distribuição Gaussiana (Normal) e OLS. Por volta de 1800, Gauss começou com menos quadrados e variância e daqueles derivados da distribuição Normal - existe a circularidade. Uma razão verdadeiramente fundamental que ainda não foi invocada em nenhuma resposta é o papel único desempenhado pela variação no Teorema do Limite Central . Outra é a importância na teoria da decisão de minimizar a perda quadrática.
whuber
2
Taleb defende no Edge.org a retirada do desvio padrão e o uso do desvio médio absoluto.
precisa

Respostas:

188

Se o objetivo do desvio padrão é resumir a propagação de um conjunto de dados simétrico (ou seja, em geral a que distância cada dado está da média), precisamos de um bom método para definir como medir essa propagação.

Os benefícios da quadratura incluem:

  • A quadratura sempre fornece um valor positivo, portanto a soma não será zero.
  • A quadratura enfatiza diferenças maiores - um recurso que acaba sendo bom e ruim (pense no efeito que os discípulos têm).

A quadratura, no entanto, tem um problema como uma medida de spread e é que as unidades são todas ao quadrado, embora possamos preferir que o spread esteja nas mesmas unidades que os dados originais (pense em libras ao quadrado, dólares ao quadrado ou maçãs ao quadrado) . Portanto, a raiz quadrada nos permite retornar às unidades originais.

Suponho que você possa dizer que a diferença absoluta atribui peso igual à difusão de dados, enquanto a quadratura enfatiza os extremos. Tecnicamente, como outros salientaram, o quadrado torna a álgebra muito mais fácil de trabalhar e oferece propriedades que o método absoluto não possui (por exemplo, a variação é igual ao valor esperado do quadrado da distribuição menos o quadrado da média da distribuição)

É importante observar, no entanto, que não há razão para que você não consiga fazer a diferença absoluta, se essa é a sua preferência sobre como você deseja visualizar o 'spread' (tipo como algumas pessoas veem 5% como um limite mágico para os valores de, quando de fato depende da situação). De fato, existem de fato vários métodos concorrentes para medir o spread.p

Minha opinião é usar os valores ao quadrado porque gosto de pensar em como eles se relacionam com o teorema de estatística pitagórico: ... isso também me lembra que, ao trabalhar com variáveis ​​aleatórias independentes, as variações adicionam, os desvios padrão não. Mas essa é apenas a minha preferência subjetiva pessoal, que eu principalmente uso apenas como auxílio à memória, fique à vontade para ignorar este parágrafo.c=uma2+b2

Uma análise muito mais aprofundada pode ser lida aqui .

Tony Breyal
fonte
72
"A quadratura sempre dá um valor positivo, portanto a soma não será zero". e o mesmo acontece com valores absolutos.
Robin girard
32
@ Robin Girard: Isso está correto, portanto, por que antecedeu esse ponto com "Os benefícios da quadratura incluem". Eu não estava sugerindo que algo sobre valores absolutos nessa declaração. No entanto, entendo seu ponto de vista, considerarei removê-lo / reformular se outros acharem que não está claro.
Tony Breyal
15
Grande parte do campo das estatísticas robustas é uma tentativa de lidar com a sensibilidade excessiva a valores discrepantes, que é uma conseqüência da escolha da variação como uma medida da disseminação de dados (escala ou dispersão tecnicamente). pt.wikipedia.org/wiki/Robust_statistics
Thylacoleo 13/08
5
O artigo vinculado na resposta é um deus envie.
traggatmot
1
Eu acho que o parágrafo sobre Pitágoras está no local. Você pode pensar no erro como um vetor em dimensões, com sendo o número de amostras. O tamanho em cada dimensão é a diferença da média para essa amostra. O comprimento desse vetor (Pitágoras) é a raiz dos quadrados somados, ou seja, o desvio padrão. n [ ( x 1 - μ ) , ( x 2 - μ ) , ( x 3 - μ ) , . . . ]nn[(x1μ),(x2μ),(x3μ),...]
Arne Brasseur
138

A diferença quadrada tem propriedades matemáticas mais agradáveis; é continuamente diferenciável (agradável quando você deseja minimizá-la), é uma estatística suficiente para a distribuição gaussiana e é (uma versão) da norma L2 que é útil para provar a convergência e assim por diante.

O desvio médio absoluto (a notação de valor absoluto que você sugere) também é usado como uma medida de dispersão, mas não é tão "bem-comportado" quanto o erro ao quadrado.

Rico
fonte
2
disse "é continuamente diferenciável (agradável quando você deseja minimizá-lo)", você quer dizer que é difícil otimizar o valor absoluto?
Robin girard
29
@robin: enquanto a função de valor absoluto é contínua em todos os lugares, sua primeira derivada não é (em x = 0). Isso dificulta a otimização analítica.
Vince
12
Sim, mas encontrar o número real desejado, em vez de apenas um descritor, é mais fácil sob a perda de erro ao quadrado. Considere o caso de 1 dimensão; você pode expressar o minimizador do erro quadrado pela média: O (n) operações e formulário fechado. Você pode expressar o valor do minimizador de erro absoluto pela mediana, mas não há uma solução de formulário fechado que informe qual é o valor da mediana; requer uma classificação para encontrar, que é algo como O (n log n). As soluções de mínimos quadrados tendem a ser uma operação simples do tipo plug-and-chug, soluções de valor absoluto geralmente exigem mais trabalho para serem encontradas.
Rich
5
@ Rich: Tanto a variação quanto a mediana podem ser encontradas no tempo linear e, é claro, não mais rápido. A mediana não requer classificação.
Neil G
84

Uma maneira de pensar nisso é que o desvio padrão é semelhante a uma "distância da média".

Compare isso com as distâncias no espaço euclidiano - isso fornece a verdadeira distância, onde o que você sugeriu (que, aliás, é o desvio absoluto ) é mais como um cálculo de distância de manhattan .

Reed Copsey
fonte
17
Bela analogia do espaço euclidiano!
C4il
2
Exceto que em uma dimensão a norma e l 2 são a mesma coisa, não são? l1l2
naught101
5
@ naught101: Não é uma dimensão, mas sim dimensões em que n é o número de amostras. O desvio padrão e o desvio absoluto são (escalados) l 2 e l 1 distâncias respectivamente, entre os dois pontos ( x 1 , x 2 , , x n ) e ( μ , μ , , μ ) em que μ é a média . nnl2l1(x1,x2,,xn)(μ,μ,,μ)μ
ShreevatsaR
1
Isso deve ser modificado como a distância mínima da média. É essencialmente uma equação pitagórica.
John
56

A razão pela qual calculamos o desvio padrão em vez do erro absoluto é que estamos assumindo que o erro seja normalmente distribuído . É uma parte do modelo.

Suponha que você estava medindo comprimentos muito pequenos com uma régua; o desvio padrão é uma métrica ruim para o erro, porque você sabe que nunca medirá acidentalmente um comprimento negativo. Uma métrica melhor seria uma que ajude a ajustar uma distribuição gama às suas medidas:

log(E(x))E(log(x))

Como o desvio padrão, isso também não é negativo e diferenciável, mas é uma estatística de erro melhor para esse problema.

Neil G
fonte
3
Eu gosto da sua resposta. O sd nem sempre é a melhor estatística.
RockScience
2
Um ótimo exemplo de quando o desvio padrão não é a melhor maneira de pensar nos tamanhos das flutuações.
Hbar 13/05
Você não deveria ter um sinal oposto na quantidade para produzir uma medida positiva - usando um convexo vez de log côncavo x ? logxlogx
AS
@AS Não, já é sempre positivo. É zero quando todas as amostras são iguais e, caso contrário, sua magnitude mede a variação. x
Neil G
Você está enganado. para g côncavo . E(g(X))g(E(X))g
AS
25

A resposta que melhor me satisfez é que ela se desvanece naturalmente da generalização de uma amostra para o espaço euclidiano n-dimensional. Certamente é discutível se isso é algo que deve ser feito, mas em qualquer caso:

Suponha que suas medidas X i sejam cada um um eixo em R n . Então seus dados x i definem um ponto x nesse espaço. Agora você pode notar que os dados são todos muito semelhantes entre si, para que possa representá-los com um único parâmetro de localização μ que é obrigado a mentir sobre a linha definida por X i = μ . Projetando sua datapoint para esta linha faz com que você μ = ˉ x , e a distância do ponto projetado μ 1 ao datapoint real é nXiRnxixμXi=μμ^=x¯μ^1.n1nσ^=xμ^1

Esta abordagem também deixa uma interpretação geométrica para .ρ^=cos(x~,y~)

sesqu
fonte
7
Isso é correto e atraente. No entanto, no final, parece apenas reformular a pergunta sem realmente respondê-la: ou seja, por que devemos usar a distância euclidiana (L2)?
whuber
20
Os desvios-padrão não se tornaram comuns até Gauss, em 1809, derivar seu desvio homônimo usando o erro quadrado, ao invés do erro absoluto, como ponto de partida. No entanto, o que os levou ao topo (acredito) foi a teoria da regressão de Galton (na qual você sugere) e a capacidade da ANOVA de decompor somas de quadrados - o que equivale a uma reafirmação do Teorema de Pitágoras, um relacionamento desfrutado apenas pelo Norma L2. Assim, o DS tornou-se uma medida omnibus natural de propagação preconizada nos "Métodos Estatísticos para Pesquisadores" de Fisher de 1925 e aqui estamos, 85 anos depois.
whuber
13
(+1) Continuando na veia @ whuber, eu apostaria que o Student publicou um artigo em 1908 intitulado "Erro provável da média - Ei, pessoal, dê uma olhada no MAE no denominador!" então as estatísticas teriam uma face completamente diferente agora. Obviamente, ele não publicou um artigo como esse, e é claro que não poderia publicá-lo, porque o MAE não possui todas as boas propriedades que S ^ 2 possui. Um deles (relacionado ao Student) é a independência da média (no caso normal), que é obviamente uma reafirmação da ortogonalidade, que nos leva de volta ao L2 e ao produto interno.
3
Essa resposta foi instigante e acho que minha maneira preferida de vê-la. Em 1-D, é difícil entender por que comparar a diferença é visto como melhor. Mas em múltiplas dimensões (ou mesmo apenas em 2), pode-se ver facilmente que a distância euclidiana (quadratura) é preferível à distância de Manhattan (soma do valor absoluto das diferenças).
precisa saber é o seguinte
1
@whuber Você pode explicar o que significa "a linha definida por Xᵢ = μ"? É a linha que passa através da origem e do ponto (μ, μ, ..., μ)? Além disso, onde posso ler mais sobre isso?
Arch Stanton
18

O quadrado da diferença da média tem duas razões.

  • A variação é definida como o 2º momento do desvio (o VD aqui é ) e, portanto, o quadrado como momentos é simplesmente a expectativa de potências mais altas da variável aleatória.(xμ)

  • Ter um quadrado em oposição à função de valor absoluto fornece uma boa função contínua e diferenciável (o valor absoluto não é diferenciável em 0) - o que a torna a escolha natural, especialmente no contexto da análise de estimativa e regressão.

  • A formulação ao quadrado também cai naturalmente fora dos parâmetros da Distribuição Normal.

KungPaoChicken
fonte
17

Ainda outro motivo (além dos excelentes acima) vem do próprio Fisher, que mostrou que o desvio padrão é mais "eficiente" do que o desvio absoluto. Aqui, eficiente tem a ver com o quanto uma estatística flutuará em valor em diferentes amostras de uma população. Se sua população é normalmente distribuída, o desvio padrão de várias amostras dessa população tenderá, em média, a fornecer valores bastante semelhantes entre si, enquanto o desvio absoluto fornecerá números que se espalham um pouco mais. Agora, obviamente, isso está em circunstâncias ideais, mas esse motivo convenceu muitas pessoas (juntamente com a matemática sendo mais limpa), então a maioria das pessoas trabalhou com desvios padrão.

Eric Suh
fonte
6
Seu argumento depende dos dados que estão sendo distribuídos normalmente. Se assumirmos que a população tenha um "double exponencial" de distribuição, em seguida, o desvio absoluto é mais eficiente (na verdade, é uma estatística suficiente para a escala)
probabilityislogic
7
Sim, como afirmei, "se sua população é normalmente distribuída".
Eric Suh
Além de assumir uma distribuição normal, a prova de Fisher assume medições sem erros. Com pequenos erros como 1% a situação inverte eo desvio absoluto médio é mais eficiente do que o desvio padrão
juanrga
14

Para que as pessoas saibam, há uma pergunta sobre estouro de matemática sobre o mesmo tópico.

Por que é tão legal assim como números quadrados em termos de encontrar o desvio padrão

A mensagem de retirada é que o uso da raiz quadrada da variação leva a matemática mais fácil. Uma resposta semelhante é dada por Rich e Reed acima.

Robby McKilliam
fonte
3
'Matemática mais fácil' não é um requisito essencial quando queremos que nossas fórmulas e valores reflitam mais verdadeiramente um determinado conjunto de dados. Os computadores fazem todo o trabalho duro de qualquer maneira.
Dan W
Definir pi como 3,14 facilita a matemática, mas isso não a torna correta.
James
13

As variações são aditivas: para variáveis ​​aleatórias independentes , var ( X 1 + + X n ) = var ( X 1 ) + + var ( X n ) .X1,,Xn

var(X1++Xn)=var(X1)++var(Xn).

Observe o que isso torna possível: diga que eu jogue uma moeda justa 900 vezes. Qual é a probabilidade de que o número de cabeças recebidas esteja entre 440 e 455, inclusive? Basta encontrar o número esperado de cabeças ( ) e a variação do número de cabeças ( 225 = 15 2 ) e, em seguida, encontrar a probabilidade com uma distribuição normal (ou gaussiana) com a expectativa 450 e o desvio padrão 15 entre 439,5 e 455,5 . Abraham de Moivre fez isso com lançamentos de moedas no século 18, mostrando primeiro que a curva em forma de sino vale alguma coisa.450225=15245015439.5455,5

Michael Hardy
fonte
Os desvios médios absolutos não são aditivos da mesma maneira que as variações?
22813 russellpierce
6
Não, eles não são.
22813 Michael Hardy
10

Eu acho que o contraste entre o uso de desvios absolutos e quadrados é mais claro quando você ultrapassa uma única variável e pensa em regressão linear. Há uma boa discussão em http://en.wikipedia.org/wiki/Least_absolute_deviations , particularmente a seção "Contrastando os mínimos quadrados com os mínimos desvios absolutos", que contém links para alguns exercícios dos alunos com um conjunto de miniaplicativos em http: // www .math.wpi.edu / Material_do_Curso / SAS / lablets / 7.3 / 73_choices.html .

Para resumir, os desvios mínimos absolutos são mais robustos para os valores extremos do que os mínimos quadrados comuns, mas podem ser instáveis ​​(pequenas alterações em um único dado podem gerar grandes alterações na linha ajustada) e nem sempre têm uma solução única - pode haver toda uma gama de linhas ajustadas. Além disso, desvios mínimos absolutos exigem métodos iterativos, enquanto os mínimos quadrados comuns têm uma solução simples de forma fechada, embora isso não seja tão importante agora como era nos dias de Gauss e Legendre, é claro.

uma parada
fonte
o argumento da "solução única" é bastante fraco, significa realmente que há mais de um valor bem suportado pelos dados. Além disso, a penalização dos coeficientes, como L2, resolverá o problema de exclusividade e o problema de estabilidade em certa medida.
probabilityislogic
10

Existem muitas razões; provavelmente o principal é que ele funciona bem como parâmetro de distribuição normal.


fonte
4
Concordo. O desvio padrão é o caminho certo para medir a dispersão se você assumir a distribuição normal. E muitas distribuições e dados reais são aproximadamente normais.
Łukasz Lew
2
Eu não acho que você deva dizer "parâmetro natural": os parâmetros naturais da distribuição normal são médios e médios e precisos. ( pt.wikipedia.org/wiki/Natural_parameter )
Neil G
1
@ NeilG Bom ponto; Eu estava pensando sobre o significado "casual" aqui. Vou pensar em alguma palavra melhor.
8

De muitas maneiras, o uso do desvio padrão para resumir a dispersão está chegando a uma conclusão. Você poderia dizer que o SD assume implicitamente uma distribuição simétrica por causa de seu tratamento igual da distância abaixo da média e da distância acima da média. O DS é surpreendentemente difícil de interpretar para não estatísticos. Alguém poderia argumentar que a diferença média de Gini tem aplicação mais ampla e é significativamente mais interpretável. Não é necessário declarar sua escolha de uma medida de tendência central, como o uso do DS faz para a média. A diferença média de Gini é a diferença absoluta média entre duas observações diferentes. Além de robusto e fácil de interpretar, passa a ser 0,98 tão eficiente quanto o SD se a distribuição fosse realmente gaussiana.

Frank Harrell
fonte
2
Apenas para adicionar a sugestão de @ Frank sobre Gini, há um belo artigo aqui: projecteuclid.org/download/pdf_1/euclid.ss/1028905831 Ele aborda várias medidas de dispersão e também fornece uma perspectiva histórica informativa.
Thomas Speidel
1
Também gosto dessas idéias, mas há uma definição paralela menos conhecida da variação (e, portanto, do SD) que não faz referência a meios como parâmetros de localização. A variação é metade do quadrado médio sobre todas as diferenças entre pares entre os valores, assim como a diferença média de Gini é baseada nos valores absolutos de toda a diferença entre pares.
Nick Cox
7

Estimar o desvio padrão de uma distribuição requer escolher uma distância.
Qualquer uma das seguintes distâncias pode ser usada:

dn((X)i=1,,I,μ)=(|Xμ|n)1/n

Geralmente usamos a distância euclidiana natural ( ), que é a que todos usam na vida cotidiana. A distância que você propõe é aquela com n = 1 . Ambos são bons candidatos, mas são diferentes.n=2n=1

Pode-se decidir usar também.n=3

Não tenho certeza de que você gostará da minha resposta, meu argumento contrário aos outros não é demonstrar que é melhor. Penso que se você deseja estimar o desvio padrão de uma distribuição, pode absolutamente usar uma distância diferente.n=2

RockScience
fonte
6

Depende do que você está falando quando diz "disseminação dos dados". Para mim, isso pode significar duas coisas:

  1. A largura de uma distribuição de amostragem
  2. A precisão de uma determinada estimativa

Para o ponto 1), não há razão específica para usar o desvio padrão como uma medida de spread, exceto quando você tem uma distribuição de amostra normal. A medida é uma medida mais apropriada no caso de uma distribuição de Amostragem de Laplace . Meu palpite é que o desvio padrão seja usado aqui por causa da intuição herdada do ponto 2). Provavelmente também devido ao sucesso da modelagem de mínimos quadrados em geral, para a qual o desvio padrão é a medida apropriada. Provavelmente também porque calcular E ( X 2 ) é geralmente mais fácil do que calcular E ( |E(|Xμ|)E(X2) para a maioria das distribuições.E(|X|)

Agora, para o ponto 2), há uma boa razão para usar a variância / desvio padrão como a medida do spread, em um caso particular, mas muito comum. Você pode vê-lo na aproximação de Laplace a uma posterior. Com Dados e informações anteriores I , escreva o posterior para um parâmetro θ como:DIθ

p(θDI)=exp(h(θ))exp(h(t))dth(θ)log[p(θI)p(DθI)]

tθθmax

h(θ)h(θmax)+(θmaxθ)h(θmax)+12(θmaxθ)2h(θmax)

θmaxh(θmax)=0

h(θ)h(θmax)+12(θmaxθ)2h(θmax)

Se inserirmos essa aproximação, obtemos:

p(θDI)exp(h(θmax)+12(θmaxθ)2h(θmax))exp(h(θmax)+12(θmaxt)2h(θmax))dt

=exp(12(θmaxθ)2h(θmax))exp(12(θmaxt)2h(θmax))dt

E(θDI)θmax

V(θDI)[h(θmax)]1

h(θmax)θh(θ)jk=h(θ)θjθk

p(θI)=1θθmax

p(θmaxθ)N(θ,[h(θmax)]1)
(veja se você consegue adivinhar qual paradigma eu prefiro: P). De qualquer forma, na estimativa de parâmetros, o desvio padrão é uma importante medida teórica de spread.
probabilityislogic
fonte
6

"Por que quadrado a diferença" em vez de "tomar valor absoluto"? Para responder com muita exatidão, há literatura que fornece os motivos pelos quais foi adotado e o motivo pelo qual a maioria desses motivos não se aplica. "Não podemos simplesmente pegar o valor absoluto ...?". Estou ciente da literatura em que a resposta é sim, está sendo feita, e isso é considerado vantajoso.

O autor Gorard afirma, primeiro, que o uso de quadrados foi adotado anteriormente por motivos de simplicidade de cálculo, mas que esses motivos originais não se sustentam mais. Gorard afirma, em segundo lugar, que o OLS foi adotado porque Fisher descobriu que os resultados em amostras de análises que usavam o OLS tinham desvios menores do que aqueles que usavam diferenças absolutas (grosso modo). Assim, parece que o OLS pode ter benefícios em algumas circunstâncias ideais; no entanto, Gorard observa que existe algum consenso (e ele afirma que Fisher concordou) de que, em condições reais (medição imperfeita de observações, distribuições não uniformes, estudos de uma população sem inferência de uma amostra), o uso de quadrados é pior do que diferenças absolutas.

A resposta de Gorard à sua pergunta "Não podemos simplesmente pegar o valor absoluto da diferença e obter o valor esperado (médio) deles?" é sim. Outra vantagem é que o uso de diferenças produz medidas (medidas de erros e variações) que estão relacionadas à maneira como experimentamos essas idéias na vida. Gorard diz imaginar pessoas que dividem a conta do restaurante de maneira uniforme e algumas podem intuitivamente perceber que esse método é injusto. Ninguém lá vai corrigir os erros; as diferenças são o ponto.

Finalmente, o uso de diferenças absolutas, ele observa, trata cada observação igualmente, enquanto, ao contrário do quadrado, as diferenças dão às observações um peso muito menor do que as bem previstas, o que é como permitir que certas observações fossem incluídas no estudo várias vezes. Em resumo, seu impulso geral é que hoje não existem muitas razões vencedoras para usar quadrados e que, ao contrário, usar diferenças absolutas tem vantagens.

Referências:

Jen
fonte
1
Obrigado, Jen, isso me lembra a história do teclado QWERTY. Ei, por que demora tanto tempo para digitar QWERTY?
Toto_tico
5

Porque os quadrados podem permitir o uso de muitas outras operações ou funções matemáticas mais facilmente do que valores absolutos.

Exemplo: os quadrados podem ser integrados, diferenciados, podem ser usados ​​em funções trigonométricas, logarítmicas e outras, com facilidade.

user369
fonte
2
Gostaria de saber se existe uma profecia auto-realizável aqui. Obtemos
probabilityislogic
5

Ao adicionar variáveis ​​aleatórias, suas variações adicionam, para todas as distribuições. A variação (e, portanto, o desvio padrão) é uma medida útil para quase todas as distribuições e não se limita às distribuições gaussianas (também conhecidas como "normais"). Isso favorece usá-lo como nossa medida de erro. A falta de exclusividade é um problema sério com diferenças absolutas, pois geralmente há um número infinito de "ajustes" de medidas iguais, e ainda assim claramente o "que está no meio" é o mais realisticamente favorecido. Além disso, mesmo nos computadores atuais, a eficiência computacional é importante. Trabalho com grandes conjuntos de dados e o tempo da CPU é importante. No entanto, não existe uma "melhor" medida absoluta única de resíduos, como apontado por algumas respostas anteriores. Às vezes, circunstâncias diferentes exigem medidas diferentes.

Eric L. Michelsen
fonte
2
Continuo não convencido de que as variações sejam muito úteis para distribuições assimétricas.
Frank Harrell
Que tal um par de "semivariâncias", uma para cima e outra para baixo?
Kjetil b halvorsen
3

Naturalmente, você pode descrever a dispersão de uma distribuição de qualquer forma significativa (desvio absoluto, quantis, etc.).

Um fato interessante é que a variação é o segundo momento central e toda distribuição é descrita exclusivamente por seus momentos, se existirem. Outro fato interessante é que a variação é muito mais tratável matematicamente do que qualquer métrica comparável. Outro fato é que a variância é um dos dois parâmetros da distribuição normal para a parametrização usual, e a distribuição normal possui apenas 2 momentos centrais diferentes de zero, que são esses dois parâmetros. Mesmo para distribuições não normais, pode ser útil pensar em uma estrutura normal.

A meu ver, a razão pela qual o desvio padrão existe é que, em aplicações, a raiz quadrada da variação aparece regularmente (como para padronizar uma variável aleatória), o que exigia um nome para ela.


fonte
1
Se bem me lembro, a distribuição log-normal não é definida exclusivamente por seus momentos.
probabilityislogic
1
@probabilityislogic, de fato, isso é verdade, consulte en.wikipedia.org/wiki/Log-normal_distribution na seção "Função característica e função geradora de momento".
Kjetil b halvorsen
1

Uma abordagem diferente e talvez mais intuitiva é quando você pensa em regressão linear versus regressão mediana.

E(y|x)=xββ=argminbE(y-xb)2

(y|x)=xββ=argminbE|y-xb|

Em outras palavras, o uso de erro absoluto ou quadrado depende se você deseja modelar o valor esperado ou o valor mediano.

yxy .

Koenker e Hallock têm um bom artigo sobre regressão quantílica, onde a regressão mediana é um caso especial: http://master272.com/finance/QR/QRJEP.pdf .

Superpronker
fonte
0

Meu palpite é o seguinte: a maioria das populações (distribuições) tende a se reunir em torno da média. Quanto mais longe um valor estiver da média, mais raro será. Para expressar adequadamente o quão "fora de linha" é um valor, é necessário levar em consideração a distância da média e a consciência (normalmente falando) da ocorrência. Quadrar a diferença da média faz isso, em comparação com valores que têm desvios menores. Depois de calcular a média de todas as variações, não há problema em obter a raiz quadrada, que retorna as unidades às suas dimensões originais.

Samuel Berry
fonte
2
Isso não explica por que você não pode simplesmente pegar o valor absoluto da diferença. Isso parece conceitualmente mais simples para a maioria dos 101 estudantes de estatística, e "levaria em conta a distância da média e a consciência (normalmente falando) da ocorrência".
gung
Penso que o valor absoluto da diferença apenas expressaria a diferença da média e não levaria em conta o fato de que grandes diferenças são duplamente perturbadoras para uma distribuição normal.
Samuel Berry
2
Por que "duplamente perturbador" é importante e não, digamos, "triplicadamente perturbador" ou "quadruplicadamente perturbador"? Parece que essa resposta simplesmente substitui a pergunta original por uma pergunta equivalente.
whuber
0

A quadratura amplia desvios maiores.

Se sua amostra tiver valores que estão em todo o gráfico, para trazer os 68,2% para o primeiro desvio padrão, seu desvio padrão precisará ser um pouco maior. Se todos os seus dados tendem a cair em torno da média, σ pode ser mais rígido.

Alguns dizem que é para simplificar os cálculos. Usar a raiz quadrada positiva do quadrado teria resolvido isso, para que o argumento não flutue.

|x|=x2

Portanto, se a simplicidade algébrica fosse o objetivo, seria assim:

σ=E[(xμ)2]E[|xμ|]

Obviamente, ao quadrado, isso também tem o efeito de amplificar erros externos (doh!).

Preston Thayne
fonte
Lp
O primeiro parágrafo foi a razão do meu voto negativo.
Alexis
3
@ Preston Thayne: Como o desvio padrão não é o valor esperado sqrt((x-mu)^2), sua fórmula é enganosa. Além disso, o fato de o quadrado ter o efeito de amplificar desvios maiores não significa que essa é a razão para preferir a variação sobre o MAD . Se é que isso é uma propriedade neutra, já que muitas vezes queremos algo mais robusto como o MAD . Por fim, o fato de a variação ser mais matematicamente tratável do que o MAD é uma questão muito mais profunda matematicamente do que você transmitiu neste post.
27514 Steve
0

Por que quadrado a diferença em vez de assumir o valor absoluto no desvio padrão?

Quadramos a diferença dos xs da média, porque a distância euclidiana, proporcional à raiz quadrada dos graus de liberdade (número de xs, em uma medida populacional), é a melhor medida de dispersão.

Cálculo de Distância

Qual é a distância do ponto 0 ao ponto 5?

  • 5-0 0=5
  • |0 0-5|=5
  • 52=5

Ok, isso é trivial porque é uma dimensão única.

Que tal a distância de um ponto no ponto 0, 0 ao ponto 3, 4?

Se pudermos apenas ir em uma dimensão por vez (como nos quarteirões da cidade), basta adicionar os números. (Isso às vezes é conhecido como a distância de Manhattan).

Mas e quanto a ir em duas dimensões ao mesmo tempo? Então (pelo teorema de Pitágoras que todos aprendemos no ensino médio), arredondamos a distância em cada dimensão, somamos os quadrados e pegamos a raiz quadrada para encontrar a distância da origem ao ponto.

32+42=25=5

Que tal a distância de um ponto em 0, 0, 0 até o ponto 1, 2, 2?

Isso é apenas

12+22+22=9=3

porque a distância para os dois primeiros x's forma a perna para calcular a distância total com o x final.

x12+x222+x32=x12+x22+x32

Podemos continuar estendendo a regra de quadratura da distância de cada dimensão, isso generaliza para o que chamamos de distância euclidiana, para medições ortogonais no espaço hiperdimensional, assim:

dEustumance=Eu=1nxEu2

e assim a soma dos quadrados ortogonais é a distância ao quadrado:

dEustumance2=Eu=1nxEu2

O que torna uma medição ortogonal (ou perpendicularmente) a outra? A condição é que não há relação entre as duas medições. Procuramos que essas medidas sejam independentes e distribuídas individualmente ( iid ).

Variação

Agora, lembre-se da fórmula da variação populacional (da qual obteremos o desvio padrão):

σ2=Eu=1n(xEu-μ)2n

Se já centralizamos os dados em 0 subtraindo a média, temos:

σ2=Eu=1n(xEu)2n

dEustumance2 por medição. "Variação média quadrática" também seria um termo apropriado.

Desvio padrão

Então temos o desvio padrão, que é apenas a raiz quadrada da variação:

σ=Eu=1n(xEu-μ)2n

Qual é, equivalentemente, a distância , dividida pela raiz quadrada dos graus de liberdade:

σ=Eu=1n(xEu)2n

Desvio médio absoluto

Desvio absoluto médio (MAD), é uma medida de dispersão que usa a distância de Manhattan ou a soma dos valores absolutos das diferenças em relação à média.

MUMAD=Eu=1n|xEu-μ|n

Novamente, supondo que os dados estejam centralizados (a média subtraída), temos a distância de Manhattan dividida pelo número de medições:

MUMAD=Eu=1n|xEu|n

Discussão

  • O desvio médio absoluto é de cerca de 0,8 vezes ( na verdade2/π) o tamanho do desvio padrão para um conjunto de dados normalmente distribuído.
  • Independentemente da distribuição, o desvio médio absoluto é menor ou igual ao desvio padrão. O MAD subestima a dispersão de um conjunto de dados com valores extremos, em relação ao desvio padrão.
  • O desvio médio absoluto é mais robusto para os valores discrepantes (ou seja, os valores discrepantes não têm um efeito tão grande na estatística quanto no desvio padrão.
  • Geometricamente falando, se as medições não forem ortogonais entre si (iid) - por exemplo, se forem correlacionadas positivamente, o desvio absoluto médio seria uma estatística descritiva melhor do que o desvio padrão, que depende da distância euclidiana (embora isso geralmente seja considerado bom )

Esta tabela reflete as informações acima de uma maneira mais concisa:

MUMADσsEuzeσMUMADsEuze,N.8×σ1,25×MUMADovocêteuEuersrobvocêstEunfeuvocêencednot Eu.Eu.d.robvocêstok

Comentários:

Você tem uma referência para "o desvio absoluto médio é cerca de 0,8 vezes o tamanho do desvio padrão para um conjunto de dados distribuído normalmente"? As simulações que estou executando mostram que isso está incorreto.

Aqui estão 10 simulações de um milhão de amostras da distribuição normal padrão:

>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
...     array = standard_normal(1_000_000)
...     print(numpy.std(array), mean(absolute(array - mean(array))))
... 
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422

Conclusão

Preferimos as diferenças quadráticas ao calcular uma medida de dispersão, porque podemos explorar a distância euclidiana, o que nos dá uma melhor estatística descritiva da dispersão. Quando existem valores relativamente extremos, a distância euclidiana é responsável pela estatística, enquanto a distância de Manhattan dá a cada medida o mesmo peso.

Aaron Hall
fonte