Desvio absoluto médio vs. desvio padrão

35

No livro de texto "Nova matemática abrangente para o nível" de Greer (1983), vejo o desvio médio calculado da seguinte forma:

Resuma diferenças absolutas entre valores únicos e a média. Então obtenha sua média. Ao longo do capítulo, o termo desvio médio é usado.

Mas recentemente vi várias referências que usam o termo desvio padrão e é isso que elas fazem:

Calcule quadrados de diferenças entre valores únicos e a média. Em seguida, obtenha a média e, finalmente, a raiz da resposta.

Tentei os dois métodos em um conjunto comum de dados e suas respostas diferem. Eu não sou estatístico. Fiquei confuso enquanto tentava ensinar desvio aos meus filhos.

Então, resumindo, os termos desvio padrão e desvio médio são os mesmos ou o meu livro antigo está errado?

itsols
fonte
2
As duas quantidades diferem. Eles ponderam os dados de maneira diferente. O desvio padrão será maior e é relativamente mais afetado por valores maiores. O desvio padrão (mais particularmente, a versão do denominador n) pode ser considerado um desvio da raiz quadrada da média. Desvios padrão são mais comumente usados.
Glen_b -Reinstala Monica
6
Muito relacionado : stats.stackexchange.com/questions/118/… .
whuber
Gary Kader tem uma maneira divertida de ensinar as crianças a derivar o desvio médio absoluto .
Iain Samuel McLean Elder
11
Aliás, uma razão pela qual as pessoas tendem a preferir o desvio padrão é porque as variações de somas de variáveis ​​aleatórias não relacionadas são adicionadas (e as relacionadas também têm uma fórmula simples). Isso não acontece com o desvio médio.
Glen_b -Reinstala Monica 15/09
2
@ Alexis o fraseado era ruim. Para variáveis ​​aleatórias independentes, Var (X + Y) = Var (X) + Var (Y). Esse fato é usado em todo o lugar (leva ao familiar ntermos ao padronizar fórmulas envolvendo médias, como em estatísticas t de uma amostra, por exemplo). Não há fato geral correspondente para o desvio médio.
Glen_b -Reinstala Monica

Respostas:

27

Ambos respondem a que distância seus valores estão espalhados em torno da média das observações.

Uma observação que seja 1 abaixo da média é igualmente "longe" da média como um valor que é 1 acima da média. Portanto, você deve negligenciar o sinal do desvio. Isso pode ser feito de duas maneiras:

  • Calcule o valor absoluto dos desvios e some-os.

  • Esquadrar os desvios e somar esses quadrados. Devido ao quadrado, você atribui mais peso aos desvios altos e, portanto, a soma desses quadrados será diferente da soma das médias.

Depois de calcular a "soma dos desvios absolutos" ou a "raiz quadrada da soma dos desvios quadrados", calcule a média para obter o "desvio médio" e o "desvio padrão", respectivamente.

O desvio médio raramente é usado.

Kasper
fonte
Então, quando alguém simplesmente diz 'desvio', significa 'desvio padrão'?
itsols
Concordo que 1 acima ou abaixo indicaria uma 'mudança' ou 'dispersão' significativa do ponto de vista de um homem comum. Mas, ao quadrado, daria valores maiores e essa pode não ser minha 'mudança real'. Talvez eu esteja errado, mas é assim que eu vejo: /
itsols
Na maioria das vezes, o termo desvio padrão (raiz quadrada da variância) é usado. O cálculo dos quadrados é normalmente feito, pois facilita muitos outros cálculos.
Kasper
11
@itsols Tecnicamente, você sempre deve especificar qual tipo de estatística de desvio está calculando para o conjunto de dados - o desvio da palavra deve referir-se ao desvio de um único ponto de dados da média (da maneira que o Kasper usa na resposta )
AmeliaBR
@itsols, +1 a Amelia. De fato, ninguém diz que uma estatística do conjunto de dados é apenas "desvio". Uma estatística é "desvio médio absoluto" ou "raiz do desvio médio quadrático" ou algo semelhante.
precisa saber é o seguinte
15

Hoje, os valores estatísticos são predominantemente calculados por programas de computador (Excel, ...), não mais por calculadoras portáteis. Portanto, eu diria que calcular o "desvio médio" não é mais complicado do que calcular o "desvio padrão". Embora o desvio padrão possa ter "... propriedades matemáticas que o tornam mais útil em estatística", é, de fato, uma distorção do conceito de variação de uma média, uma vez que atribui ponderação extra a pontos de dados distantes da média. Pode levar algum tempo, mas eu, por exemplo, espero que os estatísticos voltem a usar o "desvio médio" com mais frequência ao discutir a distribuição entre os pontos de dados - representa com mais precisão como realmente pensamos na distribuição.

andilo
fonte
Você faz uma afirmação extraordinária sobre como as pessoas (estatisticamente qualificadas) "realmente pensam". Qual é a fonte de suas informações sobre isso?
whuber
7
A fonte são simplesmente pessoas que eu questionei sobre esse tópico, assim como eu. Quando perguntado: Como você imagina a variação nesse conjunto de dados? a resposta sempre foi expressa em termos da distância linear da média - a resposta nunca incluiu quadrados ou raízes quadradas. É verdade que eu sou um engenheiro, não um "estatístico", mas gostaria de pedir a mais alguém que se desafie nesse tópico. Sim, nós amamos a matemática do desvio padrão - é divertido, mas é assim que você imagina o desvio da média?
andyl
2
Depende do objetivo. Para a exploração de dados, costumo usar estimativas robustas de dispersão baseadas em classificação, como desvios medianos das medianas, que, em espírito, estão próximos da sua proposta. Porém, para muitos outros trabalhos, especialmente ao avaliar (mesmo mentalmente) o potencial de significância estatística, estimar tamanhos de amostra apropriados, descobrir o valor da informação e decidir entre procedimentos estatísticos concorrentes, pensar em termos de variações (e, portanto, desvios-padrão) é essencial. Os desvios médios não substituem, como mostra claramente a matemática.
whuber
11
Confira este documento .
Pete
@Pete Como você chegou lá?
Vicrobot
9

Ambos medem o mesmo conceito, mas não são iguais.

Você está comparando com1n|xix¯|. Eles não são iguais por dois motivos:1n(xix¯)2

Em primeiro lugar, o operador de raiz quadrada não é linear ou . Portanto, a soma dos desvios absolutos não é igual à raiz quadrada da soma dos desvios quadrados, mesmo que a função absoluta possa ser representada como a função quadrada seguida por uma raiz quadrada:| xi- ˉ x | =a+ba+b
como a raiz quadrada é feita após a soma foi calculada.|xix¯|=(xix¯)2(xix¯)2

Em segundo lugar , agora também está abaixo da raiz quadrada no cálculo do desvio padrão.n

Tente calcular 1n(xix¯)2

A razão pela qual o desvio padrão é preferido é porque é matematicamente mais fácil trabalhar posteriormente, quando os cálculos se tornam mais complicados.

ltronneberg
fonte
3
O valor absoluto de uma soma não é , em geral, o mesmo que a soma dos valores absolutos! As funções quadrada, raiz quadrada ou absoluta não são lineares, e é por isso que a soma após a aplicação da função é diferente de aplicar a função após a soma.
AmeliaBR
@AmeliaBR, é claro que você está perfeitamente correto!
Ltronneberg
O resto do argumento foi bom, e foi por isso que decidi editar a afirmação problemática.
AmeliaBR
8

@itsols, acrescentarei à noção importante de Kasper que The mean deviation is rarely used. Por que o desvio padrão é considerado geralmente uma melhor medida de variabilidade do que o desvio absoluto médio? Porque a média aritmética é o locus da soma mínima dos desvios quadrados (e não da soma dos absolutos).

Suponha que você queira avaliar o grau de altruísmo. Então você provavelmente não perguntará a uma pessoa o quanto ela está pronta para dar dinheiro na "situação geral" da vida. Em vez disso, você escolherá perguntar o quanto ele está pronto para fazê-lo na situação conservada, onde ele tem recursos mínimos possíveis para sua própria vida. Ou seja, qual é a quantidade de altruísmo individual na situação em que essa quantidade é mínima?

Da mesma forma, qual é o grau de variabilidade desses dados? Intuitivamente, o melhor índice de medição para ele é aquele que é minimizado (ou maximizado) até o limite neste contexto. O contexto é "em torno da média aritmética". Então st. desvio é a melhor escolha nesse sentido. Se o contexto estiver "próximo da mediana", significa | desvio | seria a melhor escolha, porque mediana é o locus da soma mínima de desvios absolutos dela.

ttnphns
fonte
4
Sua justificativa para SD baseada no Locus é circular. Você está justificando o SD colocando uma importância especial na média aritmética - tudo isso mostra que eles têm um relacionamento, não que o SD seja especial. Da mesma forma, pode-se colocar importância na mediana, que é o locus da soma mínima da perda de abscesso . As reais razões pelas quais o SD é usado com mais frequência é porque a matemática é mais fácil de trabalhar ... além disso, é mais fácil computacionalmente (tanto porque as medianas exigem "classificação", quanto porque os quadrados são mais rápidos de calcular do que as instruções de ramificação). O desvio filosoficamente absurdo tem maior valor.
samthebest
7

Uma coisa que vale a pena acrescentar é que a razão mais provável pelo qual o seu livro de 30 anos usou o desvio médio absoluto em oposição ao desvio padrão é que é mais fácil calcular manualmente (sem raízes quadradas / quadradas). Agora que as calculadoras estão prontamente acessíveis aos alunos do ensino médio, não há razão para não pedir que calculem o desvio padrão.

Ainda existem algumas situações em que desvios absolutos são usados ​​em vez de desvios padrão no ajuste de modelo complexo. Os desvios absolutos são menos sensíveis a valores extremos extremos (valores distantes da média / linha de tendência) em comparação com os desvios padrão, porque eles não somam essa distância antes de adicioná-la aos valores de outros pontos de dados. Como os métodos de ajuste de modelo visam reduzir o desvio total da linha de tendência (de acordo com o desvio de método que é o cálculo), os métodos que usam o desvio padrão podem acabar criando uma linha de tendência que diverge da maioria dos pontos, a fim de estar mais perto de um outlier. . O uso de desvios absolutos reduz essa distorção, mas com o custo de tornar o cálculo da linha de tendência mais complicado.

Isso porque, como outros observaram, o desvio padrão possui propriedades e relacionamentos matemáticos que geralmente o tornam mais útil nas estatísticas. Mas "útil" nunca deve ser confundido com perfeito.

AmeliaBR
fonte
11
apenas curioso, quais são as "propriedades matemáticas" que tornam o SD mais útil do que o desvio absoluto médio? excelente resposta pelo caminho.
Weipeng G
@pongba O desvio padrão é intrínseco a muitos modelos estatísticos que assumem variação aleatória de vários efeitos que podem se cancelar (também conhecidos como dados normalmente distribuídos). Isso inclui a precisão da amostragem (margem de erro) ao usar uma pesquisa de uma grande população. Se seus dados atenderem a esse modelo, você poderá estimar a probabilidade de obter um valor a partir do número de DP a partir da média. Você pode calcular o SD de vários efeitos independentes a partir do SD de componentes individuais. Veja também: en.m.wikipedia.org/wiki/Standard_deviation
AmeliaBR
7

Ambos medem a dispersão dos seus dados calculando a distância dos dados à sua média.

  1. o desvio médio absoluto está usando a norma L1 (também é chamada de distância de Manhattan ou distância retilínea )
  2. o desvio padrão está usando a norma L2 (também chamada distância euclidiana )

A diferença entre as duas normas é que o desvio padrão está calculando o quadrado da diferença, enquanto o desvio médio absoluto está olhando apenas para a diferença absoluta. Portanto, os valores discrepantes grandes criarão uma dispersão mais alta ao usar o desvio padrão em vez do outro método. A distância euclidiana também é usada com mais frequência. A principal razão é que o desvio padrãoter boas propriedades quando os dados são normalmente distribuídos. Portanto, sob essa suposição, é recomendável usá-lo. No entanto, as pessoas costumam fazer essa suposição para dados que na verdade não são normalmente distribuídos, o que cria problemas. Se seus dados não forem normalmente distribuídos, você ainda poderá usar o desvio padrão, mas tenha cuidado com a interpretação dos resultados.

Finalmente, você deve saber que ambas as medidas de dispersão são casos particulares da distância de Minkowski , para p = 1 ep = 2. Você pode aumentar p para obter outras medidas de dispersão dos seus dados.

RockScience
fonte
Há também uma publicação no math.stackexchange sobre este tópico: math.stackexchange.com/questions/384003/l1-norm-and-l2-norm
RockScience
6

São medidas semelhantes que tentam quantificar a mesma noção. Normalmente você usa st. desvio, uma vez que possui boas propriedades, se você fizer alguma suposição sobre a distribuição subjacente.

Por outro lado, o valor absoluto do desvio médio causa alguns problemas de uma perspectiva matemática, pois você não pode diferenciá-lo e não pode analisá-lo facilmente. Alguma discussão aqui .

iliasfl
fonte
1

Não, você está errado. Só brincando. Há, no entanto, muitas razões viáveis ​​pelas quais alguém gostaria de calcular o desvio médio em vez do padrão formal, e dessa maneira estou de acordo com o ponto de vista dos meus irmãos de engenharia. Certamente, se estou computando estatísticas para comparar com um corpo de trabalho existente que está expressando conclusões tanto qualitativas quanto quantitativas, eu continuarei com std. Mas, por exemplo, suponha que eu esteja tentando correr rápidoalgoritmos de detecção de anomalias em dados binários gerados por máquina. Não busco comparações acadêmicas como meu objetivo final. Mas estou interessado na inferência fundamental sobre a "disseminação" de um fluxo particular de dados sobre sua média. Também estou interessado em calcular isso iterativamente e da maneira mais eficiente possível. No hardware eletrônico digital, jogamos truques sujos o tempo todo - destilamos multiplicações e divisões em turnos esquerdo e direito, respectivamente, e para "computar" valores absolutos, simplesmente eliminamos o bit de sinal (e calculamos o complemento de um ou dois, se necessário , ambas as transformações fáceis). Portanto, minha escolha é computá-lo da maneira mais fácil possível e aplicar limites lineares aos meus cálculos para detecção rápida de anomalias nas janelas de tempo desejadas.

NotATroll
fonte
11
O desvio padrão pode ser calculado de forma eficiente e simples com um algoritmo on-line, assim como qualquer momento (incluindo o desvio médio absoluto). Assim, o requisito de cálculo rápido ou simples não descartaria isso (nem excluiria qualquer estimador de spread baseado no momento).
whuber
0

As duas medidas diferem de fato. O primeiro é frequentemente chamado de Desvio Médio Absoluto (MAD) e o segundo é Desvio Padrão (DST). Em aplicativos incorporados com poder de computação severamente limitado e memória de programa limitada, evitar os cálculos da raiz quadrada pode ser muito desejável.

Em um teste rápido, parece que MAD = f * STD com f em algum lugar entre 0,78 e 0,80 para um conjunto de amostras aleatórias distribuídas gaussianas.

Marco van Steen
fonte
0

Amar Sagoo tem um artigo muito bom explicando isso: [ http://blog.amarsagoo.info/2007/09/making-sense-of-standard-deviation.html]

Para adicionar minha própria tentativa de entendimento intuitivo:

O desvio médio é uma maneira decente de perguntar a que distância um ponto "médio" hipotético está da média, mas na verdade não funciona para perguntar a que distância estão todos os pontos um do outro ou como "espalhar" os dados.

O desvio padrão está perguntando a que distância estão todos os pontos; portanto, incorpora informações mais úteis do que apenas o desvio médio (razão pela qual o desvio médio geralmente é usado apenas como um trampolim para entender o desvio padrão).

Uma boa analogia é o teorema de Pitágoras. O Teorema de Pitágoras nos diz a distância entre os pontos em duas dimensões, tomando a distância horizontal e a vertical, esquadrando-os, adicionando os quadrados e tomando a raiz quadrada do total.

Se você olhar atentamente, a fórmula do desvio padrão (da população) é basicamente a mesma que o teorema de Pitágoras, mas com muito mais de duas dimensões (e usando a distância de cada ponto à média como a distância em cada dimensão). Como tal, fornece a imagem mais precisa da "distância" entre todos os pontos no seu conjunto de dados.

Para avançar um pouco mais nessa analogia, o desvio absoluto médio seria como calcular a média das distâncias horizontais e verticais, que é menor que a distância total, enquanto o desvio absoluto da soma acrescentaria as distâncias horizontais e verticais, que são mais longas que a distância real.

Isaac Demme
fonte
Suponho que quando você diz desvio médio, você quer dizer absolutamente desvio, que é o que o OP estava falando. A terminologia é importante porque o desvio médio é sempre 0. Quanto à diferença entre o desvio médio absoluto e o desvio padrão, ambos envolvem o desvio de TODOS os pontos da média. Um envolve a soma dos desvios absolutos da média, enquanto a raiz quadrada é a soma do desvio ao quadrado.
Michael R. Chernick 18/09
0

O desvio padrão representa dispersão devido a processos aleatórios. Especificamente, muitas medições físicas que se espera serem devidas à soma de muitos processos independentes têm distribuições normais (curva de sino).

A distribuição de probabilidade normal é dada por: Y=1 1σ2πe-(x-μ)22σ2

Onde Y é a probabilidade de obter um valor x dado uma média μ e σ... o desvio padrão!

Em outras palavras, o desvio padrão é um termo que surge de variáveis ​​aleatórias independentes sendo somadas. Então, eu discordo de algumas das respostas dadas aqui - o desvio padrão não é apenas uma alternativa ao desvio médio que "passa a ser mais conveniente para cálculos posteriores". O desvio padrão é o caminho certo para modelar a dispersão para fenômenos normalmente distribuídos.

Se você olhar para a equação, poderá ver o desvio padrão pesando mais fortemente os desvios maiores da média. Intuitivamente, você pode pensar no desvio médio como medindo o desvio médio real da média, enquanto o desvio padrão é responsável por um sino em forma de distribuição aka "normal" em torno da média. Portanto, se seus dados são normalmente distribuídos, o desvio padrão informa que, se você amostrar mais valores, aproximadamente 68% deles serão encontrados dentro de um desvio padrão em torno da média.

Por outro lado, se você tiver uma única variável aleatória, a distribuição poderá parecer um retângulo, com uma probabilidade igual de valores aparecendo em qualquer lugar dentro de um intervalo. Nesse caso, o desvio médio pode ser mais apropriado.

TL; DR se você tiver dados que são devidos a muitos processos aleatórios subjacentes ou que você simplesmente sabe que são distribuídos normalmente, use a função de desvio padrão.

Aneil Mallavarapu
fonte