Por que usamos a raiz quadrada da variação para criar um desvio padrão?

26

Desculpe, se isso foi respondido em outro lugar, não consegui encontrá-lo.

Gostaria de saber por que usamos a raiz quadrada , em particular, da variação para criar o desvio padrão? O que é pegar a raiz quadrada que produz um valor útil?

Dave
fonte
Intimamente relacionado: stats.stackexchange.com/questions/35123/…
Sycorax diz Reinstate Monica em
2
Pense no desvio padrão como uma norma de vetor euclidiano e depois na variação como quadrado. Essa definição de variância e desvio padrão apresenta propriedades analíticas úteis.
Theideasmith # 23/17

Respostas:

44

Em certo sentido, essa é uma pergunta trivial, mas, em outro, é realmente bastante profunda!

  • Como já foi mencionado, tomando a raiz quadrada implica Stdev(X) tem as mesmas unidades que X .

  • Tomar a raiz quadrada fornece uma homogeneidade absoluta, também conhecida como escalabilidade absoluta . Para qualquer α escalar e variável aleatória X , temos:

    Stdev[αX]=|α|Stdev[X]
    A homogeneidade absoluta é uma propriedade necessária de uma norma . O desvio padrão pode ser interpretado como uma norma (no espaço vetorial de variáveis ​​aleatórias médias zero) de maneira semelhante a x2+y2+z2 é a norma euclidiana padrão em um espaço tridimensional. O desvio padrão é uma medida da distância entre uma variável aleatória e sua média.

Desvio padrão e a norma L2

Caso de dimensão finita:

Numa n espaço vectorial dimensional, a norma euclidiana padrão conhecido como o L2 norma está definido como:

x2=ixi2

Mais amplamente, o -norm leva o th raiz para obter absoluta homogeneidade: .p xp=(i|xi|p)1ppαxp=(i|αxi|p)1p=|α|(i|xi|p)1p=|α|xp

Se você tiver pesos , a soma ponderada também é uma norma válida. Além disso, é o desvio padrão se representar probabilidades eqiixi2qiqiE[x]ixiqi=0

Caso de dimensão infinita:

Em um espaço Hilbert de dimensão infinita, da mesma forma, podemos definir a norma :L2

__X__2=ωX(ω)2dP(ω)

Se é uma variável aleatória média zero e é a medida de probabilidade, qual é o desvio padrão? É o mesmo: .XPωX(ω)2dP(ω)

Resumo:

Tomando a raiz quadrada faz significa que o desvio padrão satisfaz a homogeneidade absoluta , uma propriedade necessária de uma norma .

Em um espaço de variáveis ​​aleatórias, é um produto interno e o norma induzida por esse produto interno . Portanto, o desvio padrão é a norma de uma variável aleatória : É uma medida da distância da média a .X,Y=E[XY]X 2 = __X__2=E[X2] Stdev[X]="X-E[X]"2E[X]X

Stdev[X]=__X-E[X]__2
E[X]X

(Ponto técnico: enquanto é uma norma, o desvio padrão não é uma norma sobre variáveis ​​aleatórias em geral, porque um requisito para um espaço vetorial normalizado é se e somente se . Um desvio padrão de 0 não ' t implica que a variável aleatória é o elemento zero.)E[X2]E[(X-E[X])2] "x"=0x=0__x__=0 0x=0 0

Matthew Gunn
fonte
11
Essa resposta realmente está no cerne da questão, tornando-a mais informativa do que a atualmente aceita.
00prometheus 28/03
26

A variação de é definida como , portanto, é uma expectativa de uma diferença ao quadrado entre X e seu valor esperado.V ( X ) = E ( X - E ( X ) ) 2XV(X)=E(X-E(X))2

Se é o tempo em segundos, está em segundos, mas está em e está novamente em segundos.X - E ( X ) V ( X ) segundos 2 XX-E(X)V(X)segundos2V(X)

HStamper
fonte
Ah, entendo, está apenas desfazendo a mudança de escala resultante da quadratura das diferenças, no cálculo da variação?
23417 Dave
11
Certo - mas mudança nas dimensões , não na escala.
Jean-François Corbett
Mas não é como se houvesse um único termo: existem muitos e cada um, quando no poder 2, traz mais ou menos do que outros termos. Mas quando pegamos a raiz quadrada, meio que negligenciamos essa diferença, não é? Não teríamos o numerador inicial, soma de todas as diferenças dessa maneira. Não seria melhor criar uma raiz quadrada de cada termo individual?
parsecer 24/03
Parece que você está pensando na estimativa , com base em uma amostra. Nesse caso, se você o fizesse, as diferenças seriam zeradas: . Σ n i = 1 (xi- ˉ x )=Σ n i = 1 xi-Σ n i = 1 xi=0V^Eu=1 1n(xEu-x¯)=Eu=1 1nxEu-Eu=1 1nxEu=0 0
HStamper
@ EricMittman Exceto que , não , nesse caso, você obteria o erro absoluto médio . umauma2=|uma|uma
Dougal 25/03
6

A resposta simples é que as unidades estão na mesma escala que a média. Exemplo: Estimo a média para o aluno do ensino médio em 160 cm com um desvio padrão (DP) de 20 cm. É intuitivamente mais fácil perceber a variação com o SD do que a variação de 400 cm ^ 2.

Otimista
fonte
0

Em termos mais simples, o desvio padrão é projetado para nos fornecer um número positivo que diz algo sobre a disseminação de nossos dados sobre sua média.

Se somarmos as distâncias de todos os pontos da média, os pontos nas direções positiva e negativa se combinariam de uma maneira que tenderia a gravitar de volta para a média e perderíamos informações sobre a propagação. É por isso que medimos a variação primeiro, para que todas as distâncias sejam preservadas como quantidades positivas via quadratura e elas não se cancelem. No final, queremos um valor positivo que represente as unidades com as quais começamos - isso já foi comentado acima -, então tomamos a raiz quadrada positiva.

DC_Beardly
fonte
-3

É uma estupidez histórica que continuamos devido à preguiça intelectual. Eles escolheram quadrado as diferenças da média para se livrar do sinal de menos. Então eles pegaram a raiz quadrada para trazê-la para uma escala semelhante à média.

Alguém deve gerar novas estatísticas, variação de computação e DP usando módulo ou valores absolutos de desvio da média. Isso eliminaria toda essa quadratura e, em seguida, acabaria com o negócio da raiz quadrada.

Asir Ajmal
fonte
11
Já temos isso, na forma do desvio absoluto médio (ou mediano), das normas L1 e similares. No entanto, a principal vantagem da abordagem tradicional é que, diferentemente dos valores absolutos, é diferenciável, o que permite minimizar e maximizar analiticamente as coisas.
Matt Krause
11
Se você não fornecer uma justificativa substantiva para sua posição, forneça um argumento matemático claramente definido. A soma dos valores absolutos é muito diferente da raiz quadrada da soma dos quadrados. Este último enfatiza a contribuição de valores extremos, que é uma propriedade útil. Além disso, o SSQ é central para os métodos analíticos de mínimos quadrados. Reserve um tempo para expandir os problemas do SD e como as alternativas se comparam para que os leitores possam entender seu ponto de vista. .
ReneBt 4/06
(-1) É muito fácil ler frases como "estupidez histórica" ​​e "preguiça intelectual" como sendo auto-referenciais.
whuber