O uso do desvio padrão baseia-se na suposição de distribuição normal?

9

Gostaria de saber se o desvio padrão sempre foi construído com base na suposição de uma distribuição normal. Em outras palavras, se a amostra não for normalmente distribuída, o desvio padrão deve ser considerado um erro?

Dougal
fonte
3
Uma distribuição uniforme tem um desvio padrão, como isso pode ser um "erro"?

Respostas:

17

Não. O uso do desvio padrão não assume normalidade.

A variação de uma variável aleatória é definida como . Enquanto a variação existir, o desvio padrão também existe. O desvio padrão é a raiz quadrada da variação.Var(X)=E[(XE[X])2]

Você pode usar a variação ou o desvio padrão a qualquer momento que os dois existirem. A variação surge em inúmeras situações.Var(X)

Existem teoremas especiais, lemas, etc ... embora para o caso especial em que segue a distribuição normal.X

Um uso comum do desvio padrão que depende da normalidade:

Se segue a distribuição normal, há aproximadamente uma probabilidade de 95% de cair dentro de dois desvios padrão da média.XXX

Essa afirmação é verdadeira se segue a distribuição normal (e várias outras), mas não é verdade em geral.X

Um uso comum da variação que não depende da normalidade:

Seja uma variável aleatória com média e variância . Definir para como variáveis aleatórias independentes, cada um seguindo a distribuição idêntica como .E [ X ] = μ Var ( X ) = σ 2 X i i = 1 , , n XXE[X]=μVar(X)=σ2Xii=1,,nX

Defina a média da amostra com base em observações como: ˉ X n = 1n

X¯n=1ni=1nXi

Pelo Teorema do Limite Central, converge para uma variável aleatória normalmente distribuída com média e variância . (Mais precisamente converge na distribuição para como .)μσ2X¯nμσ2nn(X¯nμ)N(0,σ2)n

A implicação prática é que a média da amostra para grande pode ser tratado como uma variável aleatória com distribuição normal cuja variância é uma função da variação de . (Lembre-se de Var ( X ) = σ 2. ) E esse resultado não requer que X seja normal. (Requer um n mais baixo para funcionar bem se X estiver mais próximo, em certo sentido, da distribuição normal.)X¯nnσ2nXVar(X)=σ2XnX

O Teorema do Limite Central é uma ferramenta onipresente que usa a variação de e não precisa de X para seguir a distribuição normal.XX

Matthew Gunn
fonte
4
A desigualdade de Chebyshev não é específica da variação: existe uma versão igualmente útil para todo momento absoluto com poder maior que . Eu sugeriria, portanto, procurar em outro lugar as razões pelas quais o DS é importante e (quase) universal, como o papel único desempenhado pela variação no Teorema do Limite Central. 1 1
whuber
@ whuber Sim, eu comecei a escrever um exemplo CLT (e agora eu o adicionei). O CLT é uma razão extremamente prática para se preocupar com a variação.
Matthew Gunn
11
+1. Mas nota que, enquanto variância (juntamente com a média) dá uma descrição completa no caso normal, para distribuição não-normal esta pode não ser mais o caso, e outros d3scriptors dos dados pode ser muito melhor
b Kjetil Halvorsen
2

S2σ^Meu2Vumar[XEu]

zen
fonte