Por que o desvio padrão é definido como sqrt da variação e não como sqrt da soma dos quadrados sobre N?

16

Hoje eu ensinei uma aula introdutória de estatística e um aluno veio até mim com uma pergunta, que refiz aqui: "Por que o desvio padrão é definido como sqrt de variação e não como sqrt da soma dos quadrados sobre N?"

Definimos variância populacional: σ2=1N(xiμ)2

E desvio padrão: σ=σ2=1N(xiμ)2 .

A interpretação que pode dar a σ é que dá o desvio médio de unidades na população a partir da média da população de X .

No entanto, na definição do sd, dividimos o sqrt da soma dos quadrados por N . A questão do aluno levanta é por isso que não dividir o sqrt do sume de quadrados porNvez. Assim, chegamos à fórmula da concorrência:

σnew=1N(xiμ)2.
O aluno argumentou que esta fórmula se parece mais com um desvio "médio" da média do que ao dividir porN como emσ.

Eu pensei que esta pergunta não é estúpida. Eu gostaria de dar uma resposta ao aluno que vai além de dizer que o sd é definido como sqrt da variância, que é o desvio quadrado médio. Em outras palavras, por que o aluno deve usar a fórmula correta e não seguir sua ideia?

Esta pergunta está relacionada a um tópico e respostas mais antigos fornecidos aqui . As respostas vão em três direções:

  1. σ é o desvio da raiz média quadrática (RMS), não o desvio "típico" da média (ou seja,σnew ). Assim, é definido de forma diferente.
  2. Tem boas propriedades matemáticas.
  3. Além disso, o sqrt traria de volta "unidades" para sua escala original. No entanto, este também seria o caso para σnew , que se divide por N , em vez.

Ambos os pontos 1 e 2 são argumentos a favor do sd como RMS, mas não vejo um argumento contra o uso de σnew . Quais seriam os bons argumentos para convencer os alunos do nível introdutório do uso da distância média do RMS σ à média?

tomka
fonte
2
Eu acho que a própria pergunta "Por que o desvio padrão é definido como ..." é difícil de responder. As definições são apenas convenções arbitrárias de rotulagem. Eles não precisam se conformar com o porquê .
ttnphns
"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"Será que o que está dentro dos colchetes se perdeu de alguma maneira na questão?
ttnphns
1
Mas SD serve a uma série de propósitos; deve haver melhor motivação do que se define assim. Isso seria útil, especialmente no ensino de graduação. Posso imaginar uma motivação no sentido da desigualdade de Chebyshev (mín. De proporção de casos no reino de +/- um fator constante de sd).
tomka 22/09
2
Não é possível responder porque seu Q está em espera, mas tente o seguinte: imagine que você observe os valores 1 e 3 em proporções aproximadamente iguais (jogue uma moeda, H=3 , T=1 ). Uma "distância típica" de observações da média deve ser algo como 1. Com o seu fórmula S S E /n, considere o que acontece com essa medida de distância típica paranmuito, muito grande. Em cada caso| xi- ˉ x | estará próximo de 1, então a soma dos quadrados será próxima den. O numerador estará próximo deSSE/nn|xix¯|n para que sua fórmula ficasse cada vez menor à medida quenaumentasse, mesmo que a distância típica da média não estivesse mudando. nn
Glen_b -Reinstate Monica
1
@whuber Fiz outra atualização e espero que o argumento seja mais claro agora. Note que estou pedindo conselhos de ensino aqui, além de fazer uma pergunta sobre fundamentos estatísticos. Não estou sugerindo uma fórmula alternativa, mas dei um exemplo de uma situação de sala de aula de uma boa pergunta de um aluno à qual eu não tive uma resposta imediata. Se você concordar, solicito que a questão seja suspensa agora.
Tomka

Respostas:

12

Existem pelo menos três problemas básicos que podem ser facilmente explicados aos iniciantes:

  1. O "novo" SD nem é definido para populações infinitas. (Pode-se declarar que sempre é igual a zero nesses casos, mas isso não tornaria mais útil.)

  2. O novo SD não se comporta da maneira que uma média deve fazer sob amostragem aleatória.

  3. Embora o novo DS possa ser usado com todo o rigor matemático para avaliar desvios de uma média (em amostras e populações finitas), sua interpretação é desnecessariamente complicada.

1. A aplicabilidade do novo SD é limitada

O ponto (1) pode ser trazido para casa, mesmo para aqueles que não são versados ​​em integração, salientando que, como a variação é claramente uma média aritmética (de desvios quadrados), ela tem uma extensão útil para modelos de populações "infinitas" para as quais o a intuição da existência de uma média aritmética ainda se mantém. Portanto, sua raiz quadrada - o SD habitual - também está perfeitamente bem definida nesses casos, e é tão útil em seu papel quanto uma (reexpressão não linear de) uma variação. No entanto, o novo SD divide essa média pelo arbitrariamente grande , tornando problemática sua generalização além de populações finitas e amostras finitas: o que deve1/N é considerado igual nesses casos?1/N

2. O novo SD não é uma média

Qualquer estatística digna do nome "média" deve ter a propriedade de convergir para o valor da população à medida que o tamanho de uma amostra aleatória da população aumenta. Qualquer múltiplo fixo do SD teria essa propriedade, porque o multiplicador se aplicaria ao cálculo do SD de amostra e do SD da população. (Embora não contradiga diretamente o argumento oferecido por Alecos Papadopoulos, essa observação sugere que o argumento é tangencial apenas aos problemas reais.) No entanto, o "novo" SD, sendo igual a vezes o usual, obviamente converge para0em todas as circunstâncias, como o tamanho da amostraN1/N0N aumenta. Portanto, embora para qualquer tamanho fixo de amostra o novo DP (interpretado adequadamente) seja uma medida de variação perfeitamente adequada em torno da média,N não pode justificadamente ser considerada uma medida universal aplicável, com a mesma interpretação, para todos os tamanhos de amostra, nem pode ser corretamente chamado de "média" em qualquer sentido útil.

3. O novo SD é complicado de interpretar e usar

Considere coletar amostras do tamanho (digamos) . O novo SD nesses casos éN=4vezes o SD habitual. Por isso, possui interpretações comparáveis, como um análogo da regra 68-95-99 (cerca de 68% dos dados devem estar dentro dedoisnovos SDs da média, 95% deles emquatronovos SDs da média,etc.; e versões de desigualdades clássicos, como o domínio de Chebychev vontade (não mais do que1/k2dos dados pode mentir mais de2knovas SDs longe de sua média) eo Teorema do Limite Central pode ser analogamente atualizado em termos do novo SD (um divide por1/N=1/21/k22k vezes o novo SD para padronizar a variável). Assim, nesse sentido específico e claramente restrito,não há nada de errado com a proposta do aluno. A dificuldade, porém, é que todas essas declarações contêm - de maneira bastante explícita - fatores deN. Embora não exista nenhum problema matemático inerente a isso, certamente complica as afirmações e a interpretação das leis mais fundamentais da estatística.N=2


É de notar que Gauss e outros originalmente parametrizaram a distribuição gaussiana por , efetivamente usando2σ vezes o DP para quantificar a propagação de uma variável aleatória Normal. Esse uso histórico demonstra a adequação e eficácia do uso de outros2 múltiplos fixos do SD em seu lugar.

whuber
fonte
Obrigado - uma pergunta de volta (relacionada ao seu ponto 2): faz não converge para0,poisNcresce, enquanto11N0N obviamente faz? 1N
tomka 23/09/14
2
Estamos comparando o SD da amostra com vezes o SD da amostra (o "novo SD"). À medida queNcresce, o DP da amostra se aproxima de umaconstante(geralmente) diferente de zeroigual ao DP da população. Portanto1/1/NN vezes que o SD de amostra converge para zero. 1/N
whuber
Este é um material padrão - consulte qualquer livro rigoroso em estatística matemática (que, para ser justo, não seria acessível para a maioria dos iniciantes). No entanto, os resultados importantes para a minha resposta seguem de uma declaração mais fraca e intuitivamente óbvia. Fixe um número e deixe σ ser o SD da população. Considere a chance de o SD de amostra estar entre σ / A e A σ . Basta que essa chance chegue a zero à medida que o tamanho da amostra N aumenta. Isso por si só mostra que 1 / A>1σσ/AAσN1/N times the sample SD converges to 0 almost surely, demonstrating point (2) in the answer.
whuber
+1, plus it is not scale-invariant etc, (a condition necessary for a moment of this form)
Nikos M.
@Nikos Thank you, but what is not scale invariant? Both SD/N and SD change when the data are rescaled.
whuber
5

Assume that your sample contains only two realizations. I guess an intuitive measure of dispersion would be the average absolute deviation (AAD)

AAD=12(|x1x¯|+|x2x¯|)=...=|x1x2|2

So we would want other measures of dispersion at the same level of units of measurement to be "close" to the above.

The sample variance is defined as

σ2=12[(x1x¯)2+(x2x¯)2]=12[(x1x22)2+(x2x12)2]

=12[(x1x2)24+(x1x2)24]=12(x1x2)22

=12|x1x2|22

To return to the original units of measurement, if we did as the student wondered/suggested,we would obtain the measure, call it q

q12|x1x2|22=12|x1x2|2=12AAD<AAD

i.e. we would have "downplayed" the "intuitive" measure of dispersion, while if we have considered the standard deviation as defined,

SDσ2=|x1x2|2=AAD

Since we want to "stay as close as possible" to the intuitive measure, we should use SD.

ADDENDUM
Let's consider now a sample of size n We have

nAAD=i=1n|xix¯|

and

nVar(X)=i=1n(xix¯)2=i=1n|xix¯|2

we can write the right-hand side of the variance expression as

i=1n|xix¯|2=(i=1n|xix¯|)2ji|xix¯||xjx¯|

=(nAAD)2ji|xix¯||xjx¯|

Then the dispersion measure qn will be

qn1n[n2AAD2ji|xix¯||xjx¯|]1/2

=[AAD21n2ji|xix¯||xjx¯|]1/2

Now think informally: note that ji|xix¯||xjx¯| contains n2n terms, and so divided by n2 will left us with "one term in the second power". But also "one term in the 2nd power" is what we have in AAD2: this is a primitive way to "sense" why qn will tend to zero as n grows large. On the other hand the Standard Deviation as defined would be

SD1n[n2AAD2ji|xix¯||xjx¯|]1/2

=[nAAD21nji|xix¯||xjx¯|]1/2

Continuing are informal thinking, the first term gives us n "terms in the 2nd power", while the second term gives us n1 "terms in the second power" . So we will be left eventually with one such term, as n grows large, and then we will take its square root.
This does not mean that the Standard Deviation as defined will equal the Average Absolute Deviation in general (it doesn't), but it does show that it is suitably defined so as to be "on a par" with it for any n, as well as for the case when n.

Alecos Papadopoulos
fonte
1
Although this answer is interesting, I believe there are more important, convincing, and rigorous explanations (of which I have offered only a few in my own answer: much more could be said, especially concerning the role of the SD in the Central Limit theorem and algebraic rules for computing SDs of sums of independent random variables).
whuber
2
@whuber Certainly. I just opted for a "the bell has rung" approach to destroy the student's intermission!
Alecos Papadopoulos