Hoje eu ensinei uma aula introdutória de estatística e um aluno veio até mim com uma pergunta, que refiz aqui: "Por que o desvio padrão é definido como sqrt de variação e não como sqrt da soma dos quadrados sobre N?"
Definimos variância populacional:
E desvio padrão: .
A interpretação que pode dar a é que dá o desvio médio de unidades na população a partir da média da população de .
No entanto, na definição do sd, dividimos o sqrt da soma dos quadrados por . A questão do aluno levanta é por isso que não dividir o sqrt do sume de quadrados porvez. Assim, chegamos à fórmula da concorrência:
Eu pensei que esta pergunta não é estúpida. Eu gostaria de dar uma resposta ao aluno que vai além de dizer que o sd é definido como sqrt da variância, que é o desvio quadrado médio. Em outras palavras, por que o aluno deve usar a fórmula correta e não seguir sua ideia?
Esta pergunta está relacionada a um tópico e respostas mais antigos fornecidos aqui . As respostas vão em três direções:
- é o desvio da raiz média quadrática (RMS), não o desvio "típico" da média (ou seja, ). Assim, é definido de forma diferente.
- Tem boas propriedades matemáticas.
- Além disso, o sqrt traria de volta "unidades" para sua escala original. No entanto, este também seria o caso para , que se divide por , em vez.
Ambos os pontos 1 e 2 são argumentos a favor do sd como RMS, mas não vejo um argumento contra o uso de . Quais seriam os bons argumentos para convencer os alunos do nível introdutório do uso da distância média do RMS à média?
"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"
Será que o que está dentro dos colchetes se perdeu de alguma maneira na questão?Respostas:
Existem pelo menos três problemas básicos que podem ser facilmente explicados aos iniciantes:
O "novo" SD nem é definido para populações infinitas. (Pode-se declarar que sempre é igual a zero nesses casos, mas isso não tornaria mais útil.)
O novo SD não se comporta da maneira que uma média deve fazer sob amostragem aleatória.
Embora o novo DS possa ser usado com todo o rigor matemático para avaliar desvios de uma média (em amostras e populações finitas), sua interpretação é desnecessariamente complicada.
1. A aplicabilidade do novo SD é limitada
O ponto (1) pode ser trazido para casa, mesmo para aqueles que não são versados em integração, salientando que, como a variação é claramente uma média aritmética (de desvios quadrados), ela tem uma extensão útil para modelos de populações "infinitas" para as quais o a intuição da existência de uma média aritmética ainda se mantém. Portanto, sua raiz quadrada - o SD habitual - também está perfeitamente bem definida nesses casos, e é tão útil em seu papel quanto uma (reexpressão não linear de) uma variação. No entanto, o novo SD divide essa média pelo √ arbitrariamente grande , tornando problemática sua generalização além de populações finitas e amostras finitas: o que deve1/ √N−−√ é considerado igual nesses casos?1/N−−√
2. O novo SD não é uma média
Qualquer estatística digna do nome "média" deve ter a propriedade de convergir para o valor da população à medida que o tamanho de uma amostra aleatória da população aumenta. Qualquer múltiplo fixo do SD teria essa propriedade, porque o multiplicador se aplicaria ao cálculo do SD de amostra e do SD da população. (Embora não contradiga diretamente o argumento oferecido por Alecos Papadopoulos, essa observação sugere que o argumento é tangencial apenas aos problemas reais.) No entanto, o "novo" SD, sendo igual a vezes o usual, obviamente converge para0em todas as circunstâncias, como o tamanho da amostraN1/N−−√ 0 N aumenta. Portanto, embora para qualquer tamanho fixo de amostra o novo DP (interpretado adequadamente) seja uma medida de variação perfeitamente adequada em torno da média,N não pode justificadamente ser considerada uma medida universal aplicável, com a mesma interpretação, para todos os tamanhos de amostra, nem pode ser corretamente chamado de "média" em qualquer sentido útil.
3. O novo SD é complicado de interpretar e usar
Considere coletar amostras do tamanho (digamos) . O novo SD nesses casos éN=4 vezes o SD habitual. Por isso, possui interpretações comparáveis, como um análogo da regra 68-95-99 (cerca de 68% dos dados devem estar dentro dedoisnovos SDs da média, 95% deles emquatronovos SDs da média,etc.; e versões de desigualdades clássicos, como o domínio de Chebychev vontade (não mais do que1/k2dos dados pode mentir mais de2knovas SDs longe de sua média) eo Teorema do Limite Central pode ser analogamente atualizado em termos do novo SD (um divide por √1/N−−√=1/2 1/k2 2k vezes o novo SD para padronizar a variável). Assim, nesse sentido específico e claramente restrito,não há nada de errado com a proposta do aluno. A dificuldade, porém, é que todas essas declarações contêm - de maneira bastante explícita - fatores de √N−−√ . Embora não exista nenhum problema matemático inerente a isso, certamente complica as afirmações e a interpretação das leis mais fundamentais da estatística.N−−√=2
É de notar que Gauss e outros originalmente parametrizaram a distribuição gaussiana por , efetivamente usando √2–√σ vezes o DP para quantificar a propagação de uma variável aleatória Normal. Esse uso histórico demonstra a adequação e eficácia do uso de outros2–√ múltiplos fixos do SD em seu lugar.
fonte
Assume that your sample contains only two realizations. I guess an intuitive measure of dispersion would be the average absolute deviation (AAD)
So we would want other measures of dispersion at the same level of units of measurement to be "close" to the above.
The sample variance is defined as
To return to the original units of measurement, if we did as the student wondered/suggested,we would obtain the measure, call itq
i.e. we would have "downplayed" the "intuitive" measure of dispersion, while if we have considered the standard deviation as defined,
Since we want to "stay as close as possible" to the intuitive measure, we should useSD .
ADDENDUMn We have
Let's consider now a sample of size
and
we can write the right-hand side of the variance expression as
Then the dispersion measureqn will be
Now think informally: note that∑j≠i|xi−x¯||xj−x¯| contains n2−n terms, and so divided by n2 will left us with "one term in the second power". But also "one term in the 2nd power" is what we have in AAD2 : this is a primitive way to "sense" why qn will tend to zero as n grows large. On the other hand the Standard Deviation as defined would be
Continuing are informal thinking, the first term gives usn "terms in the 2nd power", while the second term gives us n−1 "terms in the second power" . So we will be left eventually with one such term, as n grows large, and then we will take its square root.n , as well as for the case when n→∞ .
This does not mean that the Standard Deviation as defined will equal the Average Absolute Deviation in general (it doesn't), but it does show that it is suitably defined so as to be "on a par" with it for any
fonte