Estou tentando obter uma melhor compreensão intuitiva do desvio padrão.
Pelo que entendi, é representativo da média das diferenças de um conjunto de observações em um conjunto de dados da média desse conjunto de dados. No entanto, NÃO é realmente igual às médias das diferenças, pois dá mais peso às observações mais distantes da média.
Digamos que eu tenha a seguinte população de valores -
A média é .
Se eu medir um spread com base no valor absoluto, recebo
Se eu medir um spread com base no desvio padrão, recebo
O resultado usando o desvio padrão é maior, como esperado, devido ao peso extra que atribui a valores mais distantes da média.
Mas se me soubessem que estava lidando com uma população com média de e desvio padrão de como inferiria que a população era composta de valores algo como ? Parece que a figura de é muito arbitrária ... Não vejo como você deve interpretá-la. Será que significam os valores são disseminação muito ampla ou são todos bem agrupado em torno da média ...
Quando você recebe uma declaração de que está lidando com uma população com média de e desvio padrão de o que isso diz sobre a população?
fonte
Respostas:
Minha intuição é que o desvio padrão é: uma medida de propagação dos dados.
Você tem um bom argumento de que se é amplo ou restrito depende de qual é nossa suposição subjacente para a distribuição dos dados.
Advertência: Uma medida de dispersão é mais útil quando a distribuição de seus dados é simétrica em torno da média e apresenta uma variação relativamente próxima à da distribuição Normal. (Isso significa que é aproximadamente normal.)
No caso em que os dados são aproximadamente normais, o desvio padrão possui uma interpretação canônica:
(veja o primeiro gráfico no Wiki )
Isso significa que, se soubermos que a média da população é 5 e o desvio padrão é 2,83 e assumirmos que a distribuição é aproximadamente Normal, eu diria a você que estou razoavelmente certo de que, se fizermos (muitas) muitas observações, apenas 5% serão ser menor que 0,4 = 5 - 2 * 2,3 ou maior que 9,6 = 5 + 2 * 2,3.
Observe qual é o impacto do desvio padrão em nosso intervalo de confiança? (quanto mais propagação, mais incerteza)
Além disso, no caso geral em que os dados não são aproximadamente normais, mas simétricos, você sabe que existem alguns para os quais:α
Você pode aprender o de uma subamostra ou assumir α = 2, o que geralmente fornece uma boa regra geral para o cálculo mental de quais observações futuras serão esperadas ou quais das novas observações podem ser consideradas outliers. (tenha em mente a ressalva!)α α=2
Eu acho que todas as perguntas que sejam "amplas ou restritas" também devem conter: "em relação a quê?". Uma sugestão pode ser usar uma distribuição conhecida como referência. Dependendo do contexto, pode ser útil pensar: "É muito mais amplo ou mais apertado que um Normal / Poisson?".
EDIT: Com base em uma dica útil nos comentários, mais um aspecto sobre o desvio padrão como medida de distância.
Ainda outra intuição da utilidade do desvio padrão é que é uma medida de distância entre os dados da amostra x 1 , … , x N e sua média ˉ x :sN x1,…,xN x¯
Como comparação, o erro quadrado médio (MSE), uma das medidas de erro mais populares nas estatísticas, é definido como:
As questões podem ser levantadas por que a distância acima funciona? Por que distâncias quadradas, e não distâncias absolutas, por exemplo? E por que estamos pegando a raiz quadrada?
Ter funções quadráticas de distância ou erro tem a vantagem de podermos diferenciá-las e minimizá-las facilmente. No que diz respeito à raiz quadrada, ela contribui para a interpretabilidade, pois converte o erro de volta à escala de nossos dados observados.
fonte
Pode ajudar a perceber que a média é análoga ao centro de massa . A variação é o momento de inércia . O desvio padrão é o raio de rotação .
Para uma perspectiva histórica, dê uma olhada em:
George Airy (1875) Sobre a teoria algébrica e numérica dos erros de observação e a combinação de observações
Karl Pearson (1894) Contribuições para a teoria matemática da evolução.
Este gráfico de Airy 1875 mostra as várias medidas de desvio que são facilmente interconvertidas (página 17). O desvio padrão é chamado "erro do quadrado médio". Também são discutidas as páginas 20-21 e ele justifica seu uso na página 48, mostrando que é mais fácil calcular manualmente, porque não há necessidade de cálculo separado de erros negativos e positivos. O termo desvio padrão foi introduzido por Pearson no artigo citado acima na página 75.
Como um aparte: Observe que a utilidade do desvio padrão depende da aplicabilidade da "lei dos erros", também conhecida como "curva normal", que surge de "muitas causas independentes de erro" (Airy 1875 pg 7) Não há razão para esperar que os desvios da média de um grupo de cada indivíduo sigam essa lei. Em muitos casos, para sistemas biológicos, uma distribuição logarítmica normal é melhor do que o normal. Vejo:
Limpert et al (2001) Distribuições log-normais nas ciências: chaves e pistas
É ainda questionável se é apropriado tratar a variação individual como ruído, uma vez que o processo de geração de dados atua no nível do indivíduo e não do grupo.
fonte
De fato, o desvio padrão dá mais peso aos que estão mais afastados da média, porque é a raiz quadrada da média das distâncias ao quadrado. As razões para usar isso (em vez do desvio absoluto médio que você propõe, ou o desvio absoluto médio, que é usado em estatísticas robustas) devem-se em parte ao fato de o cálculo ter um tempo mais fácil com polinômios do que com valores absolutos. No entanto, frequentemente, queremos enfatizar os valores extremos.
Quanto à sua pergunta sobre o significado intuitivo, ele se desenvolve com o tempo. Você está certo de que mais de um conjunto de números pode ter a mesma média e sd; isso ocorre porque o mean e o sd são apenas duas informações e o conjunto de dados pode ser de 5 partes (como 1,3,5,7,9) ou muito mais.
Se uma média de 5 e sd de 2,83 é "ampla" ou "estreita" depende do campo em que você está trabalhando.
Quando você tem apenas 5 números, é fácil olhar para a lista completa; Quando você tem muitos números, maneiras mais intuitivas de pensar sobre a dispersão incluem coisas como o resumo de cinco números ou, melhor ainda, gráficos como um gráfico de densidade.
fonte
O desvio padrão mede a distância da sua população a partir da média como variáveis aleatórias.
A razão pela qual passamos para as funções e medimos a teoria é porque precisamos ter uma maneira sistemática de discutir como dois espaços de probabilidade são iguais para eventos com chance zero de ocorrer. Agora que mudamos para funções, precisamos de uma sensação de distância.
fonte