O desvio padrão está totalmente errado? Como você pode calcular std para alturas, contagens e etc (números positivos)?

13

Digamos que eu estou calculando alturas (em cm) e os números devem ser maiores que zero.

Aqui está a lista de exemplo:

0.77132064
0.02075195
0.63364823
0.74880388
0.49850701
0.22479665
0.19806286
0.76053071
0.16911084
0.08833981

Mean: 0.41138725956196015
Std: 0.2860541519582141

Neste exemplo, de acordo com a distribuição normal, 99,7% dos valores devem estar entre ± 3 vezes o desvio padrão da média. No entanto, mesmo duas vezes o desvio padrão se torna negativo:

-2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468

No entanto, meus números devem ser positivos. Portanto, eles devem estar acima de 0. Posso ignorar números negativos, mas duvido que esta seja a maneira correta de calcular probabilidades usando o desvio padrão.

Alguém pode me ajudar a entender se estou usando isso da maneira correta? Ou preciso escolher um método diferente?

Bem, para ser honesto, matemática é matemática. Não importa se é uma distribuição normal ou não. Se funcionar com números não assinados, também deverá funcionar com números positivos! Estou errado?

EDIT1: histograma adicionado

Para ser mais claro, adicionei o histograma dos meus dados reais insira a descrição da imagem aqui

EDIT2: Alguns valores

Mean: 0.007041500928135767
Percentile 50: 0.0052000000000000934
Percentile 90: 0.015500000000000047
Std: 0.0063790857035425025
Var: 4.06873389299246e-05
Don Coder
fonte
28
Eu acho que o mal-entendido aqui é que uma distribuição que só pode ter números positivos não é normal, então a regra de 99,7% que você declara não se aplica. Segundo, a partir da fórmula de desvio padrão (amostra), você pode ver que não há nenhuma condição em que qualquer um dos valores originais seja positivo - então por que deveria estar errado? Pode ser que seja usado incorretamente, mas as estatísticas são principalmente agnósticas e não devem ser aplicadas sem pensar.
Momo
8
A beleza da regra 68-95-99.7, @Momo, é que ela se aplica mesmo a muitas distribuições decididamente não-normais. Nesse caso, 50% dos números estão dentro de 1 sd da média e 100% estão dentro de 2 sds da média. Observe que 68% se aproxima com precisão de 50% e 95% se aproxima com precisão de 100% dentro dos desvios que esperaríamos de um conjunto de dados tão pequeno. Portanto, este exemplo ilustra a regra de ouro, mesmo que isso não seja convincente devido ao seu tamanho pequeno.
whuber
2
Concordo. Deixe-me corrigir isso para "para que a regra de 99,7% que você declara não se aplique necessariamente ". A fonte da confusão aqui parece aplicá-la como algo mais do que uma regra de ouro e não em termos de suas nuances "aproximadamente dentro dos desvios que esperamos". O último comentário do OP mostra apenas isso.
Momo
4
O título deve ser alterado para algo como "Como aplicar a regra 68-95-99.7 a dados que precisam ser positivos"? Eu acho que capta mais do espírito da questão. (Não é um problema com a maneira que o desvio padrão está sendo calculado, que é o que o título sugere, mas sim a forma como ele está sendo usado para encontrar probabilidades.)
Silverfish
4
O desvio padrão não está "errado". O que é menos preciso é tratar coisas normais que não são; as proporções fora de um determinado número de desvios padrão implícitos na normalidade nem sempre serão precisas para outras distribuições. Para distribuições unimodais contínuas, perto de 2 desvios padrão, os intervalos de dois lados são geralmente bastante razoáveis, mas mais longe as probabilidades de cauda podem ter erros relativos muito altos.
Glen_b -Reinstala Monica

Respostas:

23

Se seus números puderem ser positivos apenas, modelá-los como uma distribuição normal pode não ser desejável, dependendo do seu caso de uso, porque a distribuição normal é suportada em todos os números reais.

Talvez você queira modelar a altura como uma distribuição exponencial ou talvez uma distribuição normal truncada?

λ

Kevin Li
fonte
10
A primeira frase não está correta em geral: muitas quantidades estritamente positivas geralmente podem ser aproximadas por uma distribuição normal. Se a massa de probabilidade abaixo de 0 for muito pequena, não importa para todos os efeitos práticos. Nesse caso em particular, certamente está certo.
COOLSerdash
13
-1 Esta resposta reflete um equívoco amplamente divulgado (e que é pernicioso) sobre o que é um modelo estatístico e o que realmente significa modelar dados com uma distribuição Normal. De fato, se acreditássemos no que este post diz, "certamente seria incorreto" aproximar uma distribuição binomial de uma distribuição normal - mas esse é historicamente o uso original e provavelmente mais difundido da distribuição normal! (Edit: eu removi o downvote porque você modificou a reivindicação original em um que é muito mais correta e útil.)
whuber
4
Depende do que você quer dizer com "superior". Parte do custo de um modelo está no que é necessário para implementá-lo. Se você adota um modelo normal truncado, provavelmente está se comprometendo com muitos cálculos numéricos personalizados, em vez de cálculos analíticos rápidos, fáceis e talvez maravilhosamente precisos. Outro objetivo de um modelo é fornecer insight : alguém pensa: "se a natureza se comporta pelo menos aproximadamente como essas suposições, então que consequências podem ser inferidas a partir dessas suposições?" Muitas vezes, fazer essas inferências é mais fácil com uma aproximação simples.
whuber
2
@ whuber: depois de "maravilhosamente preciso" eu adicionei mentalmente "errado". Desculpe. Claro, também "mas útil" por Caixa.
23918 Stephan Stephanaassass
2
Mesmo que os dados consistam em valores não inteiros?
Kevin Li
19

"Qual é a maneira correta de aplicar 68-95-99.7 ao meu caso?"

Só se deve esperar que a regra geral da cobertura se aplique exatamente apenas se você estiver (1) observando toda a população (infinita) ou a distribuição teórica de probabilidade e (2) a distribuição for exatamente normal .

Se você tirar uma amostra aleatória do tamanho 20, mesmo de uma distribuição genuinamente normal, nem sempre descobrirá que 95% dos dados (19 dos 20 itens) estão dentro de 2 (ou 1.960) desvios padrão da média. De fato, não é garantido que 19 dos 20 itens estejam dentro de 1.960 desvios padrão populacionais da média populacional, nem que 19 dos 20 itens estejam dentro de 1.960 desvios padrão amostrais da média amostral.

Se você coletar uma amostra de dados de uma distribuição que não é normalmente distribuída normalmente, não se esperaria que a regra 68-95-99.7 se aplicasse exatamente. Mas pode ser razoavelmente próximo disso, principalmente se o tamanho da amostra for grande (a regra geral "cobertura com 99,7%" pode não ser especialmente significativa com um tamanho de amostra abaixo de 1000) e a distribuição é razoavelmente próxima da normalidade. Em teoria, muitos dados, como altura ou peso, não poderiam provir de uma distribuição precisamente normal ou isso implicaria uma probabilidade pequena, mas diferente de zero, de serem negativos. No entanto, para dados com uma distribuição aproximadamente simétrica e unimodal, onde os valores médios são mais comuns e valores extremamente altos ou baixos caem em probabilidade, o modelo de uma distribuição normal pode ser adequado para fins práticos.Se meu histograma mostrar uma curva em forma de sino, posso dizer que meus dados são normalmente distribuídos?

1/k2kdesvios padrão da média. Isso garante que pelo menos 75% dos dados estejam dentro de dois desvios padrão da média e 89% dentro de três desvios padrão. Mas esses números são apenas o mínimo garantido teoricamente. Para muitas distribuições mais ou menos em forma de sino, você encontrará que o número de cobertura de desvio de dois padrões se aproxima muito mais de 95% do que 75% e, portanto, a "regra geral" da distribuição normal ainda é útil. Por outro lado, se seus dados vierem de uma distribuição que não chega nem perto do formato de um sino, você poderá encontrar um modelo alternativo que descreva melhor os dados e tenha uma regra de cobertura diferente.

(Uma coisa interessante sobre a regra 68-95-99.7 é que ela se aplica a qualquer distribuição normal, independentemente de seus parâmetros para média ou desvio padrão. Da mesma forma, a desigualdade de Chebyshev se aplica independentemente dos parâmetros ou mesmo da distribuição, embora apenas fornece limites mais baixos para a cobertura, mas se você aplicar, por exemplo, um modelo normal truncado ou inclinar normal , não haverá um equivalente simples da cobertura "68-95-99.7", pois isso dependeria dos parâmetros da distribuição .)

Silverfish
fonte
7

Alguém pode me ajudar a entender se estou usando isso da maneira correta?

Oh, isso é fácil. Não, você não está usando corretamente.

Primeiro, você está usando um conjunto de dados bastante pequeno. Tentar provocar o comportamento estatístico desse conjunto de tamanhos é certamente possível, mas os limites de confiança são (ahem) bastante grandes. Para conjuntos de dados pequenos, os desvios das distribuições esperadas são paritários para o curso, e quanto menor o conjunto, maior o problema. Lembre-se: "A Lei das Médias não só permite as coincidências mais ultrajantes, como as exige".

Pior, o conjunto de dados específico que você está usando simplesmente não se parece muito com uma distribuição normal. Pense nisso - com uma média de 0,498, você tem duas amostras abaixo de 0,1 e mais três em 0,748 ou acima. Então você tem um conjunto de 3 pontos entre 0,17 e 0,22. Observar esse conjunto de dados específico e argumentar que deve ser uma distribuição normal é um bom caso do argumento procrusteano. Isso parece uma curva de sino para você? É perfeitamente possível que a população maior siga uma distribuição normal ou normal modificada e um tamanho de amostra maior resolva o problema, mas eu não apostaria nisso, principalmente sem saber mais sobre a população.

Digo que o normal modificado, como Kevin Li apontou, tecnicamente uma distribuição normal inclui todos os números reais. Como também foi apontado nos comentários de sua resposta, isso não impede a aplicação dessa distribuição em um intervalo limitado e a obtenção de resultados úteis. Como diz o ditado, "Todos os modelos estão errados. Alguns são úteis".

Mas esse conjunto de dados em particular simplesmente não parece deduzir uma distribuição normal (mesmo em um intervalo limitado) é uma idéia particularmente boa. Se seus 10 pontos de dados pareciam .275, .325, .75, .425, .475, .525, .575, .625, .675, .725 (média de 0.500), você assumiria uma distribuição normal?

James Martin
fonte
Eu tenho usado um dados aleatórios para ser capaz de explicar as minhas necessidades e problemas
Don Coder
1
@DonCoder Os dados aleatórios (a menos que você o altere de alguma forma) seguiriam a distribuição uniforme, não a distribuição normal.
Barrycarter
5
Dados aleatórios precisam ser gerados a partir de alguma distribuição. Qual você escolheu?
Peter Flom - Restabelece Monica
Eu adicionei o histograma dos meus dados reais #
Don Coder
2

Em um dos comentários, você diz que usou "dados aleatórios", mas não diz em que distribuição. Se você está falando sobre alturas de seres humanos, elas são normalmente distribuídas normalmente, mas seus dados não são remotamente apropriados para alturas humanas - as suas são frações de um cm!

E seus dados não são remotamente normais. Acho que você usou uma distribuição uniforme com limites de 0 e 1. E você gerou uma amostra muito pequena. Vamos tentar com uma amostra maior:

set.seed(1234)  #Sets a seed
x <- runif(10000, 0 , 1)
sd(x)  #0.28

portanto, nenhum dos dados está além de 2 sd da média, porque está além dos limites dos dados. E a parte dentro de 1 sd será aproximadamente 0,56.

Peter Flom - Restabelece Monica
fonte
1

Freqüentemente, quando você tem uma restrição de que todas as suas amostras devem ser positivas, vale a pena examinar o logaritmo de seus dados para ver se sua distribuição pode ser aproximada por uma distribuição lognormal.

rinspy
fonte
1

Um cálculo de desvio padrão é relativo à média. Você pode aplicar o desvio padrão a números sempre positivos? Absolutamente. Se você adicionasse 1000 a cada um dos valores em seu conjunto de amostras, veria o mesmo valor de desvio padrão, mas terá mais espaço para respirar acima de zero.

s=Eu=1N(xEu-x¯)2N-1=Eu=1N((xEu+k)-(x¯+k))2N-1

No entanto, adicionar uma constante arbitrária aos seus dados é superficial. Ao usar o desvio padrão para um conjunto de dados tão pequeno, você precisará esperar uma saída não refinada. Considere o desvio padrão como uma lente de câmera com foco automático: quanto mais tempo (dados) você der, mais nítida será a imagem. Se depois de rastrear 1000000 pontos de dados, sua média e desvio padrão permanecerem os mesmos de 10, então posso começar a questionar a validade do seu experimento.

Ian MacDonald
fonte
1

Seu histograma mostra que a distribuição normal não é uma boa opção. Você pode tentar lognormal ou outra coisa assimétrica e estritamente positiva

Aksakal
fonte
1

O ponto principal é que muitos de nós somos preguiçosos *, e a distribuição normal é conveniente para trabalhar conosco. É fácil fazer cálculos usando distribuição normal e possui uma boa base matemática. Como tal, é um "modelo" de como trabalhar com dados. Esse modelo geralmente funciona surpreendentemente bem e às vezes cai de cara no chão.

É muito óbvio que suas amostras não indicam uma distribuição normal nos dados. Portanto, a solução para seu dilema é escolher um "modelo" diferente e trabalhar com uma distribuição diferente. As distribuições Weibull podem estar na direção, existem outras.

  • preguiça de não conhecer os dados e selecionar modelos melhores quando necessário.
ghellquist
fonte
0

Basicamente, você está usando dados de proporção em oposição aos dados de intervalo. Os geógrafos passam por isso o tempo todo ao calcular o S / D para chuvas anuais em um local específico (mais de 100 anos de pontos de amostra no LA Civic Center) ou queda de neve (mais de 100 anos de amostras de neve no lago Big Bear). Só podemos ter números positivos, é assim que as coisas são.

Jim Woods
fonte
0

Na meteorologia, as distribuições da velocidade do vento se parecem muito com isso. Por definição, as velocidades do vento também não são negativas.

Então, no seu caso, eu definitivamente consideraria a distribuição Weibull .

Boseki
fonte
0

Você começa com "de acordo com a distribuição normal" quando seus dados claramente não são distribuídos normalmente, esse é o primeiro problema. Você diz "Não importa se é uma distribuição normal ou não". O que é um absurdo absoluto. Você não pode usar instruções sobre dados distribuídos normais se seus dados não forem distribuídos normalmente.

E você interpreta mal a afirmação. "99,7% deve estar dentro de três desvios padrão". E 99,7% dos seus dados estavam dentro de três desvios padrão. Melhor ainda, era 100% dentro de dois desvios padrão. Então a afirmação é verdadeira .

gnasher729
fonte