Digamos que eu estou calculando alturas (em cm) e os números devem ser maiores que zero.
Aqui está a lista de exemplo:
0.77132064
0.02075195
0.63364823
0.74880388
0.49850701
0.22479665
0.19806286
0.76053071
0.16911084
0.08833981
Mean: 0.41138725956196015
Std: 0.2860541519582141
Neste exemplo, de acordo com a distribuição normal, 99,7% dos valores devem estar entre ± 3 vezes o desvio padrão da média. No entanto, mesmo duas vezes o desvio padrão se torna negativo:
-2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468
No entanto, meus números devem ser positivos. Portanto, eles devem estar acima de 0. Posso ignorar números negativos, mas duvido que esta seja a maneira correta de calcular probabilidades usando o desvio padrão.
Alguém pode me ajudar a entender se estou usando isso da maneira correta? Ou preciso escolher um método diferente?
Bem, para ser honesto, matemática é matemática. Não importa se é uma distribuição normal ou não. Se funcionar com números não assinados, também deverá funcionar com números positivos! Estou errado?
EDIT1: histograma adicionado
Para ser mais claro, adicionei o histograma dos meus dados reais
EDIT2: Alguns valores
Mean: 0.007041500928135767
Percentile 50: 0.0052000000000000934
Percentile 90: 0.015500000000000047
Std: 0.0063790857035425025
Var: 4.06873389299246e-05
Respostas:
Se seus números puderem ser positivos apenas, modelá-los como uma distribuição normal pode não ser desejável, dependendo do seu caso de uso, porque a distribuição normal é suportada em todos os números reais.
Talvez você queira modelar a altura como uma distribuição exponencial ou talvez uma distribuição normal truncada?
fonte
"Qual é a maneira correta de aplicar 68-95-99.7 ao meu caso?"
Só se deve esperar que a regra geral da cobertura se aplique exatamente apenas se você estiver (1) observando toda a população (infinita) ou a distribuição teórica de probabilidade e (2) a distribuição for exatamente normal .
Se você tirar uma amostra aleatória do tamanho 20, mesmo de uma distribuição genuinamente normal, nem sempre descobrirá que 95% dos dados (19 dos 20 itens) estão dentro de 2 (ou 1.960) desvios padrão da média. De fato, não é garantido que 19 dos 20 itens estejam dentro de 1.960 desvios padrão populacionais da média populacional, nem que 19 dos 20 itens estejam dentro de 1.960 desvios padrão amostrais da média amostral.
Se você coletar uma amostra de dados de uma distribuição que não é normalmente distribuída normalmente, não se esperaria que a regra 68-95-99.7 se aplicasse exatamente. Mas pode ser razoavelmente próximo disso, principalmente se o tamanho da amostra for grande (a regra geral "cobertura com 99,7%" pode não ser especialmente significativa com um tamanho de amostra abaixo de 1000) e a distribuição é razoavelmente próxima da normalidade. Em teoria, muitos dados, como altura ou peso, não poderiam provir de uma distribuição precisamente normal ou isso implicaria uma probabilidade pequena, mas diferente de zero, de serem negativos. No entanto, para dados com uma distribuição aproximadamente simétrica e unimodal, onde os valores médios são mais comuns e valores extremamente altos ou baixos caem em probabilidade, o modelo de uma distribuição normal pode ser adequado para fins práticos.Se meu histograma mostrar uma curva em forma de sino, posso dizer que meus dados são normalmente distribuídos?
(Uma coisa interessante sobre a regra 68-95-99.7 é que ela se aplica a qualquer distribuição normal, independentemente de seus parâmetros para média ou desvio padrão. Da mesma forma, a desigualdade de Chebyshev se aplica independentemente dos parâmetros ou mesmo da distribuição, embora apenas fornece limites mais baixos para a cobertura, mas se você aplicar, por exemplo, um modelo normal truncado ou inclinar normal , não haverá um equivalente simples da cobertura "68-95-99.7", pois isso dependeria dos parâmetros da distribuição .)
fonte
Oh, isso é fácil. Não, você não está usando corretamente.
Primeiro, você está usando um conjunto de dados bastante pequeno. Tentar provocar o comportamento estatístico desse conjunto de tamanhos é certamente possível, mas os limites de confiança são (ahem) bastante grandes. Para conjuntos de dados pequenos, os desvios das distribuições esperadas são paritários para o curso, e quanto menor o conjunto, maior o problema. Lembre-se: "A Lei das Médias não só permite as coincidências mais ultrajantes, como as exige".
Pior, o conjunto de dados específico que você está usando simplesmente não se parece muito com uma distribuição normal. Pense nisso - com uma média de 0,498, você tem duas amostras abaixo de 0,1 e mais três em 0,748 ou acima. Então você tem um conjunto de 3 pontos entre 0,17 e 0,22. Observar esse conjunto de dados específico e argumentar que deve ser uma distribuição normal é um bom caso do argumento procrusteano. Isso parece uma curva de sino para você? É perfeitamente possível que a população maior siga uma distribuição normal ou normal modificada e um tamanho de amostra maior resolva o problema, mas eu não apostaria nisso, principalmente sem saber mais sobre a população.
Digo que o normal modificado, como Kevin Li apontou, tecnicamente uma distribuição normal inclui todos os números reais. Como também foi apontado nos comentários de sua resposta, isso não impede a aplicação dessa distribuição em um intervalo limitado e a obtenção de resultados úteis. Como diz o ditado, "Todos os modelos estão errados. Alguns são úteis".
Mas esse conjunto de dados em particular simplesmente não parece deduzir uma distribuição normal (mesmo em um intervalo limitado) é uma idéia particularmente boa. Se seus 10 pontos de dados pareciam .275, .325, .75, .425, .475, .525, .575, .625, .675, .725 (média de 0.500), você assumiria uma distribuição normal?
fonte
Em um dos comentários, você diz que usou "dados aleatórios", mas não diz em que distribuição. Se você está falando sobre alturas de seres humanos, elas são normalmente distribuídas normalmente, mas seus dados não são remotamente apropriados para alturas humanas - as suas são frações de um cm!
E seus dados não são remotamente normais. Acho que você usou uma distribuição uniforme com limites de 0 e 1. E você gerou uma amostra muito pequena. Vamos tentar com uma amostra maior:
portanto, nenhum dos dados está além de 2 sd da média, porque está além dos limites dos dados. E a parte dentro de 1 sd será aproximadamente 0,56.
fonte
Freqüentemente, quando você tem uma restrição de que todas as suas amostras devem ser positivas, vale a pena examinar o logaritmo de seus dados para ver se sua distribuição pode ser aproximada por uma distribuição lognormal.
fonte
Um cálculo de desvio padrão é relativo à média. Você pode aplicar o desvio padrão a números sempre positivos? Absolutamente. Se você adicionasse 1000 a cada um dos valores em seu conjunto de amostras, veria o mesmo valor de desvio padrão, mas terá mais espaço para respirar acima de zero.
No entanto, adicionar uma constante arbitrária aos seus dados é superficial. Ao usar o desvio padrão para um conjunto de dados tão pequeno, você precisará esperar uma saída não refinada. Considere o desvio padrão como uma lente de câmera com foco automático: quanto mais tempo (dados) você der, mais nítida será a imagem. Se depois de rastrear 1000000 pontos de dados, sua média e desvio padrão permanecerem os mesmos de 10, então posso começar a questionar a validade do seu experimento.
fonte
Seu histograma mostra que a distribuição normal não é uma boa opção. Você pode tentar lognormal ou outra coisa assimétrica e estritamente positiva
fonte
O ponto principal é que muitos de nós somos preguiçosos *, e a distribuição normal é conveniente para trabalhar conosco. É fácil fazer cálculos usando distribuição normal e possui uma boa base matemática. Como tal, é um "modelo" de como trabalhar com dados. Esse modelo geralmente funciona surpreendentemente bem e às vezes cai de cara no chão.
É muito óbvio que suas amostras não indicam uma distribuição normal nos dados. Portanto, a solução para seu dilema é escolher um "modelo" diferente e trabalhar com uma distribuição diferente. As distribuições Weibull podem estar na direção, existem outras.
fonte
Basicamente, você está usando dados de proporção em oposição aos dados de intervalo. Os geógrafos passam por isso o tempo todo ao calcular o S / D para chuvas anuais em um local específico (mais de 100 anos de pontos de amostra no LA Civic Center) ou queda de neve (mais de 100 anos de amostras de neve no lago Big Bear). Só podemos ter números positivos, é assim que as coisas são.
fonte
Na meteorologia, as distribuições da velocidade do vento se parecem muito com isso. Por definição, as velocidades do vento também não são negativas.
Então, no seu caso, eu definitivamente consideraria a distribuição Weibull .
fonte
Você começa com "de acordo com a distribuição normal" quando seus dados claramente não são distribuídos normalmente, esse é o primeiro problema. Você diz "Não importa se é uma distribuição normal ou não". O que é um absurdo absoluto. Você não pode usar instruções sobre dados distribuídos normais se seus dados não forem distribuídos normalmente.
E você interpreta mal a afirmação. "99,7% deve estar dentro de três desvios padrão". E 99,7% dos seus dados estavam dentro de três desvios padrão. Melhor ainda, era 100% dentro de dois desvios padrão. Então a afirmação é verdadeira .
fonte