Exemplos reais de distribuições comuns

28

Eu sou um estudante de graduação desenvolvendo um interesse por estatística. Gosto muito do material, mas às vezes tenho dificuldade em pensar em aplicações para a vida real. Especificamente, minha pergunta é sobre distribuições estatísticas comumente usadas (normal - beta-gama etc.). Acho que, em alguns casos, recebo as propriedades particulares que tornam a distribuição bastante agradável - propriedades sem memória de exponencial, por exemplo. Mas, em muitos outros casos, não tenho uma intuição sobre as áreas de importância e aplicação das distribuições comuns que vemos nos livros didáticos.

Provavelmente existem muitas fontes boas que abordam minhas preocupações. Ficaria feliz se você pudesse compartilhá-las. Eu ficaria muito mais motivado com o material se pudesse associá-lo a exemplos da vida real.

Roark
fonte
8
Quatorze tipos de aplicativos que abrangem uma ampla variedade de distribuições são descritos em "aplicativos" na página de ajuda da EstimatedDistribution função do Mathematica .
whuber

Respostas:

23

A Wikipedia possui uma página que lista muitas distribuições de probabilidade com links para mais detalhes sobre cada distribuição. Você pode examinar a lista e seguir os links para ter uma idéia melhor dos tipos de aplicativos para os quais as diferentes distribuições são comumente usadas.

Lembre-se de que essas distribuições são usadas para modelar a realidade e, como Box disse: "todos os modelos estão errados, alguns são úteis".

Aqui estão algumas das distribuições comuns e alguns dos motivos pelos quais são úteis:

Normal: Isso é útil para examinar médias e outras combinações lineares (por exemplo, coeficientes de regressão) devido ao CLT. Relacionado a isso, se algo é conhecido por surgir devido a efeitos aditivos de muitas causas pequenas diferentes, o normal pode ser uma distribuição razoável: por exemplo, muitas medidas biológicas são o resultado de vários genes e vários fatores ambientais e, portanto, são geralmente aproximadamente normais .

Gama: inclinado à direita e útil para itens com um mínimo natural de 0. Comumente usado para tempos decorridos e algumas variáveis ​​financeiras.

Exponencial: caso especial da gama. É sem memória e dimensiona facilmente.

Qui-quadrado ( ): caso especial do Gama. Surge como soma das variáveis ​​normais ao quadrado (usadas para variações).χ2

Beta: definido entre 0 e 1 (mas pode ser transformado para estar entre outros valores), útil para proporções ou outras quantidades que devem estar entre 0 e 1.

Binomial: quantos "sucessos" de um determinado número de ensaios independentes com a mesma probabilidade de "sucesso".

Poisson: Comum para contagens. Propriedades agradáveis ​​que, se o número de eventos em um período de tempo ou área seguir um Poisson, o número em duas vezes o tempo ou a área ainda seguirá o Poisson (com o dobro da média): isso funciona para adicionar Poissons ou escalar com valores diferentes de 2)

Observe que se os eventos ocorrerem ao longo do tempo e o tempo entre as ocorrências for exponencial, o número que ocorrerá em um período de tempo seguirá um Poisson.

Binomial negativo: conta com o mínimo 0 (ou outro valor dependendo da versão) e sem limite superior. Conceitualmente, é o número de "falhas" antes de k "sucessos". O binômio negativo também é uma mistura de variáveis ​​de Poisson cujas médias vêm de uma distribuição gama.

Geométrico: caso especial para binômio negativo, onde é o número de "falhas" antes do 1º "sucesso". Se você truncar (arredondar para baixo) uma variável exponencial para torná-la discreta, o resultado será geométrico.

Greg Snow
fonte
3
Bem, obrigado pela sua resposta. No entanto, a wikipedia fornece uma descrição mais geral que eu gostaria. Basicamente, minha pergunta é por que algumas distribuições são boas? Para dar uma resposta possível em caso de distribuição normal, pode estar relacionado ao teorema limitado central - que diz que, se você amostrar uma quantidade infinita de observações, na verdade, pode ser assintótico que a estatística suficiente dessas observações, dada a independência, tenha uma distribuição normal . Estou à procura de mais exemplos como esse ..
Roark
Não é exatamente uma distribuição real, mas e o bimodal? Não consigo pensar em exemplos da vida real comumente vistos depois que descobri que muitas das diferenças de gênero no ser humano não são bimodais.
teto cat
Adicionar multinomial
3

A teoria assintótica leva à distribuição normal, aos tipos de valores extremos, às leis estáveis ​​e ao Poisson. O exponencial e o Weibull tendem a aparecer como um tempo paramétrico para distribuições de eventos. No caso do Weibull, é um tipo de valor extremo para o mínimo de uma amostra. Relacionadas com os modelos paramétricos para observações normalmente distribuídas, as distribuições do qui quadrado, t e F surgem no teste de hipóteses e na estimativa do intervalo de confiança. Para estudar o poder dos testes, temos as distribuições te não centrais de F. A distribuição hipergeométrica surge no teste exato de Fisher para tabelas de contingência. A distribuição binomial é importante ao fazer experimentos para estimar proporções. O binômio negativo é uma distribuição importante para modelar a super-dispersão em um processo pontual. Isso deve lhe dar um bom começo em distrações paramétricas práticas. Para variáveis ​​aleatórias não-negativas em (0, ∞), a distribuição Gamma é flexível para fornecer uma variedade de formas e o log normal também é comumente usado. Em [0,1], a família beta fornece distorções simétricas, incluindo o uniforme e as distribuições inclinadas para a esquerda ou direita.

I should also mention that if you want to know all the nitty gritty details about distributions in statistics there are the classic series of books by Johnson and Kotz that include discrete distributions, continuous univariate distributions and continuous multivariate distributions and also volume 1 of the Advanced Theory of Statistics by Kendall and Stuart.

Michael R. Chernick
fonte
Muito obrigado pela resposta, isso é extremamente útil. Obrigado novamente, isso realmente me ajudou.
Roark
2

Compre e leia pelo menos os 6 primeiros capítulos (primeiras 218 páginas) de William J. Feller "Uma introdução à teoria das probabilidades e suas aplicações, Vol. 2" http://www.amazon.com/dp/0471257095/ref=rdr_ext_tmb . Leia pelo menos todos os problemas da solução e tente resolver o maior número possível. Você não precisa ter lido o Vol 1, o que, na minha opinião, não é particularmente meritório.

Apesar de o autor ter morrido 45 anos e meio atrás, antes mesmo de o livro terminar, este é simplesmente o melhor livro que existe, exceto nenhum, para desenvolver uma intuição em processos estocásticos e de probabilidade e entender e desenvolver uma sensação para várias distribuições , como eles se relacionam com os fenômenos do mundo real e com vários fenômenos estocásticos que podem e ocorrem. E com a base sólida que você criará a partir dela, você será bem servido em estatística.

Se você conseguir fazer isso nos capítulos subsequentes, o que fica um pouco mais difícil, você estará anos-luz à frente de quase todos. Simplificando, se você conhece o Feller Vol 2, conhece a probabilidade (e os processos estocásticos); o que significa que, qualquer coisa que você não conheça, como novos desenvolvimentos, poderá captar e dominar rapidamente, construindo sobre essa base sólida.

Quase tudo mencionado anteriormente neste tópico está no Feller Vol 2 (nem todo o material da Kendall Advanced Theory of Statistics, mas a leitura desse livro será um pedaço de bolo após o Feller Vol 2), e mais, muito mais, tudo isso de uma maneira que desenvolva seu pensamento e intuição estocásticos. Johnson e Kotz são bons para minúcias em várias distribuições de probabilidade, o Feller Vol 2 é útil para aprender a pensar probabilisticamente e saber o que extrair de Johnson e Kotz e como usá-lo.

Mark L. Stone
fonte
2

Apenas para adicionar às outras excelentes respostas.

npλ=nppermanece constante, limitado a zero e infinito. Isso nos diz que é útil sempre que temos um grande número de eventos improváveis ​​individualmente. Alguns bons exemplos são: acidentes, como o número de acidentes de carro em Nova York em um dia, já que cada vez que dois carros passam / se encontram, há uma probabilidade muito baixa de um acidente, e o número de oportunidades é realmente astronômico! Agora você pode pensar em outros exemplos, como o número total de acidentes de avião no mundo em um ano. O exemplo clássico em que o número de mortes por chutes a cavalo na cavalaria pré-russa!

np(1-p)p1-pnpλpp

kjetil b halvorsen
fonte
0

Pesquisa publicada recentementesugere que o desempenho humano NÃO é normalmente distribuído, ao contrário do que se pensa. Os dados de quatro campos foram analisados: (1) acadêmicos de 50 disciplinas, com base na frequência de publicação nos periódicos mais importantes da disciplina. (2) Animadores, como atores, músicos e escritores, e o número de prêmios, indicações ou distinções de prestígio recebidos. (3) Políticos em 10 nações e resultados de eleições / reeleições. (4) Atletas colegiados e profissionais que buscam as medidas mais individualizadas disponíveis, como número de home runs, recepções em esportes coletivos e total de vitórias em esportes individuais. O autor escreve: "Vimos uma distribuição clara e consistente da lei do poder se desenrolar em cada estudo, independentemente de quão estreita ou amplamente analisamos os dados ..."

Joel W.
fonte
4
Quem sugeriu que o desempenho humano é normalmente distribuído ?! O princípio 80-20 foi sugerido por Pareto (1906!).
abaumann