Sou estudante de graduação e tenho um projeto para a minha aula de probabilidade. Basicamente, tenho um conjunto de dados sobre os furacões que afetaram meu país por uma série de anos.
No meu Livro de Probabilidades, (Probabilidade e Estatística com R), há um exemplo (não completo) de como verificar se os dados seguem uma distribuição de Poisson, eles começam a tentar provar que esses 3 critérios são seguidos: (Do meu livro, página 120 (critério) página 122-123 exemplo)
1- O número de resultados em intervalos sem sobreposição é independente. Em outras palavras, o número de resultados no intervalo de tempo (0, t] é independente do número de resultados no intervalo de tempo (t, t + h], h> 0
2- A probabilidade de dois ou mais resultados em um intervalo suficientemente curto é praticamente zero. Em outras palavras, desde que h seja suficientemente pequeno, a probabilidade de obter dois ou mais resultados no intervalo (t, t + h] é insignificante em comparação com a probabilidade de obter um ou zero resultados no mesmo intervalo de tempo.
3- A probabilidade de exatamente um resultado em um intervalo suficientemente curto ou em uma região pequena é proporcional à duração do intervalo ou região. Em outras palavras, a probabilidade de um resultado em um intervalo de comprimento h é lambda * h.
Mas o critério 3 é deixado "como um exercício".
A- Alguém pode me dizer se existe uma maneira mais "fácil" de ver se meu conjunto de dados segue uma distribuição de Poisson?
B- Alguém pode me explicar os critérios 1 e 3 com algum tipo de exemplo (se for com R, fantástico)?
Obrigado!
Nota: desculpe pela postagem longa. Além disso, eu tenho que converter os dados para que eu tenha uma tabela como:
number of hurricanes | 0 | 1 | 2 etc.
-----------------------------------------
total years that have | | |
that number of hurricanes | | |
Respostas:
Há um número infinito de maneiras para uma distribuição ser ligeiramente diferente de uma distribuição de Poisson; você não pode identificar que um conjunto de dados é extraído de uma distribuição Poisson. O que você pode fazer é procurar inconsistência com o que você deve ver com um Poisson, mas uma falta de inconsistência óbvia não o torna Poisson.
No entanto, o que você está falando lá, verificando esses três critérios, não é verificar se os dados provêm de uma distribuição de Poisson por meios estatísticos (por exemplo, olhando dados), mas avaliando se o processo em que os dados são gerados satisfaz a condições de um processo de Poisson; se todas as condições mantiveram ou quase mantiveram (e isso é uma consideração do processo de geração de dados), você pode ter algo de ou muito perto de um processo de Poisson, que, por sua vez, seria uma maneira de obter dados extraídos de algo próximo a um Distribuição de veneno.
Mas as condições não se sustentam de várias maneiras ... e o mais longe de ser verdade é o número 3. Não há nenhuma razão específica nessa base para afirmar um processo de Poisson, embora as violações não sejam tão ruins que os dados resultantes estejam longe. de Poisson.
Então, voltamos aos argumentos estatísticos resultantes do exame dos próprios dados. Como os dados mostram que a distribuição era Poisson, e não algo parecido?
Como mencionado no início, o que você pode fazer é verificar se os dados não são obviamente inconsistentes com a distribuição subjacente sendo Poisson, mas isso não indica que eles foram retirados de um Poisson (você já pode ter certeza de que eles são não).
Você pode fazer essa verificação através de testes de qualidade de ajuste.
O qui-quadrado mencionado é um deles, mas eu não recomendaria o teste do qui-quadrado para essa situação **; tem baixo poder contra desvios interessantes. Se seu objetivo é ter um bom poder, você não conseguirá assim (se não se importa com o poder, por que você testaria?). Seu principal valor é a simplicidade e possui valor pedagógico; Fora isso, não é competitivo como um teste de qualidade.
** Adicionado em edição posterior: agora que está claro que isso é lição de casa, as chances de você fazer um teste qui-quadrado para verificar os dados não são inconsistentes com um Poisson aumentam bastante. Veja meu exemplo de teste de ajuste do qui-quadrado, feito abaixo do primeiro gráfico de Poissonness
As pessoas costumam fazer esses testes pelo motivo errado (por exemplo, porque querem dizer 'portanto, não há problema em fazer outra coisa estatística com os dados que pressupõem que os dados são Poisson'). A verdadeira questão é "quão errado isso poderia acontecer?" ... e a qualidade dos testes de ajuste não ajuda muito nessa questão. Muitas vezes, a resposta para essa pergunta é, na melhor das hipóteses, independente do tamanho da amostra (/ quase independente) - e, em alguns casos, uma com consequências que tendem a desaparecer com o tamanho da amostra ... enquanto um teste de qualidade do ajuste é inútil com o tamanho da amostra. amostras pequenas (onde o risco de violações de suposições costuma ser maior).
Se você deve testar uma distribuição Poisson, existem algumas alternativas razoáveis. Um seria fazer algo semelhante a um teste de Anderson-Darling, com base na estatística AD, mas usando uma distribuição simulada sob o nulo (para explicar os problemas gêmeos de uma distribuição discreta e que você deve estimar parâmetros).
Uma alternativa mais simples pode ser um Teste Suave para adequação - estes são uma coleção de testes projetados para distribuições individuais, modelando os dados usando uma família de polinômios ortogonais em relação à função de probabilidade no nulo. Alternativas de ordem baixa (ou seja, interessantes) são testadas testando se os coeficientes dos polinômios acima da base são diferentes de zero e, geralmente, eles podem lidar com a estimativa de parâmetros, omitindo os termos de ordem mais baixa do teste. Existe um teste para o Poisson. Eu posso desenterrar uma referência, se você precisar.
Aqui está um exemplo desse cálculo (e gráfico), feito em R:
Aqui está a estatística que sugeri que poderia ser usada para um teste de ajuste de um Poisson:
Obviamente, para calcular o valor-p, você também precisará simular a distribuição da estatística de teste sob o valor nulo (e eu não discuti como se pode lidar com contagens zero dentro do intervalo de valores). Isso deve produzir um teste razoavelmente poderoso. Existem vários outros testes alternativos.
Aqui está um exemplo de como fazer um gráfico de Poissonness em uma amostra de tamanho 50 de uma distribuição geométrica (p = 0,3):
Como você vê, ele exibe uma clara 'torção', indicando não linearidade
As referências para o gráfico de Poissonness seriam:
David C. Hoaglin (1980),
"A Poissonness Plot",
The American Statistician
Vol. 34, No. 3 (ago.), Pp. 146-149
e
Hoaglin, D. J. e Tukey (1985),
"9. Verificar a Forma de Discrete Distributions",
Explorando tabelas de dados, Trends e formas ,
(Hoaglin, Mosteller & Tukey Eds)
John Wiley & Sons
A segunda referência contém um ajuste no gráfico para pequenas contagens; você provavelmente gostaria de incorporá-lo (mas não tenho a referência em mãos).
Exemplo de realização de um teste de ajuste de qualidade qui-quadrado:
Além de executar a qualidade do ajuste do qui-quadrado, da maneira que normalmente se espera que seja feito em muitas classes (embora não da maneira que eu faria):
1: começando com seus dados (que considerarei os dados gerados aleatoriamente em 'y' acima, gere a tabela de contagens:
2: calcule o valor esperado em cada célula, assumindo um Poisson ajustado por ML:
3: observe que as categorias finais são pequenas; isso torna a distribuição qui-quadrado menos boa como uma aproximação à distribuição da estatística de teste (uma regra comum é que você queira valores esperados de pelo menos 5, embora vários trabalhos tenham mostrado que essa regra é desnecessariamente restritiva; fechar, mas a abordagem geral pode ser adaptada a uma regra mais rígida). Reduza as categorias adjacentes, para que os valores mínimos esperados fiquem pelo menos não muito abaixo de 5 (uma categoria com uma contagem esperada próxima a 1 em mais de 10 categorias não é muito ruim, duas é bastante limítrofe). Observe também que ainda não contabilizamos a probabilidade além de "10", portanto, também precisamos incorporar isso:
4: da mesma forma, colapsar categorias no observado:
Tanto o diagnóstico quanto o valor-p não mostram falta de ajuste aqui ... o que esperávamos, já que os dados que geramos na verdade eram Poisson.
Edit: aqui está um link para o blog de Rick Wicklin, que discute o enredo de Poissonness e fala sobre implementações no SAS e Matlab
http://blogs.sas.com/content/iml/2012/04/12/the-poissonness-plot-a-goodness-of-fit-diagnostic/
Edit2: Se eu entendi direito, o gráfico de Poissonness modificado da referência de 1985 seria *:
* Eles também ajustam a interceptação, mas eu não fiz isso aqui; isso não afeta a aparência da plotagem, mas você deve tomar cuidado se implementar alguma coisa a partir da referência (como os intervalos de confiança) se fizer isso de maneira diferente da abordagem deles.
(Para o exemplo acima, a aparência quase não muda a partir do primeiro gráfico de Poissonness.)
fonte
Execute o teste de ajuste do qui-quadrado. No caso de dados de contagem, podemos usar
goodfit()
incluído no pacote vcd. Observe que se o valor de p for maior que 0,05, não podemos rejeitar h0: o processo é um processo de Poisson. Ou então, não é um processo de Poisson.fonte
pchisq
calcula apenas a probabilidade cumulativa (pvalue=1-pchisq(chisq,df)
;; &" O resultado quando você calcula o valor p manualmente é diferente do valor p fornecido pela função goodfit. Eu não sei por que isso é assim. "