Estou trabalhando no desenvolvimento de um laboratório de física sobre decaimento radioativo e, ao analisar dados de amostra que peguei, encontrei um problema estatístico que me surpreendeu.
É sabido que o número de decaimentos por unidade de tempo por uma fonte radioativa é distribuído por Poisson. O funcionamento do laboratório é que os alunos contam o número de decaimentos por janela de tempo e repetem isso muitas vezes. Em seguida, eles agrupam seus dados pelo número de contagens e fazem umateste de bondade de ajuste com 1 parâmetro estimado (a média) para verificar se a hipótese nula (os dados são extraídos de uma distribuição de Poisson com o valor médio estimado) se mantém. Espero que eles obtenham um grande valor p e concluam que a física realmente funciona (yay).
Percebi que a maneira como agrupei meus dados teve um grande efeito no valor-p. Por exemplo, se eu escolhesse vários compartimentos muito pequenos (por exemplo, um compartimento separado para cada número inteiro: 78 contagens / min, 79 contagens / min, etc.), obtive um valor p pequeno e teria que rejeitar a hipótese nula . Se, no entanto, eu agrupasse meus dados em menos posições (por exemplo, usando o número de posições fornecido pela Regra de Sturge:), Obtive um valor p muito maior e NÃO rejeitei a hipótese nula.
Olhando para meus dados, ele parece extremamente distribuído por Poisson (ele se alinha quase perfeitamente com minhas contagens / minutos esperados). Dito isto, existem algumas contagens em caixas muito distantes da média. Isso significa que ao calcular o estatística usando caixas muito pequenas, tenho alguns termos como:
Questões:
Existe uma boa regra para escolher tamanhos de lixeira ao fazer uma Teste GOF?
Essa discrepância entre os resultados de diferentes tamanhos de compartimento é algo que eu deveria saber * ou é indicativo de algum problema maior na minha análise de dados proposta?
- Obrigado
* (Tomei uma aula de estatística na graduação, mas não é minha área de especialização.)
fonte
Respostas:
O binning do conjunto de amostras de decaimento radioativo é um arenque vermelho aqui. O problema real se origina do fato de o qui-quadrado (juntamente com outras estruturas de teste de hipóteses) ser altamente sensível ao tamanho da amostra. No caso do qui-quadrado, à medida que o tamanho da amostra aumenta, as diferenças absolutas se tornam uma porção cada vez menor do valor esperado. Assim, se o tamanho da amostra for muito grande, podemos encontrar pequenos valores de p e significância estatística quando os resultados são pequenos e desinteressantes. Por outro lado, uma associação razoavelmente forte pode não ser significativa se o tamanho da amostra for pequeno.
A resposta parece que não se deve procurar o N certo (não tenho certeza de que seja factível, mas seria ótimo se alguém se intrometer em contradizer), mas olhar além dos valores-p apenas quando N estiver alto. Parece um bom artigo sobre o assunto: Grande demais para falir: amostras grandes e o problema do valor-p
PS Existem alternativas ao teste do χ2, como o V de Cramer e o G-Test ; no entanto, você ainda terá os mesmos problemas com N -> pequeno valor p grande.
fonte