Como você escolhe o número de posições a serem usadas para um teste GOF qui-quadrado?

8

Estou trabalhando no desenvolvimento de um laboratório de física sobre decaimento radioativo e, ao analisar dados de amostra que peguei, encontrei um problema estatístico que me surpreendeu.

É sabido que o número de decaimentos por unidade de tempo por uma fonte radioativa é distribuído por Poisson. O funcionamento do laboratório é que os alunos contam o número de decaimentos por janela de tempo e repetem isso muitas vezes. Em seguida, eles agrupam seus dados pelo número de contagens e fazem umaχ2teste de bondade de ajuste com 1 parâmetro estimado (a média) para verificar se a hipótese nula (os dados são extraídos de uma distribuição de Poisson com o valor médio estimado) se mantém. Espero que eles obtenham um grande valor p e concluam que a física realmente funciona (yay).

Percebi que a maneira como agrupei meus dados teve um grande efeito no valor-p. Por exemplo, se eu escolhesse vários compartimentos muito pequenos (por exemplo, um compartimento separado para cada número inteiro: 78 contagens / min, 79 contagens / min, etc.), obtive um valor p pequeno e teria que rejeitar a hipótese nula . Se, no entanto, eu agrupasse meus dados em menos posições (por exemplo, usando o número de posições fornecido pela Regra de Sturge:1 1+euog2(N)), Obtive um valor p muito maior e NÃO rejeitei a hipótese nula.

Olhando para meus dados, ele parece extremamente distribuído por Poisson (ele se alinha quase perfeitamente com minhas contagens / minutos esperados). Dito isto, existem algumas contagens em caixas muito distantes da média. Isso significa que ao calcular oχ2 estatística usando caixas muito pequenas, tenho alguns termos como:

(Observed-Expected)2Expected=(1 1-0,05)20,05=18,05
Isso leva a uma alta χ2estatística e, portanto, um baixo valor de p. Como esperado, o problema desaparece para larguras de bandeja maiores, pois o valor esperado nunca fica tão baixo.

Questões:

Existe uma boa regra para escolher tamanhos de lixeira ao fazer uma χ2 Teste GOF?

Essa discrepância entre os resultados de diferentes tamanhos de compartimento é algo que eu deveria saber * ou é indicativo de algum problema maior na minha análise de dados proposta?

- Obrigado

* (Tomei uma aula de estatística na graduação, mas não é minha área de especialização.)

Bunji
fonte
Parece um problema de sensibilidade e especificidade, ou seja, você está recebendo erros do tipo II porque suas medidas são muito específicas.
Jay Schyler Raadt
11
Uma medida muito específica produzirá erros do tipo II, mas uma que seja muito sensível produzirá erros do tipo I. Por exemplo, um ponto de corte muito específico para um teste de QI poderia deixar uma criança com um QI de 70,1 não qualificado para educação especial, enquanto uma criança com um QI de 69,9 o faz. Isso seria um erro do tipo II, onde a hipótese nula "esse filho não se qualifica" não é falsamente rejeitada. Assim, é necessária uma medição mais sensível, uma rede maior, embora uma rede muito grande possa causar um erro do tipo I, onde a hipótese nula é falsamente rejeitada.
Jay Schyler Raadt
2
1. A aproximação do qui-quadrado pode ser bastante ruim se você tiver pequenos valores esperados - mas você também não precisa ter uma largura de caixa constante (desde que não a escolha com referência aos valores observados) conta). 2. " Espero que eles obtenham um grande valor-p e concluam que a física realmente funciona (yay). " - Espero que você já saiba, mas deve ficar claro: a falha em rejeitar o nulo não confirma que o null é verdadeiro; sugere que qualquer desvio de Poisson não fosse grande o suficiente para detectar com segurança. ...
ctd
11
OK, obrigado a todos por sua atenção a isso. @ Whuber, sua resposta para a outra pergunta é incrível. Você diria que a resposta para minha primeira pergunta é basicamente "não" - não existe uma boa regra de ouro nesse nível?
23719 Bunji
11
Há muitas considerações. Eu acho que pode haver algumas regras úteis. Por exemplo, eu geralmente obtive sucesso ao adivinhar qual será a distribuição das contagens e criando bandejas que devem ter contagens aproximadamente iguais de 5 ou mais cada; mas é raro precisar de mais de 20 caixas. Às vezes, procuro discrepâncias em intervalos específicos, como as caudas distributivas, e, nesses intervalos, posso criar caixas mais estreitas para detectar diferenças detalhadas.
whuber

Respostas:

1

Essa discrepância entre os resultados de diferentes tamanhos de compartimento é algo que eu deveria saber * ou é indicativo de algum problema maior na minha análise de dados proposta?

O binning do conjunto de amostras de decaimento radioativo é um arenque vermelho aqui. O problema real se origina do fato de o qui-quadrado (juntamente com outras estruturas de teste de hipóteses) ser altamente sensível ao tamanho da amostra. No caso do qui-quadrado, à medida que o tamanho da amostra aumenta, as diferenças absolutas se tornam uma porção cada vez menor do valor esperado. Assim, se o tamanho da amostra for muito grande, podemos encontrar pequenos valores de p e significância estatística quando os resultados são pequenos e desinteressantes. Por outro lado, uma associação razoavelmente forte pode não ser significativa se o tamanho da amostra for pequeno.

Existe uma boa regra para escolher tamanhos de lixeira ao fazer um teste χ2 GOF?

A resposta parece que não se deve procurar o N certo (não tenho certeza de que seja factível, mas seria ótimo se alguém se intrometer em contradizer), mas olhar além dos valores-p apenas quando N estiver alto. Parece um bom artigo sobre o assunto: Grande demais para falir: amostras grandes e o problema do valor-p

PS Existem alternativas ao teste do χ2, como o V de Cramer e o G-Test ; no entanto, você ainda terá os mesmos problemas com N -> pequeno valor p grande.

Zhubarb
fonte