Teste Exato de Fisher e Distribuição Hipergeométrica

Queria entender melhor o teste exato de Fisher, então inventei o seguinte exemplo de brinquedo, em que f e m correspondem a homens e mulheres e n e y correspondem a "consumo de refrigerante" como este:

> soda_gender

    f m
  n 0 5
  y 5 0

Obviamente, isso é uma simplificação drástica, mas eu não queria que o contexto atrapalhasse. Aqui, presumi que os homens não bebem refrigerante e as mulheres bebem refrigerante, e queriam ver se os procedimentos estatísticos chegaram à mesma conclusão.

Quando executo o teste exato de Fisher em R, obtenho os seguintes resultados:

> fisher.test(soda_gender)
Fisher's Exact Test for Count Data

data:  soda_gender
p-value = 0.007937
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.0000000 0.4353226
sample estimates:
odds ratio 
         0

Aqui, como o valor de p é 0,007937, concluiríamos que o consumo de gênero e refrigerante está associado.

Eu sei que o teste exato de Fisher está relacionado à distribuição hipergeomérica. Então, eu queria obter resultados semelhantes usando isso. Em outras palavras, você pode visualizar esses problemas da seguinte maneira: existem 10 bolas, onde 5 são rotuladas como "masculinas" e 5 são rotuladas como "femininas" e você desenha 5 bolas aleatoriamente sem substituição e vê 0 bolas masculinas . Qual é a chance dessa observação? Para responder a essa pergunta, usei o seguinte comando:

> phyper(q=0,m=5,n=5,k=5,lower.tail=TRUE)
[1] 0.003968254

Minhas perguntas são: 1) Como os dois resultados são diferentes? 2) Existe algo incorreto ou não rigoroso no meu raciocínio acima?

fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling Alby
fonte

O teste exato de Fisher funciona condicionando as margens da mesa (neste caso, 5 homens e mulheres e 5 bebedores de refrigerante e não-bebedores). Sob as premissas da hipótese nula, as probabilidades das células de observar um bebedor de refrigerante masculino, um bebedor de refrigerante masculino, um bebedor de refrigerante feminino ou um bebedor de refrigerante feminino são igualmente prováveis (0,25) devido aos totais das margens.

A tabela específica que você usou para o FET não possui outra tabela além de seu inverso, 5 mulheres que não bebem refrigerante e 5 homens que bebem refrigerante, o que é "pelo menos tão improvável" sob a hipótese nula. Então, você notará que dobrar a probabilidade obtida em sua densidade hipergeométrica fornece o valor p de FET.

AdamO
fonte

As notas de Meng sobre phyper e fisher.test (que fazem a mesma coisa, mas tem uma interface muito diferente) são muito úteis: mengnote.blogspot.qa/2012/12/...

Aditya

Teste Exato de Fisher e Distribuição Hipergeométrica

Respostas: