Teste Exato de Fisher e Distribuição Hipergeométrica

12

Queria entender melhor o teste exato de Fisher, então inventei o seguinte exemplo de brinquedo, em que f e m correspondem a homens e mulheres e n e y correspondem a "consumo de refrigerante" como este:

> soda_gender

    f m
  n 0 5
  y 5 0

Obviamente, isso é uma simplificação drástica, mas eu não queria que o contexto atrapalhasse. Aqui, presumi que os homens não bebem refrigerante e as mulheres bebem refrigerante, e queriam ver se os procedimentos estatísticos chegaram à mesma conclusão.

Quando executo o teste exato de Fisher em R, obtenho os seguintes resultados:

> fisher.test(soda_gender)
Fisher's Exact Test for Count Data

data:  soda_gender
p-value = 0.007937
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.0000000 0.4353226
sample estimates:
odds ratio 
         0 

Aqui, como o valor de p é 0,007937, concluiríamos que o consumo de gênero e refrigerante está associado.

Eu sei que o teste exato de Fisher está relacionado à distribuição hipergeomérica. Então, eu queria obter resultados semelhantes usando isso. Em outras palavras, você pode visualizar esses problemas da seguinte maneira: existem 10 bolas, onde 5 são rotuladas como "masculinas" e 5 são rotuladas como "femininas" e você desenha 5 bolas aleatoriamente sem substituição e vê 0 bolas masculinas . Qual é a chance dessa observação? Para responder a essa pergunta, usei o seguinte comando:

> phyper(q=0,m=5,n=5,k=5,lower.tail=TRUE)
[1] 0.003968254

Minhas perguntas são: 1) Como os dois resultados são diferentes? 2) Existe algo incorreto ou não rigoroso no meu raciocínio acima?

Alby
fonte

Respostas:

10

O teste exato de Fisher funciona condicionando as margens da mesa (neste caso, 5 homens e mulheres e 5 bebedores de refrigerante e não-bebedores). Sob as premissas da hipótese nula, as probabilidades das células de observar um bebedor de refrigerante masculino, um bebedor de refrigerante masculino, um bebedor de refrigerante feminino ou um bebedor de refrigerante feminino são igualmente prováveis ​​(0,25) devido aos totais das margens.

A tabela específica que você usou para o FET não possui outra tabela além de seu inverso, 5 mulheres que não bebem refrigerante e 5 homens que bebem refrigerante, o que é "pelo menos tão improvável" sob a hipótese nula. Então, você notará que dobrar a probabilidade obtida em sua densidade hipergeométrica fornece o valor p de FET.

AdamO
fonte
As notas de Meng sobre phyper e fisher.test (que fazem a mesma coisa, mas tem uma interface muito diferente) são muito úteis: mengnote.blogspot.qa/2012/12/...
Aditya