Por que as razões de chances da fórmula e do fisher.t de R diferem? Qual deles deve escolher?

13

No exemplo a seguir

> m = matrix(c(3, 6, 5, 6), nrow=2)
> m
     [,1] [,2]
[1,]    3    5
[2,]    6    6
> (OR = (3/6)/(5/6))    #1
[1] 0.6
> fisher.test(m)        #2

    Fisher's Exact Test for Count Data

data:  m 
p-value = 0.6699
alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval:
 0.06390055 5.07793271 
sample estimates:
odds ratio 
 0.6155891 

Calculei o odds ratio (# 1) "manualmente", 0,600; então (# 2) como uma das saídas do teste exato de Fisher, 0,616.

Por que não recebi o mesmo valor?

Por que existem várias formas de calcular a razão de chances e como escolher a mais apropriada?

Winerd
fonte

Respostas:

10

Na página de ajuda para fisher.test():

Observe que a estimativa máxima da verossimilhança (MLE) condicional, em vez da MLE incondicional (a taxa de chance da amostra) é usada.

zx8754
fonte
3

Para adicionar à discussão aqui, é útil perguntar o que exatamente está condicionado nessa probabilidade "condicional". O teste de Fisher difere de outras análises categóricas, pois considera todas as margens da tabela como fixas, enquanto o modelo de regressão logística (e o teste qui-quadrado de Pearson correspondente, que é o teste de pontuação do modelo logístico) considera apenas uma margem a ser corrigida .

O teste de Fisher considera a distribuição hipergeométrica como um modelo de probabilidade para as contagens observadas em cada uma das 4 células. A distribuição hipergeométrica tem a peculiaridade de que, como a distribuição do odds ratio de origem não é contínua, você obtém frequentemente um OR diferente como uma estimativa de probabilidade máxima.

AdamO
fonte
2
Não acho que sua resposta deixe claro como essa probabilidade específica pode surgir. Se você modelar o processo de geração de dados com um binomial de produto, digamos, terá uma probabilidade diferente (& MLE) condicionada aos totais marginais, do que obtém se modelá-lo com a distribuição hipergeométrica não central de Wallenius - a marginal os totais são "considerados fixos" em ambos os casos.
Scortchi - Restabelece Monica
1

Para responder à sua segunda pergunta, os bioestáticos não são o meu forte, mas acredito que a razão para várias estatísticas de razão de chances é a de explicar o design de amostras e o design de experimentos.

Eu encontrei três referências aqui que lhe darão um pouco de entendimento sobre por que há uma diferença entre o MLE condicional e o incondicional para odds ratio, bem como outros tipos.

  1. Estimativa pontual e intervalar do odds ratio comum na combinação de tabelas 2 × 2 com marginais fixos

  2. O efeito do viés nos estimadores de risco relativo para amostras pareadas e estratificadas

  3. Um estudo comparativo da estimativa condicional da máxima verossimilhança de um rácio de probabilidades comuns

Jon
fonte
3
Seria útil resumir pelo menos um pouco o que essas referências têm a dizer.
Scortchi - Restabelecer Monica
@ Scortchi, concordou. Estive ocupado com o trabalho e só tive a chance de ler a primeira página ou duas de cada. Vou adicionar um resumo de cada um neste fim de semana.
31417 Jon
@ Jon Se você pudesse, seria útil adicionar esse breve resumo
Glen_b -Reinstate Monica
@ Jon, eu só fiz uma pergunta. Foi bli quem adicionou uma segunda pergunta 4 anos depois que eu postei minha pergunta original. Não estou revertendo a edição irritante de bli ao fazer referência à segunda pergunta, mas não tenho mais certeza de como aceitar uma resposta.
Win12 /