Dado o poder dos computadores hoje em dia, existe alguma razão para fazer um teste do qui-quadrado ao invés do teste exato de Fisher?

86

Dado que o software pode fazer o cálculo exato do teste de Fisher tão facilmente hoje em dia , existe alguma circunstância em que, teoricamente ou praticamente, o teste do qui-quadrado seja realmente preferível ao teste exato de Fisher?

As vantagens do teste exato de Fisher incluem:

  • escala para tabelas de contingência maiores que 2x2 (ou seja, qualquer tabela r x c )
  • fornece um valor p exato
  • não precisando ter uma contagem mínima esperada de células para ser válida
pmgjones
fonte
10
Porque são bons velhos clássicos. Em breve se tornará vintage requintado. Depois disso, quando as pessoas se levantarem contra os computadores, ela viverá sua segunda juventude.
precisa saber é o seguinte
7
Você já tentou calcular a estatística exata de Fisher em uma tabela grande? (Demora muito tempo ...)
whuber
22
Além dos bons comentários e respostas que você já recebeu, acho que a melhor pergunta é "Dada a potência dos computadores, por que não fazer testes de simulação / permutação o tempo todo?".
Peter Flom
1
@whuber Fiz uma implementação (proprietária) sem (grande número de) tabelas, em C ++. Ele executa milhares de valores P para números de até 8 dígitos em segundos.
Michel de Ruiter
1
@ Michel, eu quis dizer o número total de células na tabela. O cálculo é fácil para tabelas 2 x 2, mas à medida que as tabelas aumentam, os cálculos se tornam onerosos.
whuber

Respostas:

61

Você pode mudar a questão. Como o teste comum de Pearson é quase sempre mais preciso que o teste exato de Fisher e é muito mais rápido de calcular, por que alguém usa o teste de Fisher?χ2

Observe que é uma falácia que as freqüências esperadas das células tenham que exceder 5 para que o Pearson produza valores- P precisos. O teste é preciso desde que as freqüências esperadas das células excedam 1,0 se um N - 1 muito simplesχ2P correção N é aplicada à estatística de teste.N-1N


De R-help, 2009 :

Testes de Campbell, I. Qui-quadrado e Fisher-Irwin de tabelas 2 a 2 com pequenas recomendações de amostra. Estatística em Medicina 2007; 26 : 3661-3675. ( resumo )

  • ... a última edição do livro de Armitage recomenda que os ajustes de continuidade nunca sejam usados ​​para testes de qui-quadrado de tabela de contingência;

  • E. Modificação do teste do qui-quadrado de Pearson, diferente do original por um fator de (N-1) / N;

  • Cochran observou que o número 5 em "frequência esperada menor que 5" era arbitrário;

  • os resultados de estudos publicados podem ser resumidos da seguinte forma , para estudos comparativos:

    1. O teste do qui-quadrado de Yate tem taxas de erro do tipo I inferiores ao nominal, geralmente inferiores à metade do nominal;

    2. O teste de Fisher-Irwin tem taxas de erro do tipo I inferiores ao nominal;

    3. A versão de K Pearson do teste do qui-quadrado apresenta taxas de erro do tipo I mais próximas do nominal do que o teste do qui-quadrado de Yate e o teste de Fisher-Irwin, mas, em algumas situações, os erros do tipo I são sensivelmente maiores que o valor nominal;

    4. O teste qui-quadrado 'N-1' se comporta como a versão 'N' de K. Pearson, mas a tendência para valores superiores aos nominais é reduzida;

    5. O teste de Fisher-Irwin nos dois lados , usando a regra de Irwin, é menos conservador do que o método que duplica a probabilidade de um lado;

    6. O teste de Fisher-Irwin no meio P, dobrando a probabilidade unilateral, tem um desempenho melhor do que as versões padrão do teste de Fisher-Irwin, e o método P médio, pela regra de Irwin, tem um desempenho ainda melhor ao ter erros reais do tipo I mais próximos dos níveis nominais. ";

  • forte apoio ao teste 'N-1', desde que as frequências esperadas excedam 1;

  • falha no teste de Fisher, baseada na premissa de Fisher de que os totais marginais não contêm informações úteis;

  • demonstração de suas informações úteis em amostras muito pequenas;

  • O ajuste de continuidade de Yate de N / 2 é uma correção excessiva grande e é inadequado;

  • existem contra-argumentos para o uso de testes de randomização em ensaios randomizados;

  • cálculos dos piores casos;

  • recomendação geral : use o teste do qui-quadrado 'N-1' quando todas as frequências esperadas forem pelo menos 1; caso contrário, use o teste de Fisher-Irwin usando a regra de Irwin para testes nos dois lados, tomando tabelas da cauda como provável ou menor, como o observado; ver carta ao editor de Antonio Andres e resposta do autor em 27: 1791-1796; 2008.


Crans GG, Shuster JJ. Quão conservador é o teste exato de Fisher? Uma avaliação quantitativa do ensaio binomial comparativo de duas amostras. Estatística em Medicina 2008; 27 : 3598-3611. ( resumo )

  • ... primeiro artigo para realmente quantificar a conservatividade do teste de Fisher;

  • "o tamanho do teste do FET foi menor que 0,035 para quase todos os tamanhos de amostra antes dos 50 e não se aproximou de 0,05, mesmo para tamanhos de amostra acima de 100";

  • conservatividade de métodos "exatos";

  • ver Stat in Med 28 : 173-179, 2009 para uma crítica que não foi respondida


2×2

  • P

  • valor de testes incondicionais;

  • ver carta ao editor 30: 890-891; 2011

Frank Harrell
fonte
1
Você pode sugerir como aplicar a correção (N-1) / N? Existem calculadoras online que incorporam essa correção? Existe uma maneira fácil de ajustar manualmente os resultados do teste qui-quadrado para fazer você mesmo essa correção?
DW
Uma das referências listadas acima é a sua melhor aposta.
precisa
1
χ2 χ2
2
Rotular algo como "exato" não o faz. Veja a maravilhosa explicação abaixo de @suncoolsu que você deve ter perdido (você também perdeu todas as explicações acima). O teste de Pearson é ainda mais preciso do que Pearson pensava. Veja citeulike.org/user/harrelfe/article/13265687 e citeulike.org/user/harrelfe/article/13263676 por exemplo. O teste "exato" de Fisher é exato no sentido em que o verdadeiro erro tipo I não é maior do que o reivindicado. Porém, como é menor do que o reivindicado, o erro do tipo II é maior, o que significa menos energia.
31715 Frank Fellowski
Eu sei o significado de exatidão. O ponto exato de que não gosto em testes não-exatos é a possibilidade de que o erro do tipo I seja superior ao nível nominal. Mas você está certo, eu descaracterizou sua resposta e o outro (ambos são grandes)
Stéphane Laurent
47

Esta é uma grande pergunta.

O teste exato de Fisher é um dos grandes exemplos do uso inteligente de Fisher do projeto experimental , juntamente com o condicionamento dos dados (basicamente em tabelas com a linha observada e os totais marginais) e sua engenhosidade em encontrar distribuições de probabilidade (embora este não seja o melhor exemplo , para um exemplo melhor, veja aqui ). O uso de computadores para calcular valores-p "exatos" definitivamente ajudou a obter respostas precisas.

No entanto, é difícil justificar as suposições do teste exato de Fisher na prática. Como o chamado "exato" vem do fato de que, na "experiência de degustação de chá" ou no caso de tabelas de contingência 2x2, o total de linhas e o total de colunas, ou seja, os totais marginais são fixados por design. Essa suposição raramente é justificada na prática. Para boas referências, veja aqui .

O nome "exato" leva a crer que os valores de p dados por esse teste são exatos, o que novamente na maioria dos casos infelizmente não está correto devido a esses motivos.

  1. Se os marginais não forem fixados pelo design (o que acontece quase sempre na prática), os valores de p serão conservadores.
  2. Como o teste usa uma distribuição de probabilidade discreta (especificamente, distribuição hiper-geométrica), para certos pontos de corte, é impossível calcular as "probabilidades nulas exatas", ou seja, o valor p.

Na maioria dos casos práticos, o uso de um teste de razão de verossimilhança ou teste do qui-quadrado não deve fornecer respostas muito diferentes (valor-p) do teste exato de Fisher. Sim, quando os marginais são fixos, o teste exato de Fisher é uma escolha melhor, mas isso raramente acontece. Portanto, o teste do qui-quadrado da razão de verossimilhança é sempre recomendado para verificações de consistência.

Idéias semelhantes se aplicam quando o teste exato de Fisher é generalizado para qualquer tabela, o que basicamente equivale ao cálculo das proabilidades hipergeométricas multivariadas. Portanto, deve-se sempre tentar calcular os valores de p com base na distribuição do qui-quadrado e da razão de verossimilhança, além dos valores de p "exatos".

suncoolsu
fonte