Quando e como evitar o uso inadequado do teste exato de Fisher

7

Alguém poderia explicar por que Richard McElreath diz que o teste exato de Fisher raramente é usado adequadamente em seu excelente livro de introdução bayesiano ( Statistical Repensing )?

Para referência, o contexto está abaixo:

Por que os testes não são suficientes para pesquisas inovadoras? Os procedimentos clássicos da estatística introdutória tendem a ser inflexíveis e frágeis. Por inflexível, quero dizer que eles têm maneiras muito limitadas de se adaptar a contextos de pesquisa exclusivos. Por frágil, quero dizer que eles falham de maneira imprevisível quando aplicados a novos contextos. Isso importa, porque nos limites da maioria das ciências quase nunca fica claro qual procedimento é apropriado. Nenhum dos golens tradicionais foi avaliado em novos ambientes de pesquisa e, portanto, pode ser difícil escolher um e depois entender como ele se comporta.Um bom exemplo é o teste exato de Fisher, que se aplica (exatamente) a um contexto empírico extremamente estreito, mas é usado regularmente sempre que a contagem de células é pequena. Eu pessoalmente li centenas de usos do teste exato de Fisher em revistas científicas, mas, além do uso original de Fisher, nunca o vi ser usado adequadamente. Mesmo um procedimento como a regressão linear comum, que é bastante flexível de várias maneiras, capaz de codificar uma grande diversidade de hipóteses interessantes, às vezes é frágil. Por exemplo, se houver um erro de medição substancial nas variáveis ​​de previsão, o procedimento poderá falhar de maneira espetacular. Mais importante, porém, é quase sempre possível fazer melhor do que a regressão linear comum, principalmente devido a um fenômeno conhecido como sobreajuste.

hanice
fonte
3
Consulte stats.stackexchange.com/q/136584/17230 . Quando o teste exato de Fisher é apropriado, é discutível - certamente houve um debate desde que Fisher o inventou.
Scortchi - Restabelece Monica
1
Uma excelente e recente visão geral deste tópico e das controvérsias é dada por Choi et al. (2015): Elucidando os fundamentos da inferência estatística com tabelas 2x2 .
COOLSerdash
1
@COOLSerdash: Essa é uma descoberta maravilhosa e contém a resposta que eu gostaria de ter escrito, livre de restrições de tempo e capacidade cerebral; e muito mais além disso. Também todas ou a maioria das referências que eu gostaria de dar; Vou dar uma olhada para ver se tenho mais alguma coisa e adicioná-las à minha resposta.
Scortchi - Restabelece Monica

Respostas:

8

É difícil ler esta citação e não supor que o autor considere um mero erro usar o Teste Exato de Fisher quando os totais marginais de uma tabela de contingência não são fixos por design. "O uso original de Fisher" do teste deve se referir à famosa dama que provou o chá, que "foi previamente informado sobre o que consistirá no teste, a saber, que ela será solicitada a provar oito xícaras, que serão quatro de cada tipo, [...] "(Fisher (1935), The Design of Experiments ); & então "um contexto empírico extremamente estreito" analisa como "um esquema de amostragem aplicável a poucos estudos realizados na prática".

Mas não é um erro: condicionar a estatística suficiente para a distribuição dos dados sob a hipótese nula é uma técnica padrão para eliminar parâmetros incômodos e apresentar testes do tamanho correto (essa é a base dos testes de permutação). Os totais marginais contêm muito pouca informação que você pode usar para estimar o parâmetro de interesse, o odds ratio; e bastante sobre a precisão com a qual você pode estimar: o argumento é que o espaço amostral obtido pelo condicionamento de ambos é muito mais relevante para a inferência do que o obtido pelo condicionamento de apenas um ou apenas da contagem total. No entanto, é um espaço de amostra terrivelmente grosseiro, resultando em uma lamentável perda de poder. Como a relevância do espaço da amostra deve ser equilibrada com a perda de informações? Quanto grosseiro do espaço da amostra é aceitável antes que um teste assintoticamente válido ou incondicional seja preferido? Essas são perguntas irritantes, e a análise de tabelas de contingência duas a duas é controversa há meio século ou mais.

Dado que isso vem de um texto bayesiano, acho que o autor perdeu uma oportunidade de zombar dos dilemas que um compromisso com o uso de métodos freqüentistas pode levar - como Jaynes faz em Probability Theory: The Logic of Science

† Em um artigo publicado no mesmo ano que seu livro, ele usou um exemplo no qual, embora o esquema de amostragem não seja explicitamente fornecido, no máximo uma margem poderia ter sido previamente fixada e, provavelmente, apenas a contagem total foi fixada. Gêmeos do mesmo sexo de criminosos condenados são classificados como monozigóticos x dizigóticos e como condenados por crimes em si vs não condenados em uma tabela dois a dois (Fisher (1935), "The Logic of Inductive Inference", JRSS, 98 , 1, 39-82). [Edit: Os dados são de Lange (1929), Verbrechen e Schicksal: Studien am kriminellen Zwillingen . Wetzell (2000), Inventando o Criminoso: Uma História da Criminologia Alemã, 1880–1945 , p 162] descreve o procedimento de coleta de dados de Lange; isto'

Scortchi - Restabelecer Monica
fonte