O LSD de Fisher é tão ruim quanto eles dizem?

22

Quando realizamos experimentos (em amostras pequenas (geralmente o tamanho da amostra por grupo de tratamento é de 7 a 8)) em dois grupos, usamos um teste t para testar a diferença. No entanto, quando realizamos uma ANOVA (obviamente para mais de dois grupos), usamos algo como Bonferroni (LSD / # de comparações pareadas) ou Tukey como post hoc e como estudante, fui avisado de usando a menor diferença significativa de Fisher (LSD).

Agora, o problema é que o LSD é semelhante ao teste t pareado (estou certo?), E, ​​portanto, a única coisa que não explica é que estamos fazendo várias comparações. Qual é a importância de lidar com, digamos, 6 grupos, se a ANOVA é significativa?

Ou, em outras palavras, existe alguma razão científica / estatística para usar o LSD de Fisher?

Rover Eye
fonte
1
Você poderia esclarecer quem são eles e incluir exemplos do que eles dizem? (Quão ruim eles dizem que é? Vamos deixar claro o que estamos discutindo aqui.) Vi algumas críticas ao LSD, algumas delas justificadas, mas não sei se vi o que você visto, nem que o que eu vi exigiria bastante a caracterização que você tem lá.
Glen_b -Reinstate Monica
+1 Se você veio aqui tentando descobrir o que fala do site de troca de pilha sobre Timothy Learys LSD
PW Kad
@Glen_b Eles se referem a cientistas em ciências biomédicas. As palavras do meu professor foram: "Use Bonferroni ou Tukey. Use LSD apenas em desespero. Se isso não ajudar, use o outro LSD :)"
Rover Eye

Respostas:

10

O LSD de Fisher é de fato uma série de testes t pareados, com cada teste usando o erro quadrático médio da ANOVA significativa como sua estimativa de variância combinada (e naturalmente tomando os graus de liberdade associados). Que a ANOVA seja significativa é uma restrição adicional desse teste.

Ele restringe a taxa de erro familiar a alfa no caso especial de apenas 3 grupos. Howell tem uma explicação muito boa e relativamente simples de como o faz no capítulo 16 de seu livro Fundamental Statistics for the Behavioral Sciences, 8ª edição, David C. Howell .

Acima de 3 grupos, o alfa infla rapidamente (como o @Alexis observou acima). Certamente não é apropriado para 6 grupos. Acredito que é essa aplicabilidade limitada que faz com que a maioria das pessoas sugira ignorá-la como uma opção.

Marcus Morrisey
fonte
18

Quão importante são as comparações múltiplas ao lidar com 6 grupos? Bem ... com seis grupos você está lidando com um máximo de possíveiscomparaçõespost hoc empares. Vou deixar o inestimável Randall Munroe abordar a importância de múltiplas comparações:6(6-1)2=15

insira a descrição da imagem aqui

E acrescentarei que, como na sua sentença inicial, você sugere que às vezes tenha sete grupos, o número máximo de testes pós-hoc em pares é 7(7-1)2=21

Alexis
fonte
1
Ponto bem feito. No entanto, isso não coloca em questão que, se tivermos muito poucos grupos (digamos 3 (3 em pares) ou 4 (6 em ​​pares)), a probabilidade de encontrar um valor significativo por acaso é baixa? (novamente, o LSD é protegido por significância ANOVA)
Rover olho
2
α
2
@Rover Ter 6 testes em pares que passam com p> 0,05 já significa que agora você tem p> 0,26, que é uma mudança bastante significativa.
Voo
Não estou perguntando nada prático, estava apenas pensando em voz alta. Mas seu argumento está bem fundamentado. @ Muito verdadeiro, o erro tende a se multiplicar. Obrigado a vocês dois.
Rover Eye
10

O teste de Fisher é tão ruim quanto todo mundo diz que é do ponto de vista de Neyman-Pearson e se você faz o que sua pergunta implica - depois de uma ANOVA significativa, teste cada diferença individual. Você pode ver isso em muitos artigos publicados . Porém, testar todas as diferenças após uma ANOVA, ou qualquer uma delas, não é necessário nem recomendado. E o teste de Fisher não foi elaborado sob a teoria da inferência estatística de Neyman-Pearson.

É importante ter em mente que, quando Fisher propôs o LSD, ele realmente não considerou vários testes um problema importante, porque não considerou o corte de significância uma regra rígida e rápida para decidir se os resultados eram importantes ou não. Poder-se-ia construir um LSD como uma maneira fácil de examinar os dados de onde poderia haver resultados significativos, mas não o árbitro do que era significativo. Lembre-se, foi Fisher quem disse que você deveria executar mais assuntos se p > 0,05.

E por que você acha que testar tudo é uma boa idéia? Considere por que você executa uma ANOVA em primeiro lugar. Você provavelmente aprendeu que é porque a execução de vários testes t é problemática, como você sugere na sua pergunta. Então, por que você os está executando, ou seu equivalente depois? Eu sei que isso acontece, mas ainda preciso executar um teste após uma ANOVA. Uma ANOVA informa que seu padrão de dados não é um conjunto de valores iguais, que pode haver algum significado nele. Muitas pessoas ficam preocupadas com a cautela de que o teste não diz onde estão os bits significativos, mas esquecem que os dados e as teorias dizem isso.

John
fonte
Obrigado pelos papéis. você levanta uma questão de por que as pessoas usam um post-hoc após uma ANOVA. Para dizer a verdade honesta, eu realmente não sei. Disseram-me que a ANOVA é um teste de blob e, como você mencionou, precisamos descobrir onde está o significado. E, para ser sincero, estou interessado em saber como você relata apenas uma ANOVA.
Rover Eye
1
Dê-me um padrão de dados e eu direi como reportaria a ANOVA. A versão curta é que você descreve os dados. Os itens muito próximos um do outro seriam agrupados na descrição e aqueles distantes considerados diferenças significativas (mas tudo é relativo). Digamos que eu tenho A = 20, B = 58, C = 61, p = 0,03. Eu reportaria a estatística e diria que A é menor que B e C, que são semelhantes. Então, tudo depende dos dados. Posso imaginar uma sequência de itens um pouco problemática (A = 10, B = 20, C = 30) de algumas maneiras inferenciais, mas talvez eu devesse ter feito uma regressão.
John John
Essa é uma maneira bastante interessante de relatar uma ANOVA e posso ver o que você está recebendo. Embora eu possa certamente discutir isso com meus supervisores, não tenho muita certeza se eles gostariam de quebrar a "norma" de relatar uma ANOVA sem um pós-doutorado. Tentando encontrar publicações científicas que relataram usar esse método.
Rover Eye
2
Algo é significativo nos dados. Muitas vezes, é óbvio o que deve ser. Fazer um post hoc para demonstrar o óbvio apenas demonstra que você não sabe o que a ANOVA faz em primeiro lugar.
John
6

O raciocínio por trás do LSD de Fisher pode ser estendido a casos além de N = 3.

Vou discutir o caso de quatro grupos em detalhes. Para manter a taxa de erro tipo I familiar em 0,05 ou abaixo, um fator de correção de comparação múltipla de 3 (ou seja, um alfa por comparação de 0,05 / 3) é suficiente, embora haja seis comparações post-hoc entre os quatro grupos. Isto é porque:

  • caso todas as quatro médias verdadeiras sejam iguais, o onibus Anova nos quatro grupos limita a taxa de erro familiar a 0,05;
  • no caso de três das médias verdadeiras serem iguais e a quarta diferir delas, existem apenas três comparações que poderiam gerar um erro do tipo I;
  • no caso de dois dos meios verdadeiros serem iguais e diferirem dos outros dois, que são iguais entre si, existem apenas duas comparações que poderiam gerar um erro do tipo I.

Isso esgota as possibilidades. Em todos os casos, a probabilidade de encontrar um ou mais valores de p abaixo de 0,05 para grupos cujas médias verdadeiras são iguais, permanece igual ou inferior a 0,05 se o fator de correção para comparações múltiplas for 3 e esta é a definição da taxa de erro familiar.

Esse raciocínio para quatro grupos é uma generalização da explicação de Fisher para o método de diferença mínima significativa de três grupos. Para os grupos N , o fator de correção, se o teste omnibus Anova for significativo, é ( N -1) ( N -2) / 2. Portanto, a correção de Bonferroni, por um fator de N ( N -1) / 2, é muito forte. Basta usar um fator de correção alfa de 1 para N = 3 (é por isso que o LSD de Fisher funciona para N = 3), um fator de 3 para N = 4, um fator de 6 para N = 5, um fator de 10 para N = 6 e assim por diante.

Paul Boersma
fonte
+1. Esta é uma adição muito boa ao segmento. Bem vindo ao site!
Ameba diz Reinstate Monica
Todas as situações que você descreveu não exigem nenhum teste post hoc.
John John
1
Você pode apontar para uma referência de literatura para esse (N-1)(N-2)/2resultado?
rvl