Você pode reproduzir esse resultado do teste qui-quadrado?

7

Em Skeptics.StackExchange , uma resposta cita um estudo sobre hipersensibilidade eletromagnética:

Eu sou duvidoso sobre algumas das estatísticas usadas e gostaria de ter alguma experiência em verificar duas vezes se elas são usadas adequadamente.

A Figura 5a mostra os resultados de um sujeito tentando detectar quando um gerador de campo eletromagnético foi ligado.

Aqui está uma versão simplificada:

 Actual:   Yes  No
Detected:
  Yes       32  19
  No       261 274

Eles afirmam ter usado um teste do qui-quadrado e encontraram significância (p <0,05, sem declarar o que é p).

As frequências das respostas somáticas e comportamentais na presença e ausência do campo foram avaliadas pelo teste do qui-quadrado (tabelas 2 × 2) ou pela extensão de Freeman – Halton do teste de probabilidade exata de Fisher (tabelas 2 × 3; Freeman & Halton, 1951).

Eu vejo vários problemas.

  • Eles excluíram alguns dos dados - consulte a Tabela 5b - de onde deixaram o dispositivo por longos períodos. Não vejo a justificativa para separar esses dados.

  • Eles parecem estar afirmando que o resultado é estatisticamente significativo quando o dispositivo real estava ligado, mas não quando não estava. (Posso estar interpretando mal isso; não está claro.) Esse não é um resultado que o teste do qui-quadrado possa dar, é?

  • Quando tentei reproduzir este teste com uma calculadora on-line , achei estatisticamente insignificante.

Esta é minha verdadeira pergunta: estou certo ao dizer isso ?: Um teste qui-quadrado de duas caudas usando o Teste Exato de Fisher é o caminho certo para analisar esses dados E NÃO é estatisticamente significativo.

Pensamento estranho
fonte
As variáveis ​​"detectadas" e "reais" são observadas na mesma unidade? Se assim for, então eu diria que este é um problema de simetria.
Momo
@ Momo: Eu acho que a resposta é sim. Houve 600 tentativas. Em 300, o dispositivo estava realmente ligado e, nos outros 300, o dispositivo estava realmente desligado. Foi perguntado ao sujeito se ela podia detectar a radiação eletromagnética e respondeu Sim ou Não. Em 14 casos, ela não respondeu e eles foram excluídos. Em 535 casos, ela disse que não, o que significa que sua sensibilidade era baixa (se é que existia). Não sabe ao certo como isso causa um problema de simetria - existem links que eu possa ler para saber mais?
Oddthinking
Ok obrigado. Acabei de perceber que o problema de simetria parece ser uma expressão que não é usada em inglês, então desculpe por isso. O que quero dizer com isso é que as classificações cruzadas não são derivadas de unidades independentes, mas que a mesma unidade foi repetidamente solicitada e, portanto, é uma medição emparelhada ou repetida.
Momo
2
Para constar: Havia uma carta ao editor referente a este artigo. Ele desafiou algumas das classificações (post-hoc?) De gravidade usadas na Tabela 3a (Experimentos 1 e 2), alertou para os riscos de viés de publicação e a necessidade de replicação. Ele não se queixou dos dados da Tabela 5.
Oddthinking
2
Também vale a pena notar que esta tabela está exatamente à margem de parecer "significativa": se apenas uma única detecção tivesse sido classificada incorretamente, o teste de Fisher (que é o apropriado para usar) retornaria um valor-p de 10,9%. Se a alegação for extraordinária ou controversa, seria necessária uma evidência muito mais forte do que essa para aceitar uma conclusão de associação positiva.
whuber

Respostas:

3

Parece-me que há três coisas erradas com a conclusão.

Primeiro, como o @caracal disse: Eles estão relatando "significância" usando um teste unilateral, sem dizer que estão fazendo isso. A maioria das pessoas, penso, recomenda o uso de testes bicaudais quase sempre. Certamente não é bom usar um teste de cauda sem dizer isso.

Segundo, o efeito é pequeno. Quando havia um sinal, o sujeito (havia apenas um) detectava-o 11% das vezes (32/293). Quando não havia sinal, ela detectava um sinal 6,5% das vezes. Essa diferença parece bem pequena. E o sujeito não foi capaz de detectar o sinal 89% das vezes!

Terceiro, como o @oddthinking apontou, houve alguns relatórios de dados seletivos que não foram explicados ou justificados adequadamente (não li o artigo com atenção, por isso estou simplesmente repetindo o que estava no post original).

Harvey Motulsky
fonte
0

Um teste exato de Fisher na tabela fornecida fornece, por este código

actual <- c(rep("Y", 32), rep("N", 19), rep("Y", 261), rep("N", 274))
det <- c(rep("Y", 51), rep("N", 535))
table(det,actual) 
fisher.test(det,actual)

ap = 0,08

Peter Flom
fonte
3
você diria que um teste de Fisher é apropriado para esta tabela de contingência?
Momo
2
Mas esse é o valor p bilateral. Eu acho que a hipótese era unilateral ( , fornecendo um valor de p de 0,039 .p("yes"|yes)>p("yes"|no)
caracal
@caracal: Deseja elaborar seu raciocínio e transformar isso em resposta?
Oddthinking
@ Oddthinking Desculpe, atualmente não tenho tempo para ler o artigo e pensar nas questões de amostragem / projeto experimental relevantes para a questão.
caracal