Intervalo de confiança para o qui-quadrado

10

Estou tentando encontrar uma solução para comparar dois testes de "qui-quadrado de qualidade de ajuste". Mais precisamente, quero comparar os resultados de duas experiências independentes. Nesses experimentos, os autores usaram o qui-quadrado de qualidade de ajuste para comparar estimativas aleatórias (frequências esperadas) com frequências observadas. Os dois experimentos tiveram o mesmo número de participantes e os procedimentos experimentais são idênticos, apenas os estímulos foram alterados. Os resultados de duas experiências indicaram um qui-quadrado significativo (exp. 1: X² (18) = 45; p <0,0005 e exp. 2: X² (18) = 79; p <0,0001).

Agora, o que eu quero fazer é testar se há uma diferença entre esses dois resultados. Penso que uma solução poderia ser o uso de intervalos de confiança, mas não sei como calcular esses intervalos de confiança apenas com esses resultados. Ou talvez um teste para comparar o tamanho do efeito (w de Cohen)?

Alguém tem uma solução?

Muito obrigado!

FD

Florian
fonte
11
Olá Florian. Por que não usar um teste de permutação sobre a diferença entre os quadrados de chi?
Tal Galili
Olá e obrigado pela sua resposta! Simplesmente porque realmente não conheço testes de permutações. É possível fazer permutação apenas com dois valores de qui-quadrado (não tenho dados brutos, apenas os resultados)? Mais uma vez obrigado :)
Florian

Respostas:

8

A informação muito limitada que você possui é certamente uma restrição severa! No entanto, as coisas não são totalmente inúteis.

Sob as mesmas suposições que levam à distribuição assintótica do para a estatística de teste do teste de qualidade de ajuste com o mesmo nome, a estatística do teste sob a hipótese alternativa possui, assintoticamente, uma distribuição não central de χ 2 . Se assumirmos que os dois estímulos são a) significativos eb) têm o mesmo efeito, as estatísticas de teste associadas terão a mesma distribuição χ 2 assintótica não central . Podemos usar isso para construir um teste - basicamente, através da estimativa do parâmetro noncentrality λ e vendo se as estatísticas de teste são muito nas caudas da não central χ 2 ( 18 , λ )χ2χ2χ2λχ2(18,λ^)distribuição. (Isso não quer dizer que este teste terá muito poder, no entanto.)

Podemos estimar o parâmetro de não centralidade, dadas as duas estatísticas de teste, calculando sua média e subtraindo os graus de liberdade (um estimador de métodos de momentos), fornecendo uma estimativa de 44 ou pela máxima probabilidade:

x <- c(45, 79)
n <- 18

ll <- function(ncp, n, x) sum(dchisq(x, n, ncp, log=TRUE))
foo <- optimize(ll, c(30,60), n=n, x=x, maximum=TRUE)
> foo$maximum
[1] 43.67619

Boa concordância entre nossas duas estimativas, o que não é surpreendente, dados dois pontos de dados e os 18 graus de liberdade. Agora, para calcular um valor-p:

> pchisq(x, n, foo$maximum)
[1] 0.1190264 0.8798421

Portanto, nosso valor-p é 0,12, insuficiente para rejeitar a hipótese nula de que os dois estímulos são iguais.

λχ2(λ-δ,λ+δ)δ=1 1,2,,15δ e veja com que frequência nosso teste rejeita, digamos, o nível de confiança de 90% e 95%.

nreject05 <- nreject10 <- rep(0,16)
delta <- 0:15
lambda <- foo$maximum
for (d in delta)
{
  for (i in 1:10000)
  {
    x <- rchisq(2, n, ncp=c(lambda+d,lambda-d))
    lhat <- optimize(ll, c(5,95), n=n, x=x, maximum=TRUE)$maximum
    pval <- pchisq(min(x), n, lhat)
    nreject05[d+1] <- nreject05[d+1] + (pval < 0.05)
    nreject10[d+1] <- nreject10[d+1] + (pval < 0.10)
  }
}
preject05 <- nreject05 / 10000
preject10 <- nreject10 / 10000

plot(preject05~delta, type='l', lty=1, lwd=2,
     ylim = c(0, 0.4),
     xlab = "1/2 difference between NCPs",
     ylab = "Simulated rejection rates",
     main = "")
lines(preject10~delta, type='l', lty=2, lwd=2)
legend("topleft",legend=c(expression(paste(alpha, " = 0.05")),
                          expression(paste(alpha, " = 0.10"))),
       lty=c(1,2), lwd=2)

que fornece o seguinte:

insira a descrição da imagem aqui

Olhando para os verdadeiros pontos de hipótese nulos (valor do eixo x = 0), vemos que o teste é conservador, pois não parece rejeitar tão frequentemente quanto o nível indicaria, mas não de maneira esmagadora. Como esperávamos, ele não tem muito poder, mas é melhor que nada. Gostaria de saber se existem testes melhores por aí, dada a quantidade muito limitada de informações que você tem disponível.

jbowman
fonte
Eu sou novato nessas coisas, posso perguntar como executar o script (se fosse script) da resposta do jbowman. No meu caso, uma tentativa de obter o OR do IC de 90%. I'am realmente aprecio se um de vocês pode explicar isso para mim, e eu uso PASW17
Olá ash6. De fato, é um script para o software R (para mais informações: r-project.org ), não uma sintaxe para o PASW17. Portanto, esse script pode ser executado diretamente no console do R. Esse script não calcula intervalos de confiança, mas fornece o valor p (aqui, com precisão> pchisq (x, n, foo $ maximum ==> [1] valor p = 0,1190264)) correspondente ao teste de diferença entre os dois experimentos (aqui entre dois estímulos, no caso de hipótese alternativa), e aqui não podemos rejeitar a hipótese nula de que os dois experimentos deram os mesmos resultados.
Florian
3

Você pode obter o V do Cramer, interpretável como uma correlação, convertê-lo em um Z de Fisher e, em seguida, o intervalo de confiança disso é direto (SE = 1 / sqrt (n-3): Z ± se * 1,96). Depois de obter as extremidades do IC, você pode convertê-las novamente em r.

Você já pensou em colocar todas as suas contagens em uma tabela de contingência com uma dimensão adicional do experimento?

John
fonte
Pensei que não era possível usar um Phi com uma qualidade de ajuste qui-quadrado de Pearson (1 variável). Foi por isso que eu falei sobre as w de Cohen, mas as fórmulas são realmente semelhantes (phi = X² / new = sqrt (X² / n))! Mas se for possível calcular phi com este teste e aplicar a transformação de z em z, você concorda em nos fornecer uma referência para citar? Gostaríamos de usar esse teste em um artigo e poucos revisores podem ser muito exigentes com estatísticas. Seria uma grande ajuda para nós! Sobre a sua pergunta: não temos dados brutos apenas com o valor X², df ep de um artigo publicado. Muito obrigado por sua ajuda!
Florian
Desculpe ... pretendia acabar com o V de Cramer, não com phi. O V de Cramer pode ser usado como phi.
John John
E não, eu não tenho uma citação. Se você tem um efeito grande, não importa se existe um pequeno viés nessa medida. Se você não tiver um efeito grande, certifique-se de não tirar grandes ossos do "significado" de qualquer teste.
John John