Pelo que tenho lido, entre outros no site do grupo de consultoria de estatística da UCLA, os testes de razão de verossimilhança e testes de wald são bastante semelhantes ao testar se dois modelos de glm mostram uma diferença significativa na adequação de um conjunto de dados (desculpe-me se minha redação pode estar um pouco errado). Em essência, posso comparar dois modelos e testar se o segundo modelo apresenta um ajuste significativamente melhor que o primeiro, ou se não há diferença entre os modelos.
Portanto, os testes LR e Wald devem mostrar os mesmos valores de p para os mesmos modelos de regressão. Pelo menos a mesma conclusão deve sair.
Agora eu fiz os dois testes para o mesmo modelo em R e obtive resultados bastante diferentes. Aqui estão os resultados de R para um modelo:
> lrtest(glm(data$y~1),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test
Model 1: data$y ~ 1
Model 2: data$y ~ data$site_name
#Df LogLik Df Chisq Pr(>Chisq)
1 2 -89.808
2 9 -31.625 7 116.37 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> lrtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test
Model 1: data$y ~ 1
Model 2: data$y ~ data$site_name
#Df LogLik Df Chisq Pr(>Chisq)
1 1 -54.959
2 9 -31.625 8 46.667 1.774e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> waldtest(glm(data$y~data$site_name,family="poisson"))
Wald test
Model 1: data$y ~ data$site_name
Model 2: data$y ~ 1
Res.Df Df F Pr(>F)
1 45
2 53 -8 0.7398 0.6562
> waldtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Wald test
Model 1: data$y ~ 1
Model 2: data$y ~ data$site_name
Res.Df Df F Pr(>F)
1 53
2 45 8 0.7398 0.6562
Sobre os dados, os dados $ y contêm dados de contagem e os dados $ site_name são um fator com 9 níveis. Existem 54 valores nos dados $ y, com 6 valores por nível de dados $ site_name.
Aqui estão as distribuições de frequência:
> table(data$y)
0 2 4 5 7
50 1 1 1 1
> table(data$y,data$site_name)
Andulay Antulang Basak Dauin Poblacion District 1 Guinsuan Kookoo's Nest Lutoban Pier Lutoban South Malatapay Pier
0 6 6 6 4 6 6 6 5 5
2 0 0 0 0 0 0 0 1 0
4 0 0 0 1 0 0 0 0 0
5 0 0 0 0 0 0 0 0 1
7 0 0 0 1 0 0 0 0 0
Agora, esses dados não se encaixam muito bem na distribuição de poisson devido à enorme dispersão excessiva das contagens zero. Mas com outro modelo, em que os dados $ y> 0 se encaixam muito bem no modelo de Poisson e, embora usando um modelo de Poisson inflado com zero, ainda recebo resultados de teste de Wald e teste de teste altamente diferentes. Lá, o teste wald mostra um valor p de 0,03 enquanto o teste lr tem um valor p 0,0003. Ainda há uma diferença de fator 100, mesmo que a conclusão possa ser a mesma.
Então, o que estou entendendo incorretamente aqui com a razão de verossimilhança vs waldtest?
fonte
Os dois testes são assintoticamente equivalentes. Obviamente, seu desempenho (tamanho e potência) em amostras finitas pode diferir. O melhor que você pode fazer para entender a diferença é executar um estudo de Monte Carlo para uma configuração semelhante à sua.
fonte
Primeiro, discordo um pouco da resposta de jsakaluk de que os dois testes estão testando coisas diferentes - ambos estão testando se o coeficiente no modelo maior é zero. Eles estão apenas testando essa hipótese fazendo diferentes aproximações (consulte o artigo com link abaixo).
Em relação às diferenças entre os resultados, como jsakaluk disse, isso provavelmente se deve ao pequeno tamanho da amostra / que a probabilidade do log está longe de ser quadrática. Eu escrevi uma postagem de blog em 2014 que passa por isso para um modelo binomial simples, que pode ajudar ainda mais: http://thestatsgeek.com/2014/02/08/wald-vs-likelihood-ratio-test/
fonte