Significado dos coeficientes de regressão (GAM) quando a probabilidade do modelo não é significativamente maior que nula

10

Estou executando uma regressão baseada em GAM usando o pacote R gamlss e assumindo uma distribuição beta inflada a zero dos dados. Tenho apenas uma única variável explicativa no meu modelo, por isso é basicamente: mymodel = gamlss(response ~ input, family=BEZI).

O algoritmo fornece o coeficiente para o impacto da variável explicativa na média ( μ ) e o valor p associado a k ( entrada ) = 0 , algo como:kμk(entrada)=0 0

Mu link function:  logit                                               
Mu Coefficients:                                                      
              Estimate  Std. Error  t value   Pr(>|t|)                  
(Intercept)  -2.58051     0.03766  -68.521  0.000e+00                  
input        -0.09134     0.01683   -5.428  6.118e-08

Como você pode ver no exemplo acima, a hipótese de é rejeitada com alta confiança.k(entrada)=0 0

Em seguida, executo o modelo nulo: null = gamlss(response ~ 1, family=BEZI)e comparo as probabilidades usando um teste de razão de verossimilhança:

p=1-pchisq(-2*(logLik(null)[1]-logLik(mymodel)[1]), df(mymodel)-df(null)).

Em vários casos, recebo mesmo quando os coeficientes na entrada são relatados como altamente significativos (como acima). Acho isso bastante incomum - pelo menos isso nunca aconteceu na minha experiência com regressão linear ou logística (na verdade, isso também nunca aconteceu quando eu estava usando gama ajustada a zero com gamlss).p>0,05

Minha pergunta é: ainda posso confiar na dependência entre resposta e entrada quando for esse o caso?

a11msp
fonte

Respostas:

1

Não vejo razão imediata para que isso esteja relacionado ao GAM. O fato é que você está usando dois testes para a mesma coisa. Como não há certeza absoluta nas estatísticas, é muito possível que um dê um resultado significativo e o outro não.

Talvez um dos dois testes seja simplesmente mais poderoso (mas, talvez, se baseie em mais algumas suposições), ou talvez o único significativo seja o seu erro tipo I em um em cada vinte.

Um bom exemplo são os testes para determinar se as amostras são da mesma distribuição: você tem testes muito paramétricos para isso (o teste T é aquele que pode ser usado para isso: se os meios são diferentes, as distribuições também devem ser), e também não paramétrico uns: pode acontecer que o paramétrico dê um resultado significativo e o não paramétrico não. Isso pode ocorrer porque as suposições do teste paramétrico são falsas, porque os dados são simplesmente extraordinários (tipo I) ou porque o tamanho da amostra não é suficiente para o teste não paramétrico perceber a diferença ou, finalmente, porque o aspecto de o que você realmente deseja testar (distribuições diferentes) verificado pelos diferentes testes é apenas diferente (diferente significa <-> chance de ser "maior que").

Se um resultado do teste mostra resultados significativos e o outro é apenas um pouco não significativo, eu não me preocuparia muito.

Nick Sabbe
fonte