Teste de Wald para regressão logística

55

Tanto quanto eu entendo, o teste de Wald no contexto da regressão logística é usado para determinar se uma determinada variável preditora é significativa ou não. Rejeita a hipótese nula do coeficiente correspondente sendo zero.X

O teste consiste em dividir o valor do coeficiente pelo erro padrão .σ

O que me deixa confuso é que também é conhecido como escore Z e indica a probabilidade de uma determinada observação surgir da distribuição normal (com zero médio).X/σ

user695652
fonte
2
Possível duplicata do teste
Firebug
2
Talvez possa ser o contrário, pois a resposta é mais desenvolvida.
Firebug

Respostas:

86

As estimativas dos coeficientes e as interceptações em regressão logística (e qualquer GLM) são encontradas via estimativa de máxima verossimilhança (MLE). Essas estimativas são indicadas com um chapéu sobre os parâmetros, algo como . Nosso parâmetro de interesse é denotado e geralmente é 0, pois queremos testar se o coeficiente difere de 0 ou não. Da teoria assintótica do MLE, sabemos que a diferença entre e será distribuída aproximadamente normalmente com média 0 (detalhes podem ser encontrados em qualquer livro de estatística matemática, como All of statistics, de Larry Wasserman ) . Lembre-se de que os erros padrão nada mais são do que q0 q q0σW=( β -β 0 )θ^θ0θ^θ0desvios padrão das estatísticas (Sokal e Rohlf escrevem em seu livro Biometry : "uma estatística é qualquer uma de muitas quantidades estatísticas calculadas ou estimadas", por exemplo, a média, mediana, desvio padrão, coeficiente de correlação, coeficiente de regressão, ...). Dividir uma distribuição normal com média 0 e desvio padrão por seu desvio padrão produzirá a distribuição normal padrão com média 0 e desvio padrão 1. A estatística Wald é definida como (por exemplo, Wasserman (2006): All of Statistics , páginas 153, 214-215): ou σW2=(β-β0)2

W=(β^β0)se^(β^)N(0,1)
χ21χ22
W2=(β^β0)2Var^(β^)χ12
A segunda forma surge do fato de o quadrado de uma distribuição normal padrão ser a distribuição com 1 grau de liberdade (a soma de duas distribuições normais padrão ao quadrado seria uma com 2 graus de liberdade e assim por diante).χ12χ22

Como o parâmetro de interesse geralmente é 0 (por exemplo, ), a estatística Wald simplifica para Qual é o que você descreveu: A estimativa do coeficiente dividida por seu erro padrão.W = ββ0=0

W=β^se^(β^)N(0,1)

Quando é e quando usado um valor ?zt

A escolha entre um valor ou um valor depende de como o erro padrão dos coeficientes foi calculado. Como a estatística Wald é assintoticamente distribuída como uma distribuição normal padrão, podemos usar o score para calcular o valor- . Quando nós, além dos coeficientes, também temos que estimar a variação residual, um valor é usado em vez do valor . Nos mínimos quadrados ordinários (OLS, regressão linear normal), a matriz de variância-covariância dos coeficientes é ondeztzptzVar[β^|X]=σ2(XX)1σ2é a variação dos resíduos (que é desconhecida e deve ser estimada a partir dos dados) e é a matriz de projeto . No OLS, os erros padrão dos coeficientes são as raízes quadradas dos elementos diagonais da matriz de variância-covariância. Como não conhecemos , precisamos substituí-lo por sua estimativa , portanto: . Agora, esse é o ponto: como temos que estimar a variação dos resíduos para calcular o erro padrão dos coeficientes, precisamos usar um valor e a distribuição .Xσ2σ^2=s2 ttse^(βj^)=s2(XX)jj1tt

Na regressão logística (e poisson), a variação dos resíduos está relacionada à média. Se , a média é e a variação é portanto, a variação e a média estão relacionadas. Na regressão logística e de poisson, mas não na regressão com erros gaussianos, conhecemos a variação esperada e não precisamos calculá-la separadamente. O parâmetro de dispersão indica se temos mais ou menos do que a variação esperada. Se isso significa que observamos a quantidade esperada de variação, enquanto significa que temos menos do que a variação esperada (chamada sub-dispersão) eE ( Y ) = n p Var ( Y ) = n p ( 1 - p ) ϕ ϕ = 1 ϕ < 1 ϕ > 1 z t pYBin(n,p)E(Y)=npVar(Y)=np(1p)ϕϕ=1ϕ<1ϕ>1significa que temos uma variação extra além do esperado (chamado superdispersão). O parâmetro de dispersão na regressão logística e de poisson é fixado em 1, o que significa que podemos usar o escore . O parâmetro de dispersão. Em outros tipos de regressão, como a regressão linear normal, temos que estimar a variação residual e, portanto, um valor é usado para calcular os valores . Em , veja estes dois exemplos:ztpR

Regressão logística

mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")

mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")

summary(my.mod)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
   ---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

Observe que o parâmetro de dispersão é fixo em 1 e, portanto, obtemos valores .z


Regressão linear normal (OLS)

summary(lm(Fertility~., data=swiss))

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)      66.91518   10.70604   6.250 1.91e-07 ***
Agriculture      -0.17211    0.07030  -2.448  0.01873 *  
Examination      -0.25801    0.25388  -1.016  0.31546    
Education        -0.87094    0.18303  -4.758 2.43e-05 ***
Catholic          0.10412    0.03526   2.953  0.00519 ** 
Infant.Mortality  1.07705    0.38172   2.822  0.00734 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.165 on 41 degrees of freedom

Aqui, temos que estimar a variância residual (denotada como "Erro padrão residual") e, portanto, usamos valores- vez de valores- . Obviamente, em amostras grandes, a distribuição aproxima a distribuição normal e a diferença não importa.z ttzt

Outro post relacionado pode ser encontrado aqui .

COOLSerdash
fonte
11
Muito obrigado por este belo post, que responde a todas as minhas perguntas.
User695652
11
Portanto, praticamente, em relação à primeira parte de sua excelente resposta: se, por algum motivo, eu tivesse como resultado o odds ratio e a estatística Wald, eu poderia calcular o erro padrão a partir deles como: SE = (1 / Wald- estatística) * ln (OR) Isso está correto? Obrigado!
Sander W. van der Laan
11
@ SanderW.vanderLaan Obrigado pelo seu comentário. Sim, acredito que esteja correto. Se você executar uma regressão logística, as estatísticas de Wald serão o valor z.
amigos estão dizendo sobre clínica de reabilitação
2
Uma ótima resposta !!. Tenho algumas sugestões de revisão: pessoalmente, acho que essa resposta está misturando detalhes com as listas de perguntas e respostas. Eu colocaria os detalhes de como a regressão linear está usando a variação de resíduos em um gráfico separado.
Haitao Du
11
Também para o parâmetro de dispersão e a conexão com o código R, podemos abrir outra seção ou uma linha de separação para falar.
Haitao Du