Tanto quanto eu entendo, o teste de Wald no contexto da regressão logística é usado para determinar se uma determinada variável preditora é significativa ou não. Rejeita a hipótese nula do coeficiente correspondente sendo zero.
O teste consiste em dividir o valor do coeficiente pelo erro padrão .
O que me deixa confuso é que também é conhecido como escore Z e indica a probabilidade de uma determinada observação surgir da distribuição normal (com zero médio).
logistic
z-statistic
user695652
fonte
fonte
Respostas:
As estimativas dos coeficientes e as interceptações em regressão logística (e qualquer GLM) são encontradas via estimativa de máxima verossimilhança (MLE). Essas estimativas são indicadas com um chapéu sobre os parâmetros, algo como . Nosso parâmetro de interesse é denotado e geralmente é 0, pois queremos testar se o coeficiente difere de 0 ou não. Da teoria assintótica do MLE, sabemos que a diferença entre e será distribuída aproximadamente normalmente com média 0 (detalhes podem ser encontrados em qualquer livro de estatística matemática, como All of statistics, de Larry Wasserman ) . Lembre-se de que os erros padrão nada mais são do que q0 q q0σW=( β -β 0 )θ^ θ0 θ^ θ0 desvios padrão das estatísticas (Sokal e Rohlf escrevem em seu livro Biometry : "uma estatística é qualquer uma de muitas quantidades estatísticas calculadas ou estimadas", por exemplo, a média, mediana, desvio padrão, coeficiente de correlação, coeficiente de regressão, ...). Dividir uma distribuição normal com média 0 e desvio padrão por seu desvio padrão produzirá a distribuição normal padrão com média 0 e desvio padrão 1. A estatística Wald é definida como (por exemplo, Wasserman (2006): All of Statistics , páginas 153, 214-215):
ou
σ W2=(β-β0)2
Como o parâmetro de interesse geralmente é 0 (por exemplo, ), a estatística Wald simplifica para Qual é o que você descreveu: A estimativa do coeficiente dividida por seu erro padrão.W = ββ0=0
Quando é e quando usado um valor ?z t
A escolha entre um valor ou um valor depende de como o erro padrão dos coeficientes foi calculado. Como a estatística Wald é assintoticamente distribuída como uma distribuição normal padrão, podemos usar o score para calcular o valor- . Quando nós, além dos coeficientes, também temos que estimar a variação residual, um valor é usado em vez do valor . Nos mínimos quadrados ordinários (OLS, regressão linear normal), a matriz de variância-covariância dos coeficientes é ondez t z p t z Var[β^|X]=σ2(X′X)−1 σ2 é a variação dos resíduos (que é desconhecida e deve ser estimada a partir dos dados) e é a matriz de projeto . No OLS, os erros padrão dos coeficientes são as raízes quadradas dos elementos diagonais da matriz de variância-covariância. Como não conhecemos , precisamos substituí-lo por sua estimativa , portanto: . Agora, esse é o ponto: como temos que estimar a variação dos resíduos para calcular o erro padrão dos coeficientes, precisamos usar um valor e a distribuição .X σ2 σ^2=s2 ttseˆ(βj^)=s2(X′X)−1jj−−−−−−−−−√ t t
Na regressão logística (e poisson), a variação dos resíduos está relacionada à média. Se , a média é e a variação é portanto, a variação e a média estão relacionadas. Na regressão logística e de poisson, mas não na regressão com erros gaussianos, conhecemos a variação esperada e não precisamos calculá-la separadamente. O parâmetro de dispersão indica se temos mais ou menos do que a variação esperada. Se isso significa que observamos a quantidade esperada de variação, enquanto significa que temos menos do que a variação esperada (chamada sub-dispersão) eE ( Y ) = n p Var ( Y ) = n p ( 1 - p ) ϕ ϕ = 1 ϕ < 1 ϕ > 1 z t pY∼Bin(n,p) E(Y)=np Var(Y)=np(1−p) ϕ ϕ=1 ϕ<1 ϕ>1 significa que temos uma variação extra além do esperado (chamado superdispersão). O parâmetro de dispersão na regressão logística e de poisson é fixado em 1, o que significa que podemos usar o escore . O parâmetro de dispersão. Em outros tipos de regressão, como a regressão linear normal, temos que estimar a variação residual e, portanto, um valor é usado para calcular os valores . Em , veja estes dois exemplos:z t p
R
Regressão logística
Observe que o parâmetro de dispersão é fixo em 1 e, portanto, obtemos valores .z
Regressão linear normal (OLS)
Aqui, temos que estimar a variância residual (denotada como "Erro padrão residual") e, portanto, usamos valores- vez de valores- . Obviamente, em amostras grandes, a distribuição aproxima a distribuição normal e a diferença não importa.z tt z t
Outro post relacionado pode ser encontrado aqui .
fonte