Teste de Wald em regressão (OLS e GLMs): distribuição t vs. z

22

Eu entendo que o teste de Wald para coeficientes de regressão é baseada na seguinte propriedade que mantém assintoticamente (por exemplo Wasserman (2006): todas as estatísticas , páginas 153, 214-215): Ondeβindica o coeficiente de regressão estimados,^si(β)indica o erro padr do coeficiente de regressão eβ0é o valor de interesse (β0é geralmente de 0 para testar se o coeficiente é significativamente diferente de 0). Portanto, o tamanhoWald test é: rejeitequandoem que

(β^-β0 0)se^(β^)N(0 0,1)
β^se^(β^)β0 0β0 0αH0 0|W|>zα/2
W=β^se^(β^).

Mas quando você executa uma regressão linear com lmem R, um valor vez de um valor é usado para testar se os coeficientes de regressão diferem significativamente de 0 (com ). Além disso, a saída de em R às vezes fornece - e às vezes - como estatísticas de teste. Aparentemente, os valores são usados ​​quando se supõe que o parâmetro dispersão seja conhecido e os valores são usados ​​quando o parâmetro dispersão é calculado (veja este link ).tzsummary.lmglmztzt

Alguém poderia explicar por que umdistribuição t às vezes é usada para um teste de Wald, mesmo que a razão do coeficiente e seu erro padrão seja assumida como distribuída como normal padrão?t

Editar depois que a pergunta foi respondida

Este post também fornece informações úteis para a pergunta.

COOLSerdash
fonte
2
O que faz você pensar que a estatística de teste que está sendo relatada é necessariamente um teste de Wald?
Glen_b -Reinstala Monica
3
Como os valores - ou t são sempre o coeficiente dividido pelo seu erro padrão em e . ztlmglm
COOLSerdash

Respostas:

20

A saída do glmuso de uma distribuição Poisson fornece um valor porque, com uma distribuição Poisson, os parâmetros de média e variância são os mesmos. No modelo de Poisson, você só precisa estimar um único parâmetro ( λ ). Em um local em que você precise estimar um parâmetro de média e dispersão, deverá ver a distribuição t usada.zλglmt

Para uma regressão linear padrão, você assume que o termo do erro é normalmente distribuído. Aqui, o parâmetro de variância deve ser estimado - daí o uso da distribuição para a estatística de teste. Se você soubesse de alguma forma a variação da população para o termo do erro, poderia usar uma estatística do teste z .tz

Como você mencionou em seu post, a distribuição do teste é assintoticamente normal. A distribuição é assintoticamente normal; portanto, em uma amostra grande, a diferença seria insignificante.t

wcampbell
fonte
3

Na estrutura do GLM, em geral, a estatística do teste W que você mencionou é distribuída assintoticamente Normal , é por isso que você vê em R os valores z .

Além disso, quando se trata de um modelo linear, ou seja, um GLM com uma variável de resposta distribuídas normal, a distribuição da estatística de teste é um t de Student , portanto, em R você tem t valores.

EdoLu
fonte