Eu entendo que o teste de Wald para coeficientes de regressão é baseada na seguinte propriedade que mantém assintoticamente (por exemplo Wasserman (2006): todas as estatísticas , páginas 153, 214-215): Ondeβindica o coeficiente de regressão estimados,^si(β)indica o erro padr do coeficiente de regressão eβ0é o valor de interesse (β0é geralmente de 0 para testar se o coeficiente é significativamente diferente de 0). Portanto, o tamanhoWald test é: rejeitequandoem que
Mas quando você executa uma regressão linear com lm
em R, um valor vez de um valor é usado para testar se os coeficientes de regressão diferem significativamente de 0 (com ). Além disso, a saída de em R às vezes fornece - e às vezes - como estatísticas de teste. Aparentemente, os valores são usados quando se supõe que o parâmetro dispersão seja conhecido e os valores são usados quando o parâmetro dispersão é calculado (veja este link ).summary.lm
glm
Alguém poderia explicar por que umdistribuição t às vezes é usada para um teste de Wald, mesmo que a razão do coeficiente e seu erro padrão seja assumida como distribuída como normal padrão?
Editar depois que a pergunta foi respondida
Este post também fornece informações úteis para a pergunta.
fonte
lm
glm
Respostas:
A saída doz λ t
glm
uso de uma distribuição Poisson fornece um valor porque, com uma distribuição Poisson, os parâmetros de média e variância são os mesmos. No modelo de Poisson, você só precisa estimar um único parâmetro ( λ ). Em um local em que você precise estimar um parâmetro de média e dispersão, deverá ver a distribuição t usada.glm
Para uma regressão linear padrão, você assume que o termo do erro é normalmente distribuído. Aqui, o parâmetro de variância deve ser estimado - daí o uso da distribuição para a estatística de teste. Se você soubesse de alguma forma a variação da população para o termo do erro, poderia usar uma estatística do teste z .t z
Como você mencionou em seu post, a distribuição do teste é assintoticamente normal. A distribuição é assintoticamente normal; portanto, em uma amostra grande, a diferença seria insignificante.t
fonte
Na estrutura do GLM, em geral, a estatística do teste W que você mencionou é distribuída assintoticamente Normal , é por isso que você vê em R os valores z .
Além disso, quando se trata de um modelo linear, ou seja, um GLM com uma variável de resposta distribuídas normal, a distribuição da estatística de teste é um t de Student , portanto, em R você tem t valores.
fonte