compreensão do valor-p na regressão linear múltipla

12

Em relação ao valor-p da análise de regressão linear múltipla, a introdução do site do Minitab é mostrada abaixo.

O valor p para cada termo testa a hipótese nula de que o coeficiente é igual a zero (sem efeito). Um valor p baixo (<0,05) indica que você pode rejeitar a hipótese nula. Em outras palavras, é provável que um preditor que tenha um valor p baixo seja uma adição significativa ao seu modelo, porque alterações no valor do preditor estão relacionadas a alterações na variável de resposta.

Por exemplo, eu tenho um modelo MLR resultante como . e a saída é mostrada abaixo. Então um pode ser calculado usando esta equação.yy=0.46753X10.2668X2+1.6193X3+4.5424X4+14.48y

            Estimate      SE        tStat       pValue  
               ________    ______    _________    _________

(Intercept)      14.48     5.0127       2.8886    0.0097836
x1             0.46753     1.2824      0.36458      0.71967
x2             -0.2668     3.3352    -0.079995      0.93712
x3              1.6193     9.0581      0.17877      0.86011
x4              4.5424     2.8565       1.5902       0.1292

Com base na introdução acima, a hipótese nula é que o coeficiente é igual a 0. Meu entendimento é que o coeficiente, por exemplo, o coeficiente de , será definido como 0 e outro y será calculado como . Em seguida, um teste t emparelhado é conduzida para e , mas a p-valor deste t-teste é 6.9e-12, que não é igual a 0,1292 (p-valor de coeficiente de . y 2 = 0,46753 X 1 - 0,2668 X 2 + 1,6193 X 3 + 0 X 4 + 14,48 y y 2 X 4X4y2=0.46753X10.2668X2+1.6193X3+0X4+14.48yy2X4

Alguém pode ajudar no entendimento correto? Muito Obrigado!

user2230101
fonte
você pode mostrar a saída da rotina de regressão?
Aksakal
Sua descrição do cálculo do valor-p não é padrão. Por que você acha que deve ser calculado da maneira que descreve? O valor p na saída é calculado a partir da matriz de parâmetros Var-Cov. Se você deseja executar o teste de restrição, como Wald, não é assim que você descreve. Você teria que re-estimar o modelo com 3 variáveis, obter loglikelihood etc.
Aksakal
1
De acordo com essa introdução, você tem apenas uma variável "significativa" - a "interceptação" - porque apenas seu valor p é pequeno. Para ir além da prática ingênua e enganosa na cotação, você precisa aprender mais sobre a regressão múltipla. Para ver o que pode ser aprendido a esse respeito, considere explorar tópicos relevantes em nosso site .
whuber
2
Verifique as respostas para essas duas perguntas: - stats.stackexchange.com/questions/5135/… e - stats.stackexchange.com/questions/126179/… Eles me ajudaram a entender como os valores de p são calculados, espero que você os encontre útil também.
Giacomo

Respostas:

7

Isso está incorreto por alguns motivos:

  1. O modelo "sem" X4 não terá necessariamente as mesmas estimativas de coeficiente para os outros valores. Ajuste o modelo reduzido e veja você mesmo.

  2. Y

  3. O teste estatístico realizado para a significância estatística do coeficiente é um teste t de uma amostra. Isso é confuso, pois não temos uma "amostra" de coeficientes múltiplos para X4, mas temos uma estimativa das propriedades distributivas de uma amostra usando o teorema do limite central. O erro médio e padrão descrevem a localização e a forma dessa distribuição limitadora. Se você pegar a coluna "Est" e dividir por "SE" e comparar com uma distribuição normal padrão, isso fornecerá os valores de p na quarta coluna.

  4. Um quarto ponto: uma crítica à página de ajuda do minitab. Esse arquivo de ajuda não poderia, em um parágrafo, resumir anos de treinamento estatístico; portanto, não preciso lidar com tudo. Mas dizer que um "preditor" é "uma contribuição importante" é vago e provavelmente incorreto. A lógica para escolher quais variáveis ​​incluir em um modelo multivariado é sutil e depende de raciocínio científico e não de inferência estatística.

AdamO
fonte
0

Sua interpretação inicial dos valores-p parece correta, ou seja, apenas a interceptação tem um coeficiente significativamente diferente de 0. Você notará que a estimativa do coeficiente para x4 ainda é bastante alta, mas há erro suficiente que não é significativamente diferente de 0.

Seu teste t emparelhado de y1 e y2 sugere que os modelos são diferentes um do outro. Isso é de se esperar, em um modelo você incluiu um coeficiente grande, porém impreciso, que contribui bastante para o seu modelo. Não há razão para pensar que o valor p desses modelos sendo diferentes um do outro deve ser o mesmo que o valor p do coeficiente de x4 sendo diferente de 0.

Nuclear Wang
fonte