Em relação ao valor-p da análise de regressão linear múltipla, a introdução do site do Minitab é mostrada abaixo.
O valor p para cada termo testa a hipótese nula de que o coeficiente é igual a zero (sem efeito). Um valor p baixo (<0,05) indica que você pode rejeitar a hipótese nula. Em outras palavras, é provável que um preditor que tenha um valor p baixo seja uma adição significativa ao seu modelo, porque alterações no valor do preditor estão relacionadas a alterações na variável de resposta.
Por exemplo, eu tenho um modelo MLR resultante como . e a saída é mostrada abaixo. Então um pode ser calculado usando esta equação.y
Estimate SE tStat pValue
________ ______ _________ _________
(Intercept) 14.48 5.0127 2.8886 0.0097836
x1 0.46753 1.2824 0.36458 0.71967
x2 -0.2668 3.3352 -0.079995 0.93712
x3 1.6193 9.0581 0.17877 0.86011
x4 4.5424 2.8565 1.5902 0.1292
Com base na introdução acima, a hipótese nula é que o coeficiente é igual a 0. Meu entendimento é que o coeficiente, por exemplo, o coeficiente de , será definido como 0 e outro y será calculado como . Em seguida, um teste t emparelhado é conduzida para e , mas a p-valor deste t-teste é 6.9e-12, que não é igual a 0,1292 (p-valor de coeficiente de . y 2 = 0,46753 X 1 - 0,2668 X 2 + 1,6193 X 3 + 0 X 4 + 14,48 y y 2 X 4
Alguém pode ajudar no entendimento correto? Muito Obrigado!
fonte
Respostas:
Isso está incorreto por alguns motivos:
O modelo "sem" X4 não terá necessariamente as mesmas estimativas de coeficiente para os outros valores. Ajuste o modelo reduzido e veja você mesmo.
O teste estatístico realizado para a significância estatística do coeficiente é um teste t de uma amostra. Isso é confuso, pois não temos uma "amostra" de coeficientes múltiplos para X4, mas temos uma estimativa das propriedades distributivas de uma amostra usando o teorema do limite central. O erro médio e padrão descrevem a localização e a forma dessa distribuição limitadora. Se você pegar a coluna "Est" e dividir por "SE" e comparar com uma distribuição normal padrão, isso fornecerá os valores de p na quarta coluna.
Um quarto ponto: uma crítica à página de ajuda do minitab. Esse arquivo de ajuda não poderia, em um parágrafo, resumir anos de treinamento estatístico; portanto, não preciso lidar com tudo. Mas dizer que um "preditor" é "uma contribuição importante" é vago e provavelmente incorreto. A lógica para escolher quais variáveis incluir em um modelo multivariado é sutil e depende de raciocínio científico e não de inferência estatística.
fonte
Sua interpretação inicial dos valores-p parece correta, ou seja, apenas a interceptação tem um coeficiente significativamente diferente de 0. Você notará que a estimativa do coeficiente para x4 ainda é bastante alta, mas há erro suficiente que não é significativamente diferente de 0.
Seu teste t emparelhado de y1 e y2 sugere que os modelos são diferentes um do outro. Isso é de se esperar, em um modelo você incluiu um coeficiente grande, porém impreciso, que contribui bastante para o seu modelo. Não há razão para pensar que o valor p desses modelos sendo diferentes um do outro deve ser o mesmo que o valor p do coeficiente de x4 sendo diferente de 0.
fonte