Estou fazendo regressão linear múltipla. Eu tenho 21 observações e 5 variáveis. Meu objetivo é apenas encontrar a relação entre variáveis
- Meus dados estão definidos o suficiente para fazer regressão múltipla?
O resultado do teste t revelou três das minhas variáveis não são significativas. Preciso fazer minha regressão novamente com as variáveis significativas (ou minha primeira regressão é suficiente para concluir)? Minha matriz de correlação é a seguinte
var 1 var 2 var 3 var 4 var 5 Y var 1 1.0 0.0 0.0 -0.1 -0.3 -0.2 var 2 0.0 1.0 0.4 0.3 -0.4 -0.4 var 3 0.0 0.4 1.0 0.7 -0.7 -0.6 var 4 -0.1 0.3 0.7 1.0 -0.7 -0.9 var 5 -0.3 -0.4 -0.7 -0.7 1.0 0.8 Y -0.2 -0.4 -0.6 -0.9 0.8 1.0
var 1 e var 2 são variáveis contínuas e var 3 a 5 são variáveis categóricas ey é minha variável dependente.
Deve-se mencionar a variável importante que foi considerada na literatura como o fator mais influente na minha variável dependente também não está entre as minhas variáveis de regressão devido à limitação de meus dados. Ainda faz sentido fazer regressão sem essa variável importante?
aqui está o meu intervalo de confiança
Varibales Regression Coefficient Lower 95% C.L. Upper 95% C.L.
Intercept 53.61 38.46 68.76
var 1 -0.39 -0.97 0.19
var 2 -0.01 -0.03 0.01
var 3 5.28 -2.28 12.84
var 4 -27.65 -37.04 -18.26
**var 5 11.52 0.90 22.15**
A resposta para a pergunta geral é que depende de muitos fatores, sendo os principais: (1) número de covariáveis (2) variação das estimativas e resíduos. Com uma amostra pequena, você não tem muito poder para detectar uma diferença de 0. Portanto, eu observaria a variação estimada dos parâmetros de regressão. Da minha experiência com regressão, 21 observações com 5 variáveis não são dados suficientes para descartar variáveis. Portanto, eu não seria tão rápido em jogar fora variáveis nem ficar muito apaixonado pelas que parecem significativas. A melhor resposta é esperar até que você tenha muito mais dados. Às vezes isso é fácil de dizer, mas difícil de fazer. Eu examinaria a regressão passo a passo, a regressão para frente e para trás apenas para ver quais variáveis são selecionadas. Se as covariáveis estiverem altamente correlacionadas, isso pode mostrar conjuntos muito diferentes de variáveis sendo selecionadas. Inicialize o procedimento de seleção do modelo, pois isso será revelador quanto à sensibilidade da seleção de variáveis a alterações nos dados. Você deve calcular a matriz de correlação para covariáveis. Talvez Frank Harrell fale disso. Ele é um verdadeiro especialista em seleção de variáveis. Eu acho que ele pelo menos concordaria comigo que você não deve escolher um modelo final baseado apenas nesses 21 pontos de dados.
fonte