Número mínimo de observações para regressão linear múltipla

Estou fazendo regressão linear múltipla. Eu tenho 21 observações e 5 variáveis. Meu objetivo é apenas encontrar a relação entre variáveis

Meus dados estão definidos o suficiente para fazer regressão múltipla?

O resultado do teste t revelou três das minhas variáveis não são significativas. Preciso fazer minha regressão novamente com as variáveis significativas (ou minha primeira regressão é suficiente para concluir)? Minha matriz de correlação é a seguinte

       var 1   var 2    var 3   var 4   var 5     Y
var 1   1.0     0.0       0.0   -0.1    -0.3    -0.2
var 2   0.0     1.0       0.4    0.3    -0.4    -0.4
var 3   0.0     0.4       1.0    0.7    -0.7    -0.6
var 4  -0.1     0.3       0.7    1.0    -0.7    -0.9
var 5  -0.3    -0.4      -0.7   -0.7    1.0      0.8
Y      -0.2    -0.4      -0.6   -0.9    0.8      1.0

var 1 e var 2 são variáveis contínuas e var 3 a 5 são variáveis categóricas ey é minha variável dependente.

Deve-se mencionar a variável importante que foi considerada na literatura como o fator mais influente na minha variável dependente também não está entre as minhas variáveis de regressão devido à limitação de meus dados. Ainda faz sentido fazer regressão sem essa variável importante?

aqui está o meu intervalo de confiança

    Varibales   Regression Coefficient  Lower 95% C.L.  Upper 95% C.L.
    Intercept   53.61                       38.46        68.76
    var 1       -0.39                      -0.97         0.19
    var 2       -0.01                      -0.03         0.01
    var 3        5.28                      -2.28         12.84
    var 4       -27.65                     -37.04       -18.26
    **var 5      11.52                      0.90         22.15**

regression t-test multiple-regression rosa
fonte

Respostas:

A regra geral (baseada no material do livro de Frank Harrell, Regression Modeling Strategies ) é que, se você espera detectar efeitos de tamanho razoável com poder razoável , precisa de 10 a 20 observações por parâmetro (covariável) estimado. Harrell discute muitas opções de "redução de dimensão" (reduzindo seu número de covariáveis a um tamanho mais razoável), como o PCA, mas o mais importante é que, para ter alguma confiança nos resultados, é necessário fazer a redução de dimensão sem olhar para a variável de resposta . Fazer a regressão novamente apenas com as variáveis significativas, como você sugere acima, é quase sempre uma má idéia.

No entanto, como você está preso a um conjunto de dados e covariáveis de seu interesse, não acho que executar a regressão múltipla dessa maneira seja inerentemente errada. Eu acho que o melhor seria aceitar os resultados como eles são, a partir do modelo completo (não se esqueça de olhar para as estimativas pontuais e os intervalos de confiança para ver se os efeitos significativos são estimados como "grandes" em alguns casos reais). sentido mundial, e se os efeitos não significativos são realmente estimados menores do que os efeitos significativos).

Se faz algum sentido fazer uma análise sem o preditor que seu campo considera importante: eu não sei. Depende do tipo de inferências que você deseja fazer com base no modelo. No sentido estrito, o modelo de regressão ainda está bem definido ("quais são os efeitos marginais desses preditores nessa resposta?"), Mas alguém em seu campo pode dizer com razão que a análise simplesmente não faz sentido. Ajudaria um pouco se você soubesse que os preditores que possui não são correlacionados com o preditor conhecido (o que quer que seja) ou se esse preditor conhecido é constante ou quase constante para seus dados: então pelo menos você pode dizer que algo que não seja o conhecido preditor afeta a resposta.

Ben Bolker
fonte

Obrigado pelo comentário, mas não entendo qual é o objetivo de verificar o intervalo de confiança?

subiu

Como Ben respondeu por Frank, eu responderei por Ben e ele pode me corrigir se tiver outra coisa em mente. Ben está sugerindo o jsut usando o modelo completo. Então, pelo menos, você sabe que não deixou uma variável importante fora do conjunto de 5. O problema de excesso de ajuste pode prejudicar a previsão, mas pelo menos você tem intervalos de confiança para os parâmetros e pode obter intervalos de confiança para a previsão. Eu acho que isso vai funcionar bem se você tiver um problema collinearity e os intervalos de confiança sobre os parâmetros que você saiba se o valor do parâmetro pode ser 0.

Michael R. Chernick

Se o modelo ainda não possui variáveis imprevisíveis, a previsão pode não ser boa e a avaliação da precisão da previsão com base nos dados fornecidos pode estar errada. Preocupe-se com a especificação incorreta do modelo e sempre verifique os resíduos. Frank Harrell é um membro ativo deste site. Espero que esta pergunta chame a atenção dele e possamos ouvi-lo diretamente.

Michael R. Chernick

p < 0.05

$p<0.05$

Das discussões que considero devidas à falta de observação suficiente e à ausência da variável independente mais importante em meu conjunto de dados, devo concluir: 1-As variáveis significativas não são a variável que passou no teste t. O significativo é aquele que passa no teste t e seu intervalo de confiança não inclui 0. 2-A normalidade do resíduo deve ser verificada. 3-A matriz de correlação deve ser verificada.

subiu

A resposta para a pergunta geral é que depende de muitos fatores, sendo os principais: (1) número de covariáveis (2) variação das estimativas e resíduos. Com uma amostra pequena, você não tem muito poder para detectar uma diferença de 0. Portanto, eu observaria a variação estimada dos parâmetros de regressão. Da minha experiência com regressão, 21 observações com 5 variáveis não são dados suficientes para descartar variáveis. Portanto, eu não seria tão rápido em jogar fora variáveis nem ficar muito apaixonado pelas que parecem significativas. A melhor resposta é esperar até que você tenha muito mais dados. Às vezes isso é fácil de dizer, mas difícil de fazer. Eu examinaria a regressão passo a passo, a regressão para frente e para trás apenas para ver quais variáveis são selecionadas. Se as covariáveis estiverem altamente correlacionadas, isso pode mostrar conjuntos muito diferentes de variáveis sendo selecionadas. Inicialize o procedimento de seleção do modelo, pois isso será revelador quanto à sensibilidade da seleção de variáveis a alterações nos dados. Você deve calcular a matriz de correlação para covariáveis. Talvez Frank Harrell fale disso. Ele é um verdadeiro especialista em seleção de variáveis. Eu acho que ele pelo menos concordaria comigo que você não deve escolher um modelo final baseado apenas nesses 21 pontos de dados.

Michael R. Chernick
fonte

Obrigado pela sua sugestão. Eu adicionei minha matriz de correlação. Você acha que, com essa matriz de correlação, a regressão é razoável? Apenas enfatize que não posso coletar mais dados e também não quero modelar ou prever. Só quero encontrar qualquer relação possível entre variáveis independentes e variável dependente.

subiu

A matriz de correlação existe para fornecer uma idéia da colinearidade. As estimativas provavelmente terão grande variação e, portanto, a significância estatística não deve ser o foco. Ypu poderia olhar para o diagnóstico de regressão quanto à colinearidade. Isso pode ajudar. Mas eu recomendaria olhar para uma variedade de modelos de subconjuntos para ver como o ajuste muda e quais combinações de variáveis parecem bem e mal. Realmente acho que a inicialização dos dados mostrará algo sobre a estabilidade da escolha dos preditores.

Michael R. Chernick

Mas nada compensará a falta de dados. Eu acho que você só quer ver se há uma ou duas variáveis que parecem estar acima dos demais. Mas você pode encontrar qualquer coisa.

Michael R. Chernick

x

$x$

x^{2}

$x^2$

x^{3}

$x^3$

x^{4}

$x^4$