Atualmente, estou trabalhando para construir um modelo usando uma regressão linear múltipla. Depois de mexer no meu modelo, não tenho certeza de como determinar melhor quais variáveis manter e quais remover.
Meu modelo começou com 10 preditores para o DV. Ao usar todos os 10 preditores, quatro foram considerados significativos. Se eu remover apenas alguns dos preditores obviamente incorretos, alguns dos meus preditores que não foram inicialmente significativos se tornam significativos. O que me leva à minha pergunta: como determinar quais preditores incluir em seu modelo? Pareceu-me que você deveria executar o modelo uma vez com todos os preditores, remover aqueles que não são significativos e executar novamente. Mas se remover apenas alguns desses preditores torna outros significativos, fico me perguntando se estou adotando a abordagem errada para tudo isso.
Acredito que esse tópico seja semelhante à minha pergunta, mas não tenho certeza se estou interpretando a discussão corretamente. Talvez esse seja um tópico de design experimental, mas talvez alguém tenha alguma experiência que possa compartilhar.
Respostas:
Com base na sua reação ao meu comentário:
Você está procurando previsão. Portanto, você não deve realmente confiar na (in) significância dos coeficientes. Você seria melhor
Escreva cada modelo de interesse : aqui está um problema. Com 10 preditores de potencial, isso é um caminhão cheio de modelos em potencial. Se você tiver tempo ou processadores para isso (ou se seus dados forem pequenos o suficiente para que os modelos se ajustem e sejam avaliados com rapidez suficiente): tenha uma bola. Caso contrário, você pode fazer isso por suposições, modelagem direta ou reversa (mas usando o critério em vez de significância), ou melhor ainda: use algum algoritmo que escolha um conjunto razoável de modelos. Um algoritmo que faz isso é a regressão penalizada, em particular a regressão de Lasso. Se você estiver usando R, basta conectar o pacote glmnet e você está pronto para começar.
fonte
Não há uma resposta simples para isso. Quando você remove algumas das variáveis explicativas não significativas, outras que estão correlacionadas com essas podem se tornar significativas. Não há nada errado com isso, mas faz a seleção de modelos pelo menos parcialmente arte e não ciência. É por isso que os experimentos visam manter variáveis explicativas ortogonais entre si, para evitar esse problema.
Tradicionalmente, os analistas adicionavam e subtraíam passo a passo as variáveis uma por vez (semelhante ao que você fez) e as testaram individualmente ou em pequenos grupos com testes t ou F. O problema é que você pode perder alguma combinação de variáveis para subtrair (ou adicionar) onde o efeito combinado (ou não efeito) está oculto pela colinearidade.
Com o poder computacional moderno, é possível ajustar todas as 2 ^ 10 = 1024 combinações possíveis de variáveis explicativas e escolher o melhor modelo por um dos vários critérios possíveis, por exemplo, AIC, BIC ou poder preditivo (por exemplo, capacidade de prever os valores de um subconjunto de teste dos dados que você separou do conjunto usado para ajustar seu modelo). No entanto, se você estiver testando (implícita ou explicitamente) os modelos 1024, precisará repensar seus valores-p da abordagem clássica - trate com cuidado ...
fonte
Se você está interessado apenas em desempenho preditivo, provavelmente é melhor usar todos os recursos e usar regressão de crista para evitar o excesso de ajuste na amostra de treinamento. Este é essencialmente o conselho dado no apêndice da monografia de Millar sobre "seleção de subconjuntos em regressão" , por isso vem com um pedigree razoável!
A razão para isso é que, se você escolher um subconjunto com base em uma estimativa de desempenho com base em uma amostra fixa de dados (por exemplo, AIC, BIC, validação cruzada etc.), o critério de seleção terá uma variação finita e, portanto, é possível sobrepor o próprio critério de seleção. Em outras palavras, para começar, à medida que você minimiza o critério de seleção, o desempenho da generalização melhorará; no entanto, chegará um momento em que quanto mais você reduzir o critério de seleção, pior será a generalização. Se você não tiver sorte, poderá facilmente terminar com um modelo de regressão com desempenho pior do que o iniciado (por exemplo, um modelo com todos os atributos).
Isso é especialmente provável quando o conjunto de dados é pequeno (portanto, o critério de seleção tem uma alta variação) e quando existem muitas opções possíveis de modelo (por exemplo, escolhendo combinações de recursos). A regularização parece ser menos propensa a ajustes excessivos, pois é um parâmetro escalar que precisa ser ajustado e isso fornece uma visão mais restrita da complexidade do modelo, ou seja, menos graus efetivos de liberdade com os quais o ajuste é excessivo .
fonte
Use a biblioteca de saltos. Quando você plota as variáveis, o eixo y mostra R ^ 2 ajustado. Você observa onde as caixas são pretas com o R ^ 2 mais alto. Isso mostrará as variáveis que você deve usar para sua regressão linear múltipla.
Exemplo de vinho abaixo:
fonte
leaps
calcula explicitamente os 'melhores subconjuntos', embora não seja aconselhável como selecionar entre subconjuntos de tamanhos diferentes. (Sendo um assunto entre você e seu clero estatística.)leaps
é baseado no "código FORTRAN77 de Alan Miller, [...] que é descrito em mais detalhes em seu livro 'Seleção de subconjuntos em regressão'" ", um livro mencionado por Dikran em outra resposta a esta pergunta :-)Você também pode usar a função step no critério de informação Akaike. Exemplo abaixo. https://en.wikipedia.org/wiki/Akaike_information_criterion
fonte
Por que não fazer a análise de correlação Primeiro e depois incluir na regressão apenas aqueles que se correlacionam com Dv?
fonte
Meu orientador ofereceu outra maneira possível de fazer isso. Execute todas as suas variáveis uma vez e remova aquelas que não atingem algum limite (definimos nosso limite como p <0,25). Continue iterando dessa maneira até que todas as variáveis caiam abaixo do valor 0,25 e, em seguida, relate os valores significativos.
fonte