Alguém poderia aconselhar se o seguinte faz sentido:
Estou lidando com um modelo linear comum com 4 preditores. Estou pensando em abandonar o termo menos significativo. O valor de é um pouco acima de 0,05. Argumentei a favor de abandoná-lo ao longo destas linhas: Multiplicar a estimativa deste termo por (por exemplo) o intervalo interquartil dos dados da amostra para essa variável, dá algum significado ao efeito clínico que a manutenção desse termo tem no modelo geral . Como esse número é muito baixo, aproximadamente igual ao intervalo intradiário típico de valores que a variável pode assumir ao medi-la em um ambiente clínico, eu o vejo como não clinicamente significativo e, portanto, poderia ser descartado para fornecer um modelo mais parcimonioso, mesmo embora derrubá-lo reduz um pouco o ajustado .R 2
fonte
Respostas:
Eu nunca entendi o desejo de parcimônia. A busca por parcimônia destrói todos os aspectos da inferência estatística (viés dos coeficientes de regressão, erros padrão, intervalos de confiança, valores-P). Uma boa razão para manter as variáveis é que isso preserva a precisão dos intervalos de confiança e outras quantidades. Pense desta maneira: só foram desenvolvidos dois estimadores imparciais de variância residual na regressão múltipla comum: (1) a estimativa do modelo (grande) pré-especificado e (2) a estimativa de um modelo reduzido substituindo graus generalizados de liberdade (GDF) para graus de liberdade de regressão aparentes (reduzidos). O GDF estará muito mais próximo do número de parâmetros candidatos do que do número final de parâmetros "significativos".
Aqui está outra maneira de pensar sobre isso. Suponha que você estivesse fazendo uma ANOVA para comparar 5 tratamentos, fazendo um teste F de 4 df. Então, por algum motivo, você observa diferenças pareadas entre tratamentos usando testes t e decide combinar ou remover alguns dos tratamentos (isso é o mesmo que fazer a seleção gradual usando P, AIC, BIC, Cp nas 4 variáveis dummy). O teste F resultante com 1, 2 ou 3 df terá um erro do tipo I. O teste F original com 4 df continha um ajuste de multiplicidade perfeito.
fonte
Todas essas respostas sobre a seleção de variáveis assumem que o custo da observação de variáveis é 0.
E isso não é verdade.
Embora a questão da seleção de variáveis para um determinado modelo possa envolver ou não a seleção, as implicações para o comportamento futuro envolvem a seleção.
Considere o problema de prever qual atacante universitário fará melhor na NFL. Você é um escoteiro. Você deve considerar quais qualidades dos atuais jogadores da linha da NFL são mais preditivas de seu sucesso. Você mede 500 quantidades e inicia a tarefa de seleção das quantidades que serão necessárias no futuro.
O que você deveria fazer? Você deve manter todos os 500? Alguns (signo astrológico, dia da semana em que nascemos) devem ser eliminados?
Esta é uma questão importante e não é acadêmica. Existe um custo para a observação dos dados, e a estrutura de custo-efetividade sugere que algumas variáveis NÃO NECESSITAM DE ser observadas no futuro, uma vez que seu valor é baixo.
fonte
Há pelo menos duas outras razões possíveis para manter uma variável: 1) Afeta os parâmetros para OUTRAS variáveis. 2) O fato de ser pequeno é clinicamente interessante por si só
Para ver cerca de 1, você pode observar os valores previstos para cada pessoa de um modelo com e sem a variável no modelo. Sugiro fazer um gráfico de dispersão desses dois conjuntos de valores. Se não há grandes diferenças, esse é um argumento contra esse motivo
Para 2, pense por que você tinha essa variável na lista de variáveis possíveis. É baseado na teoria? Outra pesquisa encontrou um grande tamanho de efeito?
fonte
O conselho mais comum hoje em dia é obter o AIC dos dois modelos e levá-lo com o AIC mais baixo. Portanto, se seu modelo completo tiver uma AIC de -20 e o modelo sem o preditor mais fraco tiver uma AIC> -20, você manterá o modelo completo. Alguns podem argumentar que, se a diferença <3, você mantém a mais simples. Eu prefiro o conselho de que você poderia usar o BIC para romper "laços" quando os AICs estiverem a 3 um do outro.
Se você estiver usando R então o comando para obter o AIC é ...
AIC
.Eu tenho um livro sobre modelagem aqui do início dos anos 90, sugerindo que você abandone todos os seus preditores que não são significativos. No entanto, isso realmente significa que você diminuirá independentemente da complexidade que o preditor adiciona ou subtrai do modelo. Também é apenas para ANOVA onde o significado é sobre a variabilidade explicada, e não a magnitude da inclinação à luz do que outras coisas foram explicadas. Os conselhos mais modernos do uso da AIC levam esses fatores em consideração. Há todos os tipos de razões pelas quais o preditor não significativo deve ser incluído, mesmo que não seja significativo. Por exemplo, pode haver problemas de correlação com outros preditores, pois pode ser um preditor relativamente simples. Se você deseja o conselho mais simples, vá com a AIC e use a BIC para romper os laços e use uma diferença de 3 como sua janela de igualdade.
fonte
Para que você está usando este modelo? A parcimônia é um objetivo importante?
Modelos mais parcimoniosos são preferidos em algumas situações, mas eu não diria que a parcimônia é uma coisa boa em si mesma. Modelos parcimoniosos podem ser entendidos e comunicados com mais facilidade, e a parcimônia pode ajudar a evitar excesso de ajuste, mas muitas vezes essas questões não são grandes preocupações ou podem ser tratadas de outra maneira.
Aproximando-se da direção oposta, incluindo um termo extra em uma equação de regressão, há alguns benefícios, mesmo em situações em que o termo extra em si não é de interesse e não melhora muito o modelo. é uma variável importante a ser controlada, mas outras podem. Obviamente, existem outras razões substantivas muito importantes para excluir uma variável, por exemplo, pode ser causada pelo resultado.
fonte
Pela sua formulação, parece que você está inclinado a abandonar o último preditor porque seu valor preditivo é baixo; uma mudança substancial nesse preditor não implicaria uma mudança substancial na variável resposta. Se for esse o caso, eu gosto deste critério para incluir / descartar o preditor. É mais fundamentado na realidade prática do que o AIC ou o BIC pode ser, e mais explicável ao seu público-alvo para esta pesquisa.
fonte