Quando descartar um termo de um modelo de regressão?

20

Alguém poderia aconselhar se o seguinte faz sentido:

Estou lidando com um modelo linear comum com 4 preditores. Estou pensando em abandonar o termo menos significativo. O valor de é um pouco acima de 0,05. Argumentei a favor de abandoná-lo ao longo destas linhas: Multiplicar a estimativa deste termo por (por exemplo) o intervalo interquartil dos dados da amostra para essa variável, dá algum significado ao efeito clínico que a manutenção desse termo tem no modelo geral . Como esse número é muito baixo, aproximadamente igual ao intervalo intradiário típico de valores que a variável pode assumir ao medi-la em um ambiente clínico, eu o vejo como não clinicamente significativo e, portanto, poderia ser descartado para fornecer um modelo mais parcimonioso, mesmo embora derrubá-lo reduz um pouco o ajustado .R 2pR2

P Sellaz
fonte
1
por que você procura um modelo mais parcimonioso?
Michael Bishop
3
A parcimônia não é uma coisa boa em si mesma? A forma como eu vejo, um modelo com variáveis que agregam pouco ou nenhum poder explicativo em um sentido clínico, é pior do que um modelo menor, sem essas variáveis, mesmo que essas variáveis são importantes no sentido estatístico
P Sellaz
Decidi escrever uma resposta: stats.stackexchange.com/questions/17624/… . Mas, resumindo, não, não acho que a parcimônia seja uma coisa boa em si mesma. Às vezes, é útil por razões específicas.
Michael Bishop
1
Eu concordo com o Michael. É melhor incluir variáveis ​​sem capacidade explicativa aparente se tiverem a chance de serem "significativas"; você já passou esses graus de liberdade.
precisa
Lembre-se de que os preditores que não são regressores significativos ainda podem contribuir com valores diferentes de zero para a variação explicada no caso de regressores correlacionados - influenciando outros regressores significativos. Especialmente com apenas quatro preditores, se os regressores estiverem correlacionados, eu argumentaria a favor de manter o não significativo no modelo.
Torvon 30/01

Respostas:

18

Eu nunca entendi o desejo de parcimônia. A busca por parcimônia destrói todos os aspectos da inferência estatística (viés dos coeficientes de regressão, erros padrão, intervalos de confiança, valores-P). Uma boa razão para manter as variáveis ​​é que isso preserva a precisão dos intervalos de confiança e outras quantidades. Pense desta maneira: só foram desenvolvidos dois estimadores imparciais de variância residual na regressão múltipla comum: (1) a estimativa do modelo (grande) pré-especificado e (2) a estimativa de um modelo reduzido substituindo graus generalizados de liberdade (GDF) para graus de liberdade de regressão aparentes (reduzidos). O GDF estará muito mais próximo do número de parâmetros candidatos do que do número final de parâmetros "significativos".

Aqui está outra maneira de pensar sobre isso. Suponha que você estivesse fazendo uma ANOVA para comparar 5 tratamentos, fazendo um teste F de 4 df. Então, por algum motivo, você observa diferenças pareadas entre tratamentos usando testes t e decide combinar ou remover alguns dos tratamentos (isso é o mesmo que fazer a seleção gradual usando P, AIC, BIC, Cp nas 4 variáveis ​​dummy). O teste F resultante com 1, 2 ou 3 df terá um erro do tipo I. O teste F original com 4 df continha um ajuste de multiplicidade perfeito.

Frank Harrell
fonte
3
A parcimônia +1 é algo que geralmente só faz sentido em contextos muito específicos. Não há razão para jogar o jogo tendencioso x precisão, se você tiver precisão suficiente para fazer as duas coisas.
Fomite 30/10/11
2
+1 para uma ótima resposta. Mas e se você tiver multicolinearidade e remover uma variável a reduzir? (Esse não é o caso da pergunta original, mas geralmente ocorre em outros dados). O modelo resultante não costuma ser superior em todos os aspectos (reduz a variação de estimadores, sinais de coeficientes mais propensos a refletir a teoria subjacente etc.)? Se você ainda usar os graus de liberdade corretos (modelo original).
22812 Peter Ellis
4
Ainda é melhor incluir as duas variáveis. O único preço que você paga é o aumento do erro padrão na estimativa de um dos efeitos da variável ajustado pela outra. Testes conjuntos das duas variáveis ​​colineares são muito poderosos, pois combinam forças em vez de competir entre si. Além disso, se você deseja excluir uma variável, os dados são incapazes de informar qual deles excluir.
Frank Harrell
17

Todas essas respostas sobre a seleção de variáveis ​​assumem que o custo da observação de variáveis ​​é 0.

E isso não é verdade.

Embora a questão da seleção de variáveis ​​para um determinado modelo possa envolver ou não a seleção, as implicações para o comportamento futuro envolvem a seleção.

Considere o problema de prever qual atacante universitário fará melhor na NFL. Você é um escoteiro. Você deve considerar quais qualidades dos atuais jogadores da linha da NFL são mais preditivas de seu sucesso. Você mede 500 quantidades e inicia a tarefa de seleção das quantidades que serão necessárias no futuro.

O que você deveria fazer? Você deve manter todos os 500? Alguns (signo astrológico, dia da semana em que nascemos) devem ser eliminados?

Esta é uma questão importante e não é acadêmica. Existe um custo para a observação dos dados, e a estrutura de custo-efetividade sugere que algumas variáveis ​​NÃO NECESSITAM DE ser observadas no futuro, uma vez que seu valor é baixo.

Paul A. Thompson
fonte
4
+1: um ponto importante e interessante. Também revela que a pergunta está incompleta, porque não indica o objetivo do modelo. (Custos seria menos relevante para um modelo científico que busca construir uma teoria explicativa, mas viria à tona em um modelo preditivo para uso repetido.)
whuber
6

Há pelo menos duas outras razões possíveis para manter uma variável: 1) Afeta os parâmetros para OUTRAS variáveis. 2) O fato de ser pequeno é clinicamente interessante por si só

Para ver cerca de 1, você pode observar os valores previstos para cada pessoa de um modelo com e sem a variável no modelo. Sugiro fazer um gráfico de dispersão desses dois conjuntos de valores. Se não há grandes diferenças, esse é um argumento contra esse motivo

Para 2, pense por que você tinha essa variável na lista de variáveis ​​possíveis. É baseado na teoria? Outra pesquisa encontrou um grande tamanho de efeito?

Peter Flom - Restabelece Monica
fonte
Há muito pouca colinearidade para se falar, portanto, remover essa variável faz muito pouca diferença para as outras. Esse é um ponto interessante sobre ser clinicamente interessante se fosse pequeno. Os dados vêm de uma pesquisa exploratória em que, pelo menos nesse estágio, não há razão para esperar que uma variável seja mais significativa do que qualquer outra. No entanto, existe uma flutuação intra-dia nessa variável, portanto, se um efeito tiver tamanho semelhante a essa flutuação, isso não me parecerá clinicamente significativo.
P Sellaz
OK, parece um bom candidato para remoção.
Peter Flom - Restabelece Monica
@P Sellaz - se "os dados provêm de uma pesquisa exploratória", isso significa que os participantes se selecionaram? Acho que os comentários de @Frank Harrell são algo a ser considerado, mas a preocupação com a estrita precisão dos valores de p, intervalos de confiança etc. torna-se discutível se a amostra foi selecionada automaticamente.
Rolando2
Eu acho que só se torna discutível se você não os estiver usando.
precisa
@FrankHarrel - por favor, esclareça: "eles" =?
Roland2
6

O conselho mais comum hoje em dia é obter o AIC dos dois modelos e levá-lo com o AIC mais baixo. Portanto, se seu modelo completo tiver uma AIC de -20 e o modelo sem o preditor mais fraco tiver uma AIC> -20, você manterá o modelo completo. Alguns podem argumentar que, se a diferença <3, você mantém a mais simples. Eu prefiro o conselho de que você poderia usar o BIC para romper "laços" quando os AICs estiverem a 3 um do outro.

Se você estiver usando R então o comando para obter o AIC é ... AIC.

Eu tenho um livro sobre modelagem aqui do início dos anos 90, sugerindo que você abandone todos os seus preditores que não são significativos. No entanto, isso realmente significa que você diminuirá independentemente da complexidade que o preditor adiciona ou subtrai do modelo. Também é apenas para ANOVA onde o significado é sobre a variabilidade explicada, e não a magnitude da inclinação à luz do que outras coisas foram explicadas. Os conselhos mais modernos do uso da AIC levam esses fatores em consideração. Há todos os tipos de razões pelas quais o preditor não significativo deve ser incluído, mesmo que não seja significativo. Por exemplo, pode haver problemas de correlação com outros preditores, pois pode ser um preditor relativamente simples. Se você deseja o conselho mais simples, vá com a AIC e use a BIC para romper os laços e use uma diferença de 3 como sua janela de igualdade.

John
fonte
Menor é melhor na representação R, sim?
Aaron - Restabelece Monica
Obrigado pela sua resposta. Descobri que a diferença de AIC entre os dois modelos é de apenas 2.
P Sellaz
O modelo mais pequeno tem um pouco maior e AIC AIC BIC: grande pequena AIC = -2 BIC: grande pequena BIC- 7,8
P Sellaz
Aaron .. oops ... mais baixo, corrigido ... #
John
1
Apenas para esclarecer algo, esse termo adicional é apenas outra covariável e há muito pouca colinearidade.
P Sellaz
4

Para que você está usando este modelo? A parcimônia é um objetivo importante?

Modelos mais parcimoniosos são preferidos em algumas situações, mas eu não diria que a parcimônia é uma coisa boa em si mesma. Modelos parcimoniosos podem ser entendidos e comunicados com mais facilidade, e a parcimônia pode ajudar a evitar excesso de ajuste, mas muitas vezes essas questões não são grandes preocupações ou podem ser tratadas de outra maneira.

Aproximando-se da direção oposta, incluindo um termo extra em uma equação de regressão, há alguns benefícios, mesmo em situações em que o termo extra em si não é de interesse e não melhora muito o modelo. é uma variável importante a ser controlada, mas outras podem. Obviamente, existem outras razões substantivas muito importantes para excluir uma variável, por exemplo, pode ser causada pelo resultado.

Michael Bishop
fonte
3

Pela sua formulação, parece que você está inclinado a abandonar o último preditor porque seu valor preditivo é baixo; uma mudança substancial nesse preditor não implicaria uma mudança substancial na variável resposta. Se for esse o caso, eu gosto deste critério para incluir / descartar o preditor. É mais fundamentado na realidade prática do que o AIC ou o BIC pode ser, e mais explicável ao seu público-alvo para esta pesquisa.

rolando2
fonte
Sim, é exatamente isso que eu quis dizer.
P Sellaz