Como você seleciona variáveis ​​em um modelo de regressão?

12

A abordagem tradicional da seleção de variáveis ​​é encontrar variáveis ​​que mais contribuem para a previsão de uma nova resposta. Recentemente, aprendi de uma alternativa para isso. Na modelagem de variáveis ​​que determinam o efeito de um tratamento - como, por exemplo, em um ensaio clínico de um farmacêutico - diz-se que a variável interage qualitativamentecom tratamento se, deixando outras coisas fixas, uma mudança nessa variável pode criar uma mudança na qual o tratamento é mais eficaz. Essas variáveis ​​nem sempre são fortes preditores do efeito, mas podem ser importantes para um médico ao decidir sobre o tratamento para pacientes individuais. Em sua tese de doutorado, Lacey Gunter desenvolveu um método para selecionar essas variáveis ​​de interação qualitativa que poderiam ser perdidas por algoritmos que baseiam a seleção na previsão. Recentemente, trabalhei com ela na extensão desses métodos para outros modelos, incluindo regressão logística e modelos de regressão proporcional ao risco de Cox.

Eu tenho duas perguntas:

  1. O que você acha do valor desses novos métodos?
  2. No caso dos métodos tradicionais, qual abordagem você prefere? Critérios como testes AIC, BIC, Mallows Cp, F para inserir ou soltar variáveis ​​em etapas, para frente e para trás ...

O primeiro artigo foi publicado em Gunter, L., Zhu, J e Murphy, SA (2009). Seleção de variáveis ​​para interações qualitativas . Metodologia Estatística doi: 10, 1016 / j.stamet.2009.05.003.

O próximo artigo foi publicado em Gunter, L., Zhu, J. e Murphy, SA (2011). Seleção variável de interações qualitativas em medicina personalizada, controlando a taxa de erro familiar . Journal of Biopharmaceutical Statistics 21, 1063-1078.

O próximo apareceu em uma edição especial sobre seleção de variáveis ​​Gunter, L., Chernick, MR e Sun, J. (2011). Um método simples para seleção de variáveis ​​em regressão com relação à seleção de tratamento . Pakistan Journal of Statistics and Operations Research 7: 363-380.

Você pode encontrar os artigos nos sites da revista. Talvez você precise comprar o artigo. Talvez eu tenha os arquivos pdf desses artigos. Lacey e eu acabamos de concluir uma monografia sobre esse tópico, que será publicada como SpringerBrief ainda este ano.

Michael R. Chernick
fonte
11
Talvez eu não esteja seguindo - se houver uma razão a priori para suspeitar de modificação de efeito, como esses novos métodos diferem, por exemplo, da inclusão de termos de interação na lista de variáveis ​​"candidatas" para a seleção de modelos?
Macro
6
(1) Uma ou mais linhas parecem ter sido perdidas nesta questão. Eu acho que pode continuar "passo a passo, para frente e para trás ..." (2) A identificação do modelo e a seleção de variáveis ​​foram amplamente discutidas aqui. Por exemplo, pesquisar na + model + variable + selection apresenta 145 threads neste momento. Restringir essa pesquisa provavelmente responderá à segunda pergunta. (3) Para facilitar as respostas à primeira pergunta, você poderia fornecer um link ou referências explícitas a esta pesquisa?
whuber
2
Trata-se de incluir uma variável que interage com o tratamento. Mas é uma interação qualitativa, não apenas uma interação simples. Para interagir as duas linhas não devem ser paralelas. Para interagir qualitativamente, eles devem cruzar o intervalo em que a variável está definida. Portanto, a ideia é encontrar uma variável que interaja qualitativamente. Isso é diferente de escolher variáveis ​​e termos de interação que melhoram o ajuste ou a previsão.
Michael R. Chernick
3
Obrigado por aproveitar a oportunidade para responder, Michael. Talvez um ponto chave a ser mencionado seja que este site não é um site de discussão, mas um site de perguntas e respostas. Com isso vem algumas modalidades ligeiramente diferentes de comunicação. O FAQ cobre isso com alguns detalhes. Ocasionalmente, a segmentação pode se perder um pouco, mas, na verdade, é surpreendentemente raro, uma vez que se obtém um pouco mais de experiência com o esquema geral das coisas. Felicidades.
cardeal
6
Michael, sim, o sistema SE leva algum tempo para se acostumar e não é perfeito. Mas faz sentido e é consistente. Uma coisa que buscamos é a melhoria contínua : diferentemente dos servidores de listas e quadros de avisos, as perguntas (e respostas) podem ser modificadas; isso é esperado. Por fim, gostaríamos que um tópico iniciasse com uma pergunta única, bem declarada e completa, independente por si só, sem referência ao tópico do comentário; então, deve continuar com uma ou mais respostas canônicas bem escritas e bem atribuídas. Com esse ideal em mente, as sugestões do @ cardinal podem fazer mais sentido para você.
whuber

Respostas:

2
  1. Consulte Gelman e Hill, Análise de dados usando regressão e modelo multinível / hierárquico pág. 69, eles têm uma seção sobre seleção de modelo. Ela está usando uma abordagem baseada em perguntas que é completamente boa, mas em seu artigo ela precisa justificar por que ela incluiu o que fez no modelo. Assim como você disse: "Essas variáveis ​​nem sempre são fortes preditores do efeito, mas podem ser importantes para um médico ao decidir sobre o tratamento para pacientes individuais". portanto, desde que ela justifique por que esses preditores devem ser incluídos, tudo bem. Para mim, pessoalmente, prefiro esses métodos. Então aqui vem a minha resposta para 2.
  2. Passo a passo, para a frente e para trás, acho que são caixas pretas. Ao executar um modelo nos três, você não chegará aos mesmos preditores. Portanto, em termos dos quais usar, eu não teria uma resposta clara. AIC ou BIC pode ser usado para comparar modelos.
Lauren Goodwin
fonte