Por que a seleção de variáveis ​​é necessária?

31

Procedimentos comuns de seleção de variáveis ​​baseadas em dados (por exemplo, avançar, retroceder, passo a passo, todos os subconjuntos) tendem a gerar modelos com propriedades indesejáveis, incluindo:

  1. Coeficientes desviados de zero.
  2. Erros padrão muito pequenos e intervalos de confiança muito estreitos.
  3. Teste estatísticas e valores-p que não possuem o significado anunciado.
  4. Estimativas de ajuste do modelo que são excessivamente otimistas.
  5. Termos incluídos que podem não ter sentido (por exemplo, exclusão de termos de ordem inferior).

No entanto, os procedimentos de seleção de variáveis ​​persistem. Dados os problemas com a seleção de variáveis, por que esses procedimentos são necessários? O que motiva seu uso?

Algumas propostas para iniciar a discussão ....

  • O desejo de coeficientes de regressão interpretáveis? (Desorientado em um modelo com muitos IVs?)
  • Eliminar a variação introduzida por variáveis ​​irrelevantes?
  • Eliminar covariâncias / redundâncias desnecessárias entre as variáveis ​​independentes?
  • Reduza o número de estimativas de parâmetros (questões de energia, tamanho da amostra)

Existem outros? Os problemas abordados pelas técnicas de seleção de variáveis ​​são mais ou menos importantes do que os procedimentos de seleção de variáveis ​​apresentam? Quando eles devem ser usados? Quando eles não devem ser usados?

Brett
fonte
Na minha opinião, para discutir um problema claramente, precisamos primeiro especificá-lo de alguma maneira boa e depois formulá-lo em uma forma matemática apropriada para que possamos ter uma estrutura sob a qual o problema seja claramente discutido. Para o problema de seleção de variáveis ​​para, por exemplo, modelos de regressão linear. Parece razoável primeiro fixar um modelo e estudar (i) as vantagens / desvantagens (por exemplo, melhoria / piora na estimativa ou previsão) da seleção de variáveis? (ii) as vantagens do procedimento de seleção de variáveis ​​em comparação com a estimativa de LS?

Respostas:

17

A seleção variável (sem penalização) só piora as coisas. A seleção de variáveis ​​quase não tem chance de encontrar as variáveis ​​"corretas" e resulta em grandes sobreavaliações dos efeitos das variáveis ​​restantes e enorme subavaliação dos erros padrão. É um erro acreditar que a seleção de variáveis ​​feita da maneira usual ajuda a contornar o problema do "grande p pequeno n". A linha inferior é que o modelo final é enganoso em todos os sentidos. Isso está relacionado a uma afirmação surpreendente que li em um artigo de epidemiologia: "Não tínhamos um tamanho de amostra adequado para desenvolver um modelo multivariável; portanto, realizamos todos os testes possíveis para tabelas 2x2".

Sempre que o conjunto de dados em questão for usado para eliminar variáveis, ao usar Y para tomar a decisão, todas as quantidades estatísticas serão distorcidas. A seleção típica de variável é uma miragem.

Editar : (copiar comentários abaixo, ocultos pela dobra)

Não quero ser egoísta, mas meu livro Regression Modeling Strategies aborda isso com alguma profundidade. Materiais on-line, incluindo folhetos, podem ser encontrados na minha página da web . Alguns métodos disponíveis são penalização de (regressão de crista), penalização de L 1 (laço) e a chamada rede elástica (combinação de L 1 e L 2 ). Ou use a redução de dados (sem a resposta Y ) antes de fazer a regressão. Meu livro gasta mais espaço nisso do que em penalização.L2L1L1L2Y

Frank Harrell
fonte
6
Eu acho que essa resposta seria melhorada, fornecendo algumas dicas sobre como proceder. A resposta faz afirmações muito amplas e definitivas (muitas das quais eu geralmente concordo) sem referência a recursos que reforçariam as alegações. Certamente a penalização também não é uma panacéia, e há muitas opções a serem feitas se alguém seguir esse caminho.
cardeal
3
Veja acima, onde forneci mais informações. A maneira mais breve de declarar o problema é que a principal razão pela qual uma variável é "selecionada" é porque seu efeito foi superestimado.
precisa
2
Sim, eu concordo que seu livro tenha um bom material sobre isso, assim como, por exemplo, ESL. (Dito isso, há pelo menos alguns casos na ESL em que também é empregada alguma forma de seleção para trás). Você menciona a penalização de (também conhecida como regressão de cume), mas isso geralmente não leva muito longe em termos de variável / seleção de modelos em si. A rede elástica tem algum comportamento aceitável, mas sua desvantagem é que, não importa como você a veja, ela não admite uma interpretação "estatística" muito agradável ou natural, ao passo que as penalizações de L 1 e L 2 têm certas sentidos. L2L1L2
cardeal
2
L2L2L1pn
2
L2
14

Em primeiro lugar, as desvantagens que você mencionou são os efeitos da seleção de recursos incorretos , ou seja, super ajustada, inacabada ou ultrapassada.

eYYYeY

Todo o nível relevante fornece uma visão do que realmente impulsiona o processo, portanto, tenha um valor explicativo. O nível ideal mínimo (por design) fornece o modelo não-sobreajustado, trabalhando com o maior número possível de dados organizados.

O mundo real só quer atingir um desses objetivos (geralmente o último).


fonte
4
Presumo que você esteja se referindo à remoção de variáveis ​​sem usar os dados disponíveis. Você não pode usar o conjunto de dados disponível para fazer isso. Isso não seria confiável e distorceria a inferência estatística.
precisa
Como escrevi, esse é apenas um fundamento teórico do problema (vindo das redes bayesianas). A maneira exata de perceber isso é obviamente impossível, e eu certamente concordo que a modelagem estatística sofreu muito com o uso irracional de RFE e coisas semelhantes - no entanto, o aprendizado de máquina possui alguns algoritmos heurísticos que certamente não são inúteis (ou seja, faça seleções e modelos estáveis que provam não serem superalimentados em testes justos).
O que é RFE ???????
Kjetil b halvorsen 01/09/2015
@kjetilbhalvorsen recursiva Característica Eliminação
@mbq Thx pela sua resposta interessante! Você pode fornecer alguma referência (livros, papéis, etc.)? Agradecemos sua resposta!
Kare
10

A seleção de variáveis ​​é necessariamente porque a maioria dos modelos não lida bem com um grande número de variáveis ​​irrelevantes. Essas variáveis ​​apenas introduzirão ruído no seu modelo, ou pior, causarão um ajuste excessivo. É uma boa ideia excluir essas variáveis ​​da análise.

Além disso, você não pode incluir todas as variáveis ​​que existem em todas as análises, porque há um número infinito delas por aí. Em algum momento, é necessário traçar a linha, e é bom fazê-lo de maneira rigorosa. Daí toda a discussão sobre seleção de variáveis.

A maioria dos problemas com a seleção de variáveis ​​pode ser tratada pela validação cruzada ou pelo uso de um modelo com penalização integrada e seleção de recursos (como a rede elástica para modelos lineares).

Se você estiver interessado em alguns resultados empíricos relacionados a várias variáveis ​​que causam excesso de ajuste, confira os resultados da competição Não Overfit no Kaggle.

Zach
fonte
1
Eu acho que o primeiro parágrafo contém um mal-entendido significativo do problema. A seleção de variáveis ​​não ajuda com esses problemas de forma alguma, apenas os oculta. A seleção de variáveis ​​resulta em tremendos problemas de adaptação, embora, como você mencionou mais adiante, existam algumas maneiras de nos penalizar honestamente pelos danos causados ​​pela seleção de variáveis.
precisa
3
@ Frank Harrell: como você decide quais variáveis ​​excluir de um modelo?
Zach
11
(1) Use o conhecimento do assunto antes de analisar o conjunto de dados; (2) Use análise de redundância / redução de dados cega para Y; (3) Use um método que penalize adequadamente o enorme problema de comparação múltipla causado pela seleção de recursos (consulte outro lugar nesta página).
11138 Frank Harrell