Procedimentos comuns de seleção de variáveis baseadas em dados (por exemplo, avançar, retroceder, passo a passo, todos os subconjuntos) tendem a gerar modelos com propriedades indesejáveis, incluindo:
- Coeficientes desviados de zero.
- Erros padrão muito pequenos e intervalos de confiança muito estreitos.
- Teste estatísticas e valores-p que não possuem o significado anunciado.
- Estimativas de ajuste do modelo que são excessivamente otimistas.
- Termos incluídos que podem não ter sentido (por exemplo, exclusão de termos de ordem inferior).
No entanto, os procedimentos de seleção de variáveis persistem. Dados os problemas com a seleção de variáveis, por que esses procedimentos são necessários? O que motiva seu uso?
Algumas propostas para iniciar a discussão ....
- O desejo de coeficientes de regressão interpretáveis? (Desorientado em um modelo com muitos IVs?)
- Eliminar a variação introduzida por variáveis irrelevantes?
- Eliminar covariâncias / redundâncias desnecessárias entre as variáveis independentes?
- Reduza o número de estimativas de parâmetros (questões de energia, tamanho da amostra)
Existem outros? Os problemas abordados pelas técnicas de seleção de variáveis são mais ou menos importantes do que os procedimentos de seleção de variáveis apresentam? Quando eles devem ser usados? Quando eles não devem ser usados?
modeling
feature-selection
Brett
fonte
fonte
Respostas:
A seleção variável (sem penalização) só piora as coisas. A seleção de variáveis quase não tem chance de encontrar as variáveis "corretas" e resulta em grandes sobreavaliações dos efeitos das variáveis restantes e enorme subavaliação dos erros padrão. É um erro acreditar que a seleção de variáveis feita da maneira usual ajuda a contornar o problema do "grande p pequeno n". A linha inferior é que o modelo final é enganoso em todos os sentidos. Isso está relacionado a uma afirmação surpreendente que li em um artigo de epidemiologia: "Não tínhamos um tamanho de amostra adequado para desenvolver um modelo multivariável; portanto, realizamos todos os testes possíveis para tabelas 2x2".
Sempre que o conjunto de dados em questão for usado para eliminar variáveis, ao usar Y para tomar a decisão, todas as quantidades estatísticas serão distorcidas. A seleção típica de variável é uma miragem.
Editar : (copiar comentários abaixo, ocultos pela dobra)
Não quero ser egoísta, mas meu livro Regression Modeling Strategies aborda isso com alguma profundidade. Materiais on-line, incluindo folhetos, podem ser encontrados na minha página da web . Alguns métodos disponíveis são penalização de (regressão de crista), penalização de L 1 (laço) e a chamada rede elástica (combinação de L 1 e L 2 ). Ou use a redução de dados (sem a resposta Y ) antes de fazer a regressão. Meu livro gasta mais espaço nisso do que em penalização.L2 L1 L1 L2 Y
fonte
Em primeiro lugar, as desvantagens que você mencionou são os efeitos da seleção de recursos incorretos , ou seja, super ajustada, inacabada ou ultrapassada.
Todo o nível relevante fornece uma visão do que realmente impulsiona o processo, portanto, tenha um valor explicativo. O nível ideal mínimo (por design) fornece o modelo não-sobreajustado, trabalhando com o maior número possível de dados organizados.
O mundo real só quer atingir um desses objetivos (geralmente o último).
fonte
A seleção de variáveis é necessariamente porque a maioria dos modelos não lida bem com um grande número de variáveis irrelevantes. Essas variáveis apenas introduzirão ruído no seu modelo, ou pior, causarão um ajuste excessivo. É uma boa ideia excluir essas variáveis da análise.
Além disso, você não pode incluir todas as variáveis que existem em todas as análises, porque há um número infinito delas por aí. Em algum momento, é necessário traçar a linha, e é bom fazê-lo de maneira rigorosa. Daí toda a discussão sobre seleção de variáveis.
A maioria dos problemas com a seleção de variáveis pode ser tratada pela validação cruzada ou pelo uso de um modelo com penalização integrada e seleção de recursos (como a rede elástica para modelos lineares).
Se você estiver interessado em alguns resultados empíricos relacionados a várias variáveis que causam excesso de ajuste, confira os resultados da competição Não Overfit no Kaggle.
fonte