Por que a seleção de recursos é importante para tarefas de classificação?

Estou aprendendo sobre a seleção de recursos. Eu posso ver por que isso seria importante e útil para a construção de modelos. Mas vamos nos concentrar nas tarefas de aprendizado supervisionado (classificação). Por que a seleção de recursos é importante para tarefas de classificação?

Vejo muita literatura escrita sobre a seleção de recursos e seu uso para aprendizado supervisionado, mas isso me intriga. A seleção de recursos trata da identificação de quais recursos jogar fora. Intuitivamente, jogar fora alguns recursos parece autodestrutivo: está jogando fora a informação. Parece que jogar informações não deve ajudar.

E mesmo que a remoção de alguns recursos ajude, se estamos descartando alguns recursos e inserindo o restante em um algoritmo de aprendizado supervisionado, por que precisamos fazer isso sozinhos, em vez de permitir que o algoritmo de aprendizado supervisionado o manipule? Se algum recurso não for útil, nenhum algoritmo decente de aprendizado supervisionado não deve descobrir isso implicitamente e aprender um modelo que não use esse recurso?

Tão intuitivamente, eu esperava que a seleção de recursos fosse um exercício inútil que nunca ajuda e às vezes pode doer. Mas o fato de ser tão amplamente usado e escrito sobre isso me faz suspeitar que minha intuição está com defeito. Alguém pode fornecer alguma intuição por que a seleção de recursos é útil e importante ao realizar um aprendizado supervisionado? Por que melhora o desempenho do aprendizado de máquina? Depende de qual classificador eu uso?

Respostas:

Sua intuição está correta. Na maioria das situações, a seleção de recursos representa um desejo de explicação simples que resulta de três mal-entendidos:

O analista não percebe que o conjunto de recursos "selecionados" é bastante instável, ou seja, não robusto, e que o processo de seleção quando realizado em outro conjunto de dados resultará em um conjunto bem diferente de recursos. Os dados geralmente não possuem o conteúdo de informações necessário para selecionar os recursos "certos". Esse problema piora se co-linearidades estiverem presentes.
Caminhos, mecanismos e processos são complexos em experimentos não controlados; o comportamento e a natureza humanos são complexos e não parcimoniosos.
A precisão preditiva é prejudicada ao solicitar que os dados digam quais são os recursos importantes e quais são os relacionamentos com para os "importantes". É melhor "usar um pouco de cada variável" do que usar todas algumas variáveis e nenhuma para outras (ou seja, usar encolhimento / penalização). $Y$

Algumas maneiras de estudar isso:

Faça mais comparações de precisão preditiva entre o laço , a rede elástica e uma penalidade quadrática padrão (regressão de crista)
Inicialize medidas de importância variável de uma floresta aleatória e verifique sua estabilidade
Calcule intervalos de confiança de autoinicialização nas fileiras de recursos potenciais, por exemplo, nas fileiras de parciais de associação (ou de coisas como Spearman univariado ou Somers ) e veja que esses intervalos de confiança são extremamente amplos , informando diretamente sobre a dificuldade da tarefa. As notas do meu curso, vinculadas em http://biostat.mc.vanderbilt.edu/rms, têm um exemplo de ordem de classificação de bootstrap de preditores usando OLS. $\chi^2$ $\rho$ $D_{xy}$

Tudo isso se aplica à classificação e ao conceito de previsão mais geral e útil.

Frank Harrell
fonte