Por que a seleção de recursos é importante para tarefas de classificação?

11

Estou aprendendo sobre a seleção de recursos. Eu posso ver por que isso seria importante e útil para a construção de modelos. Mas vamos nos concentrar nas tarefas de aprendizado supervisionado (classificação). Por que a seleção de recursos é importante para tarefas de classificação?

Vejo muita literatura escrita sobre a seleção de recursos e seu uso para aprendizado supervisionado, mas isso me intriga. A seleção de recursos trata da identificação de quais recursos jogar fora. Intuitivamente, jogar fora alguns recursos parece autodestrutivo: está jogando fora a informação. Parece que jogar informações não deve ajudar.

E mesmo que a remoção de alguns recursos ajude, se estamos descartando alguns recursos e inserindo o restante em um algoritmo de aprendizado supervisionado, por que precisamos fazer isso sozinhos, em vez de permitir que o algoritmo de aprendizado supervisionado o manipule? Se algum recurso não for útil, nenhum algoritmo decente de aprendizado supervisionado não deve descobrir isso implicitamente e aprender um modelo que não use esse recurso?

Tão intuitivamente, eu esperava que a seleção de recursos fosse um exercício inútil que nunca ajuda e às vezes pode doer. Mas o fato de ser tão amplamente usado e escrito sobre isso me faz suspeitar que minha intuição está com defeito. Alguém pode fornecer alguma intuição por que a seleção de recursos é útil e importante ao realizar um aprendizado supervisionado? Por que melhora o desempenho do aprendizado de máquina? Depende de qual classificador eu uso?

DW
fonte

Respostas:

10

Sua intuição está correta. Na maioria das situações, a seleção de recursos representa um desejo de explicação simples que resulta de três mal-entendidos:

  1. O analista não percebe que o conjunto de recursos "selecionados" é bastante instável, ou seja, não robusto, e que o processo de seleção quando realizado em outro conjunto de dados resultará em um conjunto bem diferente de recursos. Os dados geralmente não possuem o conteúdo de informações necessário para selecionar os recursos "certos". Esse problema piora se co-linearidades estiverem presentes.
  2. Caminhos, mecanismos e processos são complexos em experimentos não controlados; o comportamento e a natureza humanos são complexos e não parcimoniosos.
  3. A precisão preditiva é prejudicada ao solicitar que os dados digam quais são os recursos importantes e quais são os relacionamentos com para os "importantes". É melhor "usar um pouco de cada variável" do que usar todas algumas variáveis ​​e nenhuma para outras (ou seja, usar encolhimento / penalização).Y

Algumas maneiras de estudar isso:

  1. Faça mais comparações de precisão preditiva entre o laço , a rede elástica e uma penalidade quadrática padrão (regressão de crista)
  2. Inicialize medidas de importância variável de uma floresta aleatória e verifique sua estabilidade
  3. Calcule intervalos de confiança de autoinicialização nas fileiras de recursos potenciais, por exemplo, nas fileiras de parciais de associação (ou de coisas como Spearman univariado ou Somers ) e veja que esses intervalos de confiança são extremamente amplos , informando diretamente sobre a dificuldade da tarefa. As notas do meu curso, vinculadas em http://biostat.mc.vanderbilt.edu/rms, têm um exemplo de ordem de classificação de bootstrap de preditores usando OLS.χ2ρDxy

Tudo isso se aplica à classificação e ao conceito de previsão mais geral e útil.

Frank Harrell
fonte