Estou aprendendo sobre a seleção de recursos. Eu posso ver por que isso seria importante e útil para a construção de modelos. Mas vamos nos concentrar nas tarefas de aprendizado supervisionado (classificação). Por que a seleção de recursos é importante para tarefas de classificação?
Vejo muita literatura escrita sobre a seleção de recursos e seu uso para aprendizado supervisionado, mas isso me intriga. A seleção de recursos trata da identificação de quais recursos jogar fora. Intuitivamente, jogar fora alguns recursos parece autodestrutivo: está jogando fora a informação. Parece que jogar informações não deve ajudar.
E mesmo que a remoção de alguns recursos ajude, se estamos descartando alguns recursos e inserindo o restante em um algoritmo de aprendizado supervisionado, por que precisamos fazer isso sozinhos, em vez de permitir que o algoritmo de aprendizado supervisionado o manipule? Se algum recurso não for útil, nenhum algoritmo decente de aprendizado supervisionado não deve descobrir isso implicitamente e aprender um modelo que não use esse recurso?
Tão intuitivamente, eu esperava que a seleção de recursos fosse um exercício inútil que nunca ajuda e às vezes pode doer. Mas o fato de ser tão amplamente usado e escrito sobre isso me faz suspeitar que minha intuição está com defeito. Alguém pode fornecer alguma intuição por que a seleção de recursos é útil e importante ao realizar um aprendizado supervisionado? Por que melhora o desempenho do aprendizado de máquina? Depende de qual classificador eu uso?