Por que aumentar o número de recursos reduz o desempenho?

12

Estou tentando obter uma intuição de por que aumentar o número de recursos pode reduzir o desempenho. Atualmente, estou usando um classificador LDA que apresenta melhor desempenho bivariado entre certos recursos, mas pior ao analisar mais recursos. Minha precisão de classificação é realizada usando um xval estratificado de 10 vezes.

Existe um caso simples de quando um classificador funcionaria melhor de maneira univariada do que bivariada para obter uma intuição um tanto física ou espacial do que está acontecendo nessas dimensões superiores?

dvreed77
fonte
8
Como um comentário rápido, a adição de preditores irrelevantes pode piorar o desempenho de novos dados - maior variação da previsão (ajuste excessivo). Isso ocorre porque você acaba se adaptando ao ruído e dilui o "sinal verdadeiro".
B_Miner

Respostas:

9

Veja " Um problema de dimensionalidade: um exemplo simples " - um artigo muito curto e muito antigo de GV Trunk. Ele considera um problema duas classes, com distribuições gaussianas classe-condicionado, onde os recursos são todos relevantes, mas com a diminuição da relevância. Ele mostra que a taxa de erro de um classificador treinado em uma amostra finita converge para 0,5, enquanto o erro de Bayes se aproxima de 0, à medida que o número de recursos aumenta.

Innuo
fonte
(+1) Essa é uma pequena referência bonitinha.
cardeal
2

Isso é chamado de " Maldição da dimensionalidade ". Eu não sei se existe algum motivo específico para a LDA, mas em geral tendo muita dimensão nos resultados do vetor de recursos com a necessidade de limites de decisão mais complexos. Ter limites complexos também vem com a pergunta "Em que grau?" já que também consideramos o excesso de ajuste. Como outro ponto, com dimensões adicionais, a complexidade do algoritmo de aprendizado também está aumentando. Assim, trabalhar com um algoritmo de aprendizado relativamente lento, com um enorme vetor de recursos, torna seu evento de trabalho pior. Além da dimensão, você pode ter uma possibilidade crescente de correlacionar recursos nos quais não é bom para muitos algoritmos de aprendizado, como a Rede Neural ou outros.

Você pode contar outros motivos que estão em "Maldição da dimensionalidade", mas o fato é ter um número suficiente de instâncias com vetor de recurso conciso que é seguido por algumas rotinas de seleção de recurso.

erogol
fonte