Estou tentando obter uma intuição de por que aumentar o número de recursos pode reduzir o desempenho. Atualmente, estou usando um classificador LDA que apresenta melhor desempenho bivariado entre certos recursos, mas pior ao analisar mais recursos. Minha precisão de classificação é realizada usando um xval estratificado de 10 vezes.
Existe um caso simples de quando um classificador funcionaria melhor de maneira univariada do que bivariada para obter uma intuição um tanto física ou espacial do que está acontecendo nessas dimensões superiores?
classification
feature-selection
dvreed77
fonte
fonte
Respostas:
Veja " Um problema de dimensionalidade: um exemplo simples " - um artigo muito curto e muito antigo de GV Trunk. Ele considera um problema duas classes, com distribuições gaussianas classe-condicionado, onde os recursos são todos relevantes, mas com a diminuição da relevância. Ele mostra que a taxa de erro de um classificador treinado em uma amostra finita converge para 0,5, enquanto o erro de Bayes se aproxima de 0, à medida que o número de recursos aumenta.
fonte
Isso é chamado de " Maldição da dimensionalidade ". Eu não sei se existe algum motivo específico para a LDA, mas em geral tendo muita dimensão nos resultados do vetor de recursos com a necessidade de limites de decisão mais complexos. Ter limites complexos também vem com a pergunta "Em que grau?" já que também consideramos o excesso de ajuste. Como outro ponto, com dimensões adicionais, a complexidade do algoritmo de aprendizado também está aumentando. Assim, trabalhar com um algoritmo de aprendizado relativamente lento, com um enorme vetor de recursos, torna seu evento de trabalho pior. Além da dimensão, você pode ter uma possibilidade crescente de correlacionar recursos nos quais não é bom para muitos algoritmos de aprendizado, como a Rede Neural ou outros.
Você pode contar outros motivos que estão em "Maldição da dimensionalidade", mas o fato é ter um número suficiente de instâncias com vetor de recurso conciso que é seguido por algumas rotinas de seleção de recurso.
fonte