Pergunto-me, se há alguma heurística no número de características versus número de observações. Obviamente, se um número de recursos for igual ao número de observações, o modelo será super ajustado. Usando métodos esparsos (LASSO, rede elástica), podemos remover vários recursos para reduzir o modelo.
Minha pergunta é (teoricamente): antes de usarmos métricas para avaliar a seleção do modelo, existem observações empíricas que relacionam o número ideal de recursos ao número de observações?
Por exemplo: para um problema de classificação binária com 20 instâncias em cada classe, existe algum limite superior no número de recursos a serem usados?
fonte
da minha própria experiência: em um caso, trabalhei com banco de dados real muito pequeno (300 imagens) com muitas classes, grave problema de desequilíbrio de dados e acabei usando 9 recursos: SIFT, HOG, contexto de forma, SSIM, GM e 4 recursos baseados em DNN. Em outro caso, trabalhei com um banco de dados muito grande (> 1 milhão de imagens) e acabei usando apenas o recurso HOG. Eu acho que não há relação direta entre o número de instâncias e o número de recursos necessários para obter alta precisão. MAS: o número de classes, a semelhança entre as classes e a variação dentro da mesma classe (esses três parâmetros) podem afetar o número de recursos. ao ter um banco de dados maior com muitas classes e grande semelhança entre classes e grande variação na mesma classe, você precisará de mais recursos para obter alta precisão. LEMBRAR:
fonte
Depende ... mas é claro que essa resposta não leva a lugar algum.
Ele é uma regra prática para a complexidade do modelo: Aprendendo com dados - dimensão VC
"Muito aproximadamente" você precisa de 10 pontos de dados para cada parâmetro do modelo. E o número de parâmetros do modelo pode ser semelhante ao número de recursos.
fonte
Um pouco atrasado para a festa, mas aqui estão algumas heurísticas.
Para o treinamento de classificadores lineares, recomenda-se 3 a 5 casos independentes por classe e recurso. Esse limite fornece modelos confiáveis e estáveis , não garante um bom modelo (isso não é possível: você pode ter dados não informativos onde nenhum modelo pode obter um bom desempenho de generalização)
No entanto, para tamanhos de amostra tão pequenos quanto o seu cenário, a verificação (validação) em vez do treinamento é o gargalo, e a verificação depende do número absoluto de casos de teste, e não de casos relacionados à complexidade do modelo: como regra geral, você precisa de 100 testes casos no denominador para estimar uma proporção com um intervalo de confiança que não seja superior a 10% em pontos.
Infelizmente, isso também significa que você basicamente não pode obter a curva de aprendizado empírico para a sua aplicação: não pode mensurá-la com precisão suficiente e, na prática, de qualquer maneira, teria enormes dificuldades em extrapolá-la, porque, para o treinamento, você reage ao pequeno tamanho da amostra restringindo seu modelo complexidade - e você relaxaria isso com o aumento do tamanho da amostra.
Veja nosso artigo para detalhes: Beleites, C. e Neugebauer, U. e Bocklitz, T. e Krafft, C. e Popp, J .: Planejamento de tamanho de amostra para modelos de classificação. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
manuscrito aceito no arXiv: 1211.1323
Nunca tive nada próximo a essas recomendações (dados de espectroscopia, também para aplicações médicas). O que faço então é: eu medo de perto a estabilidade do modelo como parte do processo de modelagem e verificação.
fonte