Em muitas aplicações de aprendizado de máquina, os chamados métodos de aumento de dados permitiram construir modelos melhores. Por exemplo, assuma um conjunto de treinamento de imagens de cães e gatos. Girando, espelhando, ajustando o contraste, etc., é possível gerar imagens adicionais a partir das originais.
No caso de imagens, o aumento de dados é relativamente direto. No entanto, suponha (por exemplo) que se tenha um conjunto de treinamento de amostras e algumas centenas de variáveis contínuas que representam coisas diferentes. O aumento de dados não parece mais tão intuitivo. O que poderia ser feito nesse caso?
Respostas:
Entendo que essa pergunta envolva a construção de recursos e o manuseio da riqueza de recursos que você já possui + construirá, em relação às suas observações (
N << P
).Construção de recursos
Expandindo o comentário de @ yasin.yazici, algumas maneiras possíveis de aumentar os dados seriam:
Tenho certeza de que há muito mais que estou perdendo.
Seleção de recurso / redução de dimensionalidade
Você pode reduzir a dimensionalidade com técnicas como o PCA (embora talvez não depois de aumentar seus dados com variáveis do PCA). Como alternativa, você pode usar algoritmos que executam a seleção de recursos para você, como laço, floresta aleatória etc.
fonte
Eu enfrentei um problema semelhante em que eu queria aumentar dados numéricos não rotulados. Aumentei os dados da seguinte maneira: (Digamos que eu tenha um conjunto de dados de tamanho 100 * 10.)
fonte