Estou classificando imagens usando aprendizado de máquina.
Suponha que eu tenha alguns dados de treinamento (imagens) e os divida em conjuntos de treinamento e validação. E também quero aumentar os dados (produzir novas imagens a partir das originais) por rotações aleatórias e injeção de ruído. O aumento é feito offline.
Qual é a maneira correta de aumentar os dados?
Primeiro, divida os dados em conjuntos de treinamento e validação e, em seguida, faça o aumento dos dados nos conjuntos de treinamento e validação.
Primeiro, divida os dados em conjuntos de treinamento e validação, depois faça o aumento de dados apenas no conjunto de treinamento.
Primeiro, faça o aumento dos dados nos dados, depois divida os dados em conjunto de treinamento e validação.
Respostas:
Primeiro, divida os dados em conjuntos de treinamento e validação, depois faça o aumento de dados no conjunto de treinamento.
Você usa seu conjunto de validação para tentar estimar como seu método funciona com dados do mundo real, portanto, ele deve conter apenas dados do mundo real. A adição de dados aumentados não melhorará a precisão da validação. Na melhor das hipóteses, dirá algo sobre o quão bem seu método responde ao aumento de dados e, na pior das hipóteses, arruinará os resultados e a interpretabilidade da validação.
fonte
nunca faça 3, pois você terá vazamentos. por exemplo, suponha que o aumento seja um deslocamento de 1 pixel à esquerda. se a divisão não reconhecer, você poderá obter amostras de dados muito semelhantes no trem e na validação.
fonte
Aumento de dados significa adicionar dados / informações externas aos dados existentes que estão sendo analisados.
Portanto, como todos os dados aumentados seriam usados para aprendizado de máquina, o processo a seguir seria mais adequado:
fonte