Aqui está o problema.
Com um algoritmo de aprendizado opaco, você precisa descobrir se o seu algoritmo realmente aprendeu algo sobre uma estrutura mais profunda comum à área do problema desejada (supondo que exista algo a ser encontrado) ou se acabou de aprender a reconhecer algumas entradas específicas e cuspir. a resposta desejada apenas para essas informações (semelhante às crianças da escola que apenas "memorizam o teste", mas não têm idéia do contrário). Este último não é muito útil quando os dados de treinamento consistem em apenas uma pequena fração do espaço de problema desejado.
Portanto, para descobrir, você treina seu algoritmo em um conjunto de dados até que ele solte as respostas corretas. Em seguida, você altera a entrada para alguns dados de teste diferentes que o algoritmo treinado nunca viu antes e verifica se ele ainda pode fornecer respostas úteis ou se realmente funcionou apenas para o material do conjunto de treinamento original. Esse é o conjunto de dados de teste.
Se você possui dados do mundo real, é comum dividi-los em dois conjuntos de disjuntos, e não permitir que o algoritmo veja o conjunto de testes durante o treinamento. Semelhante ao professor que trava as perguntas do questionário até o final do semestre.
Para responder diretamente às perguntas dos OPs: "Os dados de treinamento são os dados que você terá após o estágio de pré-processamento, também chamado de extração de recursos?
Não, isso (ou seja, extração de recursos) não é o que torna um conjunto de dados "dados de treinamento". Você terá que extrair recursos da mesma forma que os dados de treinamento dos seus dados de teste. Aqui está um exemplo de conjunto de etapas para distinguir estes termos:
Onde os dados de teste são a entrada original. Estou certo?
Os dados de teste são aqueles que você mantém de lado enquanto seleciona / aprende os parâmetros do seu modelo. Posteriormente, você usa esses dados para testar a qualidade do seu modelo. A principal premissa é que sua distribuição de dados de teste é a mesma que sua distribuição de dados de trem.
fonte