Uma pergunta mais produtiva pode ser "por que não foi usada nas estatísticas clássicas que aprendi?"
Dependendo do (s) nível (s) em que foi ensinado, o conteúdo do curso (e o tempo disponível) nessa escolha podem ser devidos a uma combinação de vários fatores. Frequentemente, tópicos importantes são deixados de lado, porque outro material deve ser ensinado por um motivo ou outro, com a esperança de que possam ser abordados em assuntos posteriores.
Em alguns sentidos, pelo menos, a noção tem sido usada por uma variedade de pessoas. Era mais comum em algumas áreas do que em outras. Muitos usos das estatísticas não têm predição ou seleção de modelo como componente principal (ou, em alguns casos, até mesmo) e, nesse caso, o uso de amostras de validação pode ser menos crítico do que quando a previsão é o ponto principal. Indiscutivelmente, ele deveria ter ganhado uso mais difundido em um estágio anterior em alguns aplicativos relevantes do que ganhou, mas isso não é a mesma coisa que ser desconhecido.
Se você observar áreas que se concentram na previsão, a noção de avaliação do modelo, prevendo dados que você não usou para estimar o seu modelo, certamente estava presente (embora não seja universal). Eu certamente estava fazendo isso com a modelagem de séries temporais que estava fazendo na década de 1980, por exemplo, onde o desempenho preditivo fora da amostra dos dados mais recentes era particularmente importante.
A noção de deixar de fora pelo menos alguns dados foi usada na regressão (resíduos excluídos, PRESS, jacknife etc.) e em análises externas, por exemplo.
Algumas dessas idéias remontam muito antes ainda. Stone (1974) [1] refere-se a artigos sobre validação cruzada (com a palavra no título) das décadas de 1950 e 60. Talvez ainda mais próximo de sua intenção, ele menciona o uso de Simon (1971) dos termos "amostra de construção" e "amostra de validação" - mas também aponta que "Larson (1931) empregou divisão aleatória da amostra em um múltiplo educacional. estudo de regressão ".
Tópicos como validação cruzada e o uso de estatísticas baseadas em previsões e assim por diante estavam se tornando substancialmente mais frequentes na literatura estatística nas décadas de 70 e 80, por exemplo, mas muitas das idéias básicas existem há algum tempo, mesmo então.
[1]: Stone, M., (1974)
"Escolha e avaliação de validação cruzada de previsões estatísticas",
Journal of the Royal Statistical Society. Série B (Metodológica) , vol. 36, No. 2., pp. 111-147
Para complementar a resposta de Glen_b, as estatísticas clássicas frequentemente enfatizaram o uso ideal dos dados, testes ótimos, estimadores ideais, suficiência etc., e nesse quadro teórico é difícil justificar o não uso de parte das informações. ! Parte dessa tradição é a ênfase em situações com amostras pequenas, onde a retenção é praticamente difícil.
Fisher trabalhou, por exemplo, principalmente com genética e experimentação agrícola, e nesses campos o pequeno número de observações era a regra. Portanto, ele foi exposto principalmente a esses problemas com pequenos conjuntos de dados.
fonte
Responderei de um campo aplicado que talvez esteja entre a estatística clássica e o aprendizado de máquina: quimiometria, isto é, estatística para análises químicas. Vou adicionar dois cenários diferentes, nos quais o hold-out não é tão importante quanto nas aulas típicas de aprendizado de máquina.
Cenário 1:
Acho que um ponto crucial aqui é perceber que há uma diferença fundamental no tamanho pequeno da amostra para treinamento versus teste:
(A qualidade do procedimento de teste deve ser independente do modelo: isso é tratado como uma caixa preta pela validação com casos de teste independentes)
O segundo ponto que vou precisar para minha argumentação é que a situação em que os casos de teste independentes são cruciais é excessiva. Se o modelo não for suficientemente complexo (viés≫ variação, portanto, sob ajuste), os resíduos podem dizer tanto sobre o erro total de previsão quanto sobre casos independentes.
Agora, as aulas de estatística sobre modelos lineares "clássicos" geralmente enfatizam muito os modelos univariados. Para um modelo linear univariado, o tamanho da amostra de treinamento provavelmente não é pequeno: os tamanhos das amostras de treinamento geralmente são julgados em comparação com a complexidade do modelo, e o modelo linear possui apenas dois parâmetros, deslocamento e inclinação. Na química analítica, na verdade, temos uma norma que afirma que você deve ter pelo menos 10 amostras de calibração para sua calibração linear univariada. Isso garante uma situação em que a instabilidade do modelo não é um problema confiável, portanto, não é necessário reter.
No entanto, no aprendizado de máquina, assim como nos modernos detectores multicanais em análises químicas (às vezes 10⁴ "canais", por exemplo, em espectrometria de massa), a estabilidade do modelo (ou seja, variação) é uma questão importante. Portanto, é necessária uma reamostragem melhor ou melhor.
Cenário 2:
Uma situação completamente diferente é que a retenção pode ser ignorada em favor de uma combinação de um mais fácil (resíduos) mais uma medição de desempenho mais sofisticada. Observe que a retenção no sentido de (aleatoriamente) deixar de lado parte de um conjunto de dados e excluí-la do treinamento não é equivalente ao que os testes independentes podem alcançar. Em química analítica, experimentos de validação dedicados podem ser realizados, incluindo, por exemplo, medir a degradação do desempenho ao longo do tempo (desvio do instrumento) que não pode ser medido por retenção e estabelecer, por exemplo, o desempenho do sensor no ambiente industrial real (enquanto a calibração do sensor foi realizado em laboratório em amostras de calibração). Consulte também /stats//a/104750/4598 para obter mais detalhes sobre testes independentes versus suporte.
fonte