Se eu gerar muitos modelos aleatórios (sem considerar os dados) em uma configuração de regressão simplesmente atribuindo aleatoriamente valores de coeficientes e, em seguida, avaliando esses modelos no conjunto de dados com uma métrica de erro e escolhendo o melhor modelo com base nessa métrica de erro, eu ainda executaria em sobreajuste?
Eventualmente, acabaremos com a solução OLS (consulte os comentários). Se for esse o caso, como a Validação Cruzada é diferente desse procedimento? Por exemplo, em uma configuração de regressão Ridge ou Lasso, ainda estou gerando vários modelos (indexados por ) e os avaliando no segmento de dados invisíveis e escolhendo o melhor.
Parece-me que o CV funciona bem com métodos de regularização padrão, como Ridge e Lasso, porque os modelos experimentados são um pouco aninhados (ou seja, Ridge é ordenado pela complexidade de Rademacher). Portanto, o princípio de Minimização de Riscos Estruturais entra em ação. Caso contrário, o CV parece um esforço sem saída. Se usarmos a validação cruzada para comparar vários modelos não relacionados, terminaremos com o cenário de geração aleatória de modelos que descrevi acima.
Sob a estrutura de Minimização de risco estrutural, por exemplo no SVM, limita-se o erro e reduz-se a complexidade do modelo. Então, como o CV realmente alcança o mesmo efeito quando aplicado em conjunto com métodos de regularização? O que fazer quando os modelos comparados não são aninhados?
fonte
Respostas:
E, como @amoeba apontou: sua lógica está certa.
Observe que, se você selecionar um modelo com base nos resultados do CV, esse procedimento de seleção de modelo (incluindo o CV) fará parte de seu treinamento .
Você precisa fazer uma validação independente (em vez disso, verificação) desse modelo final (para o qual você pode novamente usar outro CV como estratégia para manter os casos independentes do treinamento - consulte validação cruzada aninhada) para obter uma estimativa confiável de sua desempenho de generalização.
Para reiterar: o problema não é o CV, o problema é a otimização do modelo orientado a dados (seleção).
Isso não entendo: por que o tamanho dos dados invisíveis difere?
Não.
A única propriedade do CV que ajuda um pouco com vários testes em comparação a uma única divisão é que o CV eventualmente testa todos os casos disponíveis e, portanto, está sujeito a incerteza de variação um pouco menor devido ao número limitado de casos testados. Isso não vai ajudar muito em comparação com a limitação do espaço de pesquisa (ou seja, restringir o número de comparações).
fonte
EDIT: Ajustar ou selecionar um modelo com base na validação cruzada está essencialmente tentando minimizar o erro de previsão (por exemplo, erro de previsão ao quadrado médio). Você seleciona um modelo condicional para algum subconjunto de dados de entrada e prevê a saída nos locais deixados de fora. Intuitivamente, é uma previsão porque você está avaliando o modelo em locais fora da amostra. Sua pergunta é o que acontece se o seu conjunto de modelos candidatos for independente dos dados de entrada (ou seja, você não usa nenhum dado ao gerar modelos aleatoriamente).
Essa suposição não é tão diferente de qualquer outro procedimento de ajuste de modelo. Por exemplo, se eu começar com um modelo parametrizado e os parâmetros puderem ser um número real, também tenho um conjunto infinito de modelos candidatos. Nós dois ainda precisamos selecionar o melhor modelo do conjunto de modelos possíveis, minimizando algumas métricas de erro. Portanto, ambas as nossas opções de modelo dependem de alguns dados de treinamento (talvez um subconjunto de todos os dados de treinamento, se estiver usando validação cruzada). Você não especifica uma métrica de erro, portanto, vamos assumir que é erro quadrático médio (MSE). Eu escolho os parâmetros do modelo e, portanto, meu modelo usando algum procedimento de caixa preta, assumindo que a métrica MSE depende dos dados de treinamento. Você escolhe seu modelo no seu conjunto de modelos aleatórios, assumindo a métrica MSE condicional nos dados de treinamento.
Nós escolhemos o mesmo modelo? Depende se você iniciou com diferentes conjuntos de modelos candidatos.
Superestimamos os dados? Depende do conjunto de modelos candidatos com os quais começamos e dos dados de treinamento.
Sabemos que superestimamos os dados? Se fizermos a validação cruzada, podemos verificar o erro de previsão.
RESPOSTA ORIGINAL: Em um sentido amplo, há algum sinal nos dados e algum ruído. Quando superestimamos, estamos essencialmente ajustando o ruído.
Na validação cruzada, deixamos de fora partes dos dados ao ajustar e avaliamos o erro ao prever os pontos deixados de fora. É semelhante a ter dados de treinamento e teste, pois estamos medindo um erro fora da amostra. O modelo deve generalizar bem, independentemente de quais pontos são omitidos. Se ajustarmos o ruído, o modelo não generalizará bem. O conjunto de modelos que estamos comparando provavelmente não inclui aqueles que tentam interpolar um ponto de dados quando ele é omitido dos dados de treinamento. Se o modelo se comportar dessa maneira (por exemplo, comportamento aleatório para melhorar o ajuste), é provável que não tenhamos um procedimento geral razoável de ajuste do modelo e a validação cruzada não possa nos ajudar.
Se você tem um conjunto infinito de modelos e uma quantidade infinita de tempo, acho que em teoria você poderia gerar um modelo que fosse tão bom ou melhor do que qualquer modelo que fosse gerado por qualquer outro procedimento. Como você saberá qual modelo do seu conjunto infinito é? Se for o modelo que interpola os dados de treinamento, sim, ele será super ajustado quando os dados de treinamento forem barulhentos.
fonte