Se você ajustar uma função não linear a um conjunto de pontos (supondo que haja apenas uma ordenada para cada abcissa), o resultado poderá ser:
- uma função muito complexa com pequenos resíduos
- uma função muito simples com grandes resíduos
A validação cruzada é comumente usada para encontrar o "melhor" compromisso entre esses dois extremos. Mas o que significa "melhor"? É "mais provável"? Como você começaria a provar qual é a solução mais provável?
Minha voz interior está me dizendo que o CV está encontrando algum tipo de solução de energia mínima. Isso me faz pensar em entropia, que eu sei vagamente que ocorre tanto nas estatísticas quanto na física.
Parece-me que o "melhor" ajuste é gerado minimizando a soma das funções de complexidade e erro, isto é,
minimising m where m = c(Complexity) + e(Error)
Isto faz algum sentido? Quais seriam as funções c e e?
Por favor, você pode explicar usando linguagem não matemática, porque eu não vou entender muita matemática.
Respostas:
Eu acho que essa é uma excelente pergunta. Vou parafrasear para ter certeza de que estou certo:
Acho que a resposta (se houver) o levará muito além da validação cruzada. Gosto de como essa pergunta (e o tópico em geral) se vincula muito bem à Navalha de Occam e ao conceito geral de parcimônia que é fundamental para a ciência. Não sou de forma alguma um especialista nesta área, mas acho esta questão extremamente interessante. O melhor texto que conheço sobre esse tipo de pergunta é a Inteligência Artificial Universal, de Marcus Hutter (no entanto, não me pergunte nada, não li a maioria). Fui a uma palestra de Hutter e alguns anos atrás e fiquei muito impressionado.
Você está certo ao pensar que existe um argumento mínimo de entropia em algum lugar (usado para a função de penalidade de complexidade de alguma maneira). Hutter defende o uso da complexidade de Kolmogorov em vez da entropia. Além disso, a definição de Hutter de "melhor" (tanto quanto me lembro) é (informalmente) o modelo que melhor prediz o futuro (ou seja, melhor prediz os dados que serão observados no futuro). Não me lembro como ele formaliza essa noção.c
fonte
Oferecerei uma breve resposta intuitiva (em um nível bastante abstrato) até que uma outra resposta seja oferecida por outra pessoa:
Primeiro, observe que funções / modelos complexos alcançam melhor ajuste (ou seja, têm resíduos mais baixos), pois exploram alguns recursos locais (ruído de reflexão) do conjunto de dados que não estão presentes globalmente (pense em padrões sistemáticos).
Segundo, ao executar a validação cruzada, dividimos os dados em dois conjuntos: o conjunto de treinamento e o conjunto de validação.
Portanto, quando executamos a validação cruzada, um modelo complexo pode não ser muito bom porque, por definição, um modelo complexo explora os recursos locais do conjunto de treinamento. No entanto, os recursos locais do conjunto de treinamento podem ser muito diferentes em comparação aos recursos locais do conjunto de validação, resultando em baixo desempenho preditivo. Portanto, temos a tendência de selecionar o modelo que captura os recursos globais do treinamento e os conjuntos de dados de validação.
Em resumo, a validação cruzada protege contra o ajuste excessivo, selecionando o modelo que captura os padrões globais do conjunto de dados e evitando modelos que exploram algum recurso local de um conjunto de dados.
fonte
Em uma visão geral de aprendizado de máquina, a resposta é bastante simples: queremos criar um modelo que tenha a maior precisão ao prever novos dados (invisíveis durante o treinamento). Como não podemos testar diretamente isso (não temos dados no futuro), fazemos a simulação de Monte Carlo desse teste - e essa é basicamente a ideia subjacente à validação cruzada.
Pode haver alguns problemas sobre o que é precisão (por exemplo, um cliente comercial pode declarar que o excedente custa 5 € por unidade e ultrapassa 0,01 € por unidade, portanto, é melhor criar um modelo menos preciso, mas com menor quantidade de cliques), mas, em geral, é bastante intuitivo por cento das respostas verdadeiras na classificação e variância explicada amplamente usada na regressão.
fonte
Muitas pessoas têm excelentes respostas, aqui estão meus US $ 0,02.
Existem duas maneiras de analisar o "melhor modelo" ou "seleção de modelo", falando estatisticamente:
1 Uma explicação que é tão simples quanto possível, mas não mais simples (Attrib. Einstein)
2 Previsão é o interesse, semelhante ao desenvolvimento de engenharia.
(Mis) concepção generalizada:
Model Choice é equivalente a escolher o melhor modelo
Para explicação, devemos estar atentos à possibilidade de haver vários (aproximadamente) igualmente bons modelos explicativos. A simplicidade ajuda tanto na comunicação dos conceitos incorporados no modelo quanto no que os psicólogos chamam de generalização, a capacidade de 'trabalhar' em cenários muito diferentes daqueles em que o modelo foi estudado. Portanto, há um prêmio em alguns modelos.
Para previsão: (boa parte do Dr. Ripley) é a escolha entre opiniões de especialistas: se você tem acesso a um grande painel de especialistas, como usaria as opiniões deles?
A validação cruzada cuida do aspecto da previsão. Para detalhes sobre o CV, consulte esta apresentação do Dr. BD Ripley Apresentação do Dr. Brian D. Ripley sobre seleção de modelos
Citação: Observe que tudo nesta resposta é da apresentação citada acima. Eu sou um grande fã desta apresentação e eu gosto. Outras opiniões podem variar. O título da apresentação é: "Seleção entre grandes classes de modelos" e foi dado no Simpósio em homenagem aos 80 anos de John Nelder, Imperial College, de 29 a 30 de março de 2004, pelo Dr. Brian D. Ripley.
fonte
Ótima discussão aqui, mas penso na validação cruzada de uma maneira diferente das respostas até agora (mbq e eu estamos na mesma página que eu acho). Então, eu vou colocar meus dois centavos com o risco de turvar as águas ...
A validação cruzada é uma técnica estatística para avaliar a variabilidade e o viés, devido ao erro de amostragem, na capacidade de um modelo de ajustar e prever dados. Assim, "melhor" seria o modelo que fornece o menor erro de generalização, que seria em unidades de variabilidade e viés. Técnicas como Bayesian e Bootstrap Model Averaging podem ser usadas para atualizar um modelo de maneira algorítmica com base nos resultados do esforço de validação cruzada.
Este FAQ fornece boas informações para mais contexto do que informa minha opinião.
fonte
A função de erro é o erro do seu modelo (função) nos dados de treinamento. A complexidade é alguma norma (por exemplo, norma l2 ao quadrado) da função que você está tentando aprender. Minimizar o termo complexidade favorece essencialmente funções suaves, que se saem bem não apenas nos dados de treinamento, mas também nos dados de teste. Se você representa sua função por um conjunto de coeficientes (digamos, se estiver fazendo regressão linear), penalizar a complexidade pela norma ao quadrado levaria a pequenos valores de coeficiente em sua função (penalizar outras normas leva a diferentes noções de controle de complexidade).
fonte
é equivalente a
fonte