Qual é a definição de "melhor", conforme usada no termo "melhor ajuste" e validação cruzada?

16

Se você ajustar uma função não linear a um conjunto de pontos (supondo que haja apenas uma ordenada para cada abcissa), o resultado poderá ser:

  1. uma função muito complexa com pequenos resíduos
  2. uma função muito simples com grandes resíduos

A validação cruzada é comumente usada para encontrar o "melhor" compromisso entre esses dois extremos. Mas o que significa "melhor"? É "mais provável"? Como você começaria a provar qual é a solução mais provável?

Minha voz interior está me dizendo que o CV está encontrando algum tipo de solução de energia mínima. Isso me faz pensar em entropia, que eu sei vagamente que ocorre tanto nas estatísticas quanto na física.

Parece-me que o "melhor" ajuste é gerado minimizando a soma das funções de complexidade e erro, isto é,

minimising m where m = c(Complexity) + e(Error)

Isto faz algum sentido? Quais seriam as funções c e e?

Por favor, você pode explicar usando linguagem não matemática, porque eu não vou entender muita matemática.

bart
fonte
1
Melhor é o modelo com menor erro futuro e a validação cruzada fornece essa estimativa. A razão para as fórmulas c (Complexidade) + e (Erro) é porque você pode usar o erro nos dados de treinamento como estimativa de erro futuro, mas isso é otimista demais, então você adiciona um termo para tornar essa estimativa imparcial, o que geralmente é uma função de complexidade do modelo
Yaroslav Bulatov
Por outro lado, o raciocínio à luz do fenômeno Runge (inspirações físicas novamente) leva à conclusão de que erros futuros são algo sobre Complexity / Train_Error.
Matt Krause deu uma excelente resposta a uma pergunta semelhante aqui: stats.stackexchange.com/a/21925/14640 Parafraseando sua resposta: O objetivo é equilibrar a complexidade do modelo com o poder explicativo do modelo e, portanto, o conceito de parcimônia é melhor medida da adequação de um modelo do que o conceito de melhor ajuste ao erro. Isso ocorre porque um modelo altamente complexo pode superestimar os dados sem ser mais capaz de prever ou explicar novos resultados.
Assad Ebrahim

Respostas:

6

Eu acho que essa é uma excelente pergunta. Vou parafrasear para ter certeza de que estou certo:

Parece que existem várias maneiras de escolher a função de penalidade de complexidade função de penalidade de erro e . Qual escolha é `melhor '. O que deveria significar melhor ?ce

Acho que a resposta (se houver) o levará muito além da validação cruzada. Gosto de como essa pergunta (e o tópico em geral) se vincula muito bem à Navalha de Occam e ao conceito geral de parcimônia que é fundamental para a ciência. Não sou de forma alguma um especialista nesta área, mas acho esta questão extremamente interessante. O melhor texto que conheço sobre esse tipo de pergunta é a Inteligência Artificial Universal, de Marcus Hutter (no entanto, não me pergunte nada, não li a maioria). Fui a uma palestra de Hutter e alguns anos atrás e fiquei muito impressionado.

Você está certo ao pensar que existe um argumento mínimo de entropia em algum lugar (usado para a função de penalidade de complexidade de alguma maneira). Hutter defende o uso da complexidade de Kolmogorov em vez da entropia. Além disso, a definição de Hutter de "melhor" (tanto quanto me lembro) é (informalmente) o modelo que melhor prediz o futuro (ou seja, melhor prediz os dados que serão observados no futuro). Não me lembro como ele formaliza essa noção.c

Robby McKilliam
fonte
Você entende a pergunta. Vou seguir os links.
22610 Bart
Você deve saber que é improvável que esses links o levem a qualquer lugar "prático". Se você está tentando criar algo usando validação cruzada (ou algum outro tipo de seleção de modelo), na prática, é provável que sempre se refira a algo heurístico e um pouco ad-hoc (embora eu concorde que isso é insatisfatório).
Robby McKilliam
Agora estamos chegando a algum lugar. en.wikipedia.org/wiki/Minimum_message_length parece ser o que eu estava pensando. Obrigado!
Bart
Não se preocupe. Isso é apenas reflexão, não é prático.
Bart
9

Oferecerei uma breve resposta intuitiva (em um nível bastante abstrato) até que uma outra resposta seja oferecida por outra pessoa:

Primeiro, observe que funções / modelos complexos alcançam melhor ajuste (ou seja, têm resíduos mais baixos), pois exploram alguns recursos locais (ruído de reflexão) do conjunto de dados que não estão presentes globalmente (pense em padrões sistemáticos).

Segundo, ao executar a validação cruzada, dividimos os dados em dois conjuntos: o conjunto de treinamento e o conjunto de validação.

Portanto, quando executamos a validação cruzada, um modelo complexo pode não ser muito bom porque, por definição, um modelo complexo explora os recursos locais do conjunto de treinamento. No entanto, os recursos locais do conjunto de treinamento podem ser muito diferentes em comparação aos recursos locais do conjunto de validação, resultando em baixo desempenho preditivo. Portanto, temos a tendência de selecionar o modelo que captura os recursos globais do treinamento e os conjuntos de dados de validação.

Em resumo, a validação cruzada protege contra o ajuste excessivo, selecionando o modelo que captura os padrões globais do conjunto de dados e evitando modelos que exploram algum recurso local de um conjunto de dados.


fonte
@ Krikant eu sei tudo isso. O CV é um meio de encontrar o "melhor". Qual é a definição de "melhor"?
Bart
@bart 'best model' = um modelo que 'best' captura padrões globais e evita os recursos locais de um dado. É o melhor que posso fazer para uma descrição não matemática. Talvez alguém possa elaborar um pouco mais ou ser mais específico.
@art: "best" significa a função que melhor se ajusta aos dados de treinamento e que "generaliza" bem os dados do conjunto de validação / teste não visto. Eu acho que isso está bem claro na resposta de Srikant. Existem muitas maneiras de definir formalmente um bom comportamento de generalização. Em um sentido não formal, você pode pensar nisso como encontrar uma função que seja "suave" e não muito complicada. Tentar ajustar-se apenas aos dados de treinamento pode levar à função de aparência distorcida, enquanto a suavidade geralmente garante que a função funcione razoavelmente bem nos dados de treinamento e de validação / teste.
precisa saber é o seguinte
@ebony: Você está perdendo o ponto. Eu reformulada a questão de fazer espero que mais clara
Bart
5

Em uma visão geral de aprendizado de máquina, a resposta é bastante simples: queremos criar um modelo que tenha a maior precisão ao prever novos dados (invisíveis durante o treinamento). Como não podemos testar diretamente isso (não temos dados no futuro), fazemos a simulação de Monte Carlo desse teste - e essa é basicamente a ideia subjacente à validação cruzada.

Pode haver alguns problemas sobre o que é precisão (por exemplo, um cliente comercial pode declarar que o excedente custa 5 € por unidade e ultrapassa 0,01 € por unidade, portanto, é melhor criar um modelo menos preciso, mas com menor quantidade de cliques), mas, em geral, é bastante intuitivo por cento das respostas verdadeiras na classificação e variância explicada amplamente usada na regressão.


fonte
3

Muitas pessoas têm excelentes respostas, aqui estão meus US $ 0,02.

Existem duas maneiras de analisar o "melhor modelo" ou "seleção de modelo", falando estatisticamente:

1 Uma explicação que é tão simples quanto possível, mas não mais simples (Attrib. Einstein)

- This is also called Occam's Razor, as explanation applies here.
- Have a concept of True model or a model which approximates the truth
- Explanation is like doing scientific research


2 Previsão é o interesse, semelhante ao desenvolvimento de engenharia.

- Prediction is the aim, and all that matters is that the model works
- Model choice should be based on quality of predictions
- Cf: Ein-Dor, P. & Feldmesser, J. (1987) Attributes of the performance of central processing units: a relative performance prediction model. Communications of the ACM 30, 308–317.

(Mis) concepção generalizada:

Model Choice é equivalente a escolher o melhor modelo

Para explicação, devemos estar atentos à possibilidade de haver vários (aproximadamente) igualmente bons modelos explicativos. A simplicidade ajuda tanto na comunicação dos conceitos incorporados no modelo quanto no que os psicólogos chamam de generalização, a capacidade de 'trabalhar' em cenários muito diferentes daqueles em que o modelo foi estudado. Portanto, há um prêmio em alguns modelos.

Para previsão: (boa parte do Dr. Ripley) é a escolha entre opiniões de especialistas: se você tem acesso a um grande painel de especialistas, como usaria as opiniões deles?

A validação cruzada cuida do aspecto da previsão. Para detalhes sobre o CV, consulte esta apresentação do Dr. BD Ripley Apresentação do Dr. Brian D. Ripley sobre seleção de modelos

Citação: Observe que tudo nesta resposta é da apresentação citada acima. Eu sou um grande fã desta apresentação e eu gosto. Outras opiniões podem variar. O título da apresentação é: "Seleção entre grandes classes de modelos" e foi dado no Simpósio em homenagem aos 80 anos de John Nelder, Imperial College, de 29 a 30 de março de 2004, pelo Dr. Brian D. Ripley.

suncoolsu
fonte
3

Ótima discussão aqui, mas penso na validação cruzada de uma maneira diferente das respostas até agora (mbq e eu estamos na mesma página que eu acho). Então, eu vou colocar meus dois centavos com o risco de turvar as águas ...

A validação cruzada é uma técnica estatística para avaliar a variabilidade e o viés, devido ao erro de amostragem, na capacidade de um modelo de ajustar e prever dados. Assim, "melhor" seria o modelo que fornece o menor erro de generalização, que seria em unidades de variabilidade e viés. Técnicas como Bayesian e Bootstrap Model Averaging podem ser usadas para atualizar um modelo de maneira algorítmica com base nos resultados do esforço de validação cruzada.

Este FAQ fornece boas informações para mais contexto do que informa minha opinião.

Josh Hemann
fonte
1

A função de erro é o erro do seu modelo (função) nos dados de treinamento. A complexidade é alguma norma (por exemplo, norma l2 ao quadrado) da função que você está tentando aprender. Minimizar o termo complexidade favorece essencialmente funções suaves, que se saem bem não apenas nos dados de treinamento, mas também nos dados de teste. Se você representa sua função por um conjunto de coeficientes (digamos, se estiver fazendo regressão linear), penalizar a complexidade pela norma ao quadrado levaria a pequenos valores de coeficiente em sua função (penalizar outras normas leva a diferentes noções de controle de complexidade).

ebony1
fonte
1

(p,q)1,λ>0 0

(1)UMArgmin.β|λ,x,y||y-m(x,β)||p+λ||β||q

é equivalente a

(2)UMArgmin.β|λ,x,y||y-m(x,β)||p

s.t. ||β||qλ

||β||qλq=1,2β^β^

λλ=(x,y)(1)-(2)λβ^|λ

e()=||y-m(x,β)||p) isso ocorre porque p=1 (p=2) essa medida de distância entre o modelo e as observações possui (facilmente) propriedades assintóticas deriváveis ​​(forte convergência para significantes partes da população de m())

user603
fonte
1
É λum parâmetro que é livre para ser escolhido?
Robby McKilliam
@Robby:> obrigado. Anexei levemente o texto para tornar clara a distinção entre parâmetros e hiperparâmetros.
user603
@kwak: Lamento dizer que não tenho idéia do que isso significa. O que significam os símbolos p, q, lambda, x, y, me beta?
Bart
@ Bart:> Minha resposta é essencialmente a mesma que a de Srikant. Onde ele fornece uma explicação intuitiva, eu gostaria de acrescentar uma mais rigorosa para os benefícios de futuros visitantes que possam ter a mesma pergunta que você, mas que são mais familiarizados com a matemática do que com a linguagem não formal. Todos os símbolos que você menciona estão definidos na minha resposta (embora, novamente, isso seja feito formalmente).
user603
@kwak: Onde, por exemplo, p é definido?
Bart