Validação cruzada versus Bayes empírico para estimativa de hiperparâmetros

20

Dado um modelo hierárquico , quero um processo de dois estágios para se ajustar ao modelo. Primeiro, corrija um punhado de hiperparâmetros e, em seguida, faça inferência bayesiana no restante dos parâmetros . Para fixar os hiperparâmetros, estou considerando duas opções.p(x|ϕ,θ)θϕ

  1. Use Bayes empírico (EB) e maximize a probabilidade marginal (integrando o restante do modelo que contém parâmetros dimensionais altos).p(all data|θ)
  2. Use técnicas de Validação Cruzada (CV) como validação cruzada fold para escolher que maximiza a probabilidade .kθp(test data|training data,θ)

A vantagem do EB é que eu posso usar todos os dados de uma só vez, enquanto no CV eu preciso (potencialmente) calcular a probabilidade do modelo várias vezes e procurar . O desempenho do EB e CV são comparáveis ​​em muitos casos (*), e geralmente o EB é mais rápido para estimar.θ

Pergunta: Existe um fundamento teórico que vincule os dois (digamos, EB e CV são os mesmos no limite de grandes dados)? Ou vincula o EB a algum critério de generalização, como risco empírico? Alguém pode apontar para um bom material de referência?


(*) Como ilustração, aqui está uma figura do Aprendizado de Máquina de Murphy , Seção 7.6.4, em que ele diz que, para a regressão de crista, ambos os procedimentos produzem resultados muito semelhantes:

murphy - bayes empíricos vs CV

Murphy também diz que a principal vantagem prática do Bayes empírico (ele o chama de "procedimento de evidência") sobre o CV é quando consiste em muitos hiperparâmetros (por exemplo, penalidade separada para cada recurso, como na determinação automática de relevância ou ARD). Lá, não é possível usar o CV.θ

Memming
fonte
θ
@NeilG maximizando a soma da probabilidade de dados preditivos marginais de log em conjuntos de validação cruzada (k é integrado).
Memming
1
k
2
Ótima pergunta. Tomei a liberdade de adicionar uma figura do livro de Murphy à sua pergunta para ilustrar sua opinião sobre dois procedimentos frequentemente comparáveis. Espero que você não se importe com essa adição.
ameba diz Restabelecer Monica

Respostas:

16

Duvido que haja um elo teórico que diga que o CV e a maximização da evidência são assintoticamente equivalentes, pois a evidência nos diz a probabilidade dos dados, dadas as suposições do modelo . Portanto, se o modelo for especificado incorretamente, as evidências podem não ser confiáveis. A validação cruzada, por outro lado, fornece uma estimativa da probabilidade dos dados, independentemente de as premissas de modelagem estarem corretas ou não. Isso significa que as evidências podem ser um guia melhor se as suposições de modelagem estiverem corretas usando menos dados, mas a validação cruzada será robusta contra a especificação incorreta do modelo. O CV é assintoticamente imparcial, mas eu assumiria que a evidência não é, a menos que as suposições do modelo estejam exatamente corretas.

Essa é essencialmente minha intuição / experiência; Eu também estaria interessado em ouvir sobre pesquisas sobre isso.

Observe que, para muitos modelos (por exemplo, regressão de cordilheira, processos Gaussianos, regressão de cordilheira / LS-SVM etc.), a validação cruzada única pode ser realizada pelo menos com a mesma eficiência que a estimativa das evidências, portanto, não há necessariamente uma vantagem lá.

Adendo: As estimativas de verossimilhança marginal e de validação cruzada são avaliadas em uma amostra finita de dados e, portanto, sempre há uma possibilidade de ajuste excessivo se um modelo for ajustado, otimizando qualquer um dos critérios. Para amostras pequenas, a diferença na variação dos dois critérios pode decidir qual funciona melhor. Veja meu artigo

Gavin C. Cawley, Nicola LC Talbot, "Sobre adaptação na seleção de modelos e viés de seleção subsequente na avaliação de desempenho", Journal of Machine Learning Research, 11 (julho): 2079-2107, 2010. ( pdf )

Dikran Marsupial
fonte
Por que você diz que o CV é robusto em relação a um modelo mal especificado? No caso dele, não existe essa proteção, pois a validação cruzada está pesquisando no mesmo espaço que o EB está calculando uma probabilidade. Se suas suposições de modelagem estiverem erradas, a validação cruzada não o salvará.
Neil G
1
ϕϕθ
ps Estou realizando uma análise para evitar o super ajuste em redes neurais com regularização bayesiana, onde os parâmetros de regularização são ajustados via maximização de probabilidade marginal. Há situações em que isso funciona muito mal (pior do que não ter nenhuma regularização). Este parece ser um problema de especificação incorreta do modelo.
Dikran Marsupial
Ele pode obter o mesmo "indicador de desempenho de generalização" verificando a probabilidade total do log dos dados, dada a distribuição estimada retornada pelo EB (que será igual à entropia dessa distribuição). Não há como vencê-lo neste caso, porque é a solução analítica para esse problema. Não vejo por que a validação cruzada faria sentido quando você pode calcular uma probabilidade de EB.
Neil G
2
@probabilityislogic, eu não tenho certeza do que você está recebendo (problema, sem dúvida, no meu final!; o). Posso dizer por experiência prática que o problema é muito real. Trabalho com problemas na seleção de modelos há vários anos e já deparei com muitos problemas em que maximizar a probabilidade marginal acaba sendo uma péssima idéia. A validação cruzada tem um desempenho igualmente bom para a maioria dos conjuntos de dados, mas, quando apresenta um desempenho ruim, raramente executa catastroficamente, como às vezes a maximização de evidências.
Dikran Marsupial 19/03/12
-1

kk

Neil G
fonte