Pensamento bayesiano sobre superajuste

20

Dediquei muito tempo ao desenvolvimento de métodos e softwares para validar modelos preditivos no domínio estatístico freqüentista tradicional. Ao colocar mais idéias bayesianas em prática e ensinar, vejo algumas diferenças importantes a serem adotadas. Primeiro, a modelagem preditiva bayesiana pede ao analista que pense muito sobre distribuições anteriores que podem ser personalizadas para os recursos candidatos, e esses anteriores puxarão o modelo em direção a eles (ou seja, conseguirão encolhimento / penalização / regularização com diferentes quantidades de penalização para diferentes recursos preditivos) ) Segundo, o caminho bayesiano "real" não resulta em um único modelo, mas obtém-se uma distribuição posterior inteira para uma previsão.

Com essas características bayesianas em mente, o que significa super adaptação? Devemos avaliar? Se sim, como? Como sabemos quando um modelo bayesiano é confiável para uso em campo? Ou esse é um ponto discutível, já que o posterior carrega todas as incertezas que dão cautela quando usamos o modelo que desenvolvemos para a previsão?

Como o pensamento mudaria se forçássemos que o modelo bayesiano fosse destilado para um único número, por exemplo, risco médio / modo / mediana posterior?

Eu vejo algum pensamento relacionado aqui . Uma discussão paralela pode ser encontrada aqui .

Pergunta de acompanhamento :: Se somos totalmente bayesianos e passamos algum tempo pensando nos anteriores antes de ver os dados, e ajustamos um modelo em que a probabilidade dos dados foi especificada adequadamente, somos obrigados a ficar satisfeitos com o nosso modelo em relação à super adaptação ? Ou precisamos fazer o que fazemos no mundo freqüentista, em que um sujeito escolhido aleatoriamente pode ser bem previsto em média, mas se escolhermos um sujeito com uma previsão muito baixa ou um com um valor previsto muito alto, haverá regressão para o meio?

Frank Harrell
fonte
1
Veja mdpi.com/1099-4300/19/10/555/htm 5.1, 5.2
Tim
1
Andrew Gelman tem um artigo de blog muito relevante na andrewgelman.com/2017/04/12/bayesian-posteriors-calibrated
Frank Harrell

Respostas:

6

Posso começar dizendo que um modelo bayesiano não pode super-ajustar sistematicamente (ou sub-ajustar) os dados extraídos da distribuição preditiva anterior, que é a base de um procedimento para validar que o software bayesiano está funcionando corretamente antes de ser aplicado aos dados coletados do mundo.

Mas pode super ajuste um único conjunto de dados extraído da distribuição preditiva anterior ou um único conjunto de dados coletados no mundo, no sentido de que as várias medidas preditivas aplicadas aos dados que você condicionou parecem melhores do que as mesmas medidas preditivas aplicadas a dados futuros que são gerado pelo mesmo processo. O capítulo 6 do livro bayesiano de Richard McElreath é dedicado à adaptação excessiva .

A severidade e a frequência do sobreajuste podem ser diminuídas por bons priores, principalmente aqueles que são informativos sobre a escala de um efeito. Ao colocar a probabilidade anterior de desaparecimento em valores implausivelmente grandes, você desencoraja a distribuição posterior de ficar excessivamente excitada por algum aspecto idiossincrático dos dados que você condiciona e que podem sugerir um efeito implausivelmente grande.

As melhores maneiras de detectar o sobreajuste envolvem a validação cruzada de exclusão única, que pode ser aproximada de uma distribuição posterior que na verdade não deixa nenhuma observação fora do conjunto de condicionamentos. Há uma suposição de que nenhuma "observação" individual que você condiciona tenha um efeito excessivamente grande na distribuição posterior, mas essa suposição é verificável avaliando o tamanho da estimativa do parâmetro de forma em uma distribuição Pareto Generalizada que é ajuste à importância dos pesos amostrais (que são derivados da probabilidade logarítmica de uma observação avaliada a cada sorteio da distribuição posterior). Se essa suposição for atendida, você poderá obter medidas preditivas para cada observação, como se essa observação tivesse sido omitida, o posterior foi extraído de condicional nas demais observações e a distribuição preditiva posterior foi construída para a observação omitida. Se suas previsões de observações deixadas de fora sofrerem, seu modelo foi adaptado para começar. Essas idéias são implementadas no pacote loo para R, que inclui citações como aqui e ali .

Quanto à destilação para um único número, eu gosto de calcular a proporção de observações que se enquadram em intervalos preditivos de 50%. Na medida em que essa proporção é maior que a metade, o modelo é super ajustado, embora você precise de mais do que algumas observações para reduzir o ruído na função do indicador de inclusão. Para comparar modelos diferentes (que podem superajustar), a densidade preditiva esperada do log (que é calculada pela loofunção no loopacote) é uma boa medida (proposta por IJ Good) porque leva em consideração a possibilidade de um modelo mais flexível ajustar os dados disponíveis melhor do que um modelo menos flexível, mas espera-se que os dados futuros sejam piores. Mas essas idéias podem ser aplicadas à expectativa de qualquer medida preditiva (que pode ser mais intuitiva para os profissionais); veja a E_loofunção no pacote loo .

[*] Você precisa escolher o que constitui uma observação em um modelo hierárquico. Por exemplo, você está interessado em prever um novo paciente ou um novo ponto no tempo para um paciente existente? Você pode fazê-lo de qualquer maneira, mas o primeiro exige que você (re) escreva a função de probabilidade para integrar os parâmetros específicos do paciente.

Ben Goodrich
fonte
2
Ben muito informativo. Muito obrigado por reservar um tempo para responder em detalhes. Para responder sua pergunta sobre o escopo, estou me referindo a novos pacientes. Fico com uma pergunta filosófica geral que adicionei ao final da pergunta original.
Frank Harrell
2
Costumo pensar em verificações como essas refletindo aspectos de nossas crenças anteriores que não criamos ou não pudemos construir nas distribuições anteriores que usamos. Por exemplo, em princípio, você deve especificar um PDF anterior conjunto sobre todos os parâmetros, mas quase sempre há muita suposição de que isso seja independente disso, a priori , não porque você realmente acredita que eles são independentes, mas apenas porque especifica a estrutura de dependência multivariada é muito difícil. Funções multivariadas, como previsões, podem ajudar a informar após o fato, se as entradas eram sensatas em conjunto.
Ben Goodrich
Isso faz um tremendo sentido e é muito perspicaz. Ainda me resta um pouco de dilema sobre a avaliação da precisão preditiva para assuntos "extremos", ou seja, aqueles com valores previstos muito baixos ou muito altos. [E para Bayes, que previu valores. É esses assuntos com uma deslocado distribuição posterior ou aqueles com uma baixa média alta / posterior]?
Frank Harrell
1
Outro pensamento sobre isso: parece que em muitas situações os praticantes têm crenças bastante coerentes e não controversas sobre o denominador da regra de Bayes. Por exemplo, se alguém tem esse ou aquele câncer, qual é a sua distribuição do tempo de sobrevivência sem condicionar mais nada? Mas é mais difícil e mais controverso especificar o numerador da Regra de Bayes, de modo que, se você integrar todos os parâmetros, ficará com o que acredita ser o denominador. A verificação preditiva (anterior e posterior) é uma forma de alinhar o numerador com o denominador da regra de Bayes.
Ben Goodrich
1

Sobreajuste significa que o modelo funciona bem no conjunto de treinamento, mas apresenta desempenho ruim no conjunto de teste. IMHO, vem de duas fontes: os dados e o modelo que usamos (ou nossa subjetividade).

k

Como resultado, se formos freqüentadores, a origem do sobreajuste vem do MLE. Se somos bayesianos, isso vem da escolha (subjetiva) da distribuição anterior (e, é claro, da escolha da probabilidade)). Portanto, mesmo se você usar a distribuição posterior / média / mediana, você já ajustou demais desde o início e esse ajuste será levado adiante. A escolha adequada da distribuição e probabilidade anteriores ajudará, mas ainda são os modelos, você nunca poderá evitar o ajuste excessivo.

SiXUlm
fonte
Ignorando a probabilidade de dados, que é comum em abordagens freqüentistas e bayesianas, a ideia de que a adaptação excessiva advém da escolha do anterior é perspicaz. Isso implica que não há como verificar se há sobreajuste, porque não há como nem é necessário verificar o prior se tivermos feito todos os nossos pré-dados pensando antecipadamente no prior. Mas ainda estou com a sensação de que previsões extremas mostrarão super adequação (regressão à média). O prior é sobre parâmetros, não sobre extremos nos dados.
Frank Harrell