A conexão entre estatísticas bayesianas e modelagem generativa

15

Alguém pode me referir a uma boa referência que explica a conexão entre estatísticas bayesianas e técnicas de modelagem generativa? Por que geralmente usamos modelos generativos com técnicas bayesianas?

Por que é especialmente atraente usar estatísticas bayesianas na ausência de dados completos, se é que existe?

Observe que eu venho de uma visão mais orientada ao aprendizado de máquina e estou interessado em ler mais sobre isso na comunidade de estatísticas.

Qualquer boa referência que discuta esses pontos seria muito apreciada. Obrigado.

bayesiano
fonte
Eu tenho explorado sobre a diferença fundamental entre modos de transformação adaptativos e generativos. Parece que Bayesiano é adequado como modelo estatístico para estudar adaptativos, mas não generativos. Precisa chegar a essa conclusão com mais confiança.
1
Olá Srinidhi, bem-vindo ao site. Este é um site de perguntas e respostas. Você poderia reformular seu comentário em uma pergunta? Além disso, quanto mais específica for uma pergunta, maior a probabilidade de obter uma resposta útil.
naught101

Respostas:

12

No aprendizado de máquina, um modelo de probabilidade completo p (x, y) é chamado de generativo porque pode ser usado para gerar os dados, enquanto um modelo condicional p (y | x) é chamado de discriminativo porque não especifica um modelo de probabilidade para p (x ) e só pode gerar y dado x. Ambos podem ser estimados da maneira bayesiana.

A estimativa bayesiana é inerentemente sobre a especificação de um modelo de probabilidade completo e a execução de inferência condicional no modelo e nos dados. Isso faz com que muitos modelos bayesianos tenham uma sensação generativa. No entanto, para um bayesiano, a distinção importante não é tanto sobre como gerar os dados, mas mais sobre o que é necessário para obter a distribuição posterior dos parâmetros desconhecidos de interesse.

O modelo discriminativo p (y | x) faz parte de um modelo maior em que p (y, x) = p (y | x) p (x). Em muitos casos, p (x) é irrelevante para a distribuição posterior dos parâmetros no modelo p (y | x). Especificamente, se os parâmetros de p (x) são distintos de p (y | x) e os anteriores são independentes, o modelo p (x) não contém informações sobre os parâmetros desconhecidos do modelo condicional p (y | x), portanto, um bayesiano não precisa modelá-lo.


Em um nível mais intuitivo, há um vínculo claro entre "gerar dados" e "computar a distribuição posterior". Rubin (1984) fornece a seguinte excelente descrição deste link:

insira a descrição da imagem aqui


A estatística bayesiana é útil, dada a falta de dados, principalmente porque fornece uma maneira unificada de eliminar os parâmetros de incômodo - a integração. Os dados ausentes podem ser considerados como (muitos) parâmetros incômodos. Propostas alternativas, como inserir o valor esperado, normalmente apresentam desempenho ruim, porque raramente podemos estimar células de dados ausentes com altos níveis de precisão. Aqui, a integração é melhor que a maximização.

Modelos discriminativos como p (y | x) também se tornam problemáticos se x incluir dados ausentes, pois só temos dados para estimar p (y | x_obs), mas os modelos mais sensíveis são escritos com relação aos dados completos p (y | x). Se você tem um modelo de probabilidade completo p (y, x) e é bayesiano, está bem, pois pode integrar-se apenas sobre os dados ausentes, como faria com qualquer outra quantidade desconhecida.

Tristan
fonte
2

@Tristan: Espero que você não se importe com a reformulação de sua resposta, pois estou trabalhando em como tornar o argumento geral o mais transparente possível.

Para mim, o principalO insight nas estatísticas é conceitualizar observações repetidas que variam - como sendo geradas por um modelo de geração de probabilidade, como Normal (mu, sigma). No início de 1800, s os modelos geradores de probabilidade apresentados eram geralmente apenas para erros de medição com o papel de parâmetros, como mu e sigma e anteriores para eles confusos. As abordagens freqüentistas tomaram os parâmetros como fixos e desconhecidos e, portanto, os modelos geradores de probabilidade envolveram apenas possíveis observações. Abordagens bayesianas (com antecedentes apropriados) têm probabilidade de gerar modelos para possíveis parâmetros desconhecidos e possíveis observações. Esses modelos de geração conjunta de probabilidades são responsáveis ​​por todas as incógnitas possíveis - para ser mais genéricas - possíveis (como parâmetros) e conhecidas (como observações). Como no link de Rubin que você deu,

Na verdade, isso foi muito claramente descrito por Galton em um quincunce de duas etapas no final de 1800, s. Veja a figura 5> Stigler, Stephen M. 2010. Darwin, Galton e a estatística

iluminação. Jornal da Sociedade Estatística Real: Série A 173 (3): 469-482 . .

É equivalente, mas talvez mais transparente que

posterior = anterior (possíveis desconhecidos | possíveis conhecidos = conhecidos)

do que posterior ~ anterior (possíveis incógnitas) * p (possíveis conhecidos = conhecidos | possíveis desconhecidos)

Nada muito novo para os valores ausentes no primeiro, pois apenas adicionamos possíveis incógnitas para um modelo de probabilidade que gera valores ausentes e trata os ausentes como apenas um dos possíveis conhecidos (ou seja, a terceira observação estava ausente).

Recentemente, a computação bayesiana aproximada (ABC) levou a sério essa abordagem construtiva de simulação em dois estágios quando p (possíveis conhecidos = conhecidos | possíveis desconhecidos) não pode ser calculado. Mas mesmo quando isso pode ser resolvido e o posterior facilmente obtido a partir da amostragem MCMC (ou mesmo quando o posterior está diretamente disponível devido ao conjugado anterior), o ponto de Rubin sobre essa construção de amostragem em dois estágios possibilitando uma compreensão mais fácil, não deve ser negligenciado.

Por exemplo, tenho certeza de que teria captado o que o @Zen fez aqui Bayesianos: escravos da função de probabilidade? porque seria necessário desenhar um possível c desconhecido de um anterior (estágio um) e, em seguida, desenhar um possível dado (dado), dado que c (estágio 2) que não teria sido uma geração aleatória, pois p (possíveis conhecimentos | c) não ter sido uma probabilidade, exceto uma e apenas uma c.

From @Zen “Infelizmente, em geral, essa não é uma descrição válida de um modelo estatístico. O problema é que, por definição,fXEuC(c) deve ser uma densidade de probabilidade para quase todos os valores possíveis dec, o que é, em geral, claramente falso. "

phaneron
fonte