No teorema bayesiano, , e do livro que estou lendo, é chamado de probabilidade , mas presumo que seja apenas a probabilidade condicional de dado , certo? p(x|y)
A estimativa de probabilidade máxima tenta maximizar , certo? Nesse caso, estou muito confuso, porque são duas variáveis aleatórias, certo? Maximizar é apenas descobrir o ? Mais um problema, se essas duas variáveis aleatórias são independentes, então é apenas , certo? Maximizar é maximizar .x , y p ( x | y ) p(x|y)p(x)p(x|y)p(x)
Ou talvez, seja uma função de alguns parâmetros , que é , e o MLE tenta encontrar o que pode maximizar ? Ou mesmo que seja, na verdade, os parâmetros do modelo, e não uma variável aleatória, maximizando a probabilidade de encontrar ?θ p ( x | y ; θ ) θ p ( x | y ) y y
ATUALIZAR
Sou iniciante em aprendizado de máquina, e esse problema é uma confusão das coisas que li em um tutorial de aprendizado de máquina. Aqui está, dado um conjunto de dados observado , os valores de destino são e tento ajustar um modelo nesse conjunto de dados , então suponho que, dado , tenha uma forma de distribuição denominada parametrizada por , que é , e assumo que essa seja a probabilidade posterior , certo?{ Y 1 , Y 2 , . . . , y n } x y W θ
Agora, para estimar o valor de , eu uso o MLE. OK, aí vem o meu problema, acho que a probabilidade é , certo? Maximizar a probabilidade significa que eu deveria escolher o e certo ?p ( x | y ; θ ) θ y
Se minha compreensão da probabilidade estiver errada, mostre-me o caminho certo.
fonte
Respostas:
Eu acho que o mal-entendido principal deriva de perguntas que você faz na primeira metade da sua pergunta. Abordo essa resposta como contrastando paradigmas inferenciais MLE e Bayesianos. Uma discussão muito acessível do MLE pode ser encontrada no capítulo 1 de Gary King, Unifying Political Methodology. A análise de dados bayesiana de Gelman pode fornecer detalhes sobre o lado bayesiano.
A probabilidade é uma probabilidade condicional. Para um bayesiano, essa fórmula descreve a distribuição do parâmetro com os dados e . Mas como essa notação não reflete sua intenção, a partir de agora usarei ( , ) para parâmetros e para seus dados.x p ( y ) θ y xy x p(y) θ y x
Mas sua atualização indica que são observados em alguma distribuição . Se colocarmos nossos dados e parâmetros nos locais apropriados na regra de Bayes, descobriremos que esses parâmetros adicionais não apresentam problemas para os bayesianos: p ( x | θ , y ) p ( θ | x , y ) = p ( x , y | θ ) p ( θ )x p(x|θ,y)
Acredito que essa expressão é o que você procura na sua atualização.
Sim. O MLE postula que Ou seja, trata o termo como desconhecido. (e incognoscível) constante. Por outro lado, a inferência bayesiana trata como uma constante normalizadora (de modo que as probabilidades somam / integram-se à unidade) como uma informação importante: a anterior. Podemos pensar em como uma maneira de incorrer em uma penalidade no procedimento de otimização por "andar muito longe" da região que achamos mais plausível.p ( θ , y )
No MLE, é assumido como uma quantidade fixa desconhecida, mas capaz de ser inferida, não uma variável aleatória. A inferência bayesiana trata como uma variável aleatória. Funções de densidade de Bayesian puts inferência de probabilidade em e recebe funções densidade de probabilidade para fora , ao invés de resumos de ponto do modelo, como no MLE. Ou seja, a inferência bayesiana examina toda a gama de valores de parâmetros e a probabilidade de cada um. O MLE postula que é um resumo adequado dos dados, conforme o modelo. qθ^ θ θ^
fonte
Normalmente é uma função do parâmetro . Considere a seguinte reformulação do teorema de Bayes:p(x|y) y
Ou ainda mais explicitamente (com relação à noção de probabilidade):
Para um exemplo concreto, considere o modelo
fonte
Se eles são independentes, ou seja, , é constante em relação a . Tenha cuidado aqui, pois você não especifica o que você está maximizando em relação ao - pelo que você escreveu anteriormente, eu assumiria que você está maximizando em relação a .p ( x ) y yp(x|y)=p(x) p(x) y y
A introdução de torna esse um problema totalmente novo. Em geral, a resposta para a maior parte dessa pergunta aqui parece ser 'depende'. Poderíamos denotar parâmetros como se quiséssemos, e maximizar com relação a eles. Da mesma forma, poderíamos ter uma situação em que maximizamos em relação aos parâmetros se essa fosse uma maneira sensata de abordar o problema em questão.y p ( x | y ; θ ) θθ y p(x|y;θ) θ
fonte
No manual de referência do STAN:
fonte