Algumas fontes dizem que a função de probabilidade não é uma probabilidade condicional, outras dizem que é. Isso é muito confuso para mim.
De acordo com a maioria das fontes que eu vi, a probabilidade de uma distribuição com o parâmetro deve ser um produto de funções de massa de probabilidade dadas amostras de :n x i
Por exemplo, em Regressão logística, usamos um algoritmo de otimização para maximizar a função de probabilidade (Estimação de máxima verossimilhança) para obter os parâmetros ideais e, portanto, o modelo final de RL. Dadas as amostras de treinamento, que assumimos serem independentes uma da outra, queremos maximizar o produto das probabilidades (ou as funções de massa da probabilidade conjunta). Isso me parece bastante óbvio.
De acordo com a relação entre: probabilidade, probabilidade condicional e taxa de falhas , "probabilidade não é uma probabilidade e não é uma probabilidade condicional". Ele também mencionou: "probabilidade é uma probabilidade condicional apenas no entendimento bayesiano de probabilidade, ou seja, se você assumir que é uma variável aleatória".
Eu li sobre as diferentes perspectivas de tratamento de um problema de aprendizagem entre frequentista e bayesiano.
Segundo uma fonte, para inferência bayesiana, temos a priori , probabilidade , e queremos obter o posterior , usando o teorema bayesiano:
Não estou familiarizado com a inferência bayesiana. Como é que que é a distribuição dos dados observados condicional aos seus parâmetros, também é chamado de probabilidade? Na Wikipedia , diz que às vezes está escrito . O que isto significa?
existe uma diferença entre as definições de verossimilhança Frequentist e Bayesian ??
Obrigado.
EDITAR:
Existem diferentes maneiras de interpretar o teorema de Bayes - interpretação Bayesiana e interpretação Frequentista (Veja: Teorema de Bayes - Wikipedia ).
fonte
Respostas:
Não há diferença na definição - em ambos os casos, a função de probabilidade é qualquer função do parâmetro que seja proporcional à densidade de amostragem. A rigor, não exigimos que a probabilidade seja igual à densidade amostral; precisa apenas ser proporcional, o que permite a remoção de partes multiplicativas que não dependem dos parâmetros.
Enquanto a densidade de amostragem é interpretada como uma função dos dados, condicional a um valor especificado do parâmetro, a função de probabilidade é interpretada como uma função do parâmetro para um vetor de dados fixo. Portanto, no caso padrão de dados IID, você tem:
Nas estatísticas bayesianas, geralmente expressamos o teorema de Bayes em sua forma mais simples:
Essa expressão do teorema de Bayes enfatiza que ambos os seus elementos multilicativos são funções do parâmetro, que é o objeto de interesse na densidade posterior. (Esse resultado da proporcionalidade define completamente a regra, já que a posterior é uma densidade e, portanto, há uma constante multiplicadora única que a integra a uma.) Como você ressalta em sua atualização, a filosofia bayesiana e a frequentista têm estruturas interpretativas diferentes. Dentro do paradigma frequentista, o parâmetro é geralmente tratado como uma "constante fixa" e, portanto, não é atribuída uma medida de probabilidade. Os freqüentistas, portanto, rejeitam a atribuição de uma distribuição anterior ou posterior ao parâmetro (para mais discussões sobre essas diferenças filosóficas e interpretativas, ver, por exemplo, O'Neill 2009 ).
fonte
A função de verossimilhança é definida independentemente ou antes do paradigma estatístico usado para inferência, como uma função, (ou ), do parâmetro , function isso depende ou é indexado por observação (s) disponível para esta inferência. E também implicitamente, dependendo da família de modelos de probabilidade escolhidos para representar a variabilidade ou aleatoriedade nos dados. Para um determinado valor do par , o valor dessa função é exatamente idêntico ao valor da densidade do modelo em− − L(θ;x) L(θ|x) θ − − x (θ,x) x quando indexado com o parâmetro . θ O que geralmente é traduzido de forma grosseira como a "probabilidade dos dados".
Para citar fontes mais autoritativas e históricas do que uma resposta anterior neste fórum,
e
que menciona uma proporcionalidade que Jeffreys (e eu) consideramos supérfluos:
Para citar apenas uma frase da excelente entrada histórica para o tópico de John Aldrich (Statistical Science, 1997):
Ao adotar uma abordagem bayesiana, a função de probabilidade não muda de forma ou de natureza. Ele continua sendo a densidade em indexada por . A característica adicional é que, uma vez que também é dotada com um modelo probabilístico, a distribuição antes, a densidade a indexados por também pode ser interpretado como um condicional densidade, dependente de uma realização de : em uma modelagem Bayesiana , uma realização de é produzida a partir do anterior, com densidade , depois uma realização de ,x θ θ x θ θ θ π(⋅) X x , é produzido a partir da distribuição com densidade , indexada por . Em outras palavras, e com relação à medida dominante adequada, o par tem densidade articular
da qual se deriva a densidade posterior de , isto é, a densidade condicional de , condicional à realização de como
também expressa como
encontrado desde Jeffreys (1939) .L(θ|⋅) θ (θ,x)
Nota: Acho a distinção feita na introdução da página da Wikipedia sobre funções de probabilidade entre probabilidades freqüentistas e bayesianas confusas e desnecessárias, ou simplesmente erradas, pois a grande maioria dos estatísticos bayesianos atuais não usa a probabilidade como um substituto para a probabilidade posterior. Da mesma forma, a "diferença" apontada na página da Wikipedia sobre o Teorema de Bayes parece mais confusa do que qualquer outra coisa, pois esse teorema é uma declaração de probabilidade sobre uma mudança de condicionamento, independente do paradigma ou do significado de uma declaração de probabilidade. ( Na minha opinião , é mais uma definição do que um teorema!)
fonte
Como um pequeno adendo:
O nome "Probabilidade" é totalmente enganador, porque existem muitos significados possíveis. Não apenas o "idioma normal", mas também nas estatísticas. Eu posso pensar em pelo menos três expressões diferentes, mas até relacionadas, todas chamadas de Probabilidade; mesmo em livros de texto.
Dito isto, ao adotar a definição multiplicativa de Probabilidade, não há nada que a transforme em qualquer tipo de probabilidade no sentido de sua definição (por exemplo, axiomática). É um número com valor real. Você pode fazer muitas coisas para calculá-lo ou relacioná-lo a uma probabilidade (calcular proporções, calcular anteriores e posteriores etc.) - mas, por si só, não tem significado em termos de probabilidade.
A resposta foi mais ou menos obsoleta pela resposta muito mais informativa e abrangente de Xi'an. Mas, mediante solicitação, algumas definições de livro de probabilidade de Probabilidade:
fonte