Inicialmente, eu perguntei isso no estouro de pilha e fui encaminhado para este site, então aqui vai:
Estou implementando alguns métodos não supervisionados de resumo de documentos com base na seleção / extração de conteúdo e estou confuso sobre o que meu livro chama de "razão de probabilidade de log". O livro Speech and Language Processing, de Jurafsky & Martin, descreve-o brevemente como tal:
O LLR de uma palavra, geralmente chamado lambda (w), é a razão entre a probabilidade de observar w no corpo de entrada e no segundo plano assumindo probabilidades iguais em ambos os corpora e a probabilidade de observar w em ambos assumindo probabilidades diferentes para w na entrada e no corpus de fundo.
Por fim, temos o numerador: "a probabilidade de observar w no corp de entrada e no segundo plano assumindo probabilidades iguais nos dois corpora" - Como calculo qual probabilidade usar aqui?
e o denominador: "a probabilidade de observar w, assumindo probabilidades diferentes para w na entrada e no corpus de fundo". - isso é tão simples quanto a probabilidade da palavra ocorrer nos tempos de entrada e a probabilidade da palavra ocorrer no corpus? ex:
(contagem (palavra, entrada) / total de palavras na entrada) * (contagem (palavra, corpus) / total de palavras no corpus)
Estive pesquisando um artigo sobre minhas referências de livros, Métodos Exatos para Estatísticas de Surpresa e Coincidência (Dunning 1993), mas estou tendo dificuldade em me relacionar com o problema de calcular valores LLR para palavras individuais em resumo baseado em extração. Qualquer esclarecimento aqui seria muito apreciado.
fonte
Respostas:
Com meu conhecimento limitado, penso:
Aqui está a minha formulação:
Formulando um pouco o problema:
A parte crítica é que você precisará assumir uma distribuição aqui. Simplisticamente, assumimos a distribuição binomial para gerar w em um texto. Dados os dados amostrados, podemos usar a estimativa de probabilidade máxima para calcular o valor de p, p1 e p2, e aqui estão eles:
Queremos saber qual hipótese é mais provável. Portanto, calculamos a probabilidade de cada hipótese e comparamos uma com a outra (que é basicamente o que a taxa de probabilidade faz).
Como assumimos a distribuição binomial , podemos calcular a probabilidade de ter c1 e c2.
Para a hipótese 1:
L (c1) = A probabilidade de observar w na entrada = a probabilidade de atingir c1 quando houver N1 palavras assumindo a probabilidade p (ou, em outras palavras, selecionar w para c1 vezes fora de N1 vezes) é b (N1, c1 , p) - consulte a fórmula de probabilidade binomial aqui
L (c2) = A probabilidade de observar w em segundo plano = a probabilidade de atingir c2 quando houver N2 palavras assumindo que a probabilidade p seja b (N2, c2, p)
Para a hipótese 2, podemos usar p1 e p2.
Agora queremos saber qual hipótese é mais provável; precisaremos de alguma forma como comparar um valor de saída de cada hipótese.
Mas cada hipótese tem 2 valores, L (c1) e L (c2). Como podemos comparar qual hipótese é mais provável? --- Optamos por multiplicá-los para obter uma saída de valor único. (porque é análogo à geometria, eu acho)
fonte