Razão de probabilidade de log no resumo de documentos

9

Inicialmente, eu perguntei isso no estouro de pilha e fui encaminhado para este site, então aqui vai:

Estou implementando alguns métodos não supervisionados de resumo de documentos com base na seleção / extração de conteúdo e estou confuso sobre o que meu livro chama de "razão de probabilidade de log". O livro Speech and Language Processing, de Jurafsky & Martin, descreve-o brevemente como tal:

O LLR de uma palavra, geralmente chamado lambda (w), é a razão entre a probabilidade de observar w no corpo de entrada e no segundo plano assumindo probabilidades iguais em ambos os corpora e a probabilidade de observar w em ambos assumindo probabilidades diferentes para w na entrada e no corpus de fundo.

Por fim, temos o numerador: "a probabilidade de observar w no corp de entrada e no segundo plano assumindo probabilidades iguais nos dois corpora" - Como calculo qual probabilidade usar aqui?

e o denominador: "a probabilidade de observar w, assumindo probabilidades diferentes para w na entrada e no corpus de fundo". - isso é tão simples quanto a probabilidade da palavra ocorrer nos tempos de entrada e a probabilidade da palavra ocorrer no corpus? ex:

(contagem (palavra, entrada) / total de palavras na entrada) * (contagem (palavra, corpus) / total de palavras no corpus)

Estive pesquisando um artigo sobre minhas referências de livros, Métodos Exatos para Estatísticas de Surpresa e Coincidência (Dunning 1993), mas estou tendo dificuldade em me relacionar com o problema de calcular valores LLR para palavras individuais em resumo baseado em extração. Qualquer esclarecimento aqui seria muito apreciado.

Richard
fonte
11
Você pode nos dizer qual é o livro?
onestop
Fala e Processamento de Linguagem por Jurafsky & Martin
Richard

Respostas:

1

Com meu conhecimento limitado, penso:

  1. "a probabilidade de observar w na entrada" requer uma distribuição para calcular o valor
  2. "a probabilidade de observar w no corpo de entrada e no segundo plano assumindo probabilidades iguais em ambos os corpora" significa "a probabilidade de observar w ... dado que a probabilidade de w é igual nos dois corpora".

Aqui está a minha formulação:


Formulando um pouco o problema:

  1. Hipótese 1: P (w na entrada) = P (w no fundo) = p
  2. Hipótese 2: P (w na entrada) = p1 e P (w no fundo) = p2 e p1 p2

A parte crítica é que você precisará assumir uma distribuição aqui. Simplisticamente, assumimos a distribuição binomial para gerar w em um texto. Dados os dados amostrados, podemos usar a estimativa de probabilidade máxima para calcular o valor de p, p1 e p2, e aqui estão eles:

  1. p = (contagem de w-in-input + contagem de w-in-background) / (tamanho da entrada + tamanho do background) = (c1 + c2) / (N1 + N2)
  2. p1 = c1 / N1
  3. p2 = c2 / N2

Queremos saber qual hipótese é mais provável. Portanto, calculamos a probabilidade de cada hipótese e comparamos uma com a outra (que é basicamente o que a taxa de probabilidade faz).

Como assumimos a distribuição binomial , podemos calcular a probabilidade de ter c1 e c2.

Para a hipótese 1:

L (c1) = A probabilidade de observar w na entrada = a probabilidade de atingir c1 quando houver N1 palavras assumindo a probabilidade p (ou, em outras palavras, selecionar w para c1 vezes fora de N1 vezes) é b (N1, c1 , p) - consulte a fórmula de probabilidade binomial aqui

L (c2) = A probabilidade de observar w em segundo plano = a probabilidade de atingir c2 quando houver N2 palavras assumindo que a probabilidade p seja b (N2, c2, p)

Para a hipótese 2, podemos usar p1 e p2.

Agora queremos saber qual hipótese é mais provável; precisaremos de alguma forma como comparar um valor de saída de cada hipótese.

Mas cada hipótese tem 2 valores, L (c1) e L (c2). Como podemos comparar qual hipótese é mais provável? --- Optamos por multiplicá-los para obter uma saída de valor único. (porque é análogo à geometria, eu acho)

Tanin
fonte
em seus itens, p, p1 e p2 são estimativas de p, p1 e p2, certo?
Xian
Sim esta correto. Estatisticamente falando, são as estimativas de probabilidade máxima, dados os dados da amostra e a distribuição binomial.
Tanin
Obrigado por apontar, btw. Eu melhorei a resposta.
Tanin