Modelagem de linguagem: por que adicionar 1 é tão importante?

8

Em muitas aplicações de processamento de linguagem natural, como correção ortográfica, tradução automática e reconhecimento de fala, usamos modelos de linguagem. Os modelos de linguagem são criados geralmente contando com que frequência as seqüências de palavras (n-gramas) ocorrem em um corpus grande e normalizando as contagens para criar uma probabilidade. Para explicar os n-gramas invisíveis, usamos métodos de suavização (veja vários listados aqui ) que retiram parte da massa de probabilidade dos n-gramas atestados no modelo e distribuem essa massa entre os n-gramas de ordem inferior (sequências mais curtas de palavras) ) probabilidades de retirada.

Muitas das técnicas de suavização tornam-se matematicamente complexas devido à restrição de que os cálculos devem manter a distribuição como uma probabilidade (deve adicionar até 1).

Qual é o motivo dessa restrição? Qual é a vantagem de usar probabilidades estritas para previsão em vez de pontuações de qualquer outro tipo?

PS A referência correspondente ao link é [Stanley F. Chen e Joshua Goodman (1998), "Um estudo empírico de técnicas de suavização para modelagem de linguagem"].

user9617
fonte
1
Eu não trabalho neste campo, mas não vejo por que somar os valores observados e depois dividir cada valor pelo total deve tornar o algoritmo pesado. Parece-me que, se os modelos forem muito complexos, lentos ou numericamente instáveis ​​(etc.), o problema provavelmente ocorrerá em outro lugar.
gung - Restabelece Monica
Não é difícil dividir as contagens em primeiro lugar. Fica mais complicado quando você faz a suavização. Katz, por exemplo: en.wikipedia.org/wiki/Katz's_back-off_model
user9617
@ user9617 seu link está inoperante, você pode atualizá-lo ou melhor adicionar a referência para que as pessoas ainda possam pesquisar no Google o recurso no futuro? Agradecemos antecipadamente
Antoine
@Antoine done. Não entendo direito o que aconteceu com o PDF ao qual estava vinculando antes, mas este é igualmente bom.
user9617
@ user9617 Obrigado +1! Eu adicionei a referência correspondente, caso o link morra novamente no futuro.
Antoine

Respostas:

5

As principais vantagens do uso de probabilidades estritas são: a) facilidade de interpretação dos números; eb) ser capaz de usar o teorema de Bayes e outros métodos probabilísticos em análises subsequentes. Em algumas situações, porém, é desnecessário. Por exemplo, se você deseja apenas classificar os resultados sem análises adicionais, não há necessidade de normalizar as pontuações.

dcorney
fonte