Modelagem de linguagem: por que adicionar 1 é tão importante?

Em muitas aplicações de processamento de linguagem natural, como correção ortográfica, tradução automática e reconhecimento de fala, usamos modelos de linguagem. Os modelos de linguagem são criados geralmente contando com que frequência as seqüências de palavras (n-gramas) ocorrem em um corpus grande e normalizando as contagens para criar uma probabilidade. Para explicar os n-gramas invisíveis, usamos métodos de suavização (veja vários listados aqui ) que retiram parte da massa de probabilidade dos n-gramas atestados no modelo e distribuem essa massa entre os n-gramas de ordem inferior (sequências mais curtas de palavras) ) probabilidades de retirada.

Muitas das técnicas de suavização tornam-se matematicamente complexas devido à restrição de que os cálculos devem manter a distribuição como uma probabilidade (deve adicionar até 1).

Qual é o motivo dessa restrição? Qual é a vantagem de usar probabilidades estritas para previsão em vez de pontuações de qualquer outro tipo?

PS A referência correspondente ao link é [Stanley F. Chen e Joshua Goodman (1998), "Um estudo empírico de técnicas de suavização para modelagem de linguagem"].

distributions modeling natural-language language-models user9617
fonte

Eu não trabalho neste campo, mas não vejo por que somar os valores observados e depois dividir cada valor pelo total deve tornar o algoritmo pesado. Parece-me que, se os modelos forem muito complexos, lentos ou numericamente instáveis (etc.), o problema provavelmente ocorrerá em outro lugar.

gung - Restabelece Monica

Não é difícil dividir as contagens em primeiro lugar. Fica mais complicado quando você faz a suavização. Katz, por exemplo: en.wikipedia.org/wiki/Katz's_back-off_model

user9617

@ user9617 seu link está inoperante, você pode atualizá-lo ou melhor adicionar a referência para que as pessoas ainda possam pesquisar no Google o recurso no futuro? Agradecemos antecipadamente

Antoine

@Antoine done. Não entendo direito o que aconteceu com o PDF ao qual estava vinculando antes, mas este é igualmente bom.

user9617

@ user9617 Obrigado +1! Eu adicionei a referência correspondente, caso o link morra novamente no futuro.

Antoine

Modelagem de linguagem: por que adicionar 1 é tão importante?

Respostas: