Quais são os prós e os contras da aplicação de informações mútuas pontuais em uma matriz de co-ocorrência de palavras antes do SVD?

11

Uma maneira de gerar incorporação de palavras é a seguinte ( espelho ):

  1. Obtenha um corpora, por exemplo: "Gosto de voar. Gosto de PNL. Gosto de aprendizado profundo".
  2. Crie a palavra matriz de coocorrência a partir dela:

insira a descrição da imagem aqui

  1. Execute o SVD no X e mantenha as primeiras k colunas de U.

insira a descrição da imagem aqui

você1 1:|V|,1 1:k

Entre as etapas 2 e 3, às vezes são aplicadas informações mútuas pontuais (por exemplo, A. Herbelot e EM Vecchi. 2015. Construindo um mundo compartilhado: mapeando a distribuição para os espaços semânticos teóricos do modelo . Lisboa, Portugal .).

Quais são os prós e os contras da aplicação de informações mútuas pontuais em uma matriz de co-ocorrência de palavras antes do SVD?

Franck Dernoncourt
fonte

Respostas:

11

de acordo com o livro de Dan Jurafsky e James H. Martin :

"Acontece, porém, que a frequência simples não é a melhor medida de associação entre as palavras. Um problema é que a frequência bruta é muito distorcida e não muito discriminativa. Se queremos saber que tipos de contexto são compartilhados por damasco e abacaxi mas não por informações e informações digitais, não seremos discriminados por palavras como a, ela ou elas, que ocorrem frequentemente com todo tipo de palavras e não são informativas sobre nenhuma palavra específica ".

às vezes substituímos essa frequência bruta por informações mútuas positivas positivas:

PPMI(W,c)=max(registro2P(W,c)P(W)P(c),0 0)

O PMI, por si só, mostra o quanto é possível observar uma palavra w com uma palavra de contexto C e comparar com observá-las independentemente. No PPMI, mantemos apenas valores positivos do PMI. Vamos pensar quando o PMI é + ou - e por que mantemos apenas negativos:

O que significa PMI positivo?

  • P(W,c)(P(W)P(c))>1 1

  • P(W,c)>(P(W)P(c))

  • isso acontece quando e ocorrem mutuamente mais do que individualmente, como chute e bola. Gostaríamos de mantê-los!Wc

O que significa PMI negativo?

  • P(W,c)(P(W)P(c))<1 1

  • P(W,c)<(P(W)P(c))

  • significa que e ou um deles tendem a ocorrer individualmente! Pode indicar estatísticas não confiáveis ​​devido a dados limitados, caso contrário, mostra co-ocorrências não informativas, por exemplo, 'the' e 'ball'. ('the' também ocorre com a maioria das palavras.)Wc

O PMI ou particularmente o PPMI nos ajuda a capturar essas situações com co-ocorrência informativa.

Maryam Hnr
fonte