Qual é / são as diferenças entre estes modelos de representação de texto: Conjunto de palavras e modelo de espaço vetorial?
machine-learning
text-mining
samsamara
fonte
fonte
Respostas:
O pacote de palavras e o modelo de espaço vetorial se referem a diferentes aspectos da caracterização de um corpo de texto, como um documento. Eles são descritos bem no livro "Processamento de fala e linguagem" de Jurafsky e Martin, 2009, na seção 23.1 sobre recuperação de informações. Uma referência mais concisa é "Introdução à recuperação de informações", de Manning, Raghavan e Schütze, 2008, na seção "O modelo de espaço vetorial para pontuação".
Saco de palavras refere-se a que tipo de informação você pode extrair de um documento (ou seja, palavras unigramas). O modelo de espaço vetorial refere-se à estrutura de dados de cada documento (ou seja, um vetor de característica dos pares termo e termo). Ambos os aspectos se complementam.
Mais especificamente:
Bag of words : para um determinado documento, você extrai apenas as palavras unigramas (termos conhecidos) para criar uma lista não ordenada de palavras. Nenhuma tag POS, sintaxe, semântica, posição, bigrams ou trigramas. Apenas as próprias palavras do unigrama, criando um monte de palavras para representar o documento. Assim: Saco de palavras .
Modelo de espaço vetorial : dado o conjunto de palavras que você extraiu do documento, você cria um vetor de recurso para o documento, em que cada recurso é uma palavra (termo) e o valor do recurso é um peso do termo. O termo peso pode ser:
O documento inteiro é, portanto, um vetor de característica, e cada vetor de característica corresponde a um ponto em um espaço vetorial . O modelo para este espaço vetorial é tal que existe um eixo para cada termo no vocabulário e, portanto, o espaço vetorial é V- dimensional, onde V é o tamanho do vocabulário. O vetor também deve conceitualmente ser V- dimensional, com um recurso para cada termo do vocabulário. No entanto, como o vocabulário pode ser grande (da ordem de V = 100.000s de termos), o vetor de recurso de um documento normalmente conterá apenas os termos que ocorreram nesse documento e omitirá os termos que não o fizeram. Esse vetor de característica é considerado escasso .
Um exemplo de representação vetorial de um documento pode ser assim:
onde esse vetor de exemplo tem um ID de documento (por exemplo, 42), um rótulo de verdade sobre o solo (por exemplo, política) e uma lista de características e valores de características que compreendem pares de termos e frequências de termos. Aqui, pode-se ver que a palavra "ausente" ocorreu 2 vezes neste documento.
fonte
Será que, ao usar Bag of Words, você atribui a frequência das palavras ao elemento da matriz termo do documento e no Vector Space Model os elementos da matriz termo termo do documento são bastante gerais, desde que as operações (produto em ponto) no espaço vetorial façam sentido (pesos tf-idf, por exemplo)?
fonte