Como você calcula a densidade ou dispersão de um conjunto de dados?

8

Estou analisando mais profundamente a filtragem colaborativa. Um artigo realmente interessante é "Um Estudo Comparativo de Algoritmos de Filtragem Colaborativa" http://arxiv.org/pdf/1205.3193.pdf

Para selecionar qual algoritmo de CF deve ser usado, o artigo se refere à densidade do conjunto de dados. O que isso não faz é explicar como você realmente calcula a densidade do seu conjunto de dados.

Portanto, no contexto desse artigo acima, alguém pode me ajudar a explicar como calcularia a densidade de um conjunto de dados? O documento refere-se regularmente a densidade na faixa de 1 a 5%.

djones
fonte

Respostas:

7

Na verdade, é definido na primeira página:

... nível de escarsidade (razão entre o observado e o total de classificações) ...

Em outras palavras, a fração da matriz de classificação de usuário / item que não está vazia. Lembre-se de que o problema é que a maioria dos pares de itens do usuário não tem classificação e desejamos calculá-los.

Exemplo :

Que haja três usuários e quatro produtos. O número de classificações possíveis é . Se cada usuário classificar apenas um produto cada (independentemente de qual produto), a densidade será 3/12 = 25%.3×4=12

Emre
fonte
11
de acordo com este exemplo de dados simples: O usuário 1 classifica o Produto A. O usuário 2 classifica o Produto B. O usuário 3 classifica o Produto A. O produto C e o produto D sai sem classificações. Qual seria a densidade? 50%?
DJones
11
Existem três usuários (1,2,3) e quatro produtos (A, B, C, D). Existem três classificações (1A, 2B, 3A), portanto a densidade é 3/12 = 25%.
Emre
11
@ Emre Você deve colocar esse exemplo em sua resposta.
Martin Thoma
Eu realmente gosto da resposta aqui, mas. Para ser mais preciso, esparsidade e densidade são fração de classificações não preenchidas e classificações preenchidas, respectivamente. Eles não podem ser tratados de forma intercambiável. No entanto, densidade + esparsidade deve resultar em 1,0. Eu sei que devido à definição do artigo @Emre deu a boa resposta. Mas a definição de esparsidade como densidade real é enganosa.
Bartłomiej Twardowski
Eu concordo, mas é assim que eles definiram, e é comum.
Emre