Coeficientes de similaridade para dados binários: Por que escolher Jaccard em vez de Russell e Rao?

20

De Encyclopedia of Sciences estatísticos compreendo que dada dicotómica (binário: 1 = presente; 0 = ausente) atributos (variáveis), que pode formar uma tabela de contingência para quaisquer dois objectos i e j de uma amostra:p

         j
       1   0
      -------
  1  | a | b |
i     -------
  0  | c | d |
      -------
a = number of variables on which both objects i and j are 1
b = number of variables where object i is 1 and j is 0
c = number of variables where object i is 0 and j is 1
d = number of variables where both i and j are 0
a+b+c+d = p, the nubmer of variables.

Podemos calcular a partir desses valores os coeficientes de similaridade entre qualquer par de objetos, especificamente o coeficiente de Jaccard e o coeficiente de Russell e Rao

aa+b+c
aa+b+c+d=ap.

Quando calculados, esses coeficientes fornecerão valores diferentes, mas não encontro recursos que expliquem por que devo escolher um sobre o outro. É apenas porque, para alguns conjuntos de dados, a ausência simultânea de ambos os atributos ( ) não transmite nenhuma informação?d

wflynny
fonte

Respostas:

14

Existem muitos desses coeficientes (a maioria é expressa aqui ). Apenas tente meditar sobre quais são as consequências das diferenças nas fórmulas, especialmente quando você calcula uma matriz de coeficientes.

Imagine, por exemplo, que os objetos 1 e 2 semelhantes, como os objetos 3 e 4 são. Mas 1 e 2 têm muitos dos atributos na lista, enquanto 3 e 4 têm apenas alguns atributos. Nesse caso, Russell-Rao (proporção de co-atributos para o número total de atributos em consideração) será alto para o par 1-2 e baixo para o par 3-4. Mas Jaccard (proporção de co-atributos para o número combinado de atributos que ambos os objetos têm = probabilidade de que, se um objeto tem um atributo, então ambos o têm) será alto para os pares 1-2 e 3-4.

Esse ajuste para o nível básico de "saturação por atributos" torna Jaccard tão popular e mais útil que Russell-Rao , por exemplo, na análise de cluster ou na escala multidimensional. De certo modo, você pode refinar ainda mais o ajuste acima, selecionando a medida Kulczynski-2 , que é a probabilidade média aritmética de que, se um objeto tem um atributo, o outro objeto também:

(aa+b+aa+c)/2
Aqui, a base (ou campo) de atributos para os dois objetos não é agrupada, como em Jaccard, mas é própria para cada um dos dois objetos. Conseqüentemente, se os objetos diferem muito no número de atributos que possuem, e todos os seus atributos o objeto "mais pobre" compartilha com o "mais rico", Kulczynski será alto, enquanto Jaccard será moderado.

Ou você pode preferir calcular a probabilidade média geométrica de que, se um objeto tem um atributo, o outro objeto também, o que produz a medida Ochiai : Como o produto aumenta mais que a soma quando apenas um dos termos cresce, Ochiai será realmente alto apenas se as duas proporções (probabilidades) forem altas, o que implica que, para ser considerado similar por Ochiai, os objetos devem compartilhar o grande ações de seus atributos. Em resumo, Ochiai reduz a semelhança se e forem desiguais. Ochiai é de fato a medida de similaridade do cosseno (e Russell-Rao é a similaridade do produto escalar).

aa+baa+c
bc

PS

É apenas porque, para alguns conjuntos de dados, a ausência simultânea de ambos os atributos (d) não transmite nenhuma informação?

Falando em medidas de similaridade, não se deve misturar atributos dicotômicos nominais (por exemplo, feminino, masculino) com atributos binários (presente versus ausente). O atributo binário não é simétrico (em geral); se você e eu compartilhamos uma característica, é a base para nos chamar de semelhantes; se você e eu perdermos a característica, ela pode ou não ser considerada evidência de similaridade, dependendo do contexto do estudo. Portanto, o tratamento divergente de é possível.d

Observe também que se você deseja calcular a similaridade entre objetos com base em mais de 1 atributo nominal (dicotômico ou politômico), recodifique cada uma dessas variáveis ​​no conjunto de variáveis ​​binárias fictícias. A medida de similaridade recomendada para o cálculo será Dice ( que , quando calculado para mais de 1 conjunto de variáveis ​​dummy, é equivalente a Ochiai e Kulczynski-2).

ttnphns
fonte
2
Vários termos foram sugeridos por suposta analogia com "dicotômico" para classificações com mais de duas categorias. "Polytomous" é preferível linguisticamente a "policotomous", que é baseado em uma suposição incorreta de que "dicotomous" analisa em duas raízes gregas, "di" e "chotomous". Compostos "multicotômicos" que erro com o uso de uma raiz latina. Embora palavras com raízes latinas e gregas separadas tenham sobrevivido ao desdém dos linguistas (por exemplo, "televisão"), aconselho o uso de "politômicos" aqui.
Nick Cox
Obrigado por lembrá-lo. Na verdade, eu sabia do que você está falando e tento ser purista ... quando não estou com pressa. Eu vou editar.
ttnphns
3

A utilidade do coeficiente de Tanimoto sobre a precisão tradicional (isto é, Russell-Rao) é evidente na análise de imagens, ao comparar uma segmentação com um padrão-ouro. Considere estas duas imagens:

insira a descrição da imagem aqui

Em cada uma dessas imagens que são 'máscaras' binárias, temos dois objetos do mesmo tamanho, mas colocados em locais ligeiramente diferentes, e queremos avaliar até que ponto esses objetos são idênticos em forma e posição, avaliando sua sobreposição. Normalmente, uma (por exemplo, a máscara roxa) é uma segmentação (produzida por um algoritmo de computador); por exemplo, isso pode ser uma tentativa de localizar o coração a partir de uma imagem médica. O outro (por exemplo, verde) é o padrão-ouro (ou seja, o coração, conforme identificado por um médico especialista). Onde há cor branca, as duas formas se sobrepõem. Pixels pretos são fundo.

As duas imagens são idênticas (ou seja, o resultado do algoritmo de segmentação, bem como o padrão-ouro, são as mesmas em ambas as imagens), exceto por muitos "preenchimentos" de segundo plano na segunda imagem (por exemplo, isso pode representar dois experimentos com duas máquinas de raio-x diferentes, em que a segunda máquina possuía um raio mais amplo cobrindo mais área do corpo, mas, caso contrário, o tamanho do coração é o mesmo nos dois conjuntos de imagens).

Claramente, como a segmentação e o padrão-ouro em ambas as imagens são idênticos, se avaliarmos a precisão da segmentação em relação ao padrão-ouro, gostaríamos que nossa métrica produzisse o mesmo resultado de 'precisão' nos dois experimentos.

No entanto, se tentarmos avaliar a qualidade da segmentação usando a abordagem Russel-Rao, obteremos uma precisão enganosamente alta para a imagem certa (perto de 100%), porque "pixels de fundo identificados corretamente como pixels de fundo" contribuem para a a precisão geral dos conjuntos e os pixels de fundo são desproporcionalmente representados no segundo conjunto. Os objetos cuja sobreposição queremos avaliar na segmentação médica geralmente são pequenos pontos em um fundo massivo, portanto isso não é muito útil para nós. Além disso, isso causaria problemas se tentássemos comparar a precisão de um algoritmo de segmentação com outro, e os dois fossem avaliados em imagens de tamanhos diferentes! (ou, equivalente, em escalas diferentes).A escala / tamanho da imagem incorporada não deve fazer diferença na avaliação de uma segmentação em relação a um padrão-ouro! .

Por outro lado, o coeficiente tanimoto não se importa com os pixels do plano de fundo, tornando-o invariável à 'escala'. No que diz respeito ao coeficiente tanimoto, a similaridade de ambos os conjuntos será idêntica, tornando-a uma métrica de similaridade muito mais útil para avaliarmos a qualidade de um algoritmo de segmentação.

Tasos Papastylianou
fonte