Gostaria de saber como o seguinte número se relaciona a medidas conhecidas, se é estatisticamente interessante, e sob qual nome é (possivelmente) discutido:κ
κ=1−2N|X△Y|
com |X△Y|o número de amostras com propriedade X ou propriedade Y mas não ambas (OR exclusivo, diferença simétrica), N o número total de amostras. Assim como o coeficiente phi, κ=±1 indica perfeita concordância ou desacordo e κ=0 indica nenhuma relação
Usando a convenção a, b, c, d da tabela de quatro dobras, como aqui ,
Y
1 0
-------
1 | a | b |
X -------
0 | c | d |
-------
a = number of cases on which both X and Y are 1
b = number of cases where X is 1 and Y is 0
c = number of cases where X is 0 and Y is 1
d = number of cases where X and Y are 0
a+b+c+d = n, the number of cases.
substituir e obter
1−2(b+c)n=n−2b−2cn=(a+d)−(b+c)a+b+c+d = coeficiente de similaridade de Hamann . Conheça aqui, por exemplo . Citar:
Medida de similaridade de Hamann. Essa medida fornece a probabilidade de que uma característica tenha o mesmo estado em ambos os itens (presente em ambos ou ausente de ambos) menos a probabilidade de uma característica ter estados diferentes nos dois itens (presente em um e ausente no outro). O HAMANN tem um intervalo de -1 a +1 e é monotonicamente relacionado à similaridade de correspondência simples (SM), similaridade 1 de Sokal & Sneath (SS1) e similaridade de Rogers & Tanimoto (RT).
Você pode comparar a fórmula de Hamann com a da correlação phi (mencionada), dada nos termos a, b, c, d. Ambos são medidas "correspondência" - que varia de -1 a 1. Mas olhar, numerador de Phi vai se aproximar de 1 apenas quando tanto a e d são grandes (ou mesmo modo -1, se ambos b e c são grandes): produto, você sabe ... Em outras palavras, a correlação de Pearson, e especialmente sua hipóstase de dados dicotômicos, Phi, é sensível à simetria das distribuições marginais nos dados. Numerador de Hamann , tendo somas em lugar de produtos, não é sensível a isso: tantoad−bc(a+d)−(b+c)de dois summands em um par sendo grande é suficiente para que o coeficiente atinja perto de 1 (ou -1). Portanto, se você deseja uma medida de "correlação" (ou quase-correlação) desafiando a forma das distribuições marginais - escolha Hamann em vez de Phi.
Ilustração:
Crosstabulations:
Y
X 7 1
1 7
Phi = .75; Hamann = .75
Y
X 4 1
1 10
Phi = .71; Hamann = .75
A similaridade de Hamann é amplamente conhecida e aceita como uma medida interessante?
Hans-Peter Stricker
11
Como posso responder? Quanto amplamente / aceito será suficiente? :-) É certamente menos conhecido que a correlação phi ou a similaridade de Jaccard. Ainda assim, às vezes é usado. Pesquise no Google ... Uma de suas propriedades importantes é que é equivalente monotônico de ... (veja a citação).
ttnphns
Desculpem a minha pergunta ingênua, e obrigado pela sua resposta informativa :-)
Hans-Peter Stricker
Você pode me dar uma dica, sob quais circunstâncias típicas eu poderia querer uma "correlação desafiando a forma das distribuições marginais" e escolher Hamann e sob quais circunstâncias eu poderia querer uma "correlação NÃO desafiando a forma das distribuições marginais" e escolher Phi?
Hans-Peter Stricker
Hans, se você está falando sobre campos ou objetivos científicos em que podemos querer usar um sobre o outro - por que não fazer isso como uma pergunta separada? Porque mais pessoas podem vir para responder.
Hubalek, Z. Coeficientes de associação e similaridade, com base em dados binários (presença-ausência): uma avaliação (Biol. Rev., 1982) revisa e classifica 42 diferentes coeficientes de correlação para dados binários. Apenas três deles atendem a dados estatísticos básicos. Infelizmente, a questão da interpretação PRE (redução proporcional do erro) não é discutida. Para a seguinte tabela de contingência:
a medida de associaçãor deve cumprir as seguintes condições obrigatórias:
discriminação entre associação positiva e negativa
e idealmente o seguinte não obrigatório:
alcance der deve ser {−1⋯+1} , {0⋯+1} ou {0…∞}
distribuição homogênea de na amostra de permutaçãor
amostras aleatórias da população com : conhecidas devem mostrar pouca variabilidade, mesmo em amostras pequenasa,b,c,d r
simplicidade de cálculo, baixo tempo de computador
Todas as condições são atendidas por Jaccard , Russel & Rao (ambos range ) e McConnaughey (range )(aa+b+c) (aa+b+c+d) {0⋯+1} (a2−bc(a+b)×(a+c)) {−1⋯+1}
fonte