Qual é o nome dessa medida de correlação / associação entre variáveis ​​binárias?

7

Existem várias medidas de associação (ou contingência ou correlação) entre duas variáveis ​​aleatórias binárias e , entre outrasXY

Gostaria de saber como o seguinte número se relaciona a medidas conhecidas, se é estatisticamente interessante, e sob qual nome é (possivelmente) discutido:κ

κ=12N|XY|

com |XY|o número de amostras com propriedade X ou propriedade Y mas não ambas (OR exclusivo, diferença simétrica), N o número total de amostras. Assim como o coeficiente phi, κ=±1 indica perfeita concordância ou desacordo e κ=0 indica nenhuma relação

Hans-Peter Stricker
fonte

Respostas:

10

Usando a convenção a, b, c, d da tabela de quatro dobras, como aqui ,

               Y
             1   0
            -------
        1  | a | b |
     X      -------
        0  | c | d |
            -------
a = number of cases on which both X and Y are 1
b = number of cases where X is 1 and Y is 0
c = number of cases where X is 0 and Y is 1
d = number of cases where X and Y are 0
a+b+c+d = n, the number of cases.

substituir e obter

12(b+c)n=n2b2cn=(a+d)(b+c)a+b+c+d = coeficiente de similaridade de Hamann . Conheça aqui, por exemplo . Citar:

Medida de similaridade de Hamann. Essa medida fornece a probabilidade de que uma característica tenha o mesmo estado em ambos os itens (presente em ambos ou ausente de ambos) menos a probabilidade de uma característica ter estados diferentes nos dois itens (presente em um e ausente no outro). O HAMANN tem um intervalo de -1 a +1 e é monotonicamente relacionado à similaridade de correspondência simples (SM), similaridade 1 de Sokal & Sneath (SS1) e similaridade de Rogers & Tanimoto (RT).

Você pode comparar a fórmula de Hamann com a da correlação phi (mencionada), dada nos termos a, b, c, d. Ambos são medidas "correspondência" - que varia de -1 a 1. Mas olhar, numerador de Phi vai se aproximar de 1 apenas quando tanto a e d são grandes (ou mesmo modo -1, se ambos b e c são grandes): produto, você sabe ... Em outras palavras, a correlação de Pearson, e especialmente sua hipóstase de dados dicotômicos, Phi, é sensível à simetria das distribuições marginais nos dados. Numerador de Hamann , tendo somas em lugar de produtos, não é sensível a isso: tantoadbc(a+d)(b+c)de dois summands em um par sendo grande é suficiente para que o coeficiente atinja perto de 1 (ou -1). Portanto, se você deseja uma medida de "correlação" (ou quase-correlação) desafiando a forma das distribuições marginais - escolha Hamann em vez de Phi.

Ilustração:

Crosstabulations:
        Y
X    7     1
     1     7
Phi = .75; Hamann = .75

        Y
X    4     1
     1    10
Phi = .71; Hamann = .75
ttnphns
fonte
A similaridade de Hamann é amplamente conhecida e aceita como uma medida interessante?
Hans-Peter Stricker
11
Como posso responder? Quanto amplamente / aceito será suficiente? :-) É certamente menos conhecido que a correlação phi ou a similaridade de Jaccard. Ainda assim, às vezes é usado. Pesquise no Google ... Uma de suas propriedades importantes é que é equivalente monotônico de ... (veja a citação).
ttnphns
Desculpem a minha pergunta ingênua, e obrigado pela sua resposta informativa :-)
Hans-Peter Stricker
Você pode me dar uma dica, sob quais circunstâncias típicas eu poderia querer uma "correlação desafiando a forma das distribuições marginais" e escolher Hamann e sob quais circunstâncias eu poderia querer uma "correlação NÃO desafiando a forma das distribuições marginais" e escolher Phi?
Hans-Peter Stricker
Hans, se você está falando sobre campos ou objetivos científicos em que podemos querer usar um sobre o outro - por que não fazer isso como uma pergunta separada? Porque mais pessoas podem vir para responder.
ttnphns
4

Hubalek, Z. Coeficientes de associação e similaridade, com base em dados binários (presença-ausência): uma avaliação (Biol. Rev., 1982) revisa e classifica 42 diferentes coeficientes de correlação para dados binários. Apenas três deles atendem a dados estatísticos básicos. Infelizmente, a questão da interpretação PRE (redução proporcional do erro) não é discutida. Para a seguinte tabela de contingência:

        present  absent

present    a       b

absent     c       d

a medida de associação r deve cumprir as seguintes condições obrigatórias:

  1. r(J,K)r(J,J)J,K

  2. min(r) deve estar em a=d=0 e max(r) às b=c=0

  3. r(J,K)=r(K,J)K,J

  4. discriminação entre associação positiva e negativa

  5. r deve ser linear com χ2 para ambos os subconjuntos adbc<0 e adbc>=0 (Observe que χ2 viole a condição 4)

e idealmente o seguinte não obrigatório:

  • alcance de r deve ser {1+1}, {0+1}ou {0}

  • r(b=c=0)>r(b=0c=0)

  • r(a=0)=min(r) (mais rígido que 2) acima)

  • r(a+1)r(a)=r(a+2)r(a+1)

  • r(a=0,b,c,d),r(a=1,b1,c1,d+1),r(a=2,b2,c2,d+2) deve ser suave

  • distribuição homogênea de na amostra de permutaçãor

  • amostras aleatórias da população com : conhecidas devem mostrar pouca variabilidade, mesmo em amostras pequenasa,b,c,dr

  • simplicidade de cálculo, baixo tempo de computador

Todas as condições são atendidas por Jaccard , Russel & Rao (ambos range ) e McConnaughey (range )(aa+b+c)(aa+b+c+d){0+1}(a2bc(a+b)×(a+c)){1+1}

Engelbert Buxbaum
fonte
Isso seria mais fácil de ler se você pudesse editar para usar a notação . Eu faço uma pequena parte para mostrar como. LATEX
Kjetil b halvorsen
Mesclar suas duas respostas aqui: edite uma delas adicionando conteúdo à outra e exclua uma.
ttnphns
por seus comandos ;-)
Engelbert Buxbaum