Relação entre os coeficientes de correlação phi, Matthews e Pearson

13

Os coeficientes de correlação phi e Matthews são o mesmo conceito? Como eles estão relacionados ou equivalentes ao coeficiente de correlação de Pearson para duas variáveis ​​binárias? Presumo que os valores binários sejam 0 e 1.


A correlação de Pearson entre duas variáveis aleatórias de Bernoulli e y é:xy

ρ=E[(xE[x])(yE[y])]Var[x]Var[y]=E[xy]E[x]E[y]Var[x]Var[y]=n11nn1n1n0n1n0n1

Onde

E[x]=n1nVar[x]=n0n1n2E[y]=n1nVar[y]=n0n1n2E[xy]=n11n

Coeficiente de phi da Wikipedia:

Nas estatísticas, o coeficiente phi (também chamado de "coeficiente de contingência quadrado médio" e denotado por ou r ϕ ) é uma medida de associação para duas variáveis ​​binárias introduzidas por Karl Pearson. Essa medida é semelhante ao coeficiente de correlação de Pearson em sua interpretação. De fato, um coeficiente de correlação de Pearson estimado para duas variáveis ​​binárias retornará o coeficiente phi ...ϕrϕ

Se tivermos uma tabela 2 × 2 para duas variáveis ​​aleatórias e yxy

insira a descrição da imagem aqui

O coeficiente phi que descreve a associação de e y é ϕ = n 11 n 00 - n 10 n 01xy

ϕ=n11n00n10n01n1n0n0n1

Coeficiente de correlação de Matthews da Wikipedia:

O coeficiente de correlação de Matthews (MCC) pode ser calculado diretamente da matriz de confusão usando a fórmula:

MCC=TP×TNFP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)

Nesta equação, TP é o número de verdadeiros positivos, TN o número de verdadeiros negativos, FP o número de falsos positivos e FN o número de falsos negativos. Se qualquer uma das quatro somas no denominador for zero, o denominador poderá ser arbitrariamente definido como um; isso resulta em um coeficiente de correlação de Matthews igual a zero, que pode ser mostrado como o valor limite correto.

Tim
fonte

Respostas:

14

Sim, eles são iguais. O coeficiente de correlação de Matthews é apenas uma aplicação específica do coeficiente de correlação de Pearson a uma tabela de confusão.

Uma tabela de contingência é apenas um resumo dos dados subjacentes. Você pode convertê-lo novamente das contagens mostradas na tabela de contingência para uma linha por observação.

Considere o exemplo de matriz de confusão usada no artigo da Wikipedia com 5 verdadeiros positivos, 17 verdadeiros negativos, 2 falsos positivos e 3 falsos negativos

> matrix(c(5,3,2,17), nrow=2, byrow=TRUE)
     [,1] [,2]
[1,]    5    3
[2,]    2   17
> 
> # Matthews correlation coefficient directly from the Wikipedia formula
> (5*17-3*2) / sqrt((5+3)*(5+2)*(17+3)*(17+2))
[1] 0.5415534
> 
> 
> # Convert this into a long form binary variable and find the correlation coefficient
> conf.m <- data.frame(
+ X1=rep(c(0,1,0,1), c(5,3,2,17)),
+ X2=rep(c(0,0,1,1), c(5,3,2,17)))
> conf.m # what does that look like?
   X1 X2
1   0  0
2   0  0
3   0  0
4   0  0
5   0  0
6   1  0
7   1  0
8   1  0
9   0  1
10  0  1
11  1  1
12  1  1
13  1  1
14  1  1
15  1  1
16  1  1
17  1  1
18  1  1
19  1  1
20  1  1
21  1  1
22  1  1
23  1  1
24  1  1
25  1  1
26  1  1
27  1  1
> cor(conf.m)
          X1        X2
X1 1.0000000 0.5415534
X2 0.5415534 1.0000000
Peter Ellis
fonte
Obrigado Peter! Matematicamente, por que phi e Mathew equivalem a Pearson para duas variáveis ​​aleatórias binárias?
Tim
Se você pegar a definição da correlação de Pearson e manipulá-la, ela se refere a contagens, e não a somas das diferenças entre observações individuais e os meios, obtém a fórmula de Matthews. Na verdade, não fiz isso, mas deve ser razoavelmente direto.
22613 Peter Ellis
2

E[xy]n1n1n2

n11n×1×1+n10n×1×0 0+n01n×0 0×1+n00n×0 0×0 0=n11n

ρ=ϕ

n11n-n1n1=n11(n01+n10+n11+n00)-(n11+n10)(n11+n01)=n11n00-n10n01
ryan tt
fonte