Existem dois vetores booleanos, que contêm apenas 0 e 1. Se eu calcular a correlação de Pearson ou Spearman, elas são significativas ou razoáveis?
correlation
binary-data
pearson-r
spearman-rho
Zhilong Jia
fonte
fonte
Respostas:
A correlação de Pearson e Spearman é definida desde que você tenha e s para as duas variáveis binárias, digamos e . É fácil obter uma boa idéia qualitativa do que eles significam pensando em um gráfico de dispersão das duas variáveis. Claramente, existem apenas quatro possibilidades (de modo que tremer para separar pontos idênticos para visualização é uma boa idéia). Por exemplo, em qualquer situação em que os dois vetores sejam idênticos, sujeitos a ter 0s e 1s em cada um, então, por definição e a correlação é necessariamente . Da mesma forma, é possível que0 0 1 y x (0,0),(0,1),(1,0),(1,1) y=x 1 y=1−x e então a correlação é .−1
Para esta configuração, não há espaço para relações monotônicas que não são lineares. Quando tendo fileiras de s e s sob a convenção habitual midrank as fileiras são apenas uma transformação linear das originais s e s e a correlação de Spearman é necessariamente idêntico para a correlação de Pearson. Portanto, não há razão para considerar a correlação de Spearman separadamente aqui, ou mesmo de modo algum.0 1 0 1
Correlações surgem naturalmente para alguns problemas que envolvem s e s, por exemplo, no estudo dos processos binários no tempo ou no espaço. No geral, no entanto, haverá melhores maneiras de pensar sobre esses dados, dependendo em grande parte do principal motivo de tal estudo. Por exemplo, o fato de as correlações fazerem muito sentido não significa que a regressão linear é uma boa maneira de modelar uma resposta binária. Se uma das variáveis binárias for uma resposta, a maioria das pessoas estatísticas começará considerando um modelo de logit.0 1
fonte
Existem métricas de similaridade especializadas para vetores binários, como:
etc.
Para detalhes, veja aqui .
fonte
Eu não recomendaria usar o coeficiente de correlação de Pearson para dados binários, veja o seguinte contra-exemplo:
na maioria dos casos, ambos dão 1
mas a correlação não mostra isso
Uma medida de similaridade binária como o índice de Jaccard mostra, no entanto, uma associação muito maior:
Por que é isso? Veja aqui a regressão bivariada simples
plot abaixo (pequeno ruído adicionado para tornar o número de pontos mais claro)
fonte