O que é uma medida significativa de "correlação" para estudar a relação entre esses dois tipos de variáveis?
Em R, como fazer isso?
O que é uma medida significativa de "correlação" para estudar a relação entre esses dois tipos de variáveis?
Em R, como fazer isso?
X <- sample(c(0,1),replace=TRUE,size=100)
(2)Y <- X + rnorm(100,0.5)
(3)corr(Y,X)
(4)X <- 1 + 10*X
(5)corr(X,Y)
: mesmos resultados para ambas as correlações!Respostas:
Por um momento, vamos ignorar a questão contínua / discreta. Basicamente, a correlação mede a força do relacionamento linear entre variáveis, e você parece estar pedindo uma maneira alternativa de medir a força do relacionamento. Você pode estar interessado em examinar algumas idéias da teoria da informação . Especificamente, acho que você pode querer procurar informações mútuas . As informações mútuas essencialmente fornecem uma maneira de quantificar o quanto o estado de uma variável informa sobre a outra variável. Na verdade, acho que essa definição está mais próxima do que a maioria das pessoas quer dizer quando pensa em correlação.
Para duas variáveis discretas X e Y, o cálculo é o seguinte:
Para duas variáveis contínuas, integramos ao invés de somar a soma:
Seu caso de uso específico é para um discreto e um contínuo. Em vez de integrar sobre uma soma ou somar sobre uma integral, imagino que seria mais fácil converter uma das variáveis no outro tipo. Uma maneira típica de fazer isso seria discretizar sua variável contínua em compartimentos discretos.
Existem várias maneiras de discretizar dados (por exemplo, intervalos iguais), e acredito que o pacote de entropia deve ser útil para os cálculos de MI, se você quiser usar R.
fonte
Se a variável categórica for ordinal e você agrupar a variável contínua em alguns intervalos de frequência, poderá usar Gamma. Também estão disponíveis para dados emparelhados colocados em forma ordinal a tau de Kendal, a tau de Stuart e Somers D. Todos estão disponíveis no SAS usando o Proc Freq. Não sei como eles são calculados usando rotinas R. Aqui está um link para uma apresentação que fornece informações detalhadas: http://faculty.unlv.edu/cstream/ppts/QM722/measuresofassociation.ppt#260,5,Medidas de associação para variáveis nominais e ordinais
fonte
Uma variável categórica é efetivamente apenas um conjunto de variáveis indicadoras. É uma idéia básica da teoria da medição que tal variável seja invariável à nova rotulagem das categorias; portanto, não faz sentido usar a rotulação numérica das categorias em qualquer medida da relação entre outra variável (por exemplo, 'correlação') . Por esse motivo, a medida da relação entre uma variável contínua e uma variável categórica deve se basear inteiramente nas variáveis indicadoras derivadas dessa última.
Dado que você deseja uma medida de 'correlação' entre as duas variáveis, faz sentido olhar para a correlação entre uma variável aleatória contínua e uma variável aleatória indicadora I derivada de uma variável categórica. Deixando & Phi; ≡ P ( I = 1 ) tem-se:X I ϕ≡P(I=1)
que dá:
Portanto, a correlação entre uma variável aleatória contínua e uma variável aleatória indicadora I é uma função bastante simples da probabilidade do indicador ϕ e o ganho padronizado no valor esperado de X do condicionamento em I = 1 . Observe que essa correlação não requer nenhuma discretização da variável aleatória contínua.X I ϕ X I=1
Para uma variável categórica geral com gama 1 , . . . , m você apenas estenderia essa idéia para ter um vetor de valores de correlação para cada resultado da variável categórica. Para qualquer resultado C = k , podemos definir o indicador correspondente I k ≡ I ( C = k ) e temos:C 1,...,m C=k Ik≡I(C=k)
Podemos então definirCorr(C,X)≡(Corr(I1,X),...,Corr(Im,X)) como o vector de valores de correlação para cada categoria da variável aleatória categórica. Este é realmente o único sentido em que faz sentido falar sobre 'correlação' para uma variável aleatória categórica.
Substitution of these estimates would yield a basic estimate of the correlation vector. If you have parametric information onX then you could estimate the correlation vector directly by maximum likelihood or some other technique.
fonte
R package mpmi has the ability to calculate mutual information for mixed variable case, namely continuous and discrete. Although there are other statistical options like (point) biserial correlation coefficient to be useful here, it would be beneficial and highly recommended to calculate mutual information since it can detect associations other than linear and monotonic.
fonte
IfX is a continuous random variable and Y is a categorical r.v.. the observed correlation between X and Y can be measured by
It should be noted, though, that the point-polyserial correlation is just a generalization of the point-biserial.
For a broader view, here's a table from Olsson, Drasgow & Dorans (1982)[1].
[1]: Source: Olsson, U., Drasgow, F., & Dorans, N. J. (1982). The polyserial correlation coefficient. Psychometrika, 47(3), 337–347
fonte