Correlação entre dados contínuos e dados de contagem

9

Suponhamos que estamos a lidar com este conjunto de dados onde X i é variável contínua (por exemplo exponencial) e N i é distribuição discreta (por exemplo de Poisson) para i = 1 , . . . , N . Digamos que ρ é a correlação entre X e N . Como alguém pode definir ρ ? (XEu,NEu)XEuNEuEu=1,...,nρXNρ

user9292
fonte
É comum fazer a seleção de variáveis ​​para modelagem quando algumas das variáveis ​​preditivas são dados de contagem e os dados de resposta são contínuos. Não há proibição de comparação entre números reais e inteiros. A forma das distribuições será um problema maior. Você desejará experimentar uma série de funções de escada de Tukey (também conhecida como série de potência).
Chris
@ Chris Obrigado pelo comentário. Não estou lidando com regressão aqui (embora alguém possa argumentar que a construção de um GLM capturará a correlação). Estou interessado em saber se existe uma medida de correlação (ou seja, a de Pearson para dados contínuos). g(Y)=βN
user9292
2
Por que a correlação comum de Pearson não seria uma medida de correlação para esse problema?
Glen_b -Reinstate Monica

Respostas:

13

Eu diria que há pelo menos três opções decentes que fariam sentido para você:

  1. NEuρXEu
  2. Correlação não paramétrica - O coeficiente de correlação de classificação de Spearman provavelmente é uma boa opção nesse caso. O cálculo do Rho de Spearman funciona com base nas classificações dos valores de cada variável, e não nos próprios valores, o que a torna mais amplamente aplicável na presença de relacionamentos não lineares ou tipos de dados mistos.
  3. Modelagem - eu sei que você mencionou nos comentários que não está tentando fazer nenhum tipo de modelagem, mas ainda acho que uma ou duas estimativas de parâmetro de uma relação funcional e bem ajustada entre as duas variáveis ​​é muito mais informativa do que qualquer coeficiente de correlação que você encontrar (a menos que a variável discreta tenha sido realmente criada a partir da metade dos valores de uma distribuição normal bivariada - o que duvido).

ρ

O teste de significância com um coeficiente de correlação não paramétrico (por exemplo, de Spearman) seria possível e seria fácil encontrar implementações bem documentadas disso em qualquer idioma.

Eric Czech
fonte