Meu entendimento de como a covariância funciona é que os dados correlacionados devem ter uma covariância um pouco alta. Me deparei com uma situação em que meus dados parecem correlacionados (como mostrado no gráfico de dispersão), mas a covariância é quase zero. Como a covariância dos dados pode ser zero se eles estão correlacionados?
import numpy as np
x1 = np.array([ 0.03551153, 0.01656052, 0.03344669, 0.02551755, 0.02344788,
0.02904475, 0.03334179, 0.02683399, 0.02966126, 0.03947681,
0.02537157, 0.03015175, 0.02206443, 0.03590149, 0.03702152,
0.02697212, 0.03777607, 0.02468797, 0.03489873, 0.02167536])
x2 = np.array([ 0.0372599 , 0.02398212, 0.03649548, 0.03145494, 0.02925334,
0.03328783, 0.03638871, 0.03196318, 0.03347346, 0.03874528,
0.03098697, 0.03357531, 0.02808358, 0.03747998, 0.03804655,
0.03213286, 0.03827639, 0.02999955, 0.0371424 , 0.0279254 ])
print np.cov(x1, x2)
array([[ 3.95773132e-05, 2.59159589e-05],
[ 2.59159589e-05, 1.72006225e-05]])
python
descriptive-statistics
covariance
quilojoules
fonte
fonte
Respostas:
A magnitude da covariância depende da magnitude dos dados e da proximidade com que esses pontos estão espalhados pela média desses dados. É fácil ver quando você olha para a fórmula:
No seu caso, o desvio dos dados
x1
ex2
aponta para a média dex1
ex2
são:Agora, se você multiplicar esses dois vetores, obviamente obtém números muito pequenos:
Agora pegue a soma e divida por e você tem a covariância:n - 1
Essa é a razão pela qual a magnitude da covariância não diz muito sobre a força de como
x1
ex2
co-varia. Padronizando (ou normalizando) a covariância, que é dividida pelo produto do desvio padrão de (x1
ex2
muito semelhante à covariância2.609127e-05
),você obtém o alto coeficiente de correlação, de , o que confirma o que você pode ver em seu gráfico.r = 0,99
fonte
Vamos falar sobre o que pode ser visto de uma rápida olhada no enredo e em algumas verificações de razoabilidade (esses são os tipos de ações que se pode fazer quando se olha para os dados, basta estar armado com alguns fatos básicos):
Conseqüentemente, os valores observados das variações em sua saída fazem sentido; ambos são menos que isso, mas mais que um décimo disso.
Dessa análise muito grosseira, nada parece surpreendente.
(Não é tão ruim para um cálculo rápido do verso do envelope, começando com intervalos de dois números significativos!)
fonte