O que é covariância em linguagem simples?

92

O que é covariância em linguagem simples e como ela está vinculada aos termos estrutura de dependência , correlação e variância-covariância em relação a projetos de medidas repetidas?

stan
fonte

Respostas:

82

A covariância é uma medida de como as alterações em uma variável estão associadas às alterações em uma segunda variável. Especificamente, a covariância mede o grau em que duas variáveis ​​são linearmente associadas. No entanto, também é freqüentemente usado informalmente como uma medida geral de como duas variáveis ​​relacionadas são monotonicamente. Existem muitas explicações intuitivas úteis de covariância aqui .

Sobre como a covariância está relacionada a cada um dos termos que você mencionou:

(1) Correlação é uma versão em escala da covariância que assume valores em com uma correlação de indicando perfeita associação linear e indicando nenhuma relação linear. Essa escala torna a correlação invariável a alterações na escala das variáveis ​​originais (que Akavall aponta e dá um exemplo de +1). A constante de escala é o produto dos desvios padrão das duas variáveis. ± 1 0[1,1]±10

(2) Se duas variáveis ​​são independentes , sua covariância é . Mas, ter uma covariância de não implica que as variáveis ​​sejam independentes. Esta figura (da Wikipedia)000

                insira a descrição da imagem aqui

mostra vários exemplos de gráficos que não são independentes, mas suas covariâncias são . Um caso especial importante é que, se duas variáveis ​​são normalmente distribuídas em conjunto , elas são independentes se e somente se não estiverem correlacionadas . Outro caso especial é que os pares de variáveis ​​bernoulli não são correlacionados se e somente se forem independentes (obrigado @ cardinal).0

(3) A estrutura de variância / covariância (geralmente chamada simplesmente de estrutura de covariância ) em projetos de medidas repetidas refere-se à estrutura usada para modelar o fato de que medidas repetidas em indivíduos são potencialmente correlacionadas (e, portanto, são dependentes) - isso é feito modelando o entradas na matriz de covariância das medições repetidas. Um exemplo é a estrutura de correlação trocável com variação constante, que especifica que cada medida repetida tem a mesma variação e todos os pares de medidas são igualmente correlacionados. Uma escolha melhor pode ser especificar uma estrutura de covariância que exija que duas medidas mais distantes no tempo sejam menos correlacionadas (por exemplo,um modelo autoregressivo ). Observe que o termo estrutura de covariância surge mais geralmente em muitos tipos de análises multivariadas, nas quais é permitido correlacionar observações.

Macro
fonte
2
sua explicação é legal. É seguido por um suplemento valioso que causou uma série interessante de comentários. Muito obrigado a todos :)!
stan
23

A resposta da macro é excelente, mas quero acrescentar mais a um ponto de como a covariância está relacionada à correlação. A covariância não fala sobre a força do relacionamento entre as duas variáveis, enquanto a correlação faz. Por exemplo:

x = [1, 2, 3]
y = [4, 6, 10]

cov(x,y) = 2 #I am using population covariance here

Agora vamos mudar a escala e multiplicar x e y por 10

x = [10, 20, 30]
y = [40, 60, 100]

cov(x, y) = 200

Alterar a escala não deve aumentar a força do relacionamento, para que possamos ajustar dividindo as covariâncias pelos desvios padrão de xey, que é exatamente a definição do coeficiente de correlação.

Nos dois casos acima, o coeficiente de correlação entre x e y é 0.98198.

Akavall
fonte
6
"A covariância não diz realmente sobre a força do relacionamento entre as duas variáveis, enquanto a correlação diz." Essa afirmação é completamente falsa. As duas medidas são escala de módulo idêntica pelos dois desvios padrão.
David Heffernan
15
@ David Davideffernan, sim, se escalado por desvios padrão, a covariância nos diz sobre a força do relacionamento. No entanto, a medida de covariância por si só não nos diz isso.
precisa saber é o seguinte
10
@ David Davideffernan, acho que o que Akavall está dizendo é que, se você não conhece a escala das variáveis , a covariância não diz nada sobre a força do relacionamento - apenas o sinal pode ser interpretado.
Macro
6
Em que situação prática você pode obter uma covariância sem também conseguir obter uma boa estimativa da escala das variáveis?
David Heffernan
7
No entanto, nem sempre é necessário conhecer o desvio padrão para entender a escala de uma variável e, portanto, a força de um relacionamento. Efeitos não padronizados são frequentemente informativos. Por exemplo, se um curso de treinamento faz com que as pessoas aumentem em média a renda em US $ 10.000 por ano, provavelmente é uma indicação melhor da força do efeito, do que dizer que houve uma correlação ar = 0,34 entre o curso e a renda.
perfil completo de Jeromy Anglim