Como você explicaria a covariância a alguém que entende apenas a média?

207

... supondo que eu seja capaz de aumentar o conhecimento deles sobre variação de maneira intuitiva ( Entendendo "variação" intuitivamente ) ou dizendo: É a distância média dos valores dos dados da 'média' - e como a variação está no quadrado unidades, pegamos a raiz quadrada para manter as mesmas unidades e isso é chamado de desvio padrão.

Vamos supor que isso seja articulado e (espero) entendido pelo 'receptor'. Agora, o que é covariância e como explicar isso em inglês simples sem o uso de termos / fórmulas matemáticas? (Ou seja, explicação intuitiva.;)

Observe: eu sei as fórmulas e a matemática por trás do conceito. Quero ser capaz de 'explicar' o mesmo de uma maneira fácil de entender, sem incluir a matemática; ou seja, o que 'covariância' significa?

Doutorado
fonte
1
@ Xi'an - 'como' exatamente você o definiria por meio de regressão linear simples ? Eu realmente gostaria de saber ...
PhD
3
Supondo que você já tenha um gráfico de dispersão de suas duas variáveis, x vs. y, com origem em (0,0), basta desenhar duas linhas em x = média (x) (vertical) e y = média (x) (horizontal): usando este novo sistema de coordenadas (a origem está em (média (x), média (y)), coloque um sinal de "+" nos quadrantes superior direito e inferior esquerdo, um sinal de "-" nos outros dois quadrantes; você tem o sinal da covariância, que é basicamente o que @ Pedro disse Escalando a-x e y unidades (por SD) levar a um resumo mais interpretável, como discutido na. fio que se seguiu .
chl
1
@chl - você poderia postar isso como resposta e talvez usar gráficos para representá-lo!
PhD
Encontrei o vídeo neste site para me ajudar, pois prefiro imagens a explicações abstratas. Site com vídeo Especificamente esta imagem :! [Insira a descrição da imagem aqui ] ( i.stack.imgur.com/xGZFv.png )
Karl Morrison

Respostas:

375

Às vezes, podemos "aumentar o conhecimento" com uma abordagem incomum ou diferente. Gostaria que esta resposta fosse acessível aos alunos do jardim de infância e também se divertisse, para que todos saibam seus lápis de cera!

Dados dados emparelhados , desenhe seu gráfico de dispersão. (Os alunos mais novos podem precisar de um professor para produzir isso para eles. :-) Cada par de pontos , nesse gráfico determina um retângulo: é o menor retângulo, cujos lados são paralelos ao eixos, contendo esses pontos. Assim, os pontos estão nos cantos superior direito e inferior esquerdo (uma relação "positiva") ou estão nos cantos superior esquerdo e inferior direito (uma relação "negativa").(x,y)(xi,yi)(xj,yj)

Desenhe todos os retângulos possíveis. Pinte-os de forma transparente, deixando os retângulos positivos em vermelho (digamos) e os retângulos negativos em "anti-vermelho" (azul). Dessa forma, onde os retângulos se sobrepõem, suas cores são aprimoradas quando são iguais (azul e azul ou vermelho e vermelho) ou canceladas quando são diferentes.

Retângulos positivos e negativos

( Nesta ilustração de um retângulo positivo (vermelho) e negativo (azul), a sobreposição deve ser branca; infelizmente, este software não possui uma cor "anti-vermelha" verdadeira. A sobreposição é cinza, portanto escurece plotagem, mas no geral a quantidade líquida de vermelho está correta. )

Agora estamos prontos para a explicação da covariância.

A covariância é a quantidade líquida de vermelho no gráfico (tratando o azul como valores negativos).

Aqui estão alguns exemplos com 32 pontos binormais extraídos de distribuições com as covariâncias fornecidas, ordenadas da mais negativa (mais azul) para a mais positiva (mais avermelhada).

Gráficos de covariância, atualizados em 2019

Eles são desenhados em eixos comuns para torná-los comparáveis. Os retângulos são levemente descritos para ajudá-lo a vê-los. Esta é uma versão atualizada (2019) do original: usa software que cancela corretamente as cores vermelho e ciano em retângulos sobrepostos.

Vamos deduzir algumas propriedades de covariância. O entendimento dessas propriedades estará acessível a qualquer pessoa que tenha desenhado alguns retângulos. :-)

  • Bilinearidade. Como a quantidade de vermelho depende do tamanho do gráfico, a covariância é diretamente proporcional à escala no eixo x e à escala no eixo y.

  • Correlação. A covariância aumenta à medida que os pontos se aproximam de uma linha inclinada para cima e diminui à medida que os pontos se aproximam de uma linha inclinada para baixo. Isso ocorre porque no primeiro caso a maioria dos retângulos é positiva e, no último caso, a maioria é negativa.

  • Relação com associações lineares. Como associações não lineares podem criar misturas de retângulos positivos e negativos, elas levam a covariâncias imprevisíveis (e não muito úteis). Associações lineares podem ser totalmente interpretadas por meio das duas caracterizações anteriores.

  • Sensibilidade a outliers. Um outlier geométrico (um ponto distante da massa) criará muitos retângulos grandes em associação com todos os outros pontos. Só ele pode criar uma quantidade líquida positiva ou negativa de vermelho na imagem geral.

Aliás, essa definição de covariância difere da usual apenas por uma constante universal de proporcionalidade (independente do tamanho do conjunto de dados). Os inclinados matematicamente não terão problemas para executar a demonstração algébrica de que a fórmula dada aqui é sempre duas vezes a covariância usual.

whuber
fonte
92
+1 Uau. Isso até funciona para explicar a covariância para aqueles que já pensavam que sabiam o que era.
Aaron
7
+1 Gosto muito de ler sua resposta. Vou tirar algumas retângulos, e deixar meu filho pintá-los :)
chl
18
Agora, se apenas todos os conceitos estatísticos introdutórios poderia ser apresentado aos alunos dessa maneira lúcida ...
MannyG
4
Isso é lindo. E muito, muito claro.
Benjamin Mako Hill
4
@fcoppens De fato, há uma explicação tradicional que procede como você sugere. Pensei nisso porque não queria introduzir uma idéia desnecessária - ou seja, construir o centróide . Isso tornaria a explicação inacessível para a criança de cinco anos com uma caixa de giz de cera. Algumas das conclusões que tirei no final também não seriam imediatas. Por exemplo, não seria mais tão óbvio que a covariância é sensível a certos tipos de discrepâncias. (x¯,y¯)
whuber
61

Para elaborar meu comentário, eu costumava ensinar a covariância como uma medida da co-variação (média) entre duas variáveis, digamos e .yxy

É útil recordar a fórmula básica (simples de explicar, não é necessário falar sobre expectativas matemáticas para um curso introdutório):

cov(x,y)=1ni=1n(xix¯)(yiy¯)

para que possamos ver claramente que cada observação pode contribuir positiva ou negativamente para a covariância, dependendo do produto de seu desvio da média das duas variáveis, e . Note que aqui não falo de magnitude, mas simplesmente do sinal da contribuição da i-ésima observação.ˉ x ˉ y(xi,yi)x¯y¯

Isso é o que descrevi nos diagramas a seguir. Os dados artificiais foram gerados usando um modelo linear (esquerda, ; direita, , onde foram extraídos de uma distribuição gaussiana com média zero e , e de uma distribuição uniforme no intervalo ).y = 0,1 x + ε ε DP = 2 x [ 0 , 20 ]y=1.2x+εy=0.1x+εεSD=2x[0,20]

insira a descrição da imagem aqui

xy(0,0)(x¯,y¯)

   +  -
+ 30  2
-  0 28

xiyiy¯xyb=Cov(x,y)/Var(x)

xi

   +  -
+ 18 14
- 12 16

xiyi

xy(x/10,y)(x,y/10)xy(x,y)(x¯,y¯)xy

chl
fonte
28

A covariância é uma medida de quanto uma variável sobe quando a outra sobe.

Peter Flom
fonte
1
Está sempre na mesma direção? Além disso, também se aplica a relações inversas (ou seja, quando uma sobe e a outra desce)?
PhD
4
@ nupul Bem, o oposto de "para cima" é "baixo" e o oposto de "positivo" é "negativo". Tentei dar uma resposta de uma frase. O seu é muito mais completo. Até o seu "como duas variáveis ​​mudam juntas" é mais completo, mas, eu acho, um pouco mais difícil de entender.
Peter Flom
1
+1 por encaixá-lo em uma única frase simples, mas não é essa correlação? Quero dizer, eu sei maior cov => maior corr, mas com essa frase, eu esperaria algo como "80%" como resposta, o que corresponde a corr = 0,8. Cov também não descreve a variação nos dados? ie "A covariância é proporcional a quanto uma variável sobe quando a outra sobe, e também proporcional à disseminação dos dados nas duas variáveis", ou algo assim?
naught101
4
É isso mesmo, Peter, e é por isso que @ naught101 fez esse comentário: sua descrição soa como uma taxa de alteração, cujas unidades serão, portanto, [unidades de uma variável] / [unidades da outra variável] (se a interpretarmos como um derivado ) ou serão apenas [unidades de uma variável] (se interpretarmos como pura diferença). Essas não são covariância (cuja unidade de medida é o produto das unidades para as duas variáveis) nem correlação (que é sem unidade).
whuber
1
XY1,YXY
12

Eu estou respondendo a minha própria pergunta, mas eu pensei que seria ótimo para as pessoas que vêm através deste post para conferir algumas das explicações nesta página .

Estou parafraseando uma das respostas muito bem articuladas (de um usuário 'Zhop'). Estou fazendo isso no caso de o site ser encerrado ou a página ser removida quando alguém acessar a partir deste momento;)

A covariância é uma medida de quanto duas variáveis ​​mudam juntas. Compare isso com Variação, que é apenas o intervalo em que uma medida (ou variável) varia.

Ao estudar os padrões sociais, você pode supor que as pessoas mais ricas provavelmente são mais instruídas; portanto, tente ver até que ponto as medidas de riqueza e educação permanecem juntas. Você usaria uma medida de covariância para determinar isso.

...

Não sei ao certo o que você quer dizer quando pergunta como isso se aplica às estatísticas. É uma medida ensinada em muitas classes de estatísticas. Você quis dizer quando deveria usá-lo?

Você o usa quando deseja ver quanto duas ou mais variáveis ​​mudam em relação uma à outra.

Pense nas pessoas de uma equipe. Veja como eles variam em localização geográfica comparados entre si. Quando o time está jogando ou praticando, a distância entre os membros é muito pequena e diríamos que eles estão no mesmo local. E quando a localização deles muda, muda para todos os indivíduos juntos (digamos, viajando de ônibus para um jogo). Nesta situação, diríamos que eles têm um alto nível de covariância. Mas quando eles não estão jogando, é provável que a taxa de covariância seja bem baixa, porque todos eles estão indo para lugares diferentes em diferentes velocidades.

Assim, você pode prever a localização de um membro da equipe, com base na localização de outro membro da equipe quando estiver praticando ou jogando um jogo com um alto grau de precisão. A medida de covariância seria próxima de 1, acredito. Mas quando eles não estão praticando ou jogando, você tem uma chance muito menor de prever a localização de uma pessoa, com base na localização de um membro da equipe. Seria quase zero, provavelmente, embora não seja zero, já que às vezes os membros da equipe são amigos e podem ir a lugares juntos em seu próprio tempo.

No entanto, se você selecionasse indivíduos aleatoriamente nos Estados Unidos e tentasse usar um deles para prever a localização do outro, provavelmente descobriria que a covariância era zero. Em outras palavras, não existe absolutamente nenhuma relação entre a localização de uma pessoa selecionada aleatoriamente nos EUA e a localização de outra.

Adicionando outro (por 'CatofGrey') que ajuda a aumentar a intuição:

Na teoria das probabilidades e na estatística, covariância é a medida de quanto duas variáveis ​​aleatórias variam juntas (tão distintas da variação, que mede quanto uma única variável varia).

Se duas variáveis ​​tendem a variar juntas (ou seja, quando uma delas está acima do valor esperado, então a outra variável também fica acima do valor esperado), a covariância entre as duas variáveis ​​será positiva. Por outro lado, se um deles estiver acima do valor esperado e a outra variável tender abaixo do valor esperado, a covariância entre as duas variáveis ​​será negativa.

Esses dois juntos me fizeram entender a covariância como eu nunca havia entendido antes! Simplesmente incrível!!

Doutorado
fonte
15
Embora essas descrições sejam qualitativamente sugestivas, infelizmente elas são incompletas: elas não distinguem covariância de correlação (a primeira descrição parece confundir as duas, de fato), nem trazem à tona a suposição fundamental de co-variação linear . Além disso, nenhum dos dois aborda o aspecto importante de que a covariância depende (linearmente) da escala de cada variável.
whuber
@whuber - concordou! E, portanto, não têm marcado o meu como a resposta :) (não ainda;)
PhD
12

Eu realmente gosto da resposta de Whuber, então reuni mais alguns recursos. A covariância descreve tanto quanto as variáveis ​​estão espalhadas e a natureza de seu relacionamento.

A covariância usa retângulos para descrever a que distância uma observação está da média em um gráfico de dispersão:

  • Se um retângulo tem lados longos e uma largura alta ou lados curtos e uma largura curta, fornece evidências de que as duas variáveis ​​se movem juntas.

  • Se um retângulo possui dois lados relativamente longos para essas variáveis ​​e dois lados relativamente curtos para a outra variável, essa observação fornece evidências de que as variáveis ​​não se movem muito bem juntas.

  • Se o retângulo estiver no 2º ou 4º quadrante, quando uma variável for maior que a média, a outra será menor que a média. Um aumento em uma variável está associado a uma diminuição na outra.

Encontrei uma visualização interessante disso em http://sciguides.com/guides/covariance/ . Explica o que é covariância se você apenas conhece o significado.

arthur.00
fonte
7
+1 Boa explicação (especialmente o resumo introdutório de uma frase). O link é interessante. Como não possui arquivo na máquina Wayback , é provável que seja novo. Como isso se aproxima muito da minha resposta (de três anos), até a escolha de vermelho para relacionamentos positivos e azuis para relacionamentos negativos, suspeito que seja um derivado (não atribuído) do material neste site.
whuber
4
O link "visualização legal" morreu ....
whuber
1
@MSIS Não é possível descobrir, porque há um número muito grande de distribuições possíveis no círculo. Mas se você está se referindo à distribuição uniforme , não há nada a calcular, porque (como me lembro de observar em seu tópico em stats.stackexchange.com/q/414365/919 ) o coeficiente de correlação deve ser igual ao seu próprio QED
whuber
1
XX0XX2X1,XX2:11
whuber
1
α,a<αb((ba)mod2π)/(2π).
10

Aqui está outra tentativa de explicar a covariância com uma imagem. Cada painel da figura abaixo contém 50 pontos simulados de uma distribuição bivariada com correlação entre x e y de 0,8 e variações, como mostrado nos rótulos de linha e coluna. A covariância é mostrada no canto inferior direito de cada painel.

Covariâncias diferentes, todas com correlação = 0,8

Qualquer pessoa interessada em melhorar isso ... aqui está o código R:

library(mvtnorm)

rowvars <- colvars <- c(10,20,30,40,50)

all <- NULL
for(i in 1:length(colvars)){
  colvar <- colvars[i]
  for(j in 1:length(rowvars)){
    set.seed(303)  # Put seed here to show same data in each panel
    rowvar <- rowvars[j]
    # Simulate 50 points, corr=0.8
    sig <- matrix(c(rowvar, .8*sqrt(rowvar)*sqrt(colvar), .8*sqrt(rowvar)*sqrt(colvar), colvar), nrow=2)
    yy <- rmvnorm(50, mean=c(0,0), sig)
    dati <- data.frame(i=i, j=j, colvar=colvar, rowvar=rowvar, covar=.8*sqrt(rowvar)*sqrt(colvar), yy)
    all <- rbind(all, dati)
  }
}
names(all) <- c('i','j','colvar','rowvar','covar','x','y')
all <- transform(all, colvar=factor(colvar), rowvar=factor(rowvar))
library(latticeExtra)
useOuterStrips(xyplot(y~x|colvar*rowvar, all, cov=all$covar,
                      panel=function(x,y,subscripts, cov,...){
                        panel.xyplot(x,y,...)
                        print(cor(x,y))
                        ltext(14,-12, round(cov[subscripts][1],0))
                      }))
Kevin Wright
fonte
10

Adorei a resposta da @whuber - antes eu tinha apenas uma vaga idéia de como a covariância podia ser visualizada, mas esses gráficos de retângulo são geniais.

No entanto, como a fórmula da covariância envolve a média, e a pergunta original do OP afirmou que o 'receptor' entende o conceito de média, pensei que teria uma falha na adaptação dos gráficos retangulares do @ whuber para comparar cada ponto de dados ao meios de x e y, pois isso representa mais o que está acontecendo na fórmula de covariância. Eu pensei que realmente acabou parecendo bastante intuitivo: "Gráficos de covariância para variáveis ​​com correlações diferentes"

O ponto azul no meio de cada gráfico é a média de x (x_mean) e a média de y (y_mean).

Os retângulos estão comparando o valor de x - x_mean e y - y_mean para cada ponto de dados.

O retângulo fica verde quando:

  • x e y são maiores que suas respectivas médias
  • ambos x e y são menores que seus respectivos meios

O retângulo fica vermelho quando:

  • x é maior que x_mean, mas y é menor que y_mean
  • x é menor que x_mean, mas y é maior que y_mean

A covariância (e a correlação) podem ser fortemente negativas e fortemente positivas. Quando o gráfico é dominado por uma cor a mais que a outra, isso significa que os dados geralmente seguem um padrão consistente.

  • Se o gráfico tiver muito mais verde do que vermelho, significa que y geralmente aumenta quando x aumenta.
  • Se o gráfico tiver muito mais vermelho que verde, significa que y geralmente diminui quando x aumenta.
  • Se o gráfico não for dominado por uma cor ou outra, significa que não existe um padrão de como xey se relacionam.

O valor real da covariância para duas variáveis ​​diferentes x e y é basicamente a soma de toda a área verde menos toda a área vermelha e depois dividida pelo número total de pontos de dados - efetivamente a média de verdura versus vermelhidão do gráfico .

Como esse som / aparência?

capohugo
fonte
3

Variância é o grau pelo qual uma variável aleatória muda em relação ao seu valor esperado. Devido à natureza estocástica do processo subjacente, a variável aleatória representa.

Covariância é o grau pelo qual duas variáveis ​​aleatórias diferentes mudam uma em relação à outra. Isso pode acontecer quando variáveis ​​aleatórias são direcionadas pelo mesmo processo subjacente ou suas derivadas. Os processos representados por essas variáveis ​​aleatórias estão afetando um ao outro, ou é o mesmo processo, mas uma das variáveis ​​aleatórias é derivada da outra.

Kingz
fonte
2

Eu simplesmente explicaria a correlação, que é bastante intuitiva. Eu diria "A correlação mede a força do relacionamento entre duas variáveis ​​X e Y. A correlação é entre -1 e 1 e será próxima de 1 em valor absoluto quando o relacionamento for forte. Covariância é apenas a correlação multiplicada pelos desvios padrão de Portanto, enquanto a correlação é adimensional, a covariância está no produto das unidades da variável X e da variável Y.

Michael Chernick
fonte
10
Isso parece inadequado porque não há menção à linearidade. X e Y podem ter uma forte relação quadrática, mas uma correlação de zero.
mark999
0

Duas variáveis ​​que teriam uma covariância positiva alta (correlação) seriam o número de pessoas em uma sala e o número de dedos que estão na sala. (À medida que o número de pessoas aumenta, esperamos que o número de dedos aumente também.)

Algo que pode ter uma covariância negativa (correlação) seria a idade de uma pessoa e o número de folículos capilares em sua cabeça. Ou, o número de espinhas no rosto de uma pessoa (em uma determinada faixa etária) e quantas datas elas têm em uma semana. Esperamos que pessoas com mais anos tenham menos cabelo e pessoas com mais acne tenham menos datas. Elas estão negativamente correlacionadas.

Adão
fonte
2
A covariância não é necessariamente intercambiável com a correlação - a primeira depende muito da unidade. Correlação é um número entre -1 e 1 um escalar sem unidade que representa a 'força' da covariância IMO e isso não está claro em sua resposta
PhD
Reduzido como a resposta implica que covariância e correlação podem ser usadas de forma intercambiável.
Sapo_cosmico