Intuição na definição da covariância

11

Eu estava tentando entender melhor a covariância de duas variáveis ​​aleatórias e entender como a primeira pessoa que pensou nisso chegou à definição que é rotineiramente usada em estatística. Eu fui à wikipedia para entender melhor. Pelo artigo, parece que uma boa medida ou quantidade de candidato para deve ter as seguintes propriedades:Cov(X,Y)

  1. Ele deve ter um sinal positivo quando duas variáveis ​​aleatórias são semelhantes (ou seja, quando uma aumenta a outra, e quando uma diminui a outra também).
  2. Também queremos que ele tenha um sinal negativo quando duas variáveis ​​aleatórias são opostas semelhantes (ou seja, quando uma aumenta a outra variável aleatória tende a diminuir)
  3. Por fim, queremos que essa quantidade de covariância seja zero (ou extremamente pequena provavelmente?) Quando as duas variáveis ​​forem independentes uma da outra (ou seja, elas não co-variarão uma com a outra).

A partir das propriedades acima, queremos definir . Minha primeira pergunta é: não é totalmente óbvio para mim por que satisfaz essas propriedades. Pelas propriedades que possuímos, eu esperaria que mais de uma equação semelhante a "derivada" fosse o candidato ideal. Por exemplo, algo mais como "se a mudança em X for positiva, a mudança em Y também deverá ser positiva". Além disso, por que tirar a diferença da média é a coisa "correta" a ser feita?C o v ( X , Y ) = E [ ( X - E [ X ] ) ( Y - E [ Y ] ) ]Cov(X,Y)Cov(X,Y)=E[(XE[X])(YE[Y])]

Uma pergunta mais tangencial, mas ainda interessante, existe uma definição diferente que poderia ter satisfeito essas propriedades e ainda teria sido significativa e útil? Estou perguntando isso porque parece que ninguém está questionando por que estamos usando essa definição em primeiro lugar (parece que "sempre foi assim", o que, na minha opinião, é uma terrível razão e dificulta a ciência e a curiosidade e pensamento matemáticos). A definição aceita é a "melhor" definição que poderíamos ter?


Estes são meus pensamentos sobre por que a definição aceita faz sentido (será apenas um argumento intuitivo):

Seja alguma diferença da variável X (ou seja, ela mudou de algum valor para outro valor em algum momento). Da mesma forma para define .Δ YΔXΔY

Para uma instância no tempo, podemos calcular se eles estão relacionados ou não, fazendo:

sign(ΔXΔY)

Isso é um pouco legal! Por um exemplo no tempo, ele satisfaz as propriedades que queremos. Se ambos aumentam juntos, na maioria das vezes, a quantidade acima deve ser positiva (e da mesma forma quando forem opostas semelhantes, será negativa, porque os terão sinais opostos).Delta

Mas isso nos dá apenas a quantidade que queremos para uma instância no tempo e, como elas são rv, podemos superestimar se decidirmos basear o relacionamento de duas variáveis ​​com base em apenas uma observação. Então, por que não levar a expectativa disso para ver o produto "médio" das diferenças.

sign(E[ΔXΔY])

O que deve capturar, em média, qual é o relacionamento médio, conforme definido acima! Mas o único problema que essa explicação tem é: de que medida medimos essa diferença? O que parece ser resolvido medindo essa diferença a partir da média (que, por algum motivo, é a coisa correta a se fazer).

Eu acho que o principal problema que tenho com a definição é tomar a diferença da média . Ainda não consigo justificar isso para mim.


A interpretação do sinal pode ser deixada para uma pergunta diferente, pois parece ser um tópico mais complicado.

Charlie Parker
fonte
2
O próprio ponto de partida pode ser o conceito ou intuição de produto cruzado (covariância é apenas a extensão dele). Se tivermos duas séries de números X e Y do mesmo comprimento e definirmos o produto cruzado somado como Soma (Xi * Yi), será maximizado se as duas séries foram classificadas na mesma ordem e será minimizado se um as séries foram classificadas em ordem crescente e a outra em ordem decrescente.
Ttnphns 17/05
A diferença da média não é a questão fundamental. É exatamente a magnitude que importa, a diferença da origem; por algumas razões, é natural e conveniente colocar a origem na média.
Ttnphns 17/05
@ttnphns, você está dizendo que, se eles covariem juntos, então a covariância deve ser "maximizada" e se eles covarem o contrário, deve ser o mais negativo possível? (ou seja, minimizado) Por que não é definida então como a expectativa do produto cruzado?
Charlie Parker
A covariância é natural para variáveis ​​sem origem inerente. Em seguida, calculamos a média como a origem (a média possui boas propriedades que não se relacionam ao tema da associação, portanto, geralmente é escolhida). Se a origem é inerente e tem significado, é razoável cumpri-la, então a "covariância" (co-explosão) não será simétrica, mas quem se importa?
Ttnphns 17/05
11
Essa resposta fornece uma boa intuição relacionada à covariância.
Glen_b -Reinstate Monica

Respostas:

10

Imagine que começamos com uma pilha vazia de números. Então começamos a desenhar pares partir de sua distribuição conjunta. Uma das quatro coisas pode acontecer:(X,Y)

  1. Se X e Y forem maiores, então suas respectivas médias dizemos que o par é semelhante e, portanto, colocamos um número positivo na pilha.
  2. Se X e Y forem menores, então suas respectivas médias dizemos que o par é semelhante e colocamos um número positivo na pilha.
  3. Se X for maior que sua média e Y for menor que sua média, dizemos que o par é diferente e colocamos um número negativo na pilha.
  4. Se X é menor que sua média e Y é maior que sua média, dizemos que o par é diferente e colocamos um número negativo na pilha.

Então, para obter uma medida geral da (des-) similaridade de X e Y, somamos todos os valores dos números na pilha. Uma soma positiva sugere que as variáveis ​​se movem na mesma direção ao mesmo tempo. Uma soma negativa sugere que as variáveis ​​se movem em direções opostas mais frequentemente do que não. Uma soma zero sugere que saber a direção de uma variável não diz muito sobre a direção da outra.

É importante pensar em 'maior que a média' em vez de apenas 'grande' (ou 'positivo'), porque quaisquer duas variáveis ​​não negativas seriam consideradas semelhantes (por exemplo, o tamanho do próximo acidente de carro no M42 e no número de bilhetes comprados na estação de Paddington amanhã).

A fórmula de covariância é uma formalização deste processo:

Cov(X,Y)=E[(XE[X])(YE[Y])]

Usando a distribuição de probabilidade em vez de simulação de monte carlo e especificando o tamanho do número que colocamos na pilha.

conjecturas
fonte
Uau, esta é uma resposta muito boa. Apenas uma última coisa, você se importa em adicionar mais detalhes sobre a justificativa de por que tem que ser a diferença da média ? Por que não outro valor? Por que isso faz sentido? Eu acho que é a principal coisa que está me deixando preso em internalizar completamente essa definição. Obrigado btw!
Charlie Parker
Obrigado. Suponha que haja dois caminhões grandes em dois países diferentes. Agora, grandes caminhões tendem a transportar grandes cargas. Se adicionássemos um número positivo à pilha sempre que cada caminhão carregasse uma grande carga, teríamos que dizer que o comportamento dos dois caminhões era muito semelhante. Mas, na verdade, o tamanho da carga transportada por um caminhão não está relacionado ao tamanho da carga transportada pelo outro em um determinado momento. Acontecem que ambos são caminhões grandes. Portanto, nossa medida de similaridade não seria útil. É por isso que temos que pensar em 'maior que a média'.
conjecturas
Desculpe por estar um pouco atrasado, mas decidi revisar este tópico e ainda tenho uma dúvida sobre por que é a diferença em relação à média. A diferença de seus respectivos meios é importante porque cada variável aleatória X e Y pode vir de escalas diferentes? ou seja, para ter uma noção do que é "grande", é diferente dependendo da escala de base que eles são. Então, para superar essa questão de escala, comparamos com seus respectivos meios?
Charlie Parker
1

Aqui está a minha maneira intuitiva de olhar para ela sem nenhuma equação.

  1. É uma generalização da variação para dimensões superiores. A motivação provavelmente veio da tentativa de descrever como os dados se comportam. Na primeira ordem, temos sua localização - a média. Na segunda ordem, temos a dispersão - a covariância.

    Eu acho que o principal problema que tenho com a definição é tomar a diferença da média. Ainda não consigo justificar isso para mim.

    a dispersão é avaliada em relação ao centro da distribuição. A definição mais básica da variância é o 'desvio médio da média'. portanto, você deve subtrair a média também no caso da covariância.

  2. Outra motivação principal que vem à mente é a necessidade de definir uma maneira de medir a distância entre variáveis ​​aleatórias. A distância de Mahalanobis e a covariância vêm de mãos dadas: Dada uma distribuição gaussiana e duas outras amostras que têm uma distância euclidiana igual à média da distribuição. Se eu perguntar a você qual das amostras tem maior probabilidade de ser uma discrepância que não foi extraída da distribuição gaussiana, a distância euclidiana não será suficiente. A distância de Mahalanobis tem uma única diferença notável da distância euclidiana: leva em consideração a dispersão (covariância) da distribuição. Isso permite generalizar a distância para variáveis ​​aleatórias.

rhadar
fonte
1
  1. Por fim, queremos que essa quantidade de covariância seja zero (ou extremamente pequena provavelmente?) Quando as duas variáveis ​​forem independentes uma da outra (ou seja, elas não co-variarão uma com a outra).

(12)XYE[XY]E[XY]=14X^=1000XY^=1000YE[X^Y^]=250,000(X,Y)=E[(X-E[X])(Y-E[Y])]

  1. Também queremos que ele tenha um sinal negativo quando duas variáveis ​​aleatórias são opostas semelhantes (ou seja, quando uma aumenta a outra variável aleatória tende a diminuir)

XY=1 1-XE[XY]=0 0(X,Y)=E[(X-E[X])(Y-E[Y])]

  1. Deve (sic) ter um sinal positivo quando duas variáveis ​​aleatórias são semelhantes (ou seja, quando uma aumenta a outra, e quando uma diminui a outra também).

XY=X-1 1E[XY](X,Y)=E[(X-E[X])(Y-E[Y])] fornece um valor positivo exatamente como você deseja.

X=Y

Dilip Sarwate
fonte
1

Eu estava pensando sobre a mesma pergunta, e a intuição dada por conjecturas me ajudou. Para visualizar a intuição, peguei dois vetores normais aleatórios, xey, plotei o gráfico de dispersão e pintei cada ponto pelo produto de seus desvios em relação às respectivas médias (azul para valores positivos, vermelho para negativo).

Como está claro no gráfico, o produto é mais positivo nos quadrantes superior direito e inferior esquerdo, enquanto é mais negativo nos quadrantes inferior direito e superior esquerdo. O efeito da soma dos produtos resultaria em 0, pois os pontos azuis cancelam os vermelhos.

Mas você pode ver que, se removemos os pontos vermelhos, os dados restantes exibem uma relação positiva entre si, validada pela soma positiva de produtos (ou seja, soma dos pontos azuis).

insira a descrição da imagem aqui

Charleslow
fonte
0

no espaço vetorial de variáveis ​​aleatórias, é razoável definir o quadrado da distância entre duas variáveis ​​aleatórias x e y com E {(xy) ^ 2} agora, com relação a essa definição de produto com ponto de distância ou relação de variáveis ​​aleatórias, será E {xy}, que é tão semelhante à definição de covariância, exceto os termos -E {x} e -E {y}, que são para o tipo de normalização.

nima
fonte