Eu estava tentando entender melhor a covariância de duas variáveis aleatórias e entender como a primeira pessoa que pensou nisso chegou à definição que é rotineiramente usada em estatística. Eu fui à wikipedia para entender melhor. Pelo artigo, parece que uma boa medida ou quantidade de candidato para deve ter as seguintes propriedades:
- Ele deve ter um sinal positivo quando duas variáveis aleatórias são semelhantes (ou seja, quando uma aumenta a outra, e quando uma diminui a outra também).
- Também queremos que ele tenha um sinal negativo quando duas variáveis aleatórias são opostas semelhantes (ou seja, quando uma aumenta a outra variável aleatória tende a diminuir)
- Por fim, queremos que essa quantidade de covariância seja zero (ou extremamente pequena provavelmente?) Quando as duas variáveis forem independentes uma da outra (ou seja, elas não co-variarão uma com a outra).
A partir das propriedades acima, queremos definir . Minha primeira pergunta é: não é totalmente óbvio para mim por que satisfaz essas propriedades. Pelas propriedades que possuímos, eu esperaria que mais de uma equação semelhante a "derivada" fosse o candidato ideal. Por exemplo, algo mais como "se a mudança em X for positiva, a mudança em Y também deverá ser positiva". Além disso, por que tirar a diferença da média é a coisa "correta" a ser feita?C o v ( X , Y ) = E [ ( X - E [ X ] ) ( Y - E [ Y ] ) ]
Uma pergunta mais tangencial, mas ainda interessante, existe uma definição diferente que poderia ter satisfeito essas propriedades e ainda teria sido significativa e útil? Estou perguntando isso porque parece que ninguém está questionando por que estamos usando essa definição em primeiro lugar (parece que "sempre foi assim", o que, na minha opinião, é uma terrível razão e dificulta a ciência e a curiosidade e pensamento matemáticos). A definição aceita é a "melhor" definição que poderíamos ter?
Estes são meus pensamentos sobre por que a definição aceita faz sentido (será apenas um argumento intuitivo):
Seja alguma diferença da variável X (ou seja, ela mudou de algum valor para outro valor em algum momento). Da mesma forma para define .Δ Y
Para uma instância no tempo, podemos calcular se eles estão relacionados ou não, fazendo:
Isso é um pouco legal! Por um exemplo no tempo, ele satisfaz as propriedades que queremos. Se ambos aumentam juntos, na maioria das vezes, a quantidade acima deve ser positiva (e da mesma forma quando forem opostas semelhantes, será negativa, porque os terão sinais opostos).
Mas isso nos dá apenas a quantidade que queremos para uma instância no tempo e, como elas são rv, podemos superestimar se decidirmos basear o relacionamento de duas variáveis com base em apenas uma observação. Então, por que não levar a expectativa disso para ver o produto "médio" das diferenças.
O que deve capturar, em média, qual é o relacionamento médio, conforme definido acima! Mas o único problema que essa explicação tem é: de que medida medimos essa diferença? O que parece ser resolvido medindo essa diferença a partir da média (que, por algum motivo, é a coisa correta a se fazer).
Eu acho que o principal problema que tenho com a definição é tomar a diferença da média . Ainda não consigo justificar isso para mim.
A interpretação do sinal pode ser deixada para uma pergunta diferente, pois parece ser um tópico mais complicado.
fonte
Respostas:
Imagine que começamos com uma pilha vazia de números. Então começamos a desenhar pares partir de sua distribuição conjunta. Uma das quatro coisas pode acontecer:( X, Y)
Então, para obter uma medida geral da (des-) similaridade de X e Y, somamos todos os valores dos números na pilha. Uma soma positiva sugere que as variáveis se movem na mesma direção ao mesmo tempo. Uma soma negativa sugere que as variáveis se movem em direções opostas mais frequentemente do que não. Uma soma zero sugere que saber a direção de uma variável não diz muito sobre a direção da outra.
É importante pensar em 'maior que a média' em vez de apenas 'grande' (ou 'positivo'), porque quaisquer duas variáveis não negativas seriam consideradas semelhantes (por exemplo, o tamanho do próximo acidente de carro no M42 e no número de bilhetes comprados na estação de Paddington amanhã).
A fórmula de covariância é uma formalização deste processo:
Usando a distribuição de probabilidade em vez de simulação de monte carlo e especificando o tamanho do número que colocamos na pilha.
fonte
Aqui está a minha maneira intuitiva de olhar para ela sem nenhuma equação.
É uma generalização da variação para dimensões superiores. A motivação provavelmente veio da tentativa de descrever como os dados se comportam. Na primeira ordem, temos sua localização - a média. Na segunda ordem, temos a dispersão - a covariância.
a dispersão é avaliada em relação ao centro da distribuição. A definição mais básica da variância é o 'desvio médio da média'. portanto, você deve subtrair a média também no caso da covariância.
Outra motivação principal que vem à mente é a necessidade de definir uma maneira de medir a distância entre variáveis aleatórias. A distância de Mahalanobis e a covariância vêm de mãos dadas: Dada uma distribuição gaussiana e duas outras amostras que têm uma distância euclidiana igual à média da distribuição. Se eu perguntar a você qual das amostras tem maior probabilidade de ser uma discrepância que não foi extraída da distribuição gaussiana, a distância euclidiana não será suficiente. A distância de Mahalanobis tem uma única diferença notável da distância euclidiana: leva em consideração a dispersão (covariância) da distribuição. Isso permite generalizar a distância para variáveis aleatórias.
fonte
fonte
Eu estava pensando sobre a mesma pergunta, e a intuição dada por conjecturas me ajudou. Para visualizar a intuição, peguei dois vetores normais aleatórios, xey, plotei o gráfico de dispersão e pintei cada ponto pelo produto de seus desvios em relação às respectivas médias (azul para valores positivos, vermelho para negativo).
Como está claro no gráfico, o produto é mais positivo nos quadrantes superior direito e inferior esquerdo, enquanto é mais negativo nos quadrantes inferior direito e superior esquerdo. O efeito da soma dos produtos resultaria em 0, pois os pontos azuis cancelam os vermelhos.
Mas você pode ver que, se removemos os pontos vermelhos, os dados restantes exibem uma relação positiva entre si, validada pela soma positiva de produtos (ou seja, soma dos pontos azuis).
fonte
no espaço vetorial de variáveis aleatórias, é razoável definir o quadrado da distância entre duas variáveis aleatórias x e y com E {(xy) ^ 2} agora, com relação a essa definição de produto com ponto de distância ou relação de variáveis aleatórias, será E {xy}, que é tão semelhante à definição de covariância, exceto os termos -E {x} e -E {y}, que são para o tipo de normalização.
fonte