... supondo que eu seja capaz de aumentar o conhecimento deles sobre variação de maneira intuitiva ( Entendendo "variação" intuitivamente ) ou dizendo: É a distância média dos valores dos dados da 'média' - e como a variação está no quadrado unidades, pegamos a raiz quadrada para manter as mesmas unidades e isso é chamado de desvio padrão.
Vamos supor que isso seja articulado e (espero) entendido pelo 'receptor'. Agora, o que é covariância e como explicar isso em inglês simples sem o uso de termos / fórmulas matemáticas? (Ou seja, explicação intuitiva.;)
Observe: eu sei as fórmulas e a matemática por trás do conceito. Quero ser capaz de 'explicar' o mesmo de uma maneira fácil de entender, sem incluir a matemática; ou seja, o que 'covariância' significa?
fonte
Respostas:
Às vezes, podemos "aumentar o conhecimento" com uma abordagem incomum ou diferente. Gostaria que esta resposta fosse acessível aos alunos do jardim de infância e também se divertisse, para que todos saibam seus lápis de cera!
Dados dados emparelhados , desenhe seu gráfico de dispersão. (Os alunos mais novos podem precisar de um professor para produzir isso para eles. :-) Cada par de pontos , nesse gráfico determina um retângulo: é o menor retângulo, cujos lados são paralelos ao eixos, contendo esses pontos. Assim, os pontos estão nos cantos superior direito e inferior esquerdo (uma relação "positiva") ou estão nos cantos superior esquerdo e inferior direito (uma relação "negativa").( x , y) ( xEu, yEu) ( xj, yj)
Desenhe todos os retângulos possíveis. Pinte-os de forma transparente, deixando os retângulos positivos em vermelho (digamos) e os retângulos negativos em "anti-vermelho" (azul). Dessa forma, onde os retângulos se sobrepõem, suas cores são aprimoradas quando são iguais (azul e azul ou vermelho e vermelho) ou canceladas quando são diferentes.
( Nesta ilustração de um retângulo positivo (vermelho) e negativo (azul), a sobreposição deve ser branca; infelizmente, este software não possui uma cor "anti-vermelha" verdadeira. A sobreposição é cinza, portanto escurece plotagem, mas no geral a quantidade líquida de vermelho está correta. )
Agora estamos prontos para a explicação da covariância.
A covariância é a quantidade líquida de vermelho no gráfico (tratando o azul como valores negativos).
Aqui estão alguns exemplos com 32 pontos binormais extraídos de distribuições com as covariâncias fornecidas, ordenadas da mais negativa (mais azul) para a mais positiva (mais avermelhada).
Eles são desenhados em eixos comuns para torná-los comparáveis. Os retângulos são levemente descritos para ajudá-lo a vê-los. Esta é uma versão atualizada (2019) do original: usa software que cancela corretamente as cores vermelho e ciano em retângulos sobrepostos.
Vamos deduzir algumas propriedades de covariância. O entendimento dessas propriedades estará acessível a qualquer pessoa que tenha desenhado alguns retângulos. :-)
Bilinearidade. Como a quantidade de vermelho depende do tamanho do gráfico, a covariância é diretamente proporcional à escala no eixo x e à escala no eixo y.
Correlação. A covariância aumenta à medida que os pontos se aproximam de uma linha inclinada para cima e diminui à medida que os pontos se aproximam de uma linha inclinada para baixo. Isso ocorre porque no primeiro caso a maioria dos retângulos é positiva e, no último caso, a maioria é negativa.
Relação com associações lineares. Como associações não lineares podem criar misturas de retângulos positivos e negativos, elas levam a covariâncias imprevisíveis (e não muito úteis). Associações lineares podem ser totalmente interpretadas por meio das duas caracterizações anteriores.
Sensibilidade a outliers. Um outlier geométrico (um ponto distante da massa) criará muitos retângulos grandes em associação com todos os outros pontos. Só ele pode criar uma quantidade líquida positiva ou negativa de vermelho na imagem geral.
Aliás, essa definição de covariância difere da usual apenas por uma constante universal de proporcionalidade (independente do tamanho do conjunto de dados). Os inclinados matematicamente não terão problemas para executar a demonstração algébrica de que a fórmula dada aqui é sempre duas vezes a covariância usual.
fonte
Para elaborar meu comentário, eu costumava ensinar a covariância como uma medida da co-variação (média) entre duas variáveis, digamos e .yx y
É útil recordar a fórmula básica (simples de explicar, não é necessário falar sobre expectativas matemáticas para um curso introdutório):
para que possamos ver claramente que cada observação pode contribuir positiva ou negativamente para a covariância, dependendo do produto de seu desvio da média das duas variáveis, e . Note que aqui não falo de magnitude, mas simplesmente do sinal da contribuição da i-ésima observação.ˉ x ˉ y( xEu, yEu) x¯ y¯
Isso é o que descrevi nos diagramas a seguir. Os dados artificiais foram gerados usando um modelo linear (esquerda, ; direita, , onde foram extraídos de uma distribuição gaussiana com média zero e , e de uma distribuição uniforme no intervalo ).y = 0,1 x + ε ε DP = 2 x [ 0 , 20 ]y= 1,2 x + ε y= 0,1 x + ε ε DP = 2 x [ 0 , 20 ]
fonte
A covariância é uma medida de quanto uma variável sobe quando a outra sobe.
fonte
Eu estou respondendo a minha própria pergunta, mas eu pensei que seria ótimo para as pessoas que vêm através deste post para conferir algumas das explicações nesta página .
Estou parafraseando uma das respostas muito bem articuladas (de um usuário 'Zhop'). Estou fazendo isso no caso de o site ser encerrado ou a página ser removida quando alguém acessar a partir deste momento;)
Adicionando outro (por 'CatofGrey') que ajuda a aumentar a intuição:
Esses dois juntos me fizeram entender a covariância como eu nunca havia entendido antes! Simplesmente incrível!!
fonte
Eu realmente gosto da resposta de Whuber, então reuni mais alguns recursos. A covariância descreve tanto quanto as variáveis estão espalhadas e a natureza de seu relacionamento.
A covariância usa retângulos para descrever a que distância uma observação está da média em um gráfico de dispersão:
Se um retângulo tem lados longos e uma largura alta ou lados curtos e uma largura curta, fornece evidências de que as duas variáveis se movem juntas.
Se um retângulo possui dois lados relativamente longos para essas variáveis e dois lados relativamente curtos para a outra variável, essa observação fornece evidências de que as variáveis não se movem muito bem juntas.
Se o retângulo estiver no 2º ou 4º quadrante, quando uma variável for maior que a média, a outra será menor que a média. Um aumento em uma variável está associado a uma diminuição na outra.
Encontrei uma visualização interessante disso em http://sciguides.com/guides/covariance/ . Explica o que é covariância se você apenas conhece o significado.
fonte
Aqui está outra tentativa de explicar a covariância com uma imagem. Cada painel da figura abaixo contém 50 pontos simulados de uma distribuição bivariada com correlação entre x e y de 0,8 e variações, como mostrado nos rótulos de linha e coluna. A covariância é mostrada no canto inferior direito de cada painel.
Qualquer pessoa interessada em melhorar isso ... aqui está o código R:
fonte
Adorei a resposta da @whuber - antes eu tinha apenas uma vaga idéia de como a covariância podia ser visualizada, mas esses gráficos de retângulo são geniais.
No entanto, como a fórmula da covariância envolve a média, e a pergunta original do OP afirmou que o 'receptor' entende o conceito de média, pensei que teria uma falha na adaptação dos gráficos retangulares do @ whuber para comparar cada ponto de dados ao meios de x e y, pois isso representa mais o que está acontecendo na fórmula de covariância. Eu pensei que realmente acabou parecendo bastante intuitivo:
O ponto azul no meio de cada gráfico é a média de x (x_mean) e a média de y (y_mean).
Os retângulos estão comparando o valor de x - x_mean e y - y_mean para cada ponto de dados.
O retângulo fica verde quando:
O retângulo fica vermelho quando:
A covariância (e a correlação) podem ser fortemente negativas e fortemente positivas. Quando o gráfico é dominado por uma cor a mais que a outra, isso significa que os dados geralmente seguem um padrão consistente.
O valor real da covariância para duas variáveis diferentes x e y é basicamente a soma de toda a área verde menos toda a área vermelha e depois dividida pelo número total de pontos de dados - efetivamente a média de verdura versus vermelhidão do gráfico .
Como esse som / aparência?
fonte
Variância é o grau pelo qual uma variável aleatória muda em relação ao seu valor esperado. Devido à natureza estocástica do processo subjacente, a variável aleatória representa.
Covariância é o grau pelo qual duas variáveis aleatórias diferentes mudam uma em relação à outra. Isso pode acontecer quando variáveis aleatórias são direcionadas pelo mesmo processo subjacente ou suas derivadas. Os processos representados por essas variáveis aleatórias estão afetando um ao outro, ou é o mesmo processo, mas uma das variáveis aleatórias é derivada da outra.
fonte
Eu simplesmente explicaria a correlação, que é bastante intuitiva. Eu diria "A correlação mede a força do relacionamento entre duas variáveis X e Y. A correlação é entre -1 e 1 e será próxima de 1 em valor absoluto quando o relacionamento for forte. Covariância é apenas a correlação multiplicada pelos desvios padrão de Portanto, enquanto a correlação é adimensional, a covariância está no produto das unidades da variável X e da variável Y.
fonte
Duas variáveis que teriam uma covariância positiva alta (correlação) seriam o número de pessoas em uma sala e o número de dedos que estão na sala. (À medida que o número de pessoas aumenta, esperamos que o número de dedos aumente também.)
Algo que pode ter uma covariância negativa (correlação) seria a idade de uma pessoa e o número de folículos capilares em sua cabeça. Ou, o número de espinhas no rosto de uma pessoa (em uma determinada faixa etária) e quantas datas elas têm em uma semana. Esperamos que pessoas com mais anos tenham menos cabelo e pessoas com mais acne tenham menos datas. Elas estão negativamente correlacionadas.
fonte