se a covariância é -150, qual é o tipo de relacionamento entre duas variáveis?

8

A covariância de duas variáveis ​​foi calculada como -150. o que as estatísticas dizem sobre o relacionamento entre duas variáveis?

Sameera
fonte
9
As covariâncias não são livres de unidades; portanto, o valor numérico bruto não transmite significado por si só. Além do fato de ser menor que 0, não há muito a ser dito.
Glen_b -Reinstar Monica
9
Minha variável tem uma média de . É grande ou pequeno? 317
whuber

Respostas:

34

Para acrescentar à resposta de Łukasz Deryło : como ele escreve, uma covariância de -150 implica um relacionamento negativo. Se este é um relacionamento forte ou fraco, depende das variações das variáveis. Abaixo, planto exemplos para um relacionamento forte (cada variável separada tem uma variação de 200, então a covariância é grande, em termos absolutos, comparada à variação) e para um relacionamento fraco (cada variação é de 2000, então a covariância é pequena , em termos absolutos, em comparação com a variância).

Relacionamento forte variance <- 200:

relacionamento forte

Relacionamento fraco variance <- 2000:

insira a descrição da imagem aqui

Código R:

library(MASS)

nn <- 100
epsilon <- 0.1
variance <- 2000 # weak relationship

opar <- par(mfrow=c(2,2))
    for ( ii in 1:4 ) {
        while ( TRUE ) {
            dataset <- mvrnorm(n=100,mu=c(0,0),Sigma=rbind(c(2000,-150),c(-150,2000)))
            if ( abs(cov(dataset)[1,2]-(-150)) < epsilon ) break
        }   
        plot(dataset,pch=19,xlab="",ylab="",main=paste("Covariance:",cov(dataset)[1,2]))
    }
par(opar)

EDIT: quarteto de Anscombe

Como observa whuber, a covariância em si não nos diz muito sobre um conjunto de dados. Para ilustrar, vou pegar o quarteto de Anscombe e modificá-lo um pouco. Observe como gráficos de dispersão muito diferentes podem ter a mesma covariância (arredondada) de -150:

Anscombe

anscombe.mod <- anscombe
anscombe.mod[,c("x1","x2","x3","x4")] <- sqrt(150/5.5)*anscombe[,c("x1","x2","x3","x4")]
anscombe.mod[,c("y1","y2","y3","y4")] <- -sqrt(150/5.5)*anscombe[,c("y1","y2","y3","y4")]
opar <- par(mfrow=c(2,2))
    with(anscombe.mod,plot(x1,y1,pch=19,main=paste("Covariance:",round(cov(x1,y1),0))))
    with(anscombe.mod,plot(x2,y2,pch=19,main=paste("Covariance:",round(cov(x2,y2),0))))
    with(anscombe.mod,plot(x3,y3,pch=19,main=paste("Covariance:",round(cov(x3,y3),0))))
    with(anscombe.mod,plot(x4,y4,pch=19,main=paste("Covariance:",round(cov(x4,y4),0))))
par(opar)

EDIÇÃO FINAL (prometo!)

xy

final

xx <- yy <- seq(0,100,by=10)
yy[9] <- -336.7
plot(xx,yy,pch=19,main=paste("Covariance:",cov(xx,yy)))
Stephan Kolassa
fonte
É bom ver as parcelas. Duas sugestões: (1) mostram uma ampla gama de comportamentos possíveis. Como a covariância não nos diz absolutamente nada sobre o relacionamento geral, você pode ilustrar isso lançando um outlier influente para ilustrar como o relacionamento pode ser forte e consistentemente positivo , mas a covariância pode ser negativa. (2) Seja mais eficiente: depois de gerar dados de amostra, basta redimensioná-los para obter a covariância desejada. Isso evita a geração repetida de dados até que um limite seja atingido; garante um valor exato ; e mostra como pouco significado "-150" é válido.
whuber
@whuber: Serei honesto - eu fui burro demais para descobrir como alterar um determinado conjunto de dados para obter uma determinada covariância. Pesquisando e pesquisando no CV não ajudou, então no final fui com a amostragem de rejeição de força bruta. Estou um pouco frustrado comigo mesmo; Quaisquer dicas seriam bem vindas.
27917 Stephan Stephanaassass
Apenas algo a acrescentar é que você já viu o Datasaurus Dozen? É uma versão ainda mais exagerada do quarteto de Anscombe publicada no início deste ano. Você pode encontrar a publicação online original aqui
Guilherme Marthe
1
xyx,yvs=|-150/v|você-1-150/v<0 01(sx,vocêsy)xy-150
Cov(sx,vocêsy)=s(vocês)Cov(x,y)=vocês2v=±você(-150v)v=-150
@Guilherme Em uma resposta em stats.stackexchange.com/a/152034/919 , fui além de tudo isso fornecendo software que produzirá esses exemplos à vontade apenas especificando as propriedades que você deseja que eles tenham. Como exemplo, usei o código para reproduzir o quarteto de Anscombe.
whuber
7

Diz apenas que o relacionamento é negativo. Isso significa que valores baixos de uma variável tendem a ocorrer junto com valores altos da outra.

cov(X,Y)-sd(X)sd(Y)sd(X)sd(Y)

sd(X)sd(Y)-11

Você também pode executar o teste de significância da correlação.

Łukasz Deryło
fonte
2
Essa interpretação, embora comum, confunde meios com tendências gerais. A covariância pode facilmente ser negativa, mesmo quando a grande maioria dos dados segue uma relação positiva.
whuber