Exemplos reais da diferença entre independência e correlação

9

É sabido que a independência de variáveis ​​aleatórias implica correlação zero, mas a correlação zero não precisa implicar independência.

Encontrei muitos exemplos matemáticos que demonstram dependência, apesar da correlação zero. Existem exemplos da vida real para apoiar esse fato?

user46697
fonte
2
Cuidado, apenas a correlação zero e as variáveis ​​normais em conjunto implicam independência.
Francis
2
@ Sidesh "Mas como o volume não é uma função linear do comprimento, eles não estão correlacionados." Bem, não está perfeitamente correlacionado. Mas eles seriam positivamente correlacionados.
Silverfish
11
@Siddhesh: que só funcionará se ...E[euength4]-E[euength]E[euength3]=0 0
Francis
11
Sinta-se à vontade para colocar de volta o comentário sobre a distribuição normal, se você não concordar com a minha edição. Mas pensei que seria melhor removê-lo, pois (1) é uma questão secundária perturbadora da sua pergunta principal, (2) já acho que já foi solicitado no CV antes, então seria uma duplicata do material existente aqui ( 3) Não queria que isso causasse confusão entre futuros leitores. Tentei editar a pergunta de tal maneira que aumentasse suas chances de ser reaberta: acho que essa questão é bem distinta das "estatísticas matemáticas" do mesmo tópico.
Silverfish
2
Eu ainda acho que essa pergunta é realmente boa e pode atrair mais respostas interessantes se for reaberta (o que pode envolver alguma edição para diferenciá-la claramente da discussão da qual atualmente é considerada uma duplicata). Eu levantei um tópico sobre o Meta sobre o que seria necessário para que essa pergunta fosse reaberta. Todos os comentários são bem-vindos.
Silverfish

Respostas:

6

Os retornos das ações são um exemplo decente da vida real do que você está pedindo. Existe uma correlação muito próxima de zero entre o retorno do S&P 500 de hoje e de ontem. No entanto, existe uma dependência clara: retornos quadrados são positivamente correlacionados automaticamente; períodos de alta volatilidade são agrupados no tempo.

Código R:

library(ggplot2)
library(grid)
library(quantmod)

symbols   <- new.env()
date_from <- as.Date("1960-01-01")
date_to   <- as.Date("2016-02-01")
getSymbols("^GSPC", env=symbols, src="yahoo", from=date_from, to=date_to)  # S&P500

df <- data.frame(close=as.numeric(symbols$GSPC$GSPC.Close),
                 date=index(symbols$GSPC))
df$log_return     <- c(NA, diff(log(df$close)))
df$log_return_lag <- c(NA, head(df$log_return, nrow(df) - 1))

cor(df$log_return,   df$log_return_lag,   use="pairwise.complete.obs")  # 0.02
cor(df$log_return^2, df$log_return_lag^2, use="pairwise.complete.obs")  # 0.14

acf(df$log_return,     na.action=na.pass)  # Basically zero autocorrelation
acf((df$log_return^2), na.action=na.pass)  # Squared returns positively autocorrelated

p <- (ggplot(df, aes(x=date, y=log_return)) +
      geom_point(alpha=0.5) +
      theme_bw() + theme(panel.border=element_blank()))
p
ggsave("log_returns_s&p.png", p, width=10, height=8)

As séries temporais do log retornam no S&P 500:

séries de tempos de retorno de log

Se os retornos fossem independentes ao longo do tempo (e estacionários), seria muito improvável ver esses padrões de volatilidade em cluster e você não veria a autocorrelação nos retornos quadrados de log.

Adrian
fonte
3

Outro exemplo é a relação entre estresse e notas em um exame. A relação é uma forma inversa de U e a correlação é muito baixa, embora a causa pareça bastante clara.

Peter Flom - Restabelecer Monica
fonte
2
Esse é um bom exemplo. Você tem dados ou isso apenas com base na experiência de introspecção / ensino?
Adrian
11
Eu vi um estudo disso, mas o vi há muitos anos, para não ter a citação ou os dados reais.
Peter Flom - Restabelece Monica