Curtose gigantesca?

Estou fazendo algumas estatísticas descritivas dos retornos diários dos índices de ações. Ou seja, se e são os níveis do índice no dia 1 e no dia 2, respectivamente, então $P_1$ $P_2$ é o retorno que estou usando (completamente padrão na literatura). $log_e (\frac{P_2}{P_1})$

Portanto, a curtose é enorme em algumas delas. Estou analisando cerca de 15 anos de dados diários (cerca de observações de séries temporais) $260 * 15$

                      means     sds     mins    maxs     skews     kurts
ARGENTINA          -0.00031 0.00965 -0.33647 0.13976 -15.17454 499.20532
AUSTRIA             0.00003 0.00640 -0.03845 0.04621   0.19614   2.36104
CZECH.REPUBLIC      0.00008 0.00800 -0.08289 0.05236  -0.16920   5.73205
FINLAND             0.00005 0.00639 -0.03845 0.04622   0.19038   2.37008
HUNGARY            -0.00019 0.00880 -0.06301 0.05208  -0.10580   4.20463
IRELAND             0.00003 0.00641 -0.03842 0.04621   0.18937   2.35043
ROMANIA            -0.00041 0.00789 -0.14877 0.09353  -1.73314  44.87401
SWEDEN              0.00004 0.00766 -0.03552 0.05537   0.22299   3.52373
UNITED.KINGDOM      0.00001 0.00587 -0.03918 0.04473  -0.03052   4.23236
                   -0.00007 0.00745 -0.09124 0.06405  -1.82381  63.20596
AUSTRALIA           0.00009 0.00861 -0.08831 0.06702  -0.74937  11.80784
CHINA              -0.00002 0.00072 -0.40623 0.02031   6.26896 175.49667
HONG.KONG           0.00000 0.00031 -0.00237 0.00627   2.73415  56.18331
INDIA              -0.00011 0.00336 -0.03613 0.03063  -0.22301  10.12893
INDONESIA          -0.00031 0.01672 -0.24295 0.19268  -2.09577  54.57710
JAPAN               0.00008 0.00709 -0.03563 0.06591   0.57126   5.16182
MALAYSIA           -0.00003 0.00861 -0.35694 0.13379 -16.48773 809.07665

Minha pergunta é: Existe algum problema?

Quero fazer uma extensa análise de séries temporais sobre esses dados - análise de regressão OLS e Quantile, e também Causalidade de Granger.

Tanto a minha resposta (dependente) quanto o preditor (regressor) terão essa propriedade de curtose gigantesca. Então, eu vou ter esses processos de retorno em ambos os lados da equação de regressão. Se a não normalidade se espalhar para os distúrbios, isso só tornará meus erros padrão alta variação, certo?

(Talvez eu precise de um bootstrap robusto de skewness?)

1) Você pode mover isso para o site quant.stackexchange.com. 2) O que você quer dizer com problema? Existe toda uma literatura sobre o impacto de discrepantes em momentos. Muitas vezes, pode ser mais uma arte do que uma ciência.

John

"Há algum problema?" é muito vago. O que você quer fazer com esses dados? Suas kurtoses enormes estão associadas a uma enorme inclinação à esquerda. Como log (p2 / p1) = log p2 - log p1, uma enorme inclinação à esquerda indica que houve algumas vezes em que isso era muito baixo, ou seja, p1 muito maior que p2, em comparação com o caso usual. Pode ser que uma empresa vá à falência ou algo assim.

Peter Flom - Restabelece Monica

Desculpe por isso - alterei meu OP.

os retornos de log são tipicamente inclinados e com cauda pesada. Por esse motivo, é preferível considerar distribuições flexíveis que possam capturar esse comportamento. Veja, por exemplo, 1 e 2 .

Você deve ter um olhar para medidas de kutosis baseados em L-momentos

b Kjetil Halvorsen

Respostas:

Dê uma olhada nas distribuições Lambert W x F de cauda pesada ou distribuições Lambert W x F distorcidas (aviso: eu sou o autor). Em R, eles são implementados no pacote LambertW .

Mensagens relacionadas:

$y$ $X$

Aqui está um exemplo de estimativas de Lambert W x Gaussian aplicadas aos retornos dos fundos de ações.

library(fEcofin)
ret <- ts(equityFunds[, -1] * 100)
plot(ret)

As métricas resumidas dos retornos são semelhantes (não tão extremas) como no post do OP.

data_metrics <- function(x) {
  c(mean = mean(x), sd = sd(x), min = min(x), max = max(x), 
    skewness = skewness(x), kurtosis = kurtosis(x))
}
ret.metrics <- t(apply(ret, 2, data_metrics))
ret.metrics

##          mean    sd    min   max skewness kurtosis
## EASTEU 0.1300 1.538 -18.42 12.38   -1.855    28.95
## LATAM  0.1206 1.468  -6.06  5.66   -0.434     4.21
## CHINA  0.0864 0.911  -4.71  4.27   -0.322     5.42
## INDIA  0.1515 1.502 -12.72 14.05   -0.505    15.22
## ENERGY 0.0997 1.187  -5.00  5.02   -0.271     4.48
## MINING 0.1315 1.394  -7.72  5.69   -0.692     5.64
## GOLD   0.1098 1.855 -10.14  6.99   -0.350     5.11
## WATER  0.0628 0.748  -5.07  3.72   -0.405     6.08

A maioria das séries mostra características claramente não normais (assimetria forte e / ou curtose grande). Vamos Gaussianizar cada série usando uma distribuição pesada de Lambert W x Gaussian (= h de Tukey) usando um método de estimativa de momentos ( IGMM).

library(LambertW)
ret.gauss <- Gaussianize(ret, type = "h", method = "IGMM")
colnames(ret.gauss) <- gsub(".X", "", colnames(ret.gauss))

plot(ts(ret.gauss))

Os gráficos das séries temporais mostram muito menos caudas e também variações mais estáveis ao longo do tempo (embora não sejam constantes). Computar as métricas novamente na série temporal gaussianizada produz:

ret.gauss.metrics <- t(apply(ret.gauss, 2, data_metrics))
ret.gauss.metrics

##          mean    sd   min  max skewness kurtosis
## EASTEU 0.1663 0.962 -3.50 3.46   -0.193        3
## LATAM  0.1371 1.279 -3.91 3.93   -0.253        3
## CHINA  0.0933 0.734 -2.32 2.36   -0.102        3
## INDIA  0.1819 1.002 -3.35 3.78   -0.193        3
## ENERGY 0.1088 1.006 -3.03 3.18   -0.144        3
## MINING 0.1610 1.109 -3.55 3.34   -0.298        3
## GOLD   0.1241 1.537 -5.15 4.48   -0.123        3
## WATER  0.0704 0.607 -2.17 2.02   -0.157        3

IGMM $3$ Gaussianize()scale()

Regressão bivariada simples

$r_{EASTEU, t}$ $r_{INDIA,t}$

layout(matrix(1:2, ncol = 2, byrow = TRUE))
plot(ret[, "INDIA"], ret[, "EASTEU"])
grid()
plot(ret.gauss[, "INDIA"], ret.gauss[, "EASTEU"])
grid()

O gráfico de dispersão esquerdo da série original mostra que os valores discrepantes fortes não ocorreram nos mesmos dias, mas em momentos diferentes na Índia e na Europa; além disso, não está claro se a nuvem de dados no centro não suporta correlação ou dependência negativa / positiva. Como os valores discrepantes afetam fortemente as estimativas de variância e correlação, vale a pena examinar a dependência com as caudas pesadas removidas (gráfico de dispersão correto). Aqui os padrões são muito mais claros e a relação positiva entre a Índia e o mercado da Europa Oriental se torna aparente.

# try these models on your own
mod <- lm(EASTEU ~ INDIA * CHINA, data = ret)
mod.robust <- rlm(EASTEU ~ INDIA, data = ret)
mod.gauss <- lm(EASTEU ~ INDIA, data = ret.gauss)

summary(mod)
summary(mod.robust)
summary(mod.gauss)

Causalidade de Granger

$VAR(5)$ $p = 5$

library(vars)  
mod.vars <- vars::VAR(ret[, c("EASTEU", "INDIA")], p = 5)
causality(mod.vars, "INDIA")$Granger


## 
##  Granger causality H0: INDIA do not Granger-cause EASTEU
## 
## data:  VAR object mod.vars
## F-Test = 3, df1 = 5, df2 = 3000, p-value = 0.02

causality(mod.vars, "EASTEU")$Granger
## 
##  Granger causality H0: EASTEU do not Granger-cause INDIA
## 
## data:  VAR object mod.vars
## F-Test = 4, df1 = 5, df2 = 3000, p-value = 0.003

No entanto, para os dados gaussianizados, a resposta é diferente! Aqui, o teste pode não rejeitar H0 que "a Índia não não Granger-causa EASTEU", mas ainda rejeita que "EASTEU não Granger-causa ÍNDIA". Portanto, os dados gaussianizados sustentam a hipótese de que os mercados europeus impulsionam os mercados na Índia no dia seguinte.

mod.vars.gauss <- vars::VAR(ret.gauss[, c("EASTEU", "INDIA")], p = 5)
causality(mod.vars.gauss, "INDIA")$Granger

## 
##  Granger causality H0: INDIA do not Granger-cause EASTEU
## 
## data:  VAR object mod.vars.gauss
## F-Test = 0.8, df1 = 5, df2 = 3000, p-value = 0.5

causality(mod.vars.gauss, "EASTEU")$Granger

## 
##  Granger causality H0: EASTEU do not Granger-cause INDIA
## 
## data:  VAR object mod.vars.gauss
## F-Test = 2, df1 = 5, df2 = 3000, p-value = 0.06

$VAR(5)$

Georg M. Goerg
fonte

O que é necessário é um modelo de distribuição de probabilidade que melhor se ajuste aos dados. Às vezes, não há momentos definidos. Uma dessas distribuições é a distribuição de Cauchy. Embora a distribuição de Cauchy tenha uma mediana como valor esperado, não há valor médio estável nem momentos mais estáveis. O que isso significa é que, quando se coleta dados, surgem medições reais que parecem outliers, mas são medições reais. Por exemplo, se alguém tiver duas distribuições normais F e G, com média zero e uma dividir F / G, o resultado não terá um primeiro momento e será uma distribuição Cauchy. Por isso, coletamos dados com bom gosto, e parece bom 5,3,9,6,2,4 e calculamos uma média que parece estável; de repente, obtemos um valor de -32739876 e nosso valor médio fica sem sentido, mas observe que a mediana é 4, estável. É o que ocorre com distribuições de cauda longa.

Editar: você pode tentar a distribuição t do aluno com 2 graus de liberdade. Essa distribuição tem caudas mais longas que a distribuição normal, a assimetria e a curtose são instáveis ( Sic , não existem), mas a média e a variância são definidas, ou seja, são estáveis.

Próxima edição: Uma possibilidade pode ser usar a regressão de Theil. Enfim, é um pensamento, porque Theil funcionará bem, não importa como sejam as caudas. Pode-se fazer MLR (regressão linear múltipla usando inclinações medianas). Eu nunca fiz Theil para ajuste de dados de histograma. Mas fiz Theil com uma variante de canivete para estabelecer intervalos de confiança. A vantagem de fazer isso é que Theil não se importa com as formas de distribuição e, em geral, as respostas são menos tendenciosas do que com o OLS, porque normalmente o OLS é usado quando há variação de eixo independente problemática. Não que Theil seja totalmente desassossegado, é uma inclinação mediana. As respostas também têm um significado diferente; ele encontra uma melhor concordância entre as variáveis dependentes e independentes, em que o OLS encontra o menor preditor de erro da variável dependente,

Carl
fonte

Boa informação, obrigado. Você conhece alguns recursos (bastante compactos) para ler mais? Eu tenho um problema completamente diferente com a cauda longa, mas acho que meus dados são apenas uma distribuição mista de diferentes cenários.

Flaschenpost

Eu uso o Mathematica, e ajustar distribuições, bem como definir distribuições por partes, não é difícil nesse idioma. Por exemplo, veja isso . Em geral, variáveis aleatórias são adicionadas por convolução, mas, na prática, a convolução de funções de densidade é um desafio. Algumas pessoas definem funções de densidade para variáveis combinadas, por exemplo, adicionando uma cauda exponencial leve a uma distribuição gama mais pesada censurada após um valor máximo para modelar a frequência de terremotos. @flaschenpost

Carl