Estou fazendo algumas estatísticas descritivas dos retornos diários dos índices de ações. Ou seja, se e P 2 são os níveis do índice no dia 1 e no dia 2, respectivamente, então l o g e ( P 2é o retorno que estou usando (completamente padrão na literatura).
Portanto, a curtose é enorme em algumas delas. Estou analisando cerca de 15 anos de dados diários (cerca de observações de séries temporais)
means sds mins maxs skews kurts
ARGENTINA -0.00031 0.00965 -0.33647 0.13976 -15.17454 499.20532
AUSTRIA 0.00003 0.00640 -0.03845 0.04621 0.19614 2.36104
CZECH.REPUBLIC 0.00008 0.00800 -0.08289 0.05236 -0.16920 5.73205
FINLAND 0.00005 0.00639 -0.03845 0.04622 0.19038 2.37008
HUNGARY -0.00019 0.00880 -0.06301 0.05208 -0.10580 4.20463
IRELAND 0.00003 0.00641 -0.03842 0.04621 0.18937 2.35043
ROMANIA -0.00041 0.00789 -0.14877 0.09353 -1.73314 44.87401
SWEDEN 0.00004 0.00766 -0.03552 0.05537 0.22299 3.52373
UNITED.KINGDOM 0.00001 0.00587 -0.03918 0.04473 -0.03052 4.23236
-0.00007 0.00745 -0.09124 0.06405 -1.82381 63.20596
AUSTRALIA 0.00009 0.00861 -0.08831 0.06702 -0.74937 11.80784
CHINA -0.00002 0.00072 -0.40623 0.02031 6.26896 175.49667
HONG.KONG 0.00000 0.00031 -0.00237 0.00627 2.73415 56.18331
INDIA -0.00011 0.00336 -0.03613 0.03063 -0.22301 10.12893
INDONESIA -0.00031 0.01672 -0.24295 0.19268 -2.09577 54.57710
JAPAN 0.00008 0.00709 -0.03563 0.06591 0.57126 5.16182
MALAYSIA -0.00003 0.00861 -0.35694 0.13379 -16.48773 809.07665
Minha pergunta é: Existe algum problema?
Quero fazer uma extensa análise de séries temporais sobre esses dados - análise de regressão OLS e Quantile, e também Causalidade de Granger.
Tanto a minha resposta (dependente) quanto o preditor (regressor) terão essa propriedade de curtose gigantesca. Então, eu vou ter esses processos de retorno em ambos os lados da equação de regressão. Se a não normalidade se espalhar para os distúrbios, isso só tornará meus erros padrão alta variação, certo?
(Talvez eu precise de um bootstrap robusto de skewness?)
Respostas:
Dê uma olhada nas distribuições Lambert W x F de cauda pesada ou distribuições Lambert W x F distorcidas (aviso: eu sou o autor). Em R, eles são implementados no pacote LambertW .
Mensagens relacionadas:
Aqui está um exemplo de estimativas de Lambert W x Gaussian aplicadas aos retornos dos fundos de ações.
As métricas resumidas dos retornos são semelhantes (não tão extremas) como no post do OP.
A maioria das séries mostra características claramente não normais (assimetria forte e / ou curtose grande). Vamos Gaussianizar cada série usando uma distribuição pesada de Lambert W x Gaussian (= h de Tukey) usando um método de estimativa de momentos (
IGMM
).Os gráficos das séries temporais mostram muito menos caudas e também variações mais estáveis ao longo do tempo (embora não sejam constantes). Computar as métricas novamente na série temporal gaussianizada produz:
IGMM
Gaussianize()
scale()
Regressão bivariada simples
O gráfico de dispersão esquerdo da série original mostra que os valores discrepantes fortes não ocorreram nos mesmos dias, mas em momentos diferentes na Índia e na Europa; além disso, não está claro se a nuvem de dados no centro não suporta correlação ou dependência negativa / positiva. Como os valores discrepantes afetam fortemente as estimativas de variância e correlação, vale a pena examinar a dependência com as caudas pesadas removidas (gráfico de dispersão correto). Aqui os padrões são muito mais claros e a relação positiva entre a Índia e o mercado da Europa Oriental se torna aparente.
Causalidade de Granger
No entanto, para os dados gaussianizados, a resposta é diferente! Aqui, o teste pode não rejeitar H0 que "a Índia não não Granger-causa EASTEU", mas ainda rejeita que "EASTEU não Granger-causa ÍNDIA". Portanto, os dados gaussianizados sustentam a hipótese de que os mercados europeus impulsionam os mercados na Índia no dia seguinte.
fonte
O que é necessário é um modelo de distribuição de probabilidade que melhor se ajuste aos dados. Às vezes, não há momentos definidos. Uma dessas distribuições é a distribuição de Cauchy. Embora a distribuição de Cauchy tenha uma mediana como valor esperado, não há valor médio estável nem momentos mais estáveis. O que isso significa é que, quando se coleta dados, surgem medições reais que parecem outliers, mas são medições reais. Por exemplo, se alguém tiver duas distribuições normais F e G, com média zero e uma dividir F / G, o resultado não terá um primeiro momento e será uma distribuição Cauchy. Por isso, coletamos dados com bom gosto, e parece bom 5,3,9,6,2,4 e calculamos uma média que parece estável; de repente, obtemos um valor de -32739876 e nosso valor médio fica sem sentido, mas observe que a mediana é 4, estável. É o que ocorre com distribuições de cauda longa.
Editar: você pode tentar a distribuição t do aluno com 2 graus de liberdade. Essa distribuição tem caudas mais longas que a distribuição normal, a assimetria e a curtose são instáveis ( Sic , não existem), mas a média e a variância são definidas, ou seja, são estáveis.
Próxima edição: Uma possibilidade pode ser usar a regressão de Theil. Enfim, é um pensamento, porque Theil funcionará bem, não importa como sejam as caudas. Pode-se fazer MLR (regressão linear múltipla usando inclinações medianas). Eu nunca fiz Theil para ajuste de dados de histograma. Mas fiz Theil com uma variante de canivete para estabelecer intervalos de confiança. A vantagem de fazer isso é que Theil não se importa com as formas de distribuição e, em geral, as respostas são menos tendenciosas do que com o OLS, porque normalmente o OLS é usado quando há variação de eixo independente problemática. Não que Theil seja totalmente desassossegado, é uma inclinação mediana. As respostas também têm um significado diferente; ele encontra uma melhor concordância entre as variáveis dependentes e independentes, em que o OLS encontra o menor preditor de erro da variável dependente,
fonte