Estou procurando um modelo entre os preços das ações e o clima. Tenho o preço do MWatt comprado entre os países da Europa e muitos valores sobre o clima (arquivos Grib). A cada hora em um período de 5 anos (2011-2015).
Preço / dia
Isso é por dia durante um ano. Eu tenho isso por horas em 5 anos.
Exemplo de clima
3Dscatterplot, em Kelvin, por uma hora. Eu tenho 1000 valores por dados por hora e 200 dados, como klevin, wind, geopential etc.
Estou tentando prever o preço médio por hora do Mwatt.
Meus dados sobre o clima são muito densos, mais de 10000 valores / hora e, portanto, com uma alta correlação. É um problema de grande volume de dados.
Tentei os métodos Lasso, Ridge e SVR com o preço médio do MWatt como resultado e os dados do meu clima como renda. Tomei 70% como dados de treinamento e 30% como teste. Se os dados do meu teste não são previstos (em algum lugar dentro dos meus dados de treinamento), tenho uma boa previsão (R² = 0,89). Mas quero fazer previsões nos meus dados.
Portanto, se os dados do teste são cronologicamente após os dados do meu treinamento, eles não prevêem nada (R² = 0,05). Eu acho que é normal, porque é uma série de tempo. E há muita autocorrelação.
Eu pensei que tinha que usar o modelo de série do tempo como o ARIMA. Calculei a ordem do método (a série é estacionária) e testei. Mas isso não funciona. Quero dizer que a previsão tem um r² de 0,05. Minha previsão sobre os dados de teste não é de todo. Eu tentei o método ARIMAX com meu tempo como regressor. Coloque não adiciona nenhuma informação.
ACF / PCF, dados de teste / trem
Então, eu fiz um corte sazonal por dia e por semana
Dia
Semana sobre a tendência do primeiro
E posso ter isso se puder predecitar a tendência de tendência do meu preço das ações:
O azul é minha previsão e o vermelho o valor real.
Vou fazer uma regressão com uma média móvel do clima como renda e a tendência da tendência do preço das ações como resultado. Mas, por enquanto, não encontrei nenhuma relação.
Mas se não houver interação, como posso saber que não há nada? talvez seja só que eu não encontrei.
Respostas:
Você pode estar interessado em um domínio científico formal chamado "mecânica computacional". Em um artigo de James Crutchfield e David Feldman, eles expõem o programa de mecânica computacional - tanto quanto eu o entendo - como analisando as fronteiras entre (1) incerteza determinística e o custo da informação para inferir relações determinísticas, (2) estocástico incerteza e o custo da informação para inferir distribuições de probabilidade; e (3) incerteza entrópica e as conseqüências de ser pobre em informações.
Para responder sua pergunta diretamente (embora também de maneira bastante ampla, já que você fez uma pergunta ampla), como sabemos quando aprendemos "o suficiente" ou "tudo o que podemos" com os dados é um domínio aberto de pesquisa. O primeiro será necessariamente dependente das necessidades de um pesquisador e ator no mundo (por exemplo, dado quanto tempo? Quanta capacidade de processamento? Quanta memória, quanta urgência etc.).
Eu não sou do ramo, nem do fundo deste artigo em particular, mas eles são alguns pensadores legais. :)
Crutchfield, JP e Feldman, DP (2003). Regularidades invisíveis, aleatoriedade observada: níveis de convergência de entropia . Caos , 13 (1): 25–54.
fonte