Sou desenvolvedor web e estatístico iniciante.
Meus dados são mais ou menos assim
Subject Week x1 x2 x3 x4 x5 y1
A 1 .5 .6 .7 .8 .7 10
B 1 .3 .6 .2 .1 .3 8
C 1 .3 .1 .2 .3 .2 6
A 2 .1 .9 1.5 .8 .7 5
B 2 .3 .6 .3 .1 .3 2
D 2 .3 .1 .4 .3 .5 10
Estou tentando prever y1 como um produto das variáveis x. No entanto, tenho razões para acreditar que pode haver um atraso no efeito das múltiplas variáveis x em y1, ou seja, as variáveis x da semana 1 para o sujeito A influenciam y1 para o sujeito A na semana 2.
Observe que nem todos os assuntos terão pontos de dados para cada semana (na verdade, a maioria não). Os sujeitos tendem a ter pontos de dados para, digamos, a semana 1, 2, 3, 4 e depois desaparecem e não aparecem novamente até a semana 7,8,9. Estou disposto a restringir minha análise aos pontos de dados em que temos dados das N semanas anteriores, dada minha hipótese sobre o atraso.
Como eu disse, sou iniciante e não tenho certeza da melhor maneira de lidar com um conjunto de dados deste formulário. Espero realizar essa análise em R, Python ou em alguma combinação dos dois. Eu não acho que as variáveis x da semana atual não terão efeito. Eu acho que eles terão algum efeito, talvez maior que nas semanas anteriores. Só acredito que as semanas anteriores terão algum efeito.
Espero que haja duas a três semanas de atraso. Para dar um pouco de contexto, a análise que estou tentando aqui refere-se a julgar a qualidade do tráfego online. Toda semana, recebo uma pontuação com a qualidade de um determinado fluxo de usuários que envio a um determinado site. Estou tentando encontrar métricas secundárias, como distribuição do navegador, porcentagem de cliques duplicados etc., que me permitirão prever qual será essa pontuação antes do tempo.
fonte
Respostas:
Como mencionei na minha nota acima, eu trataria isso como um problema de regressão. Aqui está um link para construir, em R, as variáveis lag (e lead) dos seus dados ( R Head ).
Incluída no post, há uma breve introdução ao uso dos dados resultantes em um modelo de regressão. Você também pode fazer uma pequena escavação em segundo plano no dynlm do pacote R (regressão linear dinâmica).
fonte
Você pode criar tabelas nas quais o y1 é deslocado por 0,1,2,3,4 semanas.
Então você executa uma análise neles. Por exemplo, você pode criar uma rede neural que tente prever y1 a partir de x. Para algumas idéias, você pode dar uma olhada em Weka .
Então, você tem alguma medida de prever y1 de x para cada atraso. Usando isso, você pode encontrar o atraso mais adequado.
Como alternativa, você pode criar uma tabela que inclua x da semana atual, x da semana anterior, ... e y1. Em seguida, faça uma análise da influência (por exemplo, PCA ) para ver qual semana e qual variável tem mais influência.
fonte