Eu gostaria de usar um modelo de regressão logística binária no contexto de streaming de dados (séries temporais multidimensionais) para prever o valor da variável dependente dos dados (ou seja, linha) que acabou de chegar, dadas as observações anteriores. Até onde eu sei, a regressão logística é tradicionalmente usada para análise post-mortem, onde cada variável dependente já foi definida (por inspeção ou pela natureza do estudo).
No entanto, o que acontece no caso de séries temporais, onde queremos fazer previsões (em tempo real) sobre a variável dependente em termos de dados históricos (por exemplo, em uma janela de tempo dos últimos segundos) e, é claro, na anterior estimativas da variável dependente?
E se você vir o sistema acima ao longo do tempo, como ele deve ser construído para que a regressão funcione? Temos que treiná-lo primeiro rotulando, digamos, as primeiras 50 linhas de nossos dados (ou seja, definindo a variável dependente como 0 ou 1) e, em seguida, use a estimativa atual do vetor para estimar a nova probabilidade da variável dependente ser 0 ou 1 para os dados que acabaram de chegar (ou seja, a nova linha que acabou de ser adicionada ao sistema)?
Para deixar meu problema mais claro, estou tentando criar um sistema que analise um conjunto de dados linha por linha e tente prever um resultado binário (variável dependente), considerando o conhecimento (observação ou estimativa) de todos os dependentes ou explicativos anteriores. variáveis que chegaram em uma janela de tempo fixo. Meu sistema está em Rerl e usa R para a inferência.
fonte
Respostas:
Existem dois métodos a serem considerados:
Use apenas as últimas N amostras de entrada. Supondo que o seu sinal de entrada tenha a dimensão D, você tem N * D amostras por rótulo de verdade à terra. Dessa forma, você pode treinar usando qualquer classificador que desejar, incluindo regressão logística. Dessa forma, cada saída é considerada independente de todas as outras saídas.
Use as últimas N amostras de entrada e as últimas N saídas que você gerou. O problema é semelhante à decodificação de viterbi . Você pode gerar uma pontuação não binária com base nas amostras de entrada e combinar a pontuação de várias amostras usando um decodificador viterbi. Isso é melhor que o método 1. se você tiver algo sobre a relação temporal entre as saídas.
fonte