Sei que este é principalmente um site de estatísticas; portanto, se eu estiver fora do tópico, me redirecione.
Eu tenho um sistema com bombas que às vezes quebram e precisam ser substituídas. Eu gostaria de poder prever as falhas e, assim, dar um aviso prévio às pessoas que substituem as bombas. Tenho dados históricos para o processo da bomba, como vazão, pressão, altura do líquido etc.
Tenho apenas uma pequena experiência no uso de técnicas de aprendizado de máquina para classificar dados - basicamente, segui e fiz os exercícios do curso de aprendizado de máquina de Andrew Ng sobre coursera, bem como o Statistics One de Andrew Conway - e nunca usei o aprendizado de máquina para classificar séries temporais. Estou pensando em maneiras de transformar o meu problema para poder usar meu conhecimento existente. Com meu conhecimento limitado, não receberei uma previsão muito ótima, mas espero aprender com isso e, para esse problema, qualquer pequena melhoria na previsão é útil, em vez de apenas esperar que as falhas ocorram.
Minha abordagem proposta é transformar a série temporal em um problema de classificação normal. A entrada seria um resumo de uma janela de série temporal, com valor médio, desvio padrão, valores máximos etc. para cada tipo de dados na janela. Para a saída, não tenho certeza do que funcionaria melhor. Uma abordagem é que a saída seria uma classificação binária de se a bomba falhou dentro de um determinado período de tempo a partir do final da janela ou não. Outra é que a saída seria o tempo restante até a bomba falhar; portanto, não uma classificação, mas uma regressão (no sentido de aprendizado de máquina).
Você acha que essa abordagem provavelmente produzirá resultados? É uma questão de "depende do domínio e dos dados históricos". Existem transformações melhores (de entrada e saída) que eu não considerei, ou a previsão de falhas com base em dados de séries temporais é tão diferente da previsão de falhas mais padrão, que seria melhor gastar meu tempo lendo o aprendizado de máquina com séries temporais ?
Respostas:
Você pode querer analisar a análise de sobrevivência, com a qual pode estimar a função de sobrevivência (a probabilidade de que o tempo de falha seja maior que um tempo específico) e a função de risco (a probabilidade instantânea de uma unidade falhar, dado que não falha experimentada até o momento). Com a maioria das abordagens de análise de sobrevivência, é possível inserir preditores invariantes e variáveis no tempo.
Existem várias abordagens diferentes de análise de sobrevivência, incluindo o modelo de riscos proporcionais semi-paramétricos de Cox (também conhecido como regressão de Cox) e modelos paramétricos. A regressão de Cox não exige que você especifique a função de risco base subjacente, mas você pode achar que precisa de um modelo paramétrico para capturar adequadamente os padrões de falha em seus dados. Às vezes, modelos paramétricos de tempo de falha acelerada são apropriados, onde a taxa de falha aumenta com o tempo.
Você pode tentar começar com a regressão de Cox, uma vez que é o mais simples de usar e verificar o quão bem você pode prever falhas em um conjunto de testes de validação. Eu suspeito que você pode ter melhores resultados com algum tipo de análise de sobrevivência que leva em conta explicitamente o tempo e a censura (bombas que ainda não falharam) do que tentar transformar isso em um problema de classificação não baseado no tempo.
fonte
Basearia minha decisão na classificação versus regressão com base na disponibilidade de dados (o último requer saber o tempo exato em que a falha ocorreu, o primeiro não) e se ter estimativas do tempo até a falha é realmente um requisito para seu problema (meu padrão seria tentar a classificação primeiro).
fonte