Como prever quando o próximo evento ocorre, com base nos horários dos eventos anteriores?

19

Sou estudante do ensino médio e estou trabalhando em um projeto de programação de computadores, mas não tenho muita experiência em estatística e modelagem de dados além de um curso de estatística do ensino médio, por isso estou meio confuso.

Basicamente, tenho uma lista razoavelmente grande (suponha que seja grande o suficiente para atender às suposições de quaisquer testes ou medidas estatísticas) de vezes que alguém decidiu imprimir um documento. Com base nessa lista, gostaria de construir um modelo estatístico de algum tipo que preveja o tempo mais provável para o próximo trabalho de impressão, considerando todos os horários dos eventos anteriores.

Eu já li isso , mas as respostas não ajudam exatamente com o que tenho em mente para o meu projeto. Fiz algumas pesquisas adicionais e descobri que um modelo Markov oculto provavelmente me permitiria fazê-lo com precisão, mas não consigo encontrar um link sobre como gerar um modelo Markov oculto usando apenas uma lista de vezes. Também descobri que o uso de um filtro Kalman na lista pode ser útil, mas basicamente, eu gostaria de obter mais informações sobre alguém de quem realmente os usou e conhece suas limitações e requisitos antes de tentar algo e esperar que funcione.

Muitíssimo obrigado!

ankushg
fonte
1
+1 Esta é uma pergunta bem articulada e bem pensada, Ankush. Espero que você tenha ótimas respostas. Bem vindo ao nosso site!
whuber
Obrigado por fixar o título - eu estava movendo as palavras para tentar tornar as coisas mais coerentes e acho que acabei fazendo com que não fizesse sentido algum! Espero que alguém com o conhecimento apropriado possa ajudar.
precisa saber é o seguinte

Respostas:

10

Os modelos ocultos de Markov seriam aplicados se os dados fossem emissões aleatórias de algum modelo subjacente não observado de Markov; Eu não descartaria isso, mas não parece um modelo muito natural.

Eu pensaria em processos pontuais , que correspondem bem aos seus dados particulares. Há muito trabalho para prever terremotos (embora eu não saiba muito sobre isso) e até crime .

Se houver muitas pessoas diferentes imprimindo, e você estiver vendo apenas os tempos, mas não as identidades individuais, um processo de Poisson pode funcionar bem (a superposição de vários processos independentes de pontos é aproximadamente Poisson), embora tenha que ser heterogêneo (o a probabilidade de um ponto varia ao longo do tempo): as pessoas têm menos probabilidade de imprimir às 3h do que às 15h.

Para o modelo de processo não - homogêneo de Poisson , a chave seria obter uma boa estimativa da chance de um trabalho de impressão em um horário específico em um dia específico.

Se esses tempos de impressão são para estudantes em sala de aula, pode ser bastante complicado, pois eles provavelmente não são independentes e, portanto, o processo de Poisson não funcionaria bem.

Aqui está um link para um artigo sobre a aplicação do crime.

Karl
fonte
Obrigado por isso. Você conhece alguma maneira de criar um modelo para um processo pontual? Parece ser o mais relevante, mas não sou versado em estatística, por isso tudo parece confuso (Poisson vs Determinantal vs Cox?) Ao ler a Wikipedia ...: - \
ankushg
@ Unk - eu começaria fazendo alguns gráficos dos dados. Quanto tempo dura essa lista de tempos de impressão?
Karl
São cerca de um ano em dados. Vou fazer alguns enredos e informá-lo como será.
Ankushg 01/10/11
1

Com base na previsão do tempo provável, o uso da estatística bayesiana multivariada (MBSS) pode ser útil. Esse MBSS tem a vantagem de melhorar a pontualidade e a precisão da detecção de eventos.

Esan
fonte
Bem-vindo ao site, @Esan. Você pode falar mais sobre o MBSS, como ele funciona e como isso ajudaria?
gung - Restabelece Monica