Sou estudante do ensino médio e estou trabalhando em um projeto de programação de computadores, mas não tenho muita experiência em estatística e modelagem de dados além de um curso de estatística do ensino médio, por isso estou meio confuso.
Basicamente, tenho uma lista razoavelmente grande (suponha que seja grande o suficiente para atender às suposições de quaisquer testes ou medidas estatísticas) de vezes que alguém decidiu imprimir um documento. Com base nessa lista, gostaria de construir um modelo estatístico de algum tipo que preveja o tempo mais provável para o próximo trabalho de impressão, considerando todos os horários dos eventos anteriores.
Eu já li isso , mas as respostas não ajudam exatamente com o que tenho em mente para o meu projeto. Fiz algumas pesquisas adicionais e descobri que um modelo Markov oculto provavelmente me permitiria fazê-lo com precisão, mas não consigo encontrar um link sobre como gerar um modelo Markov oculto usando apenas uma lista de vezes. Também descobri que o uso de um filtro Kalman na lista pode ser útil, mas basicamente, eu gostaria de obter mais informações sobre alguém de quem realmente os usou e conhece suas limitações e requisitos antes de tentar algo e esperar que funcione.
Muitíssimo obrigado!
Respostas:
Os modelos ocultos de Markov seriam aplicados se os dados fossem emissões aleatórias de algum modelo subjacente não observado de Markov; Eu não descartaria isso, mas não parece um modelo muito natural.
Eu pensaria em processos pontuais , que correspondem bem aos seus dados particulares. Há muito trabalho para prever terremotos (embora eu não saiba muito sobre isso) e até crime .
Se houver muitas pessoas diferentes imprimindo, e você estiver vendo apenas os tempos, mas não as identidades individuais, um processo de Poisson pode funcionar bem (a superposição de vários processos independentes de pontos é aproximadamente Poisson), embora tenha que ser heterogêneo (o a probabilidade de um ponto varia ao longo do tempo): as pessoas têm menos probabilidade de imprimir às 3h do que às 15h.
Para o modelo de processo não - homogêneo de Poisson , a chave seria obter uma boa estimativa da chance de um trabalho de impressão em um horário específico em um dia específico.
Se esses tempos de impressão são para estudantes em sala de aula, pode ser bastante complicado, pois eles provavelmente não são independentes e, portanto, o processo de Poisson não funcionaria bem.
Aqui está um link para um artigo sobre a aplicação do crime.
fonte
Com base na previsão do tempo provável, o uso da estatística bayesiana multivariada (MBSS) pode ser útil. Esse MBSS tem a vantagem de melhorar a pontualidade e a precisão da detecção de eventos.
fonte