Na verdade, depende do objetivo de sua pesquisa. Na minha opinião, pode haver vários:
- Você quer entender quais são os fatores típicos que causam casos e mortes e que não são afetados por períodos epidêmicos e fatores que causam epidemias (para que você esteja interessado em probabilidades típicas que não forçam grandes probabilidades) - nesse caso, obviamente, você precisa remover a epidemia períodos a partir dos dados, pois eles têm o objetivo de pesquisar os valores discrepantes para o que você gostaria de concluir
- Você pode incluir alterações epidêmicas em seus modelos (modelos de mudança de regime, por exemplo, quaisquer bons links e sugestões de modelos da comunidade são bem-vindos aqui), porque você deseja saber a probabilidade do período epidêmico ocorrer (e também por quanto tempo durará), para testar a estabilidade e prever - nesse caso, você não exclui períodos epidêmicos, mas procura modelos mais complicados em vez de optar pelo ferramenta econométrica de martelo ou algo semelhanteO L S
- Seu principal objetivo é detectar períodos epidêmicos e monitorá-los em tempo real - é um campo especial em econometria com o qual vários colegas estão trabalhando na Universidade de Vilnius (definitivamente, você gostaria de ter muitas observações epidêmicas para lidar com eles) )
Portanto, se seu objetivo principal for algo como 2, limpar os dados causará conclusões erradas sobre as previsões futuras, ou seja, desempenho impreciso da previsão. Também é verdade que o segundo caso não fornece necessariamente melhores previsões, mas você pelo menos pode tirar conclusões sobre as probabilidades de períodos epidêmicos e sua duração. Isso é de vital importância para os matemáticos atuariais, então pode ser que você é o único?
Eu pessoalmente não chamaria isso de "limpeza de dados". Penso na limpeza de dados mais no sentido de edição de dados - limpeza de inconsistências no conjunto de dados (por exemplo, um registro relatou idade de 1000 ou uma pessoa de 4 anos é mãe solteira, etc.).
A presença de um efeito real nos seus dados não o torna "confuso" (pelo contrário, a presença de efeitos reais o tornaria rico) - embora possa tornar sua tarefa matemática mais envolvida. Eu sugeriria que os dados fossem "limpos" dessa maneira, se for a única maneira viável de obter uma previsão. Se existe uma maneira viável de não descartar informações, use-a.
Parece que você pode se beneficiar de algum tipo de análise cíclica, considerando que esse efeito ocorre periodicamente (como um "ciclo de negócios").
Do meu ponto de vista, se você está pensando em prever algo, remover um efeito genuíno dessa fonte só pode piorar suas previsões. Isso ocorre porque você efetivamente "jogou fora" as mesmas informações que deseja prever!
O outro ponto é que pode ser difícil determinar quanto de um conjunto de mortes ocorreu devido à epidemia e quanto foi causado pelas flutuações comuns.
Na terminologia estatística, a epidemia parece assim, do seu ponto de vista, é um "incômodo" para o que você realmente deseja analisar. Portanto, você não está particularmente interessado nisso, mas precisa de alguma forma considerá-lo em sua análise. Uma maneira "rápida e suja" de fazer isso em um cenário de regressão é incluir um indicador para os anos / períodos epidêmicos como uma variável regressora. Isso fornecerá uma estimativa média do efeito das epidemias (e implicitamente assume que o efeito é o mesmo para cada epidemia). No entanto, essa abordagem funciona apenas para descrever o efeito, porque na previsão sua variável de regressão é desconhecida (você não sabe quais períodos no futuro serão epidêmicos).
Outra maneira de explicar a epidemia é usar um modelo de mistura com dois componentes: um modelo para a parte epidêmica e um modelo para a parte "comum". O modelo prossegue em duas etapas: 1) classifica um período como epidêmico ou normal; em seguida, 2) aplica o modelo ao qual foi classificado.
fonte
Para lhe dar uma resposta geral à sua pergunta, deixe-me parafrasear um dos meus antigos gerentes gerais: as oportunidades de pesquisa são encontradas nos valores extremos do modelo que você está ajustando.
A situação é semelhante à experiência realizada pelo meu Robert Millikan na determinação da carga de um elétron. Décadas depois de ganhar o prêmio Nobel por seu experimento, suas anotações foram examinadas e verificou-se que ele jogou fora um grande número de pontos de dados porque discordavam dos resultados que procurava. Isso é ciência ruim?
Se você encontrar alguns outliers, talvez eles sejam causados por "aberrações estatísticas". No entanto, se você encontrar mais do que alguns discrepantes, precisará explorar seus dados mais de perto. Se você não pode atribuir uma causa para as aberrações, não entende o processo e um modelo estatístico não resolverá o seu problema. O objetivo de um modelo é resumir um processo, o modelo não resumirá magicamente um processo que o pesquisador não entende.
fonte
O papel da "limpeza de dados" é identificar quando "nossas leis (modelo) não funcionam". Ajustar para Outliers ou pontos de dados anormais serve para permitir "estimativas robustas" dos parâmetros no modelo atual que estamos entretendo. Esses "valores extremos", se não tratados, permitem uma distorção indesejada nos parâmetros do modelo, pois a estimativa é "orientada para explicar esses pontos de dados" que "não estão se comportando de acordo com nosso modelo hipotético". Em outras palavras, há muito retorno em termos de soma de quadrados explicada, concentrando-se nos "bandidos". Os pontos empiricamente identificados que requerem limpeza devem ser cuidadosamente examinados para potencialmente desenvolver / sugerir fatores de causa que não estão no modelo atual.
Como avaliar o efeito da intervenção em um estado versus outro usando a taxa anual de mortalidade de casos?
Fazer ciência é procurar padrões repetidos.
Detectar anomalias é identificar valores que não seguem padrões repetidos. De que outra forma você saberia que um ponto violava esse modelo? De fato, o processo de crescimento, compreensão, descoberta e análise de outliers deve ser iterativo. Este não é um pensamento novo.
Sir Frances Bacon, escrevendo no Novum Organum cerca de 400 anos atrás, disse: “Erros da natureza, esportes e monstros corrigem o entendimento em relação às coisas comuns e revelam formas gerais. Pois quem conhece os caminhos da natureza notará mais facilmente seus desvios; e, por outro lado, quem sabe as desvios de rebanho descreverão com mais precisão seus caminhos. ”
Mudamos nossas regras observando quando as regras atuais falham.
Se os valores discrepantes identificados são todos pulsos e têm efeitos semelhantes (tamanho), sugerimos o seguinte (citado em outro pôster)
Uma maneira "rápida e suja" de fazer isso em um cenário de regressão é incluir um indicador para os anos / períodos epidêmicos como uma variável regressora. Isso fornecerá uma estimativa média do efeito das epidemias (e pressupõe implicitamente que o efeito seja afetado). o mesmo para cada epidemia. No entanto, essa abordagem funciona apenas para descrever o efeito, porque na previsão sua variável de regressão é desconhecida (você não sabe quais períodos no futuro serão epidêmicos). "
Isso se o curso exigir que as anomalias individuais (anos de pulso) tenham efeitos semelhantes. Se eles diferirem, uma variável do portmanteau descrita acima estaria incorreta.
fonte
Um dos métodos mais usados para encontrar epidemias em dados retrospectivos é, na verdade, procurar discrepâncias - muitos pesquisadores da gripe, por exemplo, concentram-se principalmente nos resíduos de seus modelos ajustados, e não nos próprios modelos, para ver lugares onde o "dia" previsões do dia a dia "do modelo falham - uma das maneiras pelas quais o modelo pode falhar é com o surgimento de uma epidemia.
No entanto, é imperativo que você distinga entre caçar discrepantes em seus resultados - provavelmente não a melhor idéia de todos os tempos - e o que a maioria das pessoas chama de "limpeza de dados". Aqui, você está procurando discrepantes não porque eles representam um problema estatístico, mas porque eles levantam problemas de qualidade de dados.
Por exemplo, em um conjunto de dados que tenho, existe uma variável para o início da doença. Para um assunto, essa data é novembro de 1929. Eu acho que isso está correto? Não. Isso indica um problema de qualidade dos dados que precisa ser corrigido - neste caso, corrigindo a data com base em outras informações sobre o assunto. Esse tipo de limpeza de dados melhorará ativamente a qualidade dos seus resultados estatísticos.
fonte