A limpeza de dados pode piorar os resultados da análise estatística?

17

Um aumento no número de casos e mortes ocorre durante epidemias (aumento repentino de números) devido à circulação de vírus (como o vírus do Nilo Ocidental nos EUA em 2002) ou à diminuição da resistência de pessoas ou à contaminação de alimentos ou água ou ao aumento do número de mosquitos. Essas epidemias se apresentarão como outliers, que podem ocorrer a cada 1 a 5 anos. Ao remover esses valores discrepantes, estamos removendo evidências de epidemias que formam uma parte importante da previsão e do entendimento da doença.

A limpeza de dados é necessária ao lidar com valores extremos causados ​​por epidemias?

Vai melhorar os resultados ou piorar os resultados da análise estatística?

DrWho
fonte

Respostas:

12

Na verdade, depende do objetivo de sua pesquisa. Na minha opinião, pode haver vários:

  1. Você quer entender quais são os fatores típicos que causam casos e mortes e que não são afetados por períodos epidêmicos e fatores que causam epidemias (para que você esteja interessado em probabilidades típicas que não forçam grandes probabilidades) - nesse caso, obviamente, você precisa remover a epidemia períodos a partir dos dados, pois eles têm o objetivo de pesquisar os valores discrepantes para o que você gostaria de concluir
  2. Você pode incluir alterações epidêmicas em seus modelos (modelos de mudança de regime, por exemplo, quaisquer bons links e sugestões de modelos da comunidade são bem-vindos aqui), porque você deseja saber a probabilidade do período epidêmico ocorrer (e também por quanto tempo durará), para testar a estabilidade e prever - nesse caso, você não exclui períodos epidêmicos, mas procura modelos mais complicados em vez de optar pelo ferramenta econométrica de martelo ou algo semelhanteOLS
  3. Seu principal objetivo é detectar períodos epidêmicos e monitorá-los em tempo real - é um campo especial em econometria com o qual vários colegas estão trabalhando na Universidade de Vilnius (definitivamente, você gostaria de ter muitas observações epidêmicas para lidar com eles) )

Portanto, se seu objetivo principal for algo como 2, limpar os dados causará conclusões erradas sobre as previsões futuras, ou seja, desempenho impreciso da previsão. Também é verdade que o segundo caso não fornece necessariamente melhores previsões, mas você pelo menos pode tirar conclusões sobre as probabilidades de períodos epidêmicos e sua duração. Isso é de vital importância para os matemáticos atuariais, então pode ser que você é o único?

Dmitrij Celov
fonte
Ótima e simples resposta. Você tem um conhecimento considerável em uma idade jovem.
DrWho
15

Eu pessoalmente não chamaria isso de "limpeza de dados". Penso na limpeza de dados mais no sentido de edição de dados - limpeza de inconsistências no conjunto de dados (por exemplo, um registro relatou idade de 1000 ou uma pessoa de 4 anos é mãe solteira, etc.).

A presença de um efeito real nos seus dados não o torna "confuso" (pelo contrário, a presença de efeitos reais o tornaria rico) - embora possa tornar sua tarefa matemática mais envolvida. Eu sugeriria que os dados fossem "limpos" dessa maneira, se for a única maneira viável de obter uma previsão. Se existe uma maneira viável de não descartar informações, use-a.

Parece que você pode se beneficiar de algum tipo de análise cíclica, considerando que esse efeito ocorre periodicamente (como um "ciclo de negócios").

Do meu ponto de vista, se você está pensando em prever algo, remover um efeito genuíno dessa fonte só pode piorar suas previsões. Isso ocorre porque você efetivamente "jogou fora" as mesmas informações que deseja prever!

O outro ponto é que pode ser difícil determinar quanto de um conjunto de mortes ocorreu devido à epidemia e quanto foi causado pelas flutuações comuns.

Na terminologia estatística, a epidemia parece assim, do seu ponto de vista, é um "incômodo" para o que você realmente deseja analisar. Portanto, você não está particularmente interessado nisso, mas precisa de alguma forma considerá-lo em sua análise. Uma maneira "rápida e suja" de fazer isso em um cenário de regressão é incluir um indicador para os anos / períodos epidêmicos como uma variável regressora. Isso fornecerá uma estimativa média do efeito das epidemias (e implicitamente assume que o efeito é o mesmo para cada epidemia). No entanto, essa abordagem funciona apenas para descrever o efeito, porque na previsão sua variável de regressão é desconhecida (você não sabe quais períodos no futuro serão epidêmicos).

Outra maneira de explicar a epidemia é usar um modelo de mistura com dois componentes: um modelo para a parte epidêmica e um modelo para a parte "comum". O modelo prossegue em duas etapas: 1) classifica um período como epidêmico ou normal; em seguida, 2) aplica o modelo ao qual foi classificado.

probabilityislogic
fonte
(+1) boas sugestões, embora provavelmente sejam possíveis mais truques não tão sujos.
Dmitrij Celov
+1; Para a posteridade, quero fazer o seguinte comentário: Você declara "remover um efeito genuíno ... só pode piorar suas previsões". No contexto, você está claramente certo, no entanto, no caso geral, isso não é necessariamente verdade. (Estou pensando na "troca de desvio de viés", que é muito importante na modelagem preditiva.) Mais uma vez, acho que você está aqui e sei que você sabe sobre o compromisso de desvio de variância; Quero mencioná-lo para qualquer um que encontrar essa resposta no futuro e possa interpretar mal essa afirmação.
gung - Restabelece Monica
5

Para lhe dar uma resposta geral à sua pergunta, deixe-me parafrasear um dos meus antigos gerentes gerais: as oportunidades de pesquisa são encontradas nos valores extremos do modelo que você está ajustando.

A situação é semelhante à experiência realizada pelo meu Robert Millikan na determinação da carga de um elétron. Décadas depois de ganhar o prêmio Nobel por seu experimento, suas anotações foram examinadas e verificou-se que ele jogou fora um grande número de pontos de dados porque discordavam dos resultados que procurava. Isso é ciência ruim?

Se você encontrar alguns outliers, talvez eles sejam causados ​​por "aberrações estatísticas". No entanto, se você encontrar mais do que alguns discrepantes, precisará explorar seus dados mais de perto. Se você não pode atribuir uma causa para as aberrações, não entende o processo e um modelo estatístico não resolverá o seu problema. O objetivo de um modelo é resumir um processo, o modelo não resumirá magicamente um processo que o pesquisador não entende.

schenectady
fonte
É a tendência humana. Robert Millikan não foi exceção. Estou muito feliz que tantas coisas novas tenham sido esclarecidas e a filosofia por trás de um modelo estatístico seja enfatizada.
DrWho
5

O papel da "limpeza de dados" é identificar quando "nossas leis (modelo) não funcionam". Ajustar para Outliers ou pontos de dados anormais serve para permitir "estimativas robustas" dos parâmetros no modelo atual que estamos entretendo. Esses "valores extremos", se não tratados, permitem uma distorção indesejada nos parâmetros do modelo, pois a estimativa é "orientada para explicar esses pontos de dados" que "não estão se comportando de acordo com nosso modelo hipotético". Em outras palavras, há muito retorno em termos de soma de quadrados explicada, concentrando-se nos "bandidos". Os pontos empiricamente identificados que requerem limpeza devem ser cuidadosamente examinados para potencialmente desenvolver / sugerir fatores de causa que não estão no modelo atual.

Como avaliar o efeito da intervenção em um estado versus outro usando a taxa anual de mortalidade de casos?

Fazer ciência é procurar padrões repetidos.

Detectar anomalias é identificar valores que não seguem padrões repetidos. De que outra forma você saberia que um ponto violava esse modelo? De fato, o processo de crescimento, compreensão, descoberta e análise de outliers deve ser iterativo. Este não é um pensamento novo.

Sir Frances Bacon, escrevendo no Novum Organum cerca de 400 anos atrás, disse: “Erros da natureza, esportes e monstros corrigem o entendimento em relação às coisas comuns e revelam formas gerais. Pois quem conhece os caminhos da natureza notará mais facilmente seus desvios; e, por outro lado, quem sabe as desvios de rebanho descreverão com mais precisão seus caminhos. ”

Mudamos nossas regras observando quando as regras atuais falham.

Se os valores discrepantes identificados são todos pulsos e têm efeitos semelhantes (tamanho), sugerimos o seguinte (citado em outro pôster)

Uma maneira "rápida e suja" de fazer isso em um cenário de regressão é incluir um indicador para os anos / períodos epidêmicos como uma variável regressora. Isso fornecerá uma estimativa média do efeito das epidemias (e pressupõe implicitamente que o efeito seja afetado). o mesmo para cada epidemia. No entanto, essa abordagem funciona apenas para descrever o efeito, porque na previsão sua variável de regressão é desconhecida (você não sabe quais períodos no futuro serão epidêmicos). "

Isso se o curso exigir que as anomalias individuais (anos de pulso) tenham efeitos semelhantes. Se eles diferirem, uma variável do portmanteau descrita acima estaria incorreta.

IrishStat
fonte
@IrishStat: Ótima explicação e uma cotação memorável. Você manteve sua antiguidade e experiência. Você pode gentilmente expandir a sua declaração "espera conhecimento a ser descoberto" com referência à minha pergunta anterior stats.stackexchange.com/questions/8358/...
DrWho
1
@DrWHO: A identificação do LEVEL SHIFT em 2014, que remediou uma trama residual muito mal vista, é um exemplo de "conhecimento aguardando para ser descoberto", pois revelou o aparente atraso entre uma data de mudança de política e sua data de implementação / realização completa.O A declaração de que uma mudança permanente de nível (etapa) foi totalmente realizada em 2004 (ano 11 de 17) reflete a data de fato em que a data de jure ocorreu alguns anos antes.
IrishStat
@IrishStat: Obrigado pelo esclarecimento. É muito difícil convencer os formuladores de políticas, médicos e público que um determinado tratamento pode ter mudanças drásticas no resultado da doença. Demora décadas. Essa mudança de nível foi vista em 2004 reflete o atraso em aceitar algo novo. É melhor deixar a mudança de nível ou tratá-la como um desvio para os cálculos das taxas de mortalidade
DrWho
1
meu comentário acima deveria ter sido LEVEL SHIFT em 2004. Desculpe a confusão.
IrishStat
1
@DrWHO: Em resposta à sua pergunta "É melhor deixar a mudança de nível ou tratá-la como um desvio para os cálculos das taxas de mortalidade por casos do Estado 1 ao lidar com a questão". Se você não tratá-lo, pode-se simplesmente dizer que STATE1 teve uma mudança de nível em 2004, enquanto STATE2, portanto, não foi diferente, mas não se pode colocar uma probabilidade nessa afirmação. Depois de tratar o STATE1 para a mudança de nível, um normalizou os dados para uma mudança de status em 2004. Os dados normalizados (dados limpos) podem ser comparados com os dados normalizados do STATE2 sem perda de generalidade.
IrishStat
5

Um dos métodos mais usados ​​para encontrar epidemias em dados retrospectivos é, na verdade, procurar discrepâncias - muitos pesquisadores da gripe, por exemplo, concentram-se principalmente nos resíduos de seus modelos ajustados, e não nos próprios modelos, para ver lugares onde o "dia" previsões do dia a dia "do modelo falham - uma das maneiras pelas quais o modelo pode falhar é com o surgimento de uma epidemia.

No entanto, é imperativo que você distinga entre caçar discrepantes em seus resultados - provavelmente não a melhor idéia de todos os tempos - e o que a maioria das pessoas chama de "limpeza de dados". Aqui, você está procurando discrepantes não porque eles representam um problema estatístico, mas porque eles levantam problemas de qualidade de dados.

Por exemplo, em um conjunto de dados que tenho, existe uma variável para o início da doença. Para um assunto, essa data é novembro de 1929. Eu acho que isso está correto? Não. Isso indica um problema de qualidade dos dados que precisa ser corrigido - neste caso, corrigindo a data com base em outras informações sobre o assunto. Esse tipo de limpeza de dados melhorará ativamente a qualidade dos seus resultados estatísticos.

Fomite
fonte