Ok, aviso justo - esta é uma pergunta filosófica que não envolve números. Eu tenho pensado muito sobre como os erros se infiltram nos conjuntos de dados ao longo do tempo e como isso deve ser tratado pelos analistas - ou se é realmente importante?
Como pano de fundo, estou analisando um estudo de longo prazo que envolve muitos conjuntos de dados coletados por provavelmente 25 pessoas entre 7 e 8 anos - ninguém jamais colocou todos os dados em uma estrutura coerente (esse é o meu trabalho). Venho fazendo muitas entradas de dados (transcrevendo fotocópias de cadernos de laboratório antigos) e continuo encontrando pequenos erros de transcrição cometidos por outras pessoas, além de encontrar entradas de dados difíceis ou impossíveis de ler - principalmente porque a tinta desapareceu com o tempo. Estou usando o contexto para fazer 'melhores palpites' sobre o que os dados dizem e deixando os dados apontados completamente, se não tiver certeza. Mas continuo pensando no fato de que toda vez que os dados são copiados, a frequência dos erros aumenta inevitavelmente até que os dados originais sejam completamente perdidos.
Portanto, isso me leva a um pensamento: além dos erros de instrumento / medição e erros de gravação, há um componente fundamental de 'erro de manipulação de dados' que aumentará ao longo do tempo e com mais manipulação dos dados (observação: provavelmente apenas mais uma maneira de afirmar a 2ª lei da Termodinâmica, certo? A entropia de dados sempre aumentará). Consequentemente, eu me pergunto se deve haver algum tipo de 'correção' introduzida para explicar a história de vida dos conjuntos de dados (algo semelhante a uma correção de Bonferroni)? Em outras palavras, devemos assumir que conjuntos de dados mais antigos ou mais copiados são menos precisos e, se for o caso, devemos ajustar as descobertas adequadamente?
Mas, então, meu outro pensamento é que os erros são uma parte inerente da coleta e tratamento de dados, e como todos os testes estatísticos foram desenvolvidos com dados do mundo real, talvez essas fontes de erro já estejam "precificadas" para a análise?
Além disso, outro ponto que vale a pena mencionar é que, como os erros de dados são aleatórios, é muito mais provável que eles reduzam a força de uma descoberta do que a aprimorem - em outras palavras, erros de manipulação de dados levariam a erros do Tipo 2, não a erros do Tipo 1 . Portanto, em muitos contextos, se você estivesse usando dados antigos / questionáveis e ainda encontrasse um efeito, isso aumentaria sua confiança de que o efeito é real (porque era forte o suficiente para sobreviver à adição de erro aleatório no conjunto de dados). Então, por esse motivo, talvez a 'correção' deva seguir o outro caminho (aumentar o nível alfa necessário para uma 'descoberta') ou simplesmente não nos incomodar?
De qualquer forma, desculpe-me por ser tão detalhado e obtuso, não tenho muita certeza de como fazer essa pergunta de forma mais concisa. Obrigado por me acompanhar.
Respostas:
Segundo a sugestão do @Aksakal: Se o analista considerar que o erro de medição é potencialmente importante, ele pode e deve ser modelado explicitamente como parte do processo de geração de dados.
Vejo várias considerações que argumentam contra a introdução de um fator de correção genérico baseado em, por exemplo, a idade do conjunto de dados.
Primeiro, a idade pode ser uma proxy muito ruim para o grau de deterioração dos dados. A tecnologia de duplicação, compressão e conservação, e o grau de esforço e cuidado para verificar a transcrição correta, são aparentemente os fatores importantes. Alguns textos antigos (por exemplo, a Bíblia) são conservados há séculos com uma degradação aparentemente nula. Seu exemplo de VHS, embora legítimo, é realmente incomum, pois cada evento de duplicação sempre apresenta erro e não há maneiras fáceis de verificar e corrigir erros de transcrição - se alguém usar tecnologias baratas e amplamente disponíveis para duplicação e armazenamento. Espero que se reduza substancialmente o grau de erros introduzidos, através de investimentos em sistemas mais caros.
Este último ponto é mais geral: conservação e propagação de dados são atividades econômicas . A qualidade da transmissão depende muito dos recursos utilizados. Essas escolhas, por sua vez, dependerão da importância percebida dos dados para quem estiver duplicando e transmitindo.
Considerações econômicas também se aplicam ao analista. Sempre há mais fatores que você pode levar em consideração ao fazer sua análise. Em que condições os erros de transcrição de dados serão substanciais o suficiente e importantes o suficiente para valer a pena levar em consideração? Meu palpite é: essas condições não são comuns. Além disso, se a degradação potencial dos dados for considerada importante o suficiente para explicá-la em sua análise, provavelmente será importante o suficiente para modelar explicitamente o processo, em vez de inserir uma etapa genérica de "correção".
Finalmente, não há necessidade de desenvolver um fator de correção genérico de novo . Já existe um corpo substancial de teoria e prática estatística para analisar conjuntos de dados para os quais o erro de medição é visto como importante.
Em suma: é um pensamento interessante. Mas não acho que isso deva provocar mudanças na prática analítica.
fonte