Minha pergunta pode ser reformulada como "como avaliar um erro de amostragem usando big data", especialmente para uma publicação em periódico. Aqui está um exemplo para ilustrar um desafio.
De um conjunto de dados muito grande (> 100.000 pacientes únicos e seus medicamentos prescritos em 100 hospitais), eu estava interessado em estimar uma proporção de pacientes que tomam um medicamento específico. É fácil obter essa proporção. Seu intervalo de confiança (por exemplo, paramétrico ou de inicialização) é incrivelmente rígido / estreito, porque n é muito grande. Embora seja uma sorte ter um tamanho de amostra grande, ainda estou procurando uma maneira de avaliar, apresentar e / ou visualizar algumas formas de probabilidade de erro. Embora pareça inútil (se não enganoso) colocar / visualizar um intervalo de confiança (por exemplo, IC 95%: .65878 - .65881), também parece impossível evitar algumas declarações sobre incerteza.
Por favor, deixe-me saber o que você pensa. Eu apreciaria qualquer literatura sobre esse tópico; maneiras de evitar excesso de confiança nos dados, mesmo com um grande tamanho de amostra.
Respostas:
Esse problema também surgiu em algumas de minhas pesquisas (como modelador de epidemias, tenho o luxo de criar meus próprios conjuntos de dados e, com computadores grandes o suficiente, eles podem ser essencialmente arbitrariamente dimensionados.
Todo o objetivo de grandes conjuntos de dados é fornecer estimativas precisas; portanto, não acho que você precise se esquivar dessa precisão. Mas é preciso lembrar que não é possível melhorar os dados ruins simplesmente coletando volumes maiores de dados ruins.
fonte
Esse problema surgiu em meus próprios manuscritos.
1. Opções de relatório: se você tiver apenas um ou alguns ICs para relatar, o relatório "(por exemplo, IC 95%: .65878 - .65881)" não é muito detalhado e destaca a precisão do IC. No entanto, se você tiver vários ICs, uma declaração geral pode ser mais útil para o leitor. Por exemplo, geralmente relatarei algo no sentido de "com esse tamanho de amostra, a margem de erro de confiança de 95% para cada proporção foi menor que +/- 0,010". Eu costumo relatar algo assim no Método, na legenda da Tabela ou na Figura, ou em ambas.
2. Evitando "excesso de confiança", mesmo com um grande tamanho de amostra: com uma amostra de 100.000, o teorema do limite central o manterá seguro ao relatar ICs para proporções. Portanto, na situação que você descreveu, você deve ficar bem, a menos que haja outras violações de suposição das quais eu não conheço (por exemplo, violação de identidade).
fonte
Não relate intervalos de confiança. Em vez disso, relate o tamanho exato da amostra e as proporções. O leitor poderá calcular seus próprios ICs da maneira que desejar.
fonte
Considere a possibilidade de as proporções dos 100 hospitais diferentes não convergirem para o mesmo valor médio. Você testou a variação entre grupos? Se houver uma diferença mensurável entre hospitais, a suposição de que as amostras são geradas a partir de uma distribuição normal comum não é suportada e você não deve agrupá-las.
No entanto, se seus dados realmente vierem de uma amostra grande normalmente distribuída, você não encontrará "declarações sobre incerteza" úteis como uma propriedade dos dados, mas refletindo sobre por que ou por que suas estatísticas não devem generalizar - devido a algum viés inerente na coleção, ou falta de estacionariedade, etc., que você deve apontar.
fonte