Intervalos de confiança quando o tamanho da amostra é muito grande

14

Minha pergunta pode ser reformulada como "como avaliar um erro de amostragem usando big data", especialmente para uma publicação em periódico. Aqui está um exemplo para ilustrar um desafio.

De um conjunto de dados muito grande (> 100.000 pacientes únicos e seus medicamentos prescritos em 100 hospitais), eu estava interessado em estimar uma proporção de pacientes que tomam um medicamento específico. É fácil obter essa proporção. Seu intervalo de confiança (por exemplo, paramétrico ou de inicialização) é incrivelmente rígido / estreito, porque n é muito grande. Embora seja uma sorte ter um tamanho de amostra grande, ainda estou procurando uma maneira de avaliar, apresentar e / ou visualizar algumas formas de probabilidade de erro. Embora pareça inútil (se não enganoso) colocar / visualizar um intervalo de confiança (por exemplo, IC 95%: .65878 - .65881), também parece impossível evitar algumas declarações sobre incerteza.

Por favor, deixe-me saber o que você pensa. Eu apreciaria qualquer literatura sobre esse tópico; maneiras de evitar excesso de confiança nos dados, mesmo com um grande tamanho de amostra.

so2015
fonte
7
Você pode evitar excesso de confiança lembrando que os erros de não amostragem permanecem intocados. Se houver vieses na amostragem e medição, eles ainda estarão lá. Além disso, se você está contando pacientes únicos (eu prefiro dizer "distintos") ou observações definidas de alguma outra maneira, existem (presumo) estruturas de cluster que vinculam medicamentos para o mesmo paciente e medicamentos que são administrados de qualquer maneira, o que não são contabilizados pelos cálculos mais simples do intervalo de confiança. Não tenho soluções sobre como quantificar isso além de comparar com outros conjuntos de dados e documentar a produção de dados.
Nick Cox

Respostas:

10

Esse problema também surgiu em algumas de minhas pesquisas (como modelador de epidemias, tenho o luxo de criar meus próprios conjuntos de dados e, com computadores grandes o suficiente, eles podem ser essencialmente arbitrariamente dimensionados.

  • Em termos de relatórios, acho que você pode relatar intervalos de confiança mais precisos, embora a utilidade disso seja legitimamente um pouco questionável. Mas não está errado, e com conjuntos de dados desse tamanho, não acho que exista muita chamada para que ambos os intervalos de confiança da demanda sejam relatados e depois reclamemos que todos nós realmente gostaríamos que eles fossem arredondados para dois dígitos, etc.
  • Em termos de evitar excesso de confiança, acho que a chave é lembrar que precisão e exatidão são coisas diferentes e evitar tentar confundir as duas. É muito tentador, quando você tem uma amostra grande, ser sugado pela precisão do efeito estimado e não pensar que ele também possa estar errado. Eu acho que é a chave - um conjunto de dados tendenciosos terá esse viés em N = 10 ou 100 ou 1000 ou 100.000.

Todo o objetivo de grandes conjuntos de dados é fornecer estimativas precisas; portanto, não acho que você precise se esquivar dessa precisão. Mas é preciso lembrar que não é possível melhorar os dados ruins simplesmente coletando volumes maiores de dados ruins.

Fomite
fonte
Eu acho que um grande volume de dados ruins ainda é melhor do que um pequeno volume de dados ruins.
Aksakal
@Aksakal Why? Uma resposta precisamente errada ainda está errada.
Fomite 07/04
@Fomite - Sim, mas você está mais confiante de que é errado :)
Duncan
6

Esse problema surgiu em meus próprios manuscritos.

1. Opções de relatório: se você tiver apenas um ou alguns ICs para relatar, o relatório "(por exemplo, IC 95%: .65878 - .65881)" não é muito detalhado e destaca a precisão do IC. No entanto, se você tiver vários ICs, uma declaração geral pode ser mais útil para o leitor. Por exemplo, geralmente relatarei algo no sentido de "com esse tamanho de amostra, a margem de erro de confiança de 95% para cada proporção foi menor que +/- 0,010". Eu costumo relatar algo assim no Método, na legenda da Tabela ou na Figura, ou em ambas.

2. Evitando "excesso de confiança", mesmo com um grande tamanho de amostra: com uma amostra de 100.000, o teorema do limite central o manterá seguro ao relatar ICs para proporções. Portanto, na situação que você descreveu, você deve ficar bem, a menos que haja outras violações de suposição das quais eu não conheço (por exemplo, violação de identidade).

Anthony
fonte
0

Não relate intervalos de confiança. Em vez disso, relate o tamanho exato da amostra e as proporções. O leitor poderá calcular seus próprios ICs da maneira que desejar.

Aksakal
fonte
4
Por que esse mesmo raciocínio não deve ser aplicado a todos os relatórios de dados quantitativos?
whuber
@ whuber, boa pergunta. Sou a favor de pesquisas reproduzíveis, desejo que todos publiquem seus conjuntos de dados.
Aksakal
6
Eu não quis que isso fosse tomado como sugestão. Mesmo que todos publicassem seus conjuntos de dados, eles estariam revogando seus deveres científicos se deixassem de fornecer uma análise deles - e isso inclui uma análise de incerteza. Você parece estar indo em uma direção que terminaria logicamente com a sugestão de que os cientistas não façam nada além de publicar dados, sem nenhuma análise! Isso acaba sendo uma acusação da recomendação de que os ICs não sejam relatados. Indica ao contrário que algum tipo de análise estatística deve ser oferecido em qualquer caso, independentemente do tamanho da amostra.
whuber
0

Considere a possibilidade de as proporções dos 100 hospitais diferentes não convergirem para o mesmo valor médio. Você testou a variação entre grupos? Se houver uma diferença mensurável entre hospitais, a suposição de que as amostras são geradas a partir de uma distribuição normal comum não é suportada e você não deve agrupá-las.

No entanto, se seus dados realmente vierem de uma amostra grande normalmente distribuída, você não encontrará "declarações sobre incerteza" úteis como uma propriedade dos dados, mas refletindo sobre por que ou por que suas estatísticas não devem generalizar - devido a algum viés inerente na coleção, ou falta de estacionariedade, etc., que você deve apontar.

John Mark
fonte