Eu tenho um conjunto de dados de casos de incidentes por temporada de uma doença rara. Por exemplo, digamos que houve 180 casos na primavera, 90 no verão, 45 no outono e 210 no inverno. Estou lutando para saber se é apropriado anexar erros padrão a esses números. Os objetivos da pesquisa são inferenciais, no sentido de que estamos buscando um padrão sazonal na incidência de doenças que possa recorrer no futuro. Assim, parece intuitivamente que deve ser possível anexar uma medida de incerteza aos totais. No entanto, não sei como calcular um erro padrão neste caso, pois estamos lidando com contagens simples em vez de, por exemplo, meios ou proporções.
Finalmente, a resposta dependeria se os dados representassem a população de casos (todos os casos que já ocorreram) ou uma amostra aleatória? Se não me engano, geralmente não faz sentido apresentar erros padrão com estatísticas populacionais, já que não há inferência.
fonte
Respostas:
A população é o conjunto (hipotético) de todas as pessoas em risco de contrair a doença; geralmente, isso consiste em todas as pessoas (ou algum subgrupo claramente identificável) que residem na área de estudo. É importante definir claramente essa população, pois é o objetivo do estudo e de todas as inferências feitas a partir dos dados.
Quando os casos da doença são independentes (o que pode ser uma hipótese razoável quando a doença não é prontamente comunicada entre as pessoas e não é causada pelas condições ambientais locais) e eles são raros, as contagens devem seguir de perto uma distribuição de Poisson . Para esta distribuição, uma boa estimativa de seu desvio padrão é a raiz quadrada da contagem .
Usando essas heurísticas, os dados teriam desvios padrão associados de ( 13,4 , 9,5 , 6,7 eventos, o número real de doenças observadas durante uma temporada variará dessa taxa real. verdade( 180 , 90 , 45 , 210 ) ( 13,4 , 9,5 , 6,7 , 14,5 ) taxa (mas desconhecida!) Quantifica a quantidade de variação que provavelmente ocorrerá. Como as contagens observadas devem estar próximas das taxas verdadeiras, suas raízes quadradas devem ser proxies razoáveis para as raízes quadradas das taxas verdadeiras. Esses proxies são exatamente o que se entende por "erro padrão".
Isso é o mais longe possível com esses dados limitados. Esses cálculos simples revelaram que:
Caracterizar a população é fundamental,
A raiz quadrada de uma contagem é um ponto de partida aproximado para avaliar seu erro padrão,
A raiz quadrada deve ser multiplicada (aproximadamente) por algum fator para refletir a falta de independência nos casos da doença (e esse fator pode estar relacionado aproximadamente ao tamanho dos aglomerados de doenças),
A variação entre essas contagens reflete principalmente a variação da taxa de doenças ao longo do tempo, e não a incerteza (sobre a intensidade subjacente de Poisson).
fonte
Não estou sendo ridículo quando pergunto: "Erro padrão de quê?" Você pode calcular a média dessas quatro figuras e calcular o erro padrão dessa média. Essa estatística, e um intervalo de confiança resultante, faria sentido se você acreditasse que estava justificado em tratar essas 4 estações como representativas de todos os conjuntos de 4 estações para as quais você poderia generalizar. Na medida em que você é tão justificado, os dados que você tem realmente seriam uma amostra aleatória da população. A amostragem mencionada implicaria uma camada adicional de amostragem - você pode chamá-la de amostragem por cluster, onde cada ano constitui um cluster.
fonte