Eu tenho um conjunto de dados de observações de amostra, armazenadas como contagens dentro de intervalos. por exemplo:
min/max count
40/44 1
45/49 2
50/54 3
55/59 4
70/74 1
Agora, encontrar uma estimativa da média disso é bastante simples. Basta usar a média (ou mediana) de cada compartimento de intervalo como observação e a contagem como peso e encontrar a média ponderada:
Para o meu caso de teste, isso me dá 53,82.
Minha pergunta agora é: qual é o método correto para encontrar o desvio padrão (ou variação)?
Através da minha pesquisa, encontrei várias respostas, mas não tenho certeza qual, se houver, é realmente apropriado para o meu conjunto de dados. Consegui encontrar a fórmula a seguir em outra pergunta aqui e em um documento NIST aleatório .
O que fornece um desvio padrão de 8,35 para o meu caso de teste. No entanto, o artigo da Wikipedia sobre médias ponderadas fornece a fórmula:
e
Que fornecem desvios padrão de 8,66 e 7,83, respectivamente, para o meu caso de teste.
Atualizar
Agradecemos a @whuber que sugeriu analisar as correções de Sheppard e seus comentários úteis relacionados a elas. Infelizmente, estou tendo dificuldades para entender os recursos que posso encontrar sobre isso (e não consigo encontrar bons exemplos). Para recapitular, entendo que o seguinte é uma estimativa tendenciosa da variação:
Também entendo que a maioria das correções padrão para o viés são para amostras aleatórias diretas de uma distribuição normal. Portanto, vejo dois problemas em potencial para mim:
- Essas são amostras aleatórias em bin (que, tenho certeza, é onde as correções de Sheppard entram).
- Não se sabe se os dados são ou não para uma distribuição normal (portanto, suponho que não, o que, tenho certeza, invalida as correções de Sheppard).
Então, minha pergunta atualizada é; Qual é o método apropriado para lidar com o viés imposto pela fórmula "simples" de desvio / variação padrão ponderada em uma distribuição não normal? Mais especificamente no que diz respeito aos dados em bin.
Nota: estou usando os seguintes termos:
- é a variação ponderada
- é o número de observações. (ou seja, o número de posições)
- é o número de pesos diferentes de zero. (ou seja, o número de posições com contagens)
- são os pesos (ou seja, as contagens)
- são as observações. (ou seja, o bin significa)
- é a média ponderada.
fonte
Respostas:
Esta resposta apresenta duas soluções: as correções de Sheppard e uma estimativa de máxima verossimilhança. Ambos concordam com uma estimativa do desvio padrão: para o primeiro e para o segundo (quando ajustado para ser comparável ao estimador "imparcial" usual).7,697,70 7.69
Correções de Sheppard
"Correções de Sheppard" são fórmulas que ajustam momentos calculados a partir de dados em bin (como estes) em que
presume-se que os dados sejam governados por uma distribuição suportada em um intervalo finito[ a , b ]
esse intervalo é dividido sequencialmente em compartimentos iguais de largura comum que é relativamente pequeno (nenhum compartimento contém uma grande proporção de todos os dados)h
a distribuição tem uma função de densidade contínua.
Eles são derivados da fórmula da soma de Euler-Maclaurin, que aproxima integrais em termos de combinações lineares de valores do integrando em pontos regularmente espaçados e, portanto, geralmente aplicáveis (e não apenas às distribuições normais).
Embora estritamente falando, uma distribuição Normal não seja suportada em um intervalo finito, é muito aproximada. Essencialmente, toda a sua probabilidade está contida em sete desvios-padrão da média. Portanto, as correções de Sheppard são aplicáveis aos dados assumidos como provenientes de uma distribuição Normal.
As duas primeiras correções de Sheppard são
Use a média dos dados em bin para a média dos dados (ou seja, nenhuma correção é necessária para a média).
Subtraia 2/12 da variação dos dados em bin para obter a variação (aproximada) dos dados.h2/ 12
De onde vem 2/12? Isso é igual à variação de uma variável uniforme distribuída ao longo de um intervalo de comprimento . Intuitivamente, a correção de Sheppard para o segundo momento sugere que o armazenamento em cache dos dados - efetivamente substituindo-os pelo ponto médio de cada compartimento - parece acrescentar um valor aproximadamente uniformemente distribuído, variando entre e , de onde inflaciona a variação por .h - h / 2 h / 2h2/ 12 h - h / 2 h / 2 h2/ 12
Vamos fazer os cálculos. Eu uso
R
para ilustrá-los, começando especificando as contagens e as caixas:A fórmula adequada a ser usada para as contagens vem da replicação das larguras dos compartimentos pelas quantidades fornecidas pelas contagens; isto é, os dados binados são equivalentes a
Seu número, média e variância podem ser calculados diretamente sem a necessidade de expandir os dados desta maneira: quando um compartimento tem o ponto médio e uma contagem de , então sua contribuição para a soma dos quadrados é . Isso leva à segunda das fórmulas da Wikipedia citadas na pergunta.k k x 2x k k x2
A média (1195 / 22 de ≈ 54,32 675 / 11 ≈ 61,36 7,83 h = 5 h2/ 12=25 / 12≈2,08 675 / 11 - 52/ 12------------√≈ 7.70
mu
) é (sem necessidade de correção) e a variação ( ) é . (Sua raiz quadrada é conforme indicado na pergunta.) Como a largura do compartimento comum é , subtraímos da variação e pegamos sua raiz quadrada, obtendo para o desvio padrão.sigma2
Estimativas de máxima verossimilhança
Um método alternativo é aplicar uma estimativa de probabilidade máxima. Quando a distribuição subjacente assumida tem uma função de distribuição (dependendo dos parâmetros a serem estimados) e o compartimento contém valores de um conjunto de valores independentes e idênticos distribuídos de , então o contribuição (aditiva) para a probabilidade de log desse bin é θ ( x 0 , x 1 ] k F θFθ θ (x0 0, x1 1] k Fθ
(consulte MLE / Probabilidade de intervalo lognormalmente distribuído ).
A soma de todos os compartimentos fornece a probabilidade de log para o conjunto de dados. Como sempre, encontramos uma estimativa que minimiza . Isso requer otimização numérica e é acelerada fornecendo bons valores iniciais para . O código a seguir faz o trabalho para uma distribuição Normal:Λ ( θ ) θ^ - Λ ( θ ) θ
R
Os coeficientes resultantes são .( μ^, σ^) = ( 54,32 , 7,33 )
Lembre-se, no entanto, que para distribuições normais, a estimativa de probabilidade máxima de (quando os dados são fornecidos exatamente e não empilhados) é o SD da população dos dados, e não a estimativa "corrigida de viés" mais convencional na qual a variação é multiplicada por . Vamos então (para comparação) corrigir o MLE de , encontrando . Isso se compara favoravelmente com o resultado da correção de Sheppard, que foi de .σ n / ( n - 1 ) σ n / ( n - 1 )--------√σ^= 11 / 10-----√× 7,33 = 7,69 7,70
Verificando as premissas
Para visualizar esses resultados, podemos plotar a densidade normal ajustada sobre um histograma:
Para alguns, isso pode não parecer um bom ajuste. No entanto, como o conjunto de dados é pequeno (apenas valores), podem ocorrer desvios surpreendentemente grandes entre a distribuição das observações e a verdadeira distribuição subjacente.11
Vamos verificar formalmente a suposição (feita pelo MLE) de que os dados são governados por uma distribuição Normal. Um teste aproximado de qualidade do ajuste pode ser obtido a partir de um : os parâmetros estimados indicam a quantidade esperada de dados em cada compartimento; a estatística compara as contagens observadas com as contadas esperadas. Aqui está um teste em :χ2 χ2
R
A saída é
O software realizou um teste de permutação (necessário porque a estatística do teste não segue exatamente uma distribuição qui-quadrado: veja minha análise em Como entender os graus de liberdade ). Seu valor-p de , que não é pequeno, mostra muito pouca evidência de desvio da normalidade: temos motivos para confiar nos resultados de máxima probabilidade.0,245
fonte