Então, eu tenho um conjunto de dados de porcentagens assim:
100 / 10000 = 1% (0.01)
2 / 5 = 40% (0.4)
4 / 3 = 133% (1.3)
1000 / 2000 = 50% (0.5)
Quero encontrar o desvio padrão das porcentagens, mas ponderado pelo volume de dados. ou seja, o primeiro e o último ponto de dados devem dominar o cálculo.
Como faço isso? E existe uma maneira simples de fazer isso no Excel?
Respostas:
A fórmula para o desvio padrão ponderado é:
Onde
Lembre-se de que a fórmula para média ponderada é:
fonte
As fórmulas estão disponíveis em vários lugares, incluindo a Wikipedia .
A chave é perceber que depende do significado dos pesos . Em particular, você obterá respostas diferentes se os pesos forem frequências (ou seja, você está apenas tentando evitar somar toda a sua soma), se os pesos são de fato a variação de cada medição ou se são apenas alguns valores externos que você impor seus dados.
No seu caso, parece superficialmente que os pesos são frequências, mas não são . Você gera seus dados a partir de frequências, mas não é simples ter 45 registros de 3 e 15 registros de 4 em seu conjunto de dados. Em vez disso, você precisa usar o último método. (Na verdade, tudo isso é lixo - você realmente precisa usar um modelo mais sofisticado do processo que está gerando esses números! Aparentemente, você não tem algo que solte números distribuídos normalmente, caracterizando o sistema com o desvio padrão não é a coisa certa a fazer.)
De qualquer forma, a fórmula da variação (a partir da qual você calcula o desvio padrão da maneira normal) com pesos de "confiabilidade" é
Você não tem uma estimativa para os pesos, o que suponho que você queira considerar proporcional à confiabilidade. Tomar as porcentagens do jeito que você é, tornará a análise complicada, mesmo se elas forem geradas por um processo de Bernoulli, porque se você obtiver uma pontuação de 20 e 0, terá uma porcentagem infinita. A ponderação pelo inverso do SEM é uma coisa comum e às vezes ideal. Talvez você deva usar uma estimativa bayesiana ou um intervalo de pontuação de Wilson .
fonte
Coluna
G
são pesos, ColunaH
são valoresfonte
fonte
fonte