A variação ponderada imparcial já foi abordada aqui e em outros lugares, mas ainda parece haver uma quantidade surpreendente de confusão. Parece haver um consenso em relação à fórmula apresentada no primeiro link, bem como no artigo da Wikipedia . Isso também se parece com a fórmula usada por R, Mathematica e GSL (mas não pelo MATLAB). No entanto, o artigo da Wikipedia também contém a seguinte linha, que parece uma ótima verificação de sanidade para uma implementação de variação ponderada:
Por exemplo, se os valores {2,2,4,5,5,5} forem obtidos da mesma distribuição, poderemos tratar esse conjunto como uma amostra não ponderada ou como a amostra ponderada {2,4, 5} com pesos correspondentes {2,1,3}, e devemos obter os mesmos resultados.
Meus cálculos fornecem o valor de 2.1667 para a variação dos valores originais e 2.9545 para a variação ponderada. Devo realmente esperar que eles sejam iguais? Por que ou por que não?
fonte
Respostas:
Sim, você deve esperar que os dois exemplos (não ponderados x ponderados) forneçam os mesmos resultados.
Eu implementei os dois algoritmos do artigo da Wikipedia.
Este funciona:
No entanto, este (usando pesos fracionários) não funciona para mim:
Ainda estou investigando as razões pelas quais a segunda equação não funciona como pretendido.
/ EDIT: Encontrei a razão pela qual a segunda equação não funcionou como eu pensava: você pode usar a segunda equação apenas se tiver pesos normalizados ou de variação ("confiabilidade"), e NÃO for imparcial, porque se você não use pesos "repetidos" (contando o número de vezes que uma observação foi observada e, portanto, deve ser repetida em suas operações matemáticas), você perde a capacidade de contar o número total de observações e, portanto, não pode usar um fator de correção.
Portanto, isso explica a diferença em seus resultados usando a variação ponderada e não ponderada: seu cálculo é enviesado.
Portanto, se você quiser ter uma variação ponderada imparcial, use apenas pesos "repetidos" e use a primeira equação que eu postei acima. Se isso não for possível, bem, você não pode evitar.
Também atualizei o artigo da Wikipedia, se você quiser obter mais informações: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance
E um artigo vinculado sobre covariância ponderada imparcial (que de fato é a mesma variação devido à identidade de polarização ): Equação correta para covariância de amostra imparcial ponderada
fonte