Variação ponderada, mais uma vez

17

A variação ponderada imparcial já foi abordada aqui e em outros lugares, mas ainda parece haver uma quantidade surpreendente de confusão. Parece haver um consenso em relação à fórmula apresentada no primeiro link, bem como no artigo da Wikipedia . Isso também se parece com a fórmula usada por R, Mathematica e GSL (mas não pelo MATLAB). No entanto, o artigo da Wikipedia também contém a seguinte linha, que parece uma ótima verificação de sanidade para uma implementação de variação ponderada:

Por exemplo, se os valores {2,2,4,5,5,5} forem obtidos da mesma distribuição, poderemos tratar esse conjunto como uma amostra não ponderada ou como a amostra ponderada {2,4, 5} com pesos correspondentes {2,1,3}, e devemos obter os mesmos resultados.

Meus cálculos fornecem o valor de 2.1667 para a variação dos valores originais e 2.9545 para a variação ponderada. Devo realmente esperar que eles sejam iguais? Por que ou por que não?

confusedCoder
fonte
6
esta questão não é realmente sobre a implementação, mas a teoria por trás dele
confusedCoder

Respostas:

15

Sim, você deve esperar que os dois exemplos (não ponderados x ponderados) forneçam os mesmos resultados.

Eu implementei os dois algoritmos do artigo da Wikipedia.

Este funciona:

xEuWEu

s2 =1V1-1Eu=1NWEu(xEu-μ)2,

No entanto, este (usando pesos fracionários) não funciona para mim:

xEu1/WEu

s2 =V1V12-V2Eu=1NWEu(xEu-μ)2

Ainda estou investigando as razões pelas quais a segunda equação não funciona como pretendido.

/ EDIT: Encontrei a razão pela qual a segunda equação não funcionou como eu pensava: você pode usar a segunda equação apenas se tiver pesos normalizados ou de variação ("confiabilidade"), e NÃO for imparcial, porque se você não use pesos "repetidos" (contando o número de vezes que uma observação foi observada e, portanto, deve ser repetida em suas operações matemáticas), você perde a capacidade de contar o número total de observações e, portanto, não pode usar um fator de correção.

Portanto, isso explica a diferença em seus resultados usando a variação ponderada e não ponderada: seu cálculo é enviesado.

Portanto, se você quiser ter uma variação ponderada imparcial, use apenas pesos "repetidos" e use a primeira equação que eu postei acima. Se isso não for possível, bem, você não pode evitar.

Também atualizei o artigo da Wikipedia, se você quiser obter mais informações: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

E um artigo vinculado sobre covariância ponderada imparcial (que de fato é a mesma variação devido à identidade de polarização ): Equação correta para covariância de amostra imparcial ponderada

laborioso
fonte
Depois de ler e pensar muito sobre isso, ainda não entendi um significado intuitivo ou exemplo do termo "pesos de confiabilidade". Você pode elaborar um pouco sobre isso?
Peter
Os pesos de confiabilidade do Peter são pesos normalizados, por exemplo, delimitados entre 0 e 1 ou -1 e 1. Eles representam uma frequência (por exemplo, 0,1 significa que esta amostra foi vista 10% do tempo em comparação com todas as outras amostras). Eu não inventei o termo, ele pode ser encontrado em publicações. Para pesos repetidos é o oposto, cada peso representa o número de ocorrências, a cardinalidade (por exemplo, 10 se a amostra foi observada 10 vezes).
gaborous
Isso é confuso, porque o que você chama de pesos repetidos também é chamado de pesos de frequência , mas acho que entendi a diferença. Depende da normalização, certo?
Pedro #
Não, pesos de frequência é um nome alternativo para pesos de confiabilidade. Para pesos repetidos, é o número de ocorrências, não a frequência. Com pesos repetidos, não há normalização, esse é o ponto: desde que você normalize seus pesos, você perde a frequência base, para que não possa desestabilizar totalmente seus cálculos. A única maneira é manter o número total de ocorrências. Se você realmente deseja usar pesos de frequência, acho que se você armazenar previamente o número N total de ocorrências, poderá converter para frente e para trás para repetir pesos multiplicando os pesos de frequência por N, tudo bem.
gaborous
E se seus pesos forem de 1 / variância, como você os chamaria? Seriam "pesos de confiabilidade" então?
Tom Wenseleers 18/06