Estou procurando a equação correta para calcular a covariância de amostra imparcial ponderada. As fontes da Internet são bastante raras nesse tema e todas usam equações diferentes.
A equação mais provável que encontrei é esta:
De: https://en.wikipedia.org/wiki/Sample_mean_and_sample_covariance#Weighted_samples
Obviamente, você deve calcular a média ponderada da amostra (imparcial) de antemão.
No entanto, eu encontrei várias outras fórmulas como:
Ou eu já vi alguns códigos-fonte e trabalhos acadêmicos apenas usando a fórmula de covariância padrão, mas com a média ponderada da amostra em vez da média da amostra ...
Alguém pode me ajudar e lançar alguma luz?
/ EDIT: meus pesos são simplesmente o número de observações para uma amostra no conjunto de dados, assim weights.sum () = n
fonte
Respostas:
Encontrou a solução em um livro de 1972 (George R. Price, Ann. Hum. Genet., Lond, pp485-490, Extension of covariance selection math, 1972) .
Covariância de amostra ponderada enviesada:
E a covariância de amostra ponderada imparcial dada pela aplicação da correção de Bessel:
Atualizei o artigo na Wikipedia, onde você também encontrará a equação para variação de amostra ponderada imparcial:
https://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_covariance
Realizou algumas verificações de sanidade usando um conjunto de dados não ponderado e um conjunto de dados ponderado equivalente, e funciona corretamente.
fonte