Correção de viés na variância ponderada

22

Para variação não ponderada , existe a variação da amostra corrigida por viés, quando a média foi estimada a partir dos mesmos dados: Var(X):=1

Var(X): =1nEu(xEu-μ)2
Var(X): =1n-1Eu(xEu-E[X])2

Estou analisando a média ponderada e a variação, e imaginando qual é a correção de viés apropriada para a variação ponderada. Usando:

significar(X): =1EuωEuEuωEuxEu

A variação "ingênua" e não corrigida que estou usando é a seguinte:

Var(X): =1EuωEuEuωEu(xEu-significar(X))2

Então, eu estou me perguntando se a maneira correta de corrigir o viés é

A)

Var(X): =1EuωEu-1EuωEu(xEu-significar(X))2

ou B)

Var(X): =nn-11EuωEuEuωEu(xEu-significar(X))2

ou C)

Var(X): =EuωEu(EuωEu)2-EuωEu2EuωEu(xEu-significar(X))2

A) não faz sentido para mim quando os pesos são pequenos. O valor da normalização pode ser 0 ou até negativo. Mas e quanto a B) ( é o número de observações) - essa é a abordagem correta? Você tem alguma referência que mostra isso? Eu acredito "Atualizando estimativas de média e variância: um método aprimorado", DHD West, 1979 usa isso. O terceiro, C) é a minha interpretação da resposta a esta pergunta: /mathpro/22203/unbiated-estimate-of-the-variance-of-an-unnormalised-weighted-meann

Para C) acabei de perceber que o denominador se parece muito com . Existe alguma conexão geral aqui? Eu acho que não está totalmente alinhado; e obviamente existe a conexão que estamos tentando calcular a variação ...Var(Ω)

Todos os três parecem "sobreviver" à verificação de sanidade de definir todos . Então, qual devo usar e em quais premissas? '' Update: '' whuber sugeriu também fazer a verificação de sanidade com e todos os restantes tiny. Isso parece excluir A e B.ω 1 = ω 2 = 0,5 ω i = ϵωEu=1ω1=ω2=.5ωEu=ϵ

Anony-Mousse
fonte
Quando você considera os casos em que os dois maiores pesos são iguais e o restante se torna extremamente pequeno, ambos (A) e (B) caem da disputa (porque discordam dos resultados conhecidos para ). (C) parece ser uma aproximação; Suspeito que o fator correto seja uma função muito mais complicada dos pesos. n=2
whuber
@whuber O ThePawn abaixo sugere que é C. Você tem preocupações mais detalhadas?
Anony-Mousse
1
A solução (A) funciona, eu a implementei no passado e posso confirmar a partir de testes empíricos que ela fornece os resultados corretos. No entanto, você só deve usar valores inteiros para pesos e> 0.
gaborous
Obrigado! Isso me ajudou muito a seguir o caminho certo quando os pesos são para uma média móvel exponencial! Acontece que a maneira ingênua de calcular a variação realmente a superestima por um fator constante de 2, além da pequena correção (1-1 / n) que aparece analogicamente ao cálculo simples da média móvel. Esse é um caso especial particularmente louco!
saolof 28/11

Respostas:

10

Passei pela matemática e acabei com a variante C:

Vumar(X)=(EuωEu)2(EuωEu)2-EuωEu2V¯
V¯ωEu

λEu=ωEuEuωEu

V¯=EuλEu(xEu-jλjxj)2

(xEu-jλjxj)2=xEu2+j,kλjλkxjxk-2jλjxEuxj

E[xEuxj]=Vumar(X)1Eu=j+E[X]2E[X]

E[V¯]=Vumar(X)EuλEu(1+jλj2-2λEu)
E[V¯]=Vumar(X)(1-jλj2)
λEuωEu
ThePawn
fonte
Essa é a variante C acima, não é?
Anony-Mousse
Oups, sim, é variante C.
ThePawn
Eu verifiquei esta solução empiricamente e ela NÃO funciona ... A única que funciona é a solução (A) que eu também já implementei no passado, mas só funciona com pesos sendo números inteiros e> = 0
trabalhoso
2
Esta equação está errada de acordo com a Wikipedia, Matlab, R e outras que estão implementando essa equação. O numerador aqui é quadrado, mas NÃO deve, deve ser igual ao (C) proposto pelo OP. Veja en.wikipedia.org/wiki/…
gaborous
1
@rajatkhanduja Eu não estava falando sobre a prova, mas a equação derivada final (a primeira desta resposta). Mas, na verdade, está correto, o numerador é apenas ao quadrado porque multipy por V, portanto, o numerador acaba sendo sem quartzo. De qualquer forma, esse estimador permanece tendencioso, como explico na minha resposta abaixo, pois se baseia em pesos do tipo "confiabilidade".
gaborous
7

Ambos A e C estão corretos, mas qual deles você usará depende de que tipo de pesos você usa:

  • A precisa que você use pesos do tipo "repetir" (números inteiros contando o número de ocorrências para cada observação) e é imparcial .
  • C precisa que você use pesos do tipo "confiabilidade" (pesos normalizados ou variações para cada observação) e é tendencioso . Não pode ser imparcial.

A razão pela qual C é necessariamente tendenciosa é porque, se você não usar pesos do tipo "repetir", perderá a capacidade de contar o número total de observações (tamanho da amostra) e, portanto, não poderá usar um fator de correção.

Para mais informações, consulte o artigo da Wikipedia que foi atualizado recentemente: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

laborioso
fonte