Variação da média ponderada maior que a média não ponderada

8

Um revisor meu está perguntando por que motivo usei dados não ponderados, em vez de dados ponderados. Eu discuti o assunto com um estatístico e sua resposta foi ao longo das linhas de

Se você tiver observações independentes e fizer a média geral, sua variação será sempre menor que a variação de uma média ponderada como estimador. ... Portanto, os intervalos de confiança serão ampliados!

Desde então, encontrei a seguinte pergunta neste site e, pelo meu entendimento, eles sugerem que a variação deve ser a mesma. Assim, alguém, por favor, com uma mente estatisticamente mais talentosa que a minha, por favor, confirme a resposta do estatístico e explique em termos leigos a teoria, ou com um exemplo elaborado.

user08041991
fonte
Se os "pesos" são de fato freqüências de observação ou de população, devem ser usados, pois os números não ponderados não têm sentido. É provável que a citação do seu estatístico seja verdadeira para uma população com uma distribuição unimodal, embora geralmente não seja verdadeira.
Henry
Seria fácil fornecer um exemplo trabalhado com mais contexto. O que os pesos representam? Você está falando sobre a variação da média da amostra? As amostras são de uma população finita? Com ou sem substituição?
Henry
Digamos que coletamos uma série de medidas de freqüência cardíaca de uma amostra de pessoas em um hospital. Um fator de ponderação pode então ser aplicado a cada indivíduo para dimensionar as medidas para refletir as estimativas nacionais ou a população - comparando uma série de fatores de confusão (por exemplo, idade, altura, peso, etc.).
user08041991
A pergunta à qual você vincula é sobre pesos de frequência. É isso o que você tem?
Mdewey
2
A média de valores é a média ponderada com pesos . Quando o é independente, as regras básicas de variação implicam Quando, além disso, o tem a mesma variação , isso simplifica para vezes . Como os pesos são positivos e à unidade, é minimizado apenas quando . Nesse sentido, o estatístico está correto.x i ˉ x = Σ i w i x i w i = 1 / n x i Var ( ˉ x ) = Σ i w 2 i Var ( x i ) . x i σ 2w 2 i σ 2 ( 1 ) w i = 1 / n x inxix¯=iwixiwi=1/nxi
(1)Var(x¯)=iwi2Var(xi).
xiσ2wi2σ2(1)wi=1/nEssa conclusão geral é independente de qualquer outra propriedade da distribuição do , como a unimodalidade. xi
whuber

Respostas:

5

Sua pergunta vinculada está abordando o uso de pesos como um atalho para lidar com a variação igualmente ponderada por ponto de dados, na qual alguns pontos de dados ocorrem mais de uma vez.

O @whuber abordou em um comentário a situação em que as variações de todos os pontos de dados são iguais. Então, vou abordar a situação em que eles não são iguais. É nessa situação que a média ponderada ideal produz uma variação menor do que a média não ponderada, ou seja, igualmente ponderada.

A média ponderada, usando os pesos , é igual a e tem variação = . Portanto, desejamos minimizar , sujeito a e para todos os i.Σ n i = 1 w i x i Σ n i = 1 w 2 i V a r ( x i ) Σ nwiΣi=1nwixiΣi=1nwi2Var(xi)Σ n i = 1 wi=1wi0Σi=1nwi2Var(xi)Σi=1nwi=1wi0

As condições de Karush-Kuhn-Tucker, necessárias e suficientes para um mínimo global para esse problema, uma vez que se trata de um problema de programação quadrática convexa, resultam em uma solução de formulário fechado, a saber:

O ideal para 1 = 1 .. n.wi=[1/Var(xi)]/Σj=1n[1/Var(xj)]

A variação da média ponderada ótima correspondente = .1/Σi=1n[1/Var(xi)]

Por outro lado, ponderação igual significa para todos os i, onde n é o número de pontos de dados. Conforme apontado pelo whuber, pesos iguais são ótimos se todas as variações de pontos de dados forem iguais, o que pode ser visto na fórmula acima para o ideal . No entanto, como é evidente por essa fórmula, pesos iguais não são ideais se as variações dos pontos de dados não forem todos iguais e, de fato, resultam em uma variação maior (da média ponderada) do que os pesos ideais. A variação da média ponderada igualmente, ou seja, a variação da média ponderada usando pesos iguais = . wi1wi=1nwi1n2Σi=1nVar(xi)

Aqui estão alguns resultados numéricos de exemplo:

  1. Existem dois pontos de dados, com variações respectivamente de 1 e 4. A média não ponderada possui variação = 1,25. A média ponderada usando os pesos ótimos de 0,8 e 0,2, respectivamente, tem variação = 0,8, o que obviamente é menor que 1,25.
  2. Existem três pontos de dados, com variações respectivamente de 1, 4 e 9. A média não ponderada possui variação = 1,55556. A média ponderada usando os pesos ótimos de 0,7347, 0,1837, 0,0816, respectivamente, tem variação = 0,7347, que obviamente é menor que 1,55556.

Obviamente, é possível que a média ponderada tenha uma variação maior do que a média não ponderada, se os pesos forem escolhidos de maneira inadequada. Ao escolher a ponderação de 1 no ponto de dados com maior variação e 0 para todos os outros pontos de dados, a média ponderada teria variação = a maior variação de qualquer ponto de dados. Este exemplo extremo seria o resultado de maximizar, em vez de minimizar, o problema de otimização que expus.

Mark L. Stone
fonte
Estou confuso sobre sua referência a pontos de dados individuais com variação (por exemplo, existem dois pontos de dados, com variações respectivamente de 1 e 4), você pode explicar?
edstatsuser
Dizer que o ponto de dados tem uma variação específica é uma abreviação para dizer que é extraído de uma população (variável aleatória) que possui essa variação. Portanto, os diferentes pontos de dados podem ser extraídos de diferentes populações, porque isso não é considerado uma amostra de amostra. xixi
Mark L. Stone
0

Aqui está um exemplo simples usando o e formas da variação:1ni(xi1njxj)21kwkiwi(xi1kwkjwjxj)2

Suponha que sua população tenha medidas .20,30,40,50

  • Não ponderada, a média é e a variação é35125
  • Com pesos respectivos a média ponderada é e a variação ponderada é36 841000,4000,3000,20003684
  • Com pesos respectivos a média ponderada é e a variação ponderada é36 1643000,2000,1000,400036164

Este exemplo é consistente com o meu comentário de que a citação do seu estatístico provavelmente é verdadeira para uma população com uma distribuição unimodal, embora não precise ser verdadeira em geral.

Suponho que o ponto é que, se você estiver citando a média ponderada, provavelmente deverá associá-la à variação ponderada. Se, de fato, sua média é o resultado da amostra, o erro padrão da média ponderada da amostra é um cálculo mais complicado.

Henry
fonte
Essa resposta parece confundir a variação de uma amostra (ou população finita) com a variação da distribuição amostral da média (ou média ponderada). Consequentemente, inclui declarações que parecem não ser verdadeiras e podem ser enganosas.
whuber