Por que não usamos média aritmética ponderada em vez de média harmônica?

12

Pergunto-me o que é um valor intrínseco do uso da média harmônica (por exemplo, para calcular medidas F), em oposição à média aritmética ponderada na combinação de precisão e recall? Estou pensando que a média aritmética ponderada poderia desempenhar o papel de média harmônica, ou estou perdendo alguma coisa?

olga
fonte
9
A média harmônica é uma média aritmética ponderada: cada tem um peso proporcional a . xi1/xi2
whuber
Você pode dizer mais sobre como precisão e recall são combinados dessa maneira?
21418 AdamO
6
@whuber Não tenho certeza se o seu comentário é sério ou explícito. Geralmente, supõe-se que os pesos sejam uma função do índice da amostra , não do valor da amostra . Caso contrário, qualquer média aritmética ponderada é uma média
Luis Mendo
2
@Luis A verdade está no meio. O índice de amostra geralmente não faz sentido. Os pesos são funções dos objetos, mas essas funções normalmente não dependem dos valores que estão sendo calculados pela média. Exemplos são pesos associados a tempos (EWMA), com localização (como em medidas de correlação espacial), classificação (como no teste de Shapiro-Wilk) e probabilidades de amostragem. Mas nem todos os meios são AMs ponderados: o GM não é, por exemplo. Como Filippa pergunta sobre o "valor instrínseco", parecia pertinente apontar a relação matemática entre a média harmônica e a média ponderada.
whuber

Respostas:

18

Em geral, as médias harmônicas são preferidas quando se está tentando calcular taxas médias, em vez de números inteiros. No caso de uma medida F1, uma média harmônica penaliza precisões muito pequenas ou recupera, enquanto a média aritmética não ponderada não. Imagine uma média de 100% e 0%: a média aritmética é 50% e a média harmônica é 0%. A média harmônica requer que a precisão e a recuperação sejam altas.

Além disso, quando a precisão e a recuperação estiverem próximas, a média harmônica estará próxima da média aritmética. Exemplo: a média harmônica de 95% e 90% é 92,4% em comparação com a média aritmética de 92,5%.

Se essa é uma propriedade desejável provavelmente depende do seu caso de uso, mas geralmente é considerado bom.

Por fim, observe que, como @whuber afirmou nos comentários, a média harmônica é de fato uma média aritmética ponderada.

ilanman
fonte
2
"os meios harmônicos são preferidos quando se está tentando calcular as taxas médias" Talvez se você percorrer km a km / he km de volta a km / h para obter uma velocidade geral média de km / h, embora não se você viaje minutos a km / he minutos a km / h para obter uma velocidade geral média de km / h. Mas eu não vejo por que se aplica a frações1012010608010120106090
Henry
De fato, o primeiro parágrafo é mais uma afirmação geral sobre a média harmônica. Mas você está certo, precisão e recall são frações e não taxas. Acredito que exista uma noção de que uma média aritmética é preferida para valores que possuem um somatório interpretável (o que não se aplicaria neste caso), mas certamente é possível obter uma média aritmética de precisão e recuperar e gerar um resultado útil.
22918 ilanman
Excelente! Estou procurando mais "justificativas" para usar a regra de média harmônica. Mas eu não tenho certeza de como pensar sobre as justificativas ..
olga
10

A média harmônica pode ser um substituto útil da média aritmética quando esta não tem expectativa ou variância. De fato, pode ser que não exista ou seja infinito, enquanto existe. Por exemplo, a distribuição de Pareto com densidade não é finita expectativa quando , o que implica que a média aritmética tem uma expectativa infinita, enquanto que implica que a média harmônica tem uma expectativa finita.E[X]E[1/X]

f(x)=αx0αxα+1Ixx0
α1
E[1/X]=x0αx0αxα+2dx=αx0α(α+1)x0α+1=α(α+1)x0

Por outro lado, existem distribuições para as quais a média harmônica não tem expectativa, como por exemplo, a distribuição Beta quando . E muitos mais para os quais não tem variação.Be(α,β)α1

Há também um vínculo com as aproximações de Monte Carlo às integrais e, principalmente, às constantes normalizadoras, baseadas na identidade posterior bayesiana que é qualquer densidade, é o anterior, a probabilidade e o marginal, como discutido nessa outra questão validada em X, onde comento os perigos de usar o que Radford Neal (U Toronto) chama de o pior estimador de Monte Carlo de todos os tempos . (Também escrevi várias entradas no meu blog sobre esse tópico.)

E[φ(θ)π(θ)L(θ|x)|x]=1m(x)
φ()π()L(|x)m()
Xi'an
fonte
2
Por que essas propriedades são preferíveis na média das taxas?
Morsa, o gato
Não conheço os resultados de otimização, mas ter um estimador com uma expectativa finita parece preferível a um sem!
Xian