O que se pode concluir sobre os dados quando a média aritmética está muito próxima da média geométrica?

24

Existe algo significativo sobre uma média geométrica e aritmética que caem muito próximas umas das outras, digamos ~ 0,1%? Que conjecturas podem ser feitas sobre esse conjunto de dados?

Eu tenho trabalhado na análise de um conjunto de dados e percebo que, ironicamente, os valores são muito, muito próximos. Não exato, mas próximo. Além disso, uma verificação rápida da sanidade da desigualdade média geométrica-aritmética, bem como uma revisão da aquisição de dados, revelam que não há nada suspeito sobre a integridade do meu conjunto de dados em termos de como eu criei os valores.

user12289
fonte
6
Pequena observação: verifique primeiro se todos os seus dados são positivos; um número par de valores negativos pode deixá-lo com um produto positivo e alguns pacotes podem não sinalizar o problema em potencial (a desigualdade AM-GM depende dos valores serem todos positivos). Veja, por exemplo (em R):x=c(-5,-5,1,2,3,10); prod(x)^(1/length(x)) [1] 3.383363 (enquanto a média aritmética é 1)
Glen_b -Reinstala Monica 28/06
1
Para elaborar o argumento de @ Glen_b, um conjunto de dados {x,0,x} sempre tem média aritmética e geométrica igual, ou seja, zero. No entanto, podemos espalhar os três valores tão distantes quanto desejarmos.
hardmath
As médias aritmética e geométrica têm a mesma fórmula generalizada , com dando a primeira e p 0 dando a segunda. Torna-se então intuitivamente claro que os dois se aproximam cada vez mais quando os valores de dados x são cada vez mais iguais, aproximando-se constante. p=1p0x
ttnphns

Respostas:

29

A média aritmética está relacionada à média geométrica através da desigualdade Aritmética-Média-Geométrica (AMGM), que afirma que:

x1+x2++xnnx1x2xnn,

onde a igualdade é alcançada se . Portanto, provavelmente seus pontos de dados estão muito próximos um do outro.x1=x2==xn

Alex R.
fonte
4
Isto está certo. Normalmente, quanto menor a variação dos valores, mais próximas as duas médias.
Michael M
16
A variação teria que ser pequena POR COMPARAÇÃO com os tamanhos das observações. Assim, é o coeficiente de variação, , que teria que ser pequeno.σ/μ
Michael Hardy
1
AMGM significa alguma coisa? Se assim for, seria bom tê-lo explicado.
Richard Hardy
@RichardHardy: AMGM significa 'média aritmética - média geométrica' #
1
@ user1108, obrigado, na verdade, consegui depois de ler os outros posts. Eu só acho que poderia ser explicitado na resposta (não apenas nos comentários).
Richard Hardy
15

Ao elaborar a resposta de @Alex R, uma maneira de ver a desigualdade da AMGM é como um efeito de desigualdade de Jensen. Pela desigualdade de Jensen : Em seguida, tome a exponencial de ambos os lados: 1

log(1nixi)1nilogxi
1nixiexp(1nilogxi)

The right hand side is the geometric mean since (x1x2xn)1/n=exp(1nilogxi)

When does the AMGM inequality hold with near equality? When the Jensen's inequality effect is small. What drives the Jensen's inequality effect here is the concavity, the curvature of the logarithm. If your data is spread across an area where the logarithm has curvature, the effect will be big. If your data is spread across a region where the logarithm is basically affine, then the effect will be small.

For example, if the data has little variation, is clumped together in a sufficiently small neighborhood, then the logarithm will look like an affine function in that region (a theme of calculus is that if you zoom in enough on smooth, continuous function, that it will look like a line). For data sufficiently close together, the arithmetic mean of the data will be close to the geometric mean.

Matthew Gunn
fonte
12

x1x2xn given that their arithmetic mean (AM) is a small multiple 1+δ of their geometric mean (GM) (with δ0). In the question, δ0.001 but we don't know n.

1xnx1+x2++xn=n(1+δ) and x1x2xn=1.

x1=x2==xn1=xxn=zx. Thus

n(1+δ)=x1++xn=(n1)x+z

and

1=x1x2xn=xn1z.

The solution x is a root between 0 and 1 of

(1n)xn+n(1+δ)xn11.

It is easily found iteratively. Here are the graphs of the optimal x and z as a function of δ for n=6,20,50,150, left to right:

Figure

As soon as n reaches any appreciable size, even a tiny ratio of 1.001 is consistent with one large outlying xn (the upper red curves) and a group of tightly clustered xi (the lower blue curves).

At the other extreme, suppose n=2k is even (for simplicity). The minimum range is achieved when half the xi equal one value x1 and the other half equal another value z1. Now the solution (which is easily checked) is

xk=1+δ±δ2+2δ.

For tiny δ, we may ignore the δ2 as an approximation and also approximate the kth root to first order, giving

x1+δ2δk; z1+δ+2δk.

The range is approximately 32δ/n.

In this manner we have obtained upper and lower bounds on the possible range of the data. We have learned that they depend heavily on the amount of data n. The upper bound shows the range can be appreciable even for tiny δ, thereby improving our sense of just how close to each other the data points really need to be--and placing a lower limit on their range, too.

Similar analyses, just as easily carried out, can inform you--quantitatively--of how tightly clustered the xi might be in terms of any other measure of spread, such as their variance or coefficient of variation.

whuber
fonte
On the right of your right hand graph you seem to have n=150,δ=0.002,x0.9954,z1.983,k=75. I do not see how these values are near your stated formulae approximations which seem to give x0.99918,z1.00087. Perhaps I have misunderstood
Henry
@Henry I don't know how you came up with those numbers. When n=150, the requirements are that x149z=1 and 149x+z=150(1.002)=150.3. Neither of those comes close to being true for the values you supply. When you plug in x=0.995416 and z=1.98308, you get the correct values.
whuber
I tried what looks to me like your z1+δ+2δk=1+0.002+2×0.002751.00087 and similarly for x. But now I see this is answering a different question
Henry
@Henry That solves a different problem: those are the values that give a minimum range. I did not post graphs for those. Indeed, with your x and z we have 75x+75z150.3 and x75z751, as required.
whuber