Existe algo significativo sobre uma média geométrica e aritmética que caem muito próximas umas das outras, digamos ~ 0,1%? Que conjecturas podem ser feitas sobre esse conjunto de dados?
Eu tenho trabalhado na análise de um conjunto de dados e percebo que, ironicamente, os valores são muito, muito próximos. Não exato, mas próximo. Além disso, uma verificação rápida da sanidade da desigualdade média geométrica-aritmética, bem como uma revisão da aquisição de dados, revelam que não há nada suspeito sobre a integridade do meu conjunto de dados em termos de como eu criei os valores.
descriptive-statistics
mean
geometric-mean
user12289
fonte
fonte
x=c(-5,-5,1,2,3,10); prod(x)^(1/length(x))
[1] 3.383363
(enquanto a média aritmética é 1)Respostas:
A média aritmética está relacionada à média geométrica através da desigualdade Aritmética-Média-Geométrica (AMGM), que afirma que:
onde a igualdade é alcançada se . Portanto, provavelmente seus pontos de dados estão muito próximos um do outro.x1=x2=⋯=xn
fonte
Ao elaborar a resposta de @Alex R, uma maneira de ver a desigualdade da AMGM é como um efeito de desigualdade de Jensen. Pela desigualdade de Jensen : Em seguida, tome a exponencial de ambos os lados: 1
The right hand side is the geometric mean since(x1⋅x2⋅…⋅xn)1/n=exp(1n∑ilogxi)
When does the AMGM inequality hold with near equality? When the Jensen's inequality effect is small. What drives the Jensen's inequality effect here is the concavity, the curvature of the logarithm. If your data is spread across an area where the logarithm has curvature, the effect will be big. If your data is spread across a region where the logarithm is basically affine, then the effect will be small.
For example, if the data has little variation, is clumped together in a sufficiently small neighborhood, then the logarithm will look like an affine function in that region (a theme of calculus is that if you zoom in enough on smooth, continuous function, that it will look like a line). For data sufficiently close together, the arithmetic mean of the data will be close to the geometric mean.
fonte
and
The solutionx is a root between 0 and 1 of
It is easily found iteratively. Here are the graphs of the optimalx and z as a function of δ for n=6,20,50,150 , left to right:
As soon asn reaches any appreciable size, even a tiny ratio of 1.001 is consistent with one large outlying xn (the upper red curves) and a group of tightly clustered xi (the lower blue curves).
At the other extreme, supposen=2k is even (for simplicity). The minimum range is achieved when half the xi equal one value x≤1 and the other half equal another value z≥1 . Now the solution (which is easily checked) is
For tinyδ , we may ignore the δ2 as an approximation and also approximate the kth root to first order, giving
The range is approximately32δ−−−√/n .
In this manner we have obtained upper and lower bounds on the possible range of the data. We have learned that they depend heavily on the amount of datan . The upper bound shows the range can be appreciable even for tiny δ , thereby improving our sense of just how close to each other the data points really need to be--and placing a lower limit on their range, too.
Similar analyses, just as easily carried out, can inform you--quantitatively--of how tightly clustered thexi might be in terms of any other measure of spread, such as their variance or coefficient of variation.
fonte