Valor máximo do coeficiente de variação para o conjunto de dados limitados

17

Na discussão após uma pergunta recente sobre se o desvio padrão pode exceder a média, uma pergunta foi levantada brevemente, mas nunca totalmente respondida. Então, eu estou perguntando aqui.

Considere um conjunto de $n$ números não negativos que para . Não é necessário que o seja distinto, ou seja, o conjunto pode ser um multiset. A média e a variação do conjunto são definidas como e o desvio padrão é . Observe que o conjunto de números não é uma amostra de uma população e não estamos estimando uma média ou variação de população. A questão então é: $x_i$ $0 \leq x_i \leq c$ $1 \leq i \leq n$ $x_i$

\bar{x} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}, σ_{x}^{2} = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2} = (\frac{1}{n} \sum_{i = 1}^{n} x_{i}^{2}) - {\bar{x}}^{2}

$\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i, ~~ \sigma_x^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2 = \left(\frac{1}{n}\sum_{i=1}^n x_i^2\right) - \bar{x}^2$

σ_{x}

$\sigma_x$

Qual é o valor máximo de , o coeficiente de variação, sobre todas as opções dos no intervalo ? $\dfrac{\sigma_x}{\bar{x}}$ $x_i$ $[0,c]$

O valor máximo que posso encontrar para é que é alcançado quando do tem valor e o restante (outlier) possui valor , fornecendo Mas isso não depende de , e estou me perguntando se valores maiores, possivelmente dependentes de e , podem ser alcançados. $\frac{\sigma_x}{\bar{x}}$ $\sqrt{n-1}$ $n-1$ $x_i$ $0$ $x_i$ $c$

\bar{x} = \frac{c}{n}, \frac{1}{n} \sum x_{i}^{2} = \frac{c^{2}}{n} \Rightarrow σ_{x} = \sqrt{\frac{c^{2}}{n} - \frac{c^{2}}{n^{2}}} = \frac{c}{n} \sqrt{n - 1} .

$\bar{x} = \frac{c}{n},~~ \frac{1}{n}\sum x_i^2 = \frac{c^2}{n} \Rightarrow \sigma_x = \sqrt{\frac{c^2}{n} - \frac{c^2}{n^2}} = \frac{c}{n}\sqrt{n-1}.$

c

$c$

n

$n$

c

$c$

Alguma ideia? Estou certo de que essa questão já foi estudada na literatura estatística e, portanto, as referências, se não os resultados reais, seriam muito apreciadas.

variance mean standard-deviation coefficient-of-variation Dilip Sarwate
fonte

Eu acho que você está certo sobre esse ser o maior valor possível e também estou surpreso que

não importe. Legal.

c

$c$

Peter Flom - Restabelece Monica

7

não deve afetar o resultado como

c

$c$

não se altera se todos os valores são multiplicados por qualquer constante positiva

.

\frac{σ_{x}}{\bar{x}}

$\frac{\sigma_x}{\bar{x}}$

k

$k$

19711 Henry

15

A geometria fornece insight e as desigualdades clássicas oferecem fácil acesso ao rigor.

Solução geométrica

Sabemos, a partir da geometria dos mínimos quadrados , que é a projeção ortogonal do vetor de dados sobre o subespaço linear gerado pelo vetor constante e que $\mathbf{\bar{x}} = (\bar{x}, \bar{x}, \ldots, \bar{x})$ $\mathbf{x}=(x_1, x_2, \ldots, x_n)$ $(1,1,\ldots,1)$ $\sigma_x$ é diretamente proporcional à distância (euclidiana) entre e As restrições de não-negatividade são lineares e a distância é uma função convexa, de onde os extremos de distância devem ser atingidos nas bordas do cone determinadas pelas restrições. Este cone é o orthant positivo em e os seus bordos são os eixos de coordenadas, de onde segue-se imediatamente que todos menos um dos deve ser zero nas distâncias máximas. Para esse conjunto de dados, um cálculo direto (simples) mostra $\mathbf{x}$ $\mathbf{\bar{x}}.$ $\mathbb{R}^n$ $x_i$ $\sigma_x/\bar{x}=\sqrt{n}.$

Solução que explora as desigualdades clássicas

é otimizado simultaneamente com qualquer transformação monotônica. À luz disso, vamos maximizar $\sigma_x/\bar{x}$

\frac{x_{1}^{2} + x_{2}^{2} + \dots + x_{n}^{2}}{(x_{1} + x_{2} + \dots + x_{n})^{2}} = \frac{1}{n} (\frac{n - 1}{n} {(\frac{σ_{x}}{\bar{x}})}^{2} + 1) = f (\frac{σ_{x}}{\bar{x}}) .

$\frac{x_1^2+x_2^2+\ldots+x_n^2}{(x_1+x_2+\ldots+x_n)^2} = \frac{1}{n}\left(\frac{n-1}{n}\left(\frac{\sigma_x}{\bar{x}}\right)^2+1\right) = f\left(\frac{\sigma_x}{\bar{x}}\right).$

(A fórmula para pode parecer misteriosa até você perceber que apenas registra as etapas que você manipular algebricamente $f$ $\sigma_x/\bar{x}$ ao para obter uma forma simples, que é o lado esquerdo.)

Uma maneira fácil começa com a desigualdade do titular ,

x_{1}^{2} + x_{2}^{2} + \dots + x_{n}^{2} \leq (x_{1} + x_{2} + \dots + x_{n}) max ({x_{i}}) .

$x_1^2+x_2^2+\ldots+x_n^2 \le \left(x_1+x_2+\ldots+x_n\right)\max(\{x_i\}).$

(Isso não precisa de prova especial neste contexto simples: apenas substituir um fator de cada termo pelo componente máxima :., Obviamente, a soma dos quadrados não diminuirá Factoring fora o termo comum $x_i^2 = x_i \times x_i$ $\max(\{x_i\})$ $\max(\{x_i\})$ gera o lado direito da desigualdade.)

Como não são todos (isso deixaria indefinido), a divisão pelo quadrado de sua soma é válida e fornece a desigualdade equivalente $x_i$ $0$ $\sigma_x/\bar{x}$

\frac{x_{1}^{2} + x_{2}^{2} + \dots + x_{n}^{2}}{(x_{1} + x_{2} + \dots + x_{n})^{2}} \leq \frac{max ({x_{i}})}{x_{1} + x_{2} + \dots + x_{n}} .

$\frac{x_1^2+x_2^2+\ldots+x_n^2}{(x_1+x_2+\ldots+x_n)^2} \le \frac{\max(\{x_i\})}{x_1+x_2+\ldots+x_n}.$

Como o denominador não pode ser menor que o numerador (que é apenas um dos termos do denominador), o lado direito é dominado pelo valor , que é alcançado apenas quando todos, exceto um dos iguais a . De onde $1$ $x_i$ $0$

\frac{σ_{x}}{\bar{x}} \leq f^{- 1} (1) = \sqrt{(1 \times (n - 1)) \frac{n}{n - 1}} = \sqrt{n} .

$\frac{\sigma_x}{\bar{x}} \le f^{-1}\left(1\right) = \sqrt{\left(1 \times (n - 1)\right)\frac{n}{n-1}}=\sqrt{n}.$

Abordagem alternativa

Como não é negativo e não pode somar , os valores determinam uma distribuição de probabilidade em . Escrevendo para a soma dos , reconhecemos $x_i$ $0$ $p(i) = x_i/(x_1+x_2+\ldots+x_n)$ $F$ $\{1,2,\ldots,n\}$ $s$ $x_i$

\begin{aligned} \frac{x_{1}^{2} + x_{2}^{2} + \dots + x_{n}^{2}}{(x_{1} + x_{2} + \dots + x_{n})^{2}} & = \frac{x_{1}^{2} + x_{2}^{2} + \dots + x_{n}^{2}}{s^{2}} \\ = (\frac{x_{1}}{s}) (\frac{x_{1}}{s}) + (\frac{x_{2}}{s}) (\frac{x_{2}}{s}) + \dots + (\frac{x_{n}}{s}) (\frac{x_{n}}{s}) \\ = p_{1} p_{1} + p_{2} p_{2} + \dots + p_{n} p_{n} \\ = E_{F} [p] . \end{aligned}

$\eqalign{ \frac{x_1^2+x_2^2+\ldots+x_n^2}{(x_1+x_2+\ldots+x_n)^2} &= \frac{x_1^2+x_2^2+\ldots+x_n^2}{s^2} \\ &= \left(\frac{x_1}{s}\right)\left(\frac{x_1}{s}\right)+\left(\frac{x_2}{s}\right)\left(\frac{x_2}{s}\right) + \ldots + \left(\frac{x_n}{s}\right)\left(\frac{x_n}{s}\right)\\ &= p_1 p_1 + p_2 p_2 + \ldots + p_n p_n\\ &= \mathbb{E}_F[p]. }$

The axiomatic fact that no probability can exceed $1$ implies this expectation cannot exceed $1$ , either, but it's easy to make it equal to $1$ by setting all but one of the $p_i$ equal to $0$ and therefore exactly one of the $x_i$ is nonzero. Compute the coefficient of variation as in the last line of the geometric solution above.

whuber
fonte

Thanks for a detailed answer from which I have learned a lot! I assume that the difference between the

\sqrt{n}

$\sqrt{n}$ in your answer and the

\sqrt{n - 1}

$\sqrt{n-1}$ that I obtained (and Henry confirmed) is due to the fact that you are using

σ_{x} = \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}}

$\sigma_x = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2}$ as the definition of

σ_{x}

$\sigma_x$ while I used

σ_{x} = \sqrt{\frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}} ?

$\sigma_x = \sqrt{\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2}?$

Dilip Sarwate

1

Yes Dilip, that's right. Sorry about the discrepancy with the question; I should have checked first and I should have defined

σ_{x}

$\sigma_x$ (which I intended to do but forgot).

whuber

10

Some references, as small candles on the cakes of others:

Katsnelson and Kotz (1957) proved that so long as all $x_i \ge 0$ , then the coeﬃcient of variation cannot exceed $\sqrt{n − 1}$ . This result was mentioned earlier by Longley (1952). Cramér (1946, p.357) proved a less sharp result, and Kirby (1974) proved a less general result.

Cramér, H. 1946. Mathematical methods of statistics. Princeton, NJ: Princeton University Press.

Katsnelson, J., and S. Kotz. 1957. On the upper limits of some measures of variability. Archiv für Meteorologie, Geophysik und Bioklimatologie, Series B 8: 103–107.

Kirby, W. 1974. Algebraic boundedness of sample statistics. Water Resources Research 10: 220–222.

Longley, R. W. 1952. Measures of the variability of precipitation. Monthly Weather Review 80: 111–117.

I came across these papers in working on

Cox, N.J. 2010. The limits of sample skewness and kurtosis. Stata Journal 10: 482-495.

which discusses broadly similar bounds on moment-based skewness and kurtosis.

Nick Cox
fonte

8

With two numbers $x_i \ge x_j$ , some $\delta \gt 0$ and any $\mu$ :

(x_{i} + δ - μ)^{2} + (x_{j} - δ - μ)^{2} - (x_{i} - μ)^{2} - (x_{j} - μ)^{2} = 2 δ (x_{i} - x_{j} + δ) > 0.

$(x_i+\delta - \mu)^2 + (x_j - \delta - \mu)^2 - (x_i - \mu)^2 - (x_j - \mu)^2 = 2\delta(x_i - x_j +\delta) \gt 0.$

Applying this to $n$ non-negative datapoints, this means that unless all but one of the $n$ numbers are zero and so cannot be reduced further, it is possible to increase the variance and standard deviation by widening the gap between any pair of the data points while retaining the same mean, thus increasing the coefficient of variation. So the maximum coefficient of variation for the data set is as you suggest: $\sqrt{n-1}$ .

$c$ should not affect the result as $\frac{\sigma_x}{\bar{x}}$ does not change if all the values are multiplied by any positive constant $k$ (as I said in my comment).

Henry
fonte

Valor máximo do coeficiente de variação para o conjunto de dados limitados

Respostas:

Solução geométrica

Solução que explora as desigualdades clássicas

Abordagem alternativa