Existe uma versão de amostra da desigualdade unilateral de Chebyshev?

Estou interessado na seguinte versão unilateral de Cantelli da desigualdade de Chebyshev :

P (X - E (X) \geq t) \leq \frac{V a r (X)}{V a r (X) + t^{2}} .

$\mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,.$

Basicamente, se você conhece a média e a variação da população, pode calcular o limite superior da probabilidade de observar um determinado valor. (Essa foi a minha compreensão, pelo menos.)

No entanto, eu gostaria de usar a média da amostra e a variação da amostra em vez da média e da variação reais da população.

Estou supondo que, uma vez que isso introduziria mais incerteza, o limite superior aumentaria.

Existe uma desigualdade análoga à acima, mas que usa a média e variância da amostra?

Edit : O "exemplo" analógico da desigualdade de Chebyshev (não de um lado), foi elaborado. A página da Wikipedia tem alguns detalhes. No entanto, não tenho certeza de como isso se traduziria no caso unilateral que tenho acima.

probability mathematical-statistics probability-inequalities mean casandra
fonte

Graças à Glen_b. É um problema bastante interessante. Eu sempre pensei que a desigualdade de Chebyshev era poderosa (já que vamos fazer inferência estatística sem exigir uma distribuição de probabilidade); portanto, poder usá-lo com a média e a variação da amostra seria bastante impressionante.

28614

Respostas:

Sim, podemos obter um resultado análogo usando a média e variância da amostra, com, talvez, algumas pequenas surpresas surgindo no processo.

Primeiro, precisamos refinar um pouco a declaração da pergunta e definir algumas suposições. Importante, deve ficar claro que não podemos esperar substituir a variação populacional pela variação da amostra no lado direito, pois o último é aleatório ! Portanto, reorientamos nossa atenção para a desigualdade equivalente Caso não esteja claro se são equivalentes, observe que simplesmente substituímos por na desigualdade original sem qualquer perda de generalidade.

P (X - E X \geq t σ) \leq \frac{1}{1 + t^{2}} .

$\mathbb P\left( X - \mathbb E X \geq t \sigma \right) \leq \frac{1}{1+t^2} \>.$

t

$t$

t σ

$t \sigma$

Segundo, assumimos que temos uma amostra aleatória e estamos interessados em um limite superior para a quantidade análoga , onde é a amostra média e é o desvio padrão da amostra. $X_1,\ldots,X_n$ $\mathbb P(X_1 - \bar X \geq t S)$ $\bar X$ $S$

Meio passo à frente

Observe que já aplicando a desigualdade original de Chebyshev unilateral a , obtemos que que , que é menor que o lado direito da versão original. Isso faz sentido! Qualquer realização específica de uma variável aleatória de uma amostra tenderá a ser (ligeiramente) mais próxima da média da amostra para a qual ela contribui do que da média da população. Como veremos abaixo, substituiremos por sob premissas ainda mais gerais. $X_1 - \bar X$

P (X_{1} - \bar{X} \geq t σ) \leq \frac{1}{1 + \frac{n}{n - 1} t^{2}}

$\mathbb P( X_1 - \bar X \geq t\sigma ) \leq \frac{1}{1 + \frac{n}{n-1}t^2}$

σ^{2} = V a r (X_{1})

$\sigma^2 = \mathrm{Var}(X_1)$

σ

$\sigma$

S

$S$

Uma versão de exemplo do Chebyshev unilateral

Reivindicação : Seja uma amostra aleatória tal que . Em seguida,Em particular, a versão de amostra do limite é mais estreita que a versão da população original. $X_1,\ldots,X_n$ $\mathbb P(S = 0) = 0$
$P (X_{1} - \bar{X} \geq t S) \leq \frac{1}{1 + \frac{n}{n - 1} t^{2}} .$ $\mathbb P(X_1 - \bar X \geq t S) \leq \frac{1}{1 + \frac{n}{n-1} t^2}\>.$

Nota : Nós não assumir que o quer ter finito média ou variância! $X_i$

Prova . A idéia é adaptar a prova da desigualdade original de Chebyshev, unilateral, e empregar simetria no processo. Primeiro, defina para conveniência notacional. Em seguida, observe que $Y_i = X_i - \bar X$

P (Y_{1} \geq t S) = \frac{1}{n} \sum_{i = 1}^{n} P (Y_{i} \geq t S) = E \frac{1}{n} \sum_{i = 1}^{n} 1_{(Y_{i} \geq t S)} .

$\mathbb P( Y_1 \geq t S ) = \frac{1}{n} \sum_{i=1}^n \mathbb P( Y_i \geq t S ) = \mathbb E \frac{1}{n} \sum_{i=1}^n \mathbf 1_{(Y_i \geq t S)} \>.$

Agora, para qualquer , em , $c > 0$ $\{S > 0\}$

1_{(Y_{i} \geq t S)} = 1_{(Y_{i} + t c S \geq t S (1 + c))} \leq 1_{((Y_{i} + t c S)^{2} \geq t^{2} (1 + c)^{2} S^{2})} \leq \frac{(Y_{i} + t c S)^{2}}{t^{2} (1 + c)^{2} S^{2}} .

$\newcommand{I}[1]{\mathbf{1}_{(#1)}} \I{Y_i \geq t S} = \I{Y_i + t c S \geq t S (1+c)} \leq \I{(Y_i + t c S)^2 \geq t^2 (1+c)^2 S^2} \leq \frac{(Y_i + t c S)^2}{t^2(1+c)^2 S^2}\>.$

Então, uma vez que e .

\frac{1}{n} \sum_{i} 1_{(Y_{i} \geq t S)} \leq \frac{1}{n} \sum_{i} \frac{(Y_{i} + t c S)^{2}}{t^{2} (1 + c)^{2} S^{2}} = \frac{(n - 1) S^{2} + n t^{2} c^{2} S^{2}}{n t^{2} (1 + c)^{2} S^{2}} = \frac{(n - 1) + n t^{2} c^{2}}{n t^{2} (1 + c)^{2}},

$\frac{1}{n} \sum_i \I{Y_i \geq t S} \leq \frac{1}{n} \sum_i \frac{(Y_i + t c S)^2}{t^2(1+c)^2 S^2} = \frac{(n-1)S^2 + n t^2 c^2 S^2}{n t^2 (1+c)^2 S^2} = \frac{(n-1) + n t^2 c^2}{n t^2 (1+c)^2} \>,$

\bar{Y} = 0

$\bar Y = 0$

\sum_{i} Y_{i}^{2} = (n - 1) S^{2}

$\sum_i Y_i^2 = (n-1)S^2$

O lado direito é uma constante ( ! ), Portanto, assumir as expectativas de ambos os lados gera, Finalmente, minimizando sobre , produz , que após um pouco de álgebra estabelece o resultado.

P (X_{1} - \bar{X} \geq t S) \leq \frac{(n - 1) + n t^{2} c^{2}}{n t^{2} (1 + c)^{2}} .

$\mathbb P(X_1 - \bar X \geq t S) \leq \frac{(n-1) + n t^2 c^2}{n t^2 (1+c)^2} \>.$

c

$c$

c = \frac{n - 1}{n t^{2}}

$c = \frac{n-1}{n t^2}$

Essa condição técnica traquina

Observe que tivemos que assumir para poder dividir por na análise. Isso não é problema para distribuições absolutamente contínuas, mas representa um inconveniente para distribuições discretas. Para uma distribuição discreta, há alguma probabilidade de que todas as observações são iguais, caso em que para todos os e . $\mathbb P(S = 0) = 0$ $S^2$ $0 = Y_i = t S = 0$ $i$ $t > 0$

Podemos nos desviar definindo . Então, um cuidadoso relato do argumento mostra que tudo passa praticamente inalterado e temos $q = \mathbb P(S = 0)$

Corolário 1 . Para o caso , temos $q = \mathbb P(S = 0) > 0$
$P (X_{1} - \bar{X} \geq t S) \leq (1 - q) \frac{1}{1 + \frac{n}{n - 1} t^{2}} + q .$ $\mathbb P(X_1 - \bar X \geq t S) \leq (1-q) \frac{1}{1 + \frac{n}{n-1} t^2} + q \>.$

Prova . Divida nos eventos e . A prova anterior passa por e o caso é trivial. $\{S > 0\}$ $\{S = 0\}$ $\{S > 0\}$ $\{S = 0\}$

Uma desigualdade ligeiramente mais limpa resulta se substituirmos a desigualdade não estrita na declaração de probabilidade por uma versão estrita.

Corolário 2 . Seja (possivelmente zero). Então, $q = \mathbb P(S = 0)$
$P (X_{1} - \bar{X} > t S) \leq (1 - q) \frac{1}{1 + \frac{n}{n - 1} t^{2}} .$ $\mathbb P(X_1 - \bar X > t S) \leq (1-q) \frac{1}{1 + \frac{n}{n-1} t^2} \>.$

Observação final : a versão amostral da desigualdade não exigiu suposições sobre (exceto que ela não é quase certamente constante no caso de desigualdade não estrita, que a versão original também assume tacitamente), em essência, porque a média da amostra e a variação da amostra sempre existe, independentemente de seus análogos populacionais existirem. $X$

cardeal
fonte

Este é apenas um complemento à resposta engenhosa do @cardinal. A desigualdade de Samuelson afirma que, para uma amostra de tamanho , quando temos pelo menos três valores distintos dos realizados , ele sustenta que onde é calculado sem a correção de viés, . $n$ $x_i$

x_{i} - \bar{x} < s \sqrt{n - 1}, i = 1, . . . n

$x_i-\bar x < s\sqrt{n-1},\;\; i=1,...n$

s

$s$

s = {(\frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2})}^{1 / 2}

$s= \left (\frac 1n\sum_{i=1}^n(x_i-\bar x)^2\right)^{1/2}$

Então, usando a notação da resposta do cardeal, podemos afirmar que

P (X_{1} - \bar{X} \geq S \sqrt{n - 1}) = 0 a . s . [1]

$\mathbb P\left(X_1-\bar X \ge S\sqrt{n-1}\right) =0 \;\;a.s. \qquad [1]$

Como exigimos três valores distintos, teremos por suposição. Então, definindo na desigualdade do Cardinal (a versão inicial) obtemos $S\neq 0$ $t=\sqrt{n-1}$

P (X_{1} - \bar{X} \geq S \sqrt{n - 1}) \leq \frac{1}{1 + n}, [2]

$\mathbb P\left (X_1 - \bar X \geq S\sqrt{n-1}\right) \leq \frac{1}{1 + n}, \;\; \qquad [2]$

Eq. é obviamente compatível com a eq. . A combinação dos dois nos diz que a desigualdade do cardeal é útil como uma declaração probabilística para . $[2]$ $[1]$ $0< t < \sqrt{n-1}$

Se a desigualdade do cardeal exigir que seja calculado com correção de viés (chame isso ), as equações se tornarão $S$ $\tilde S$

P (X_{1} - \bar{X} \geq \tilde{S} \frac{n - 1}{\sqrt{n}}) = 0 a . s . [1 a]

$\mathbb P\left(X_1-\bar X \ge \tilde S\frac{n-1}{\sqrt{n}}\right) =0 \;\;a.s. \qquad [1a]$

e escolhemos para obter através da desigualdade do Cardinal $t= \frac{n-1}{\sqrt{n}}$

P (X_{1} - \bar{X} \geq \tilde{S} \frac{n - 1}{\sqrt{n}}) \leq \frac{1}{n}, [2 a]

$\mathbb P\left (X_1 - \bar X \geq \tilde S\frac{n-1}{\sqrt{n}}\right) \leq \frac{1}{ n}, \;\; \qquad [2a]$ e o intervalo probabilisticamente significativo para é

t

$t$

0 < t < \frac{n - 1}{\sqrt{n}} .

$0< t < \frac{n-1}{\sqrt{n}}.$

Alecos Papadopoulos
fonte

(+1) Aliás, como eu estava considerando esse problema pela primeira vez, o fato de que foi realmente a pista inicial de que a desigualdade da amostra deveria ser mais estreita que a original. Eu queria colocar isso no meu post, mas não consegui encontrar um lugar (confortável) para ele. Fico feliz em vê-lo mencioná-lo (na verdade, uma pequena melhoria) aqui, juntamente com sua elaboração adicional muito agradável. Felicidades.

max_{i} | X_{i} - \bar{X} | \leq S \sqrt{n - 1}

$\max_i |X_i - \bar X| \leq S\sqrt{n-1}$

cardeal

Cheers @Cardinal, ótima resposta - apenas esclareça para mim - importa para a sua desigualdade como se define a variação da amostra (corrigida ou não)?

Alecos Papadopoulos

Apenas um pouco. Eu usei a variação da amostra corrigida pelo viés. Se você usar vez de para normalizar, você terminará com vez de que significa que o termo na desigualdade final desaparecerá. Assim, você terá o mesmo limite que na desigualdade original de Chebyshev unilateral nesse caso. (Supondo que eu tenha feito a álgebra corretamente.) :-)

n

$n$

n - 1

$n-1$

\frac{1 + t^{2} c^{2}}{t^{2} (1 + c)^{2}}

$\frac{1+t^2c^2}{t^2(1+c)^2}$

\frac{(n - 1) + n t^{2} c^{2}}{n t^{2} (1 + c)^{2}},

$\frac{(n-1) + n t^2c^2}{nt^2(1+c)^2} \,,$

n / (n - 1)

$n/(n-1)$

cardeal

@ Cardinal ... o que significa que as equações relevantes na minha resposta são e , o que significa que sua desigualdade nos diz que, para escolhido para ativar a desigualdade de Samuelson, a probabilidade do evento que estamos examinando não pode ser maior que , isto é, não é maior do que escolher aleatoriamente qualquer valor realizado da amostra ... o que de alguma forma faz algum sentido intuitivo nebuloso: o que é provado certamente impossível em termos determinísticos, quando abordado probabilisticamente, seu limite de probabilidade não excede a equiprobabilidade ... não está claro em minha mente ainda.

1 a

$1a$

2 a

$2a$

t

$t$

1 / n

$1/n$

Alecos Papadopoulos