Variação de uma variável aleatória limitada

22

Suponha que uma variável aleatória tenha um limite inferior e um superior [0,1]. Como calcular a variação de uma variável?

Piotr
fonte
8
Da mesma maneira que para uma variável ilimitada - definindo os limites de integração ou soma adequadamente.
Scortchi - Reinstate Monica
2
Como disse @ Scortchi. Mas estou curioso por que você pensou que poderia ser diferente?
Peter Flom - Restabelece Monica
3
A menos que você não saiba nada sobre a variável (nesse caso, um limite superior da variação pode ser calculado a partir da existência de limites), por que o fato de ser delimitado entra no cálculo?
Glen_b -Reinstala Monica
6
Um útil limite superior na variância de uma variável aleatória que assume valores em com probabilidade é e é conseguido por uma variável aleatória discreta que assume valores e com igual probabilidade . Outro ponto a ser lembrado é que a variação está garantida, enquanto uma variável aleatória ilimitada pode não ter uma variação (algumas, como as variáveis ​​aleatórias de Cauchy, nem mesmo têm uma média). [a,b]1(ba)2/4ab12
precisa
7
Não é uma variável discreta aleatória cuja variância é igual a exatamente: uma variável aleatória que assume valores e com igual probabilidade . Portanto, pelo menos sabemos que um limite superior universal da variação não pode ser menor que . (ba)24 ab12(ba)24
precisa saber é o seguinte

Respostas:

46

Você pode provar a desigualdade de Popoviciu da seguinte maneira. Utilizar a notação e . Defina uma função por Calculando a derivada e resolvendo descobrimos que atinge seu mínimo em ( note que ).m=infXM=supXg

g(t)=E[(Xt)2].
g
g(t)=2E[X]+2t=0,
gt=E[X]g>0

Agora, considere o valor da função no ponto especial . Deve ser o caso em que Mas Como e , temos implicando que gt=M+m2

Var[X]=g(E[X])g(M+m2).
g(M+m2)=E[(XM+m2)2]=14E[((Xm)+(XM))2].
Xm0XM0
((Xm)+(XM))2((Xm)(XM))2=(Mm)2,
14E[((Xm)+(XM))2]14E[((Xm)(XM))2]=(Mm)24.
V a r [ X ] ( M - m ) 2 Portanto, provamos a desigualdade de Popoviciu
Var[X](Mm)24.

zen
fonte
3
Boa abordagem: é bom ver demonstrações rigorosas desse tipo de coisa.
whuber
22
+1 Bom! Aprendi estatísticas muito antes de os computadores estarem em voga, e uma idéia que nos foi foi que que permitiu o cálculo da variância, encontrando a soma dos quadrados dos desvios de qualquer ponto conveniente ajustando o viés. Aqui, naturalmente, este identidade dá uma simples prova do resultado que tem o valor mínimo em sem a necessidade de derivados etc. t g ( t ) t = μ
E[(Xt)2]=E[((Xμ)(tμ))2]=E[(Xμ)2]+(tμ)2
tg(t)t=μ
Dilip Sarwate
18

Seja uma distribuição em . Vamos mostrar que, se a variância de é máxima, então pode ter nenhum apoio no interior, do qual resulta que é Bernoulli eo resto é trivial.[ 0 , 1 ] F F FF[0,1]FFF

Por uma questão de notação, seja o ésimo momento bruto de (e, como sempre, escrevemos e para a variância).k F μ = μ 1 σ 2 = μ 2 - μ doisμk=01xkdF(x)kFμ=μ1σ2=μ2μ2

Sabemos que não tem todo o seu suporte em um ponto (a variação é mínima nesse caso). Entre outras coisas, isso implica que fica estritamente entre e . Para argumentar por contradição, suponha que exista algum subconjunto mensurável no interior para o qual . Sem qualquer perda de generalidade, podemos assumir (alterando para se necessário) que : em outras palavras, é obtido cortando qualquer parte de acima da média eμ 0 1 I ( 0 , 1 ) F ( I ) > 0 X 1 - X F ( J = I ( 0 , μ ] ) > 0 J I JFμ01I(0,1)F(I)>0X1XF(J=I(0,μ])>0JIJ tem probabilidade positiva.

Vamos alterar para retirando toda a probabilidade de e colocando-a em . F J 0 FFJ0 Ao fazer isso, muda paraμk

μk=μkJxkdF(x).

Por uma questão de notação, vamos escrever para tais integrais, de onde[g(x)]=Jg(x)dF(x)

μ2=μ2[x2],μ=μ[x].

Calcular

σ2=μ2μ2=μ2[x2](μ[x])2=σ2+((μ[x][x2])+(μ[x][x]2)).

O segundo termo do lado direito, , é não-negativo, porque em toda a parte em . O primeiro termo à direita pode ser reescritoμ x J(μ[x][x]2)μxJ

μ[x][x2]=μ(1[1])+([μ][x][x2]).

O primeiro termo à direita é estritamente positivo porque (a) e (b) porque assumimos que não está concentrado em um ponto. O segundo termo não é negativo porque pode ser reescrito como e esse integrando não é negativo das suposições em e . Segue que .[ 1 ] = F ( J ) < 1 F [ ( μ - x ) ( x ) ] μ x J 0 x 1 σ 2 - σ 2 > 0μ>0[1]=F(J)<1F[(μx)(x)]μxJ0x1σ2σ2>0

Acabamos de mostrar que, de acordo com nossas premissas, alterar para aumenta estritamente sua variação. A única maneira que esta não pode acontecer, em seguida, é, quando toda a probabilidade de é concentrado nos pontos finais e , com (digamos) valoriza e , respectivamente. Sua variância é facilmente calculada para igual a que é máxima quando e é igual a lá.F ' F ' 0 1 1 - p p p ( 1 - P ) p = 1 / 2 1 / 4FF F011ppp(1p)p=1/21/4

Agora, quando é uma distribuição em , mais recente e redimensionamos para uma distribuição em . O recente não altera a variação, enquanto o redimensionamento a divide por . Assim, um com variação máxima em corresponde à distribuição com variação máxima em : portanto, é uma distribuição de Bernoulli redimensionada e traduzida para com variação 2/4 , QED .[ a , b ] [ 0 , 1 ] ( b - a ) 2 F [ a , b ] [ 0 , 1 ] ( 1 / 2 )F[a,b][0,1](ba)2F[a,b][0,1](1/2)( b - a ) 2 / 4[a,b](ba)2/4

whuber
fonte
Interessante, whuber. Eu não conhecia essa prova.
Zen
6
@ Zen Não é tão elegante quanto o seu. Eu o ofereci porque, ao longo dos anos, me vi pensando dessa maneira quando confrontado com desigualdades distributivas muito mais complicadas: pergunto como a probabilidade pode ser alterada para tornar a desigualdade mais extrema. Como uma heurística intuitiva, é útil. Usando abordagens como a apresentada aqui, suspeito que uma teoria geral para provar que uma grande classe de tais desigualdades possa ser derivada, com um tipo de sabor híbrido das técnicas de cálculo de variações e multiplicador de Lagrange (dimensional finito).
whuber
Perfeito: sua resposta é importante porque descreve uma técnica mais geral que pode ser usada para lidar com muitos outros casos.
Zen
@whuber disse - "Pergunto como a probabilidade pode ser alterada para tornar a desigualdade mais extrema". - esta parece ser a maneira natural de pensar sobre esses problemas.
Glen_b -Reinstala Monica
Parece haver alguns erros na derivação. Deve serAlém disso, não é igual a pois não é o mesmo que[ ( μ - x ) ( x ) ] [ μ ] [ x ] - [ x 2 ] [ μ ] [
μ[x][x2]=μ(1[1])[x]+([μ][x][x2]).
[(μx)(x)][μ][x][x2]μ [ x ][μ][x]μ[x]
Leo
13

Se a variável aleatória é restrita a e sabemos a média , a variação é limitada por .μ = E [ X ] ( b - μ ) ( μ - a )[a,b]μ=E[X](bμ)(μa)

Vamos primeiro considerar o caso . Observe que para todos , , portanto também . Usando este resultado, x [ 0 , 1 ] x 2x E [ X 2 ] E [ X ] σ 2 = E [ X 2 ] - ( E [ X ] 2 ) = E [ X 2 ] - μ 2μ - μ 2 = μ (a=0,b=1x[0,1]x2xE[X2]E[X]

σ2=E[X2](E[X]2)=E[X2]μ2μμ2=μ(1μ).

Para generalizar para os intervalos com , considere restrito a . Defina , que é restrito em . Equivalentemente, e, portanto, onde a desigualdade é baseada no primeiro resultado. Agora, substituindo , o limite é igual a que é o resultado desejado.b > a Y [ a , b ] X = Y - a[a,b]b>aY[a,b]X=YabaY = ( b - a ) X + a V a r [ Y ] = ( b - a ) 2 V a r [ X ] ( b - a ) 2 μ X ( 1 - μ X ) . μ X = μ Y - a[0,1]Y=(ba)X+a

Var[Y]=(ba)2Var[X](ba)2μX(1μX).
(b-a)2μX=μYaba
(ba)2μYaba(1μYaba)=(ba)2μYababμYba=(μYa)(bμY),
Juho Kokkala
fonte
8

A pedido do @ user603 ....

Um limite superior útil da variância de uma variável aleatória que assume valores em com probabilidade é . Uma prova para o caso especial (que é o que o OP perguntou) pode ser encontrada aqui em math.SE , e é facilmente adaptada ao caso mais geral. Como observado na minha comentário acima e também na resposta aqui referenciado, uma variável aleatória discreta que assume valores e com igual probabilidade tem variância e, portanto, nenhum limite geral mais restrito pode ser encontrado. [ a , b ] 1 σ 2( b - a ) 2σ2[a,b]1 a=0,b=1ab1σ2(ba)24a=0,b=1ab (b-a)212(ba)24

Outro ponto a ser lembrado é que uma variável aleatória limitada tem variação finita, enquanto que para uma variável aleatória ilimitada, a variação pode não ser finita e, em alguns casos, pode até não ser definível. Por exemplo, a média não pode ser definida para variáveis ​​aleatórias de Cauchy e, portanto, não é possível definir a variação (como a expectativa do desvio ao quadrado da média).

Dilip Sarwate
fonte
este é um caso especial de resposta da @ Juho
Aksakal
Foi apenas um comentário, mas também posso acrescentar que esta resposta não responde à pergunta.
Aksakal
@Aksakal So ??? Juho estava respondendo a uma pergunta um pouco diferente e muito mais recente. Esta nova pergunta foi mesclada com a que você vê acima, que eu respondi há dez meses.
precisa saber é o seguinte
0

você tem certeza de que isso é verdade em geral - para distribuições contínuas e discretas? Você pode fornecer um link para as outras páginas? Para uma distribuição geral de , é trivial mostrar que Eu posso imaginar que existem desigualdades mais acentuadas ... Você precisa do fator para o seu resultado?V a r ( X ) = E [ ( X - E [ X ] ) 2 ] E [ ( b - a ) 2 ] = ( b - a ) 2 . 1 / 4[a,b]

Var(X)=E[(XE[X])2]E[(ba)2]=(ba)2.
1/4

Por outro lado, pode-se encontrá-lo com o fator sob o nome Popoviciu's_inequality na wikipedia.1/4

Este artigo parece melhor do que o artigo da Wikipedia ...

Para uma distribuição uniforme, sustenta que

Var(X)=(ba)212.
Ric
fonte
Esta página indica o resultado com o início de uma prova que se envolve um pouco demais para mim, pois parece exigir uma compreensão do "Teorema Fundamental da Programação Linear". sci.tech-archive.net/Archive/sci.math/2008-06/msg01239.html
Adam Russell
Obrigado por colocar um nome para isso! "A desigualdade de Popoviciu" é exatamente o que eu precisava.
Adam Russell
2
Esta resposta faz algumas sugestões incorretas: está realmente certo. A referência à desigualdade de Popoviciu funcionará, mas estritamente falando, ela se aplica apenas a distribuições com suporte finito (em particular, que não inclui distribuições contínuas). Um argumento limitador faria o truque, mas algo extra é necessário aqui. 1/4
whuber
2
Uma distribuição contínua pode aproximar-se arbitrariamente de uma discreta (em termos de cdf) arbitrariamente (por exemplo, construir uma densidade contínua a partir de uma dada discreta, colocando um pequeno núcleo em forma de Beta (4,4) centralizado em cada ponto de massa - da área apropriada - e deixe o desvio padrão de cada um desses kernel encolher para zero, mantendo sua área constante). Tais limites discretos, como discutido aqui, também atuarão como limites nas distribuições contínuas. Espero que você esteja pensando em distribuições unimodais contínuas ... que realmente têm limites superiores diferentes.
Glen_b -Reinstala Monica
2
Bem ... minha resposta foi a menos útil, mas eu a deixaria aqui devido aos bons comentários. Cheers, R
Ric