Limites em em termos de além da desigualdade de Jensen?

21

Se é uma função convexa, a desigualdade de Jensen indica que e mutatis mutandis quando é côncavo. Claramente, na pior das hipóteses, você não pode limitar em termos de para um convexo , mas existe um limite que segue nessa direção se é convexo, mas "não muito convexo"? Existe algum limite padrão que fornece condições para uma função convexa (e possivelmente também a distribuição, se necessário) que permita concluir que , ondef ( E [ x ] ) E [ f ( x ) ] f E [ f ( x ) ] f ( E [ x ] ) f f f E [ f ( x ) ] φ ( f ) f ( E [ x ] ) φ ( f )ff(E[x])E[f(x)]fE[f(x)]f(E[x])fffE[f(x)]φ(f)f(E[x])φ(f)alguma função da curvatura / grau de convexidade de ? Algo semelhante a uma condição Lipschitz, talvez?f

Ian
fonte
Votação para fechar como off-topic. math.stackexchange.com talvez?
Aryabhata
7
Eu acho que essa pergunta deve permanecer aberta; esse é o tipo de desigualdade que muitos teóricos acham útil regularmente.
Aaron Roth
10
Eu sei que isso é mais próximo da matemática pura do que a maioria das perguntas postadas até agora, mas eu diria que isso é tópico, pois esse tipo de coisa surge frequentemente na análise de algoritmos aleatórios (que é o aplicativo que eu tenho em mente). Eu acho que a matemática que é muito usada na ciência da computação deve ser considerada um jogo justo para perguntas.
31410 Ian
6
voto para manter aberto. definitivamente no tópico
Suresh Venkat
11
Também voto para se manter aberto.
Jeffε

Respostas:

21

EDIT: versão original perdeu um valor absoluto. Desculpe!!

Oi Ian. Descreverei brevemente duas desigualdades de amostra, uma usando um limite de Lipschitz, a outra usando um limite na segunda derivada e discutirei algumas dificuldades nesse problema. Embora eu esteja sendo redundante, uma vez que uma abordagem usando um derivado explica o que acontece com mais derivados (via Taylor), verifica-se que a segunda versão do derivado é bastante agradável.

Primeiro, com um limite de Lipschitz: simplesmente refaça a desigualdade padrão de Jensen. O mesmo truque se aplica: calcule a expansão de Taylor no valor esperado.

Especificamente, Seja medida correspondente e defina . Se tem Lipschitz constante , então pelo teorema de Taylorμ m : = E ( x ) f LXμm:=E(x)fL

f(x)=f(m)+f(z)(xm)f(m)+L|xm|,

em que (Note-se que e são possíveis). Usando isso e refazendo a prova de Jensen (eu sou paranóico e verifiquei se a norma está realmente na wikipedia),x m x > mz[m,x]xmx>m

E(f(X))=f(x)dμ(x)f(m)dμ(x)+L|xm|dμ(x)=f(E(X))+LE(|XE(X)|).

Agora, suponha . Nesse caso,|f(x)|λ

f(x)=f(m)+f(m)(xm)+f(z)(xm)22f(m)+f(m)(xm)+λ(xm)22,

e entao

E(f(X))f(m)+f(m)(E(X)m)+λE((Xm)2)2=f(E(X))+λVar(X)2.

Eu gostaria de mencionar brevemente algumas coisas. Desculpe se eles são óbvios.

Uma é que você não pode simplesmente dizer "wlog " alterando a distribuição, porque você está alterando o relacionamento entre e .f μE(X)=0fμ

Em seguida, o limite deve depender da distribuição de alguma maneira. Para ver isso, imaginar que e . Qualquer que seja o valor de , você ainda recebe . Por outro lado, . Assim, alterando , você pode tornar arbitrariamente a diferença entre as duas quantidades! Intuitivamente, mais massa é afastada da média e, portanto, para qualquer função estritamente convexa, aumentará.f (XGaussian(0,σ2) σ f ( E ( X ) ) = f ( 0 ) = 0 E ( f ( X ) ) = E ( X 2 ) = σ 2 σ E ( f ( X ) )f(x)=x2σf(E(X))=f(0)=0E(f(X))=E(X2)=σ2σE(f(X))

Por fim, não vejo como obter um limite multiplicativo como você sugere. Tudo o que usei neste post é padrão: o teorema de Taylor e os limites de derivativos são pão e manteiga nos limites das estatísticas e automaticamente dão erros aditivos, e não multiplicativos.

Vou pensar sobre isso, e postar alguma coisa. A intuição vaga é que ela precisará de condições muito árduas, tanto na função quanto na distribuição, e que o limite aditivo esteja realmente no centro dela.

matus
fonte
Toda vez que edito, a resposta é colidida. Então, vou apontar: o segundo limite da derivada é apertado para o exemplo que dei.
matus 27/08/10
Eu acho que você está certo em que limites aditivos são os melhores possíveis sem condições muito mais fortes na função.
31810 Ian
Caro Ian, Pensei um pouco mais sobre esse problema, mas a principal dificuldade em minha mente é sugerida pelo exemplo que dei, onde , mas . Você pode restringir a família de funções (derivada limitada, limitada, integrável) e a distribuição (momentos suaves, limitados, limitados) e ainda possui esses exemplos. Basta ter uma função simétrica e não negativa igual a zero na média da distribuição. Dito isto, tudo depende das restrições no seu problema exato. No caso geral, acho que a natureza aditiva é fundamental. f(E(X))=0E(f(X))>0
matus
@Ian: As provas das desigualdades de Chernoff e Azuma-Hoeffding usam argumentos que lembram isso, então você pode ler essas informações como inspiração. Veja, por exemplo, o livro de Mitzenmacher e Upfal sobre randomização em computação.
Warren Schudy
3

Para insight, considere uma distribuição concentrada em dois valores; digamos, com probabilidades iguais de 1/2 que sejam iguais a 1 ou 3, de onde . Tome e . Considere funções para os quais e . Fazendo suficientemente pequeno e conectando continuamente entre esses três pontos, podemos tornar a curvatura de tão pequena quanto desejado. EntãoE[x]=2N>>0ϵ>0ff(1)=f(3)=Nϵf(E[x])=f(2)=ϵϵff

E[f(x)]=Nϵ , ainda

N=Nϵ/ϵ=E[f(x)]/f(E[x])φ(f) .

Isso mostra que deve ser arbitrariamente grande.φ(f)

whuber
fonte