Tomando a expectativa da série Taylor (especialmente o restante)

43

Minha pergunta diz respeito à tentativa de justificar um método amplamente usado, a saber, o valor esperado da Taylor Series. Suponha que temos uma variável aleatória com média positiva e variância . Além disso, temos uma função, digamos, .Xμσ2log(x)

Fazendo a expansão Taylor de torno da média, obtemos onde, como sempre, é st.logX

logX=logμ+Xμμ12(Xμ)2μ2+13(Xμ)3ξX3,
ξX|ξXμ|<|Xμ|

Se tomarmos uma expectativa, obteremos uma equação aproximada à qual as pessoas geralmente se referem como algo aparente (veja o sinal na primeira equação aqui)E log X log μ - 1 :

ElogXlogμ12σ2μ2

PERGUNTA : Estou interessado em provar que o valor esperado do termo restante é realmente insignificante, por exemplo, (ou, em outras palavras, ).

E[(Xμ)3ξX3]=o(σ2)
E[o(Xμ)2]=o(E[(Xμ)2])

O que tentei fazer : assumindo que (que, por sua vez, significa em ), tentei dividir a integral em duas, cercando com algumas -vicinity : X μ P μ ε N ε R p ( x ) ( x - μ ) 3σ20XμPμεNε

Rp(x)(xμ)3ξx3dx=xNεdx+xNεdx

O primeiro pode ser delimitado devido ao fato de que e, portanto, não se incomoda. Mas com o segundo, temos dois fatos concordantes: por um lado, (como ). Mas, por outro lado, não sabemos o que fazer com . 1 / ξ 3 P ( | X - μ | > ε ) 0 σ 20 1 / ξ 30Nε1/ξ3

P(|Xμ|>ε)0
σ201/ξ3

Outra possibilidade seria tentar usar o lema de Fatou, mas não consigo descobrir como.

Apreciará qualquer ajuda ou sugestão. Percebo que essa é uma pergunta muito técnica, mas preciso passar por isso para confiar no método "expectativa de Taylor". Obrigado!

PS Eu verifiquei aqui , mas parece que é um pouco de outra coisa.

agronskiy
fonte
Por que há um sinal de menos na frente do terceiro mandato da expansão de Taylor? Também porque no quarto mandato existem e não? o que estou perdendo? 3 !33!
Alecos Papadopoulos
@ Alecos: Basta olhar para a ésima derivada do log x . Isso responderá às duas perguntas. nlogx
cardeal
4
(+1) Esta questão surgiu recentemente nas discussões de duas questões relacionadas à descoberta dos momentos de . Vale a pena ter cuidado adicional com esses assuntos. :-)X1
cardeal
1
A aproximação de primeira ordem pode realmente ser melhor em alguns casos, devido ao teorema do valor médio. Não tenho certeza se o teorema do valor médio ajudaria no caso geral.
probabilityislogic
1
Eu teria pensado que a convergência dominado teorema pode ser útil aqui, como a equação É um intercâmbio de limites e integração. E(o(..))=o(E(..))
probabilityislogic

Respostas:

32

Você está certo em ser cético em relação a essa abordagem. O método da série Taylor não funciona em geral, embora a heurística contenha um núcleo de verdade. Para resumir a discussão técnica abaixo,

  • Forte concentração implica que o método da série Taylor funcione para boas funções
  • As coisas podem e darão muito errado para distribuições de cauda pesada ou funções não tão agradáveis

Como a resposta de Alecos indica, isso sugere que o método da série Taylor deve ser descartado se seus dados tiverem caudas pesadas. (Profissionais de finanças, estou olhando para você.)

Como observou Elvis, o principal problema é que a variação não controla momentos superiores . Para entender o porquê, vamos simplificar o máximo possível sua pergunta para chegar à ideia principal.

Suponha que tenhamos uma sequência de variáveis ​​aleatórias com σ ( X n ) 0 como n .Xnσ(Xn)0n

P: Podemos garantir que como n ?E[|Xnμ|3]=o(σ2(Xn))n?

Como existem variáveis ​​aleatórias com segundos momentos finitos e terceiros momentos infinitos, a resposta é enfaticamente não . Portanto, em geral, o método da série Taylor falha mesmo em polinômios de terceiro grau . A iteração desse argumento mostra que você não pode esperar que o método da série Taylor forneça resultados precisos, mesmo para polinômios, a menos que todos os momentos de sua variável aleatória sejam bem controlados.

O que devemos fazer então? Certamente, o método funciona para variáveis ​​aleatórias limitadas cujo suporte converge para um ponto, mas essa classe é muito pequena para ser interessante. Suponha, em vez disso, que a sequência venha de uma família altamente concentrada que satisfaça (digamos)Xn

(1)P{|Xnμ|>t}eCnt2

para cada e alguns C > 0 . Tais variáveis ​​aleatórias são surpreendentemente comuns. Por exemplo, quando X n é a média empíricat>0C>0Xn

Xn:=1ni=1nYi

de boas variáveis ​​aleatórias (por exemplo, iid e delimitadas), várias desigualdades de concentração implicam que X n satisfaz (1). Um argumento padrão (. Ver p 10 aqui ) limita o p th momentos para tais variáveis aleatórias:YiXnp

E[|Xnμ|p](p2Cn)p/2.

Portanto, para qualquer função analítica "suficientemente agradável" (veja abaixo), podemos limitar o erro E m na aproximação da série Taylor de m- termo usando a desigualdade do triângulofEmm

Em:=|E[f(Xn)]p=0mf(p)(μ)p!E(Xnμ)p|1(2Cn)(m+1)/2p=m+1|f(p)(μ)|pp/2p!

quando . Como a aproximação de Stirling dá p ! p p - 1 / 2 , o erro dos satisfaz em série de Taylor truncadasn>C/2p!pp1/2

(2)Em=O(n(m+1)/2) as nwheneverp=0p(1p)/2|f(p)(μ)|<.

Portanto, quando está fortemente concentrado ef é suficientemente bom, a aproximação da série de Taylor é realmente precisa. A desigualdade que aparece em (2) implica que f ( p ) ( μ ) / p ! = O ( p - p / 2 ) , de modo que, em particular, nossa condição exige que f seja inteiro . Isso faz sentido porque (1) não impõe nenhuma suposição de limite a X n .Xnff(p)(μ)/p!=O(pp/2)fXn

Vamos ver o que pode dar errado quando é singularidade (após o comentário do whuber). Suponha que escolhemos f ( x ) = 1 / x . Se tomarmos X n a partir da N o r m um l ( 1 , 1 / n ) distribuição truncado entre zero e dois, então X n for suficientemente concentrada, mas E [ f ( x n ) ] = para cada nff(x)=1/xXnNormal(1,1/n)XnE[f(Xn)]=n. Em outras palavras, temos uma variável aleatória limitada altamente concentrada e ainda assim o método da série Taylor falha quando a função tem apenas uma singularidade.

Algumas palavras sobre rigor. Acho melhor apresentar a condição que aparece em (2) como derivada, em vez de um deus ex machina necessário em um formato rigoroso de prova / teorema. Para tornar o argumento completamente rigoroso, observe primeiro que o lado direito em (2) implica que

E[|f(Xn)|]i=0|f(p)(μ)|p!E[|Xnμ|p]<

pela taxa de crescimento dos momentos subgaussianos de cima. Assim, o teorema de Fubini fornece

E[f(Xn)]=i=0f(p)(μ)p!E[(Xnμ)p]

O restante da prova prossegue como acima.

Mike McCoy
fonte
1
Eu posso ter perdido isso em uma leitura rápida, mas você está afirmando (entre outras coisas) que, desde que o terceiro momento de esteja suficientemente "sob controle", então a expectativa do log ( X ) pode ser razoavelmente aproximada, levando-se em consideração as expectativas do Série [MacLaurin] de log ? Estou preocupado porque eu não vi qualquer referência às propriedades de convergência da série em si, que são pelo menos tão importantes quanto as caudas da distribuição de X . Xlog(X)logX
whuber
2
@whuber Você está correto; você precisará do suporte de para fazer parte do ROC da série Taylor, portanto, em particular, 0 < X < 2 μ quase certamente. Vou atualizar a postagem para refletir isso. X0<X<2μ
Mike McCoy
2
Eu ainda acho que estou perdendo alguma coisa. Por exemplo, quando tem uma distribuição Normal ( 1 , 1 ) truncada para ( 0 , 2 ) , obviamente ela é "altamente concentrada", tem uma média de μ = 1 e está quase certamente dentro do raio de convergência de f ( x ) = 1 / x = 1 / ( 1 - ( 1 - x ) ) (que é analítico no interior do disco da unidade centrado em 1X(1,1)(0,2)μ=1f(x)=1/x=1/(1(1x))1, que contém ), mas E [ f ( X ) ] é infinito. (0,2μ)E[f(X)]
whuber
1
@gron Você cometeu um pequeno erro. Quando , a derivada | f ( p ) ( μ ) | = p ! / μ p . A condição não é válida porque (2) = p ! p ( 1 - p / 2 ) μ p para qualquer μ > 0f(x)=1/x|f(p)(μ)|=p!/μp
(2)=p!p(1p/2)μp
μ>0. Você também pode verificar se (2) não é válido porque qualquer função que satisfaça (2) também satisfaz e, portanto, f não possui singularidades (sua totalidade , por a ligação). log(p!f(p)(μ))/pf
Mike McCoy #
1
@gron Você precisa de duas coisas: (1) certifique-se de que seu RV tenha suporte estritamente dentro do ROC da série de potências do log (ou seja, para ε > 0 ) e (2) faça certifique-se de que os momentos do VR diminuam rápido o suficiente para que uma estimativa de erro para E m acima seja finita. Quanto a como controlar os momentos, você deve fazer uma nova pergunta, porque ela terá muitos personagens (e eu também estou curioso sobre as novas maneiras). [0+ε,2με]ε>0Em
Mike McCoy
10

Embora minha resposta não se aproxime do nível de sofisticação matemática das outras respostas, decidi publicá-la porque acredito que ela tem algo a contribuir - embora o resultado seja "negativo", como dizem.

Em um tom leve, eu diria que o OP é "avesso ao risco" (como a maioria das pessoas é, assim como a própria ciência), porque o OP requer uma condição suficiente para que a aproximação de expansão da série Taylor de 2ª ordem seja " aceitável". Mas é não uma condição necessária.

Em primeiro lugar, um pré-requisito necessário, mas não suficiente, para que o valor esperado do Restante seja de ordem inferior à variação do rv, conforme requer o OP, é que a série converja em primeiro lugar. Devemos apenas assumir convergência? Não.

A expressão geral que examinamos é

E[g(Y)]=fY(y)[i=0g(i)(μ)(yμ)ii!]dy[1]

Como Loistl (1976) afirma, referenciando o livro "Calculus and Statistics" de Gemignani (1978, p. 170), uma condição para convergência da soma infinita é (uma aplicação do teste de razão para convergência)

yμ<|yμ|<limi|(g(i)(μ)g(i+1)(μ)(i+1))|[2]

μ

g()yμ0<y[2]

yμ<μ0<y<2μ

Isso significa que, se nossa variável variar fora desse intervalo, a expansão de Taylor, tendo como centro de expansão, a média da variável irá divergir.

Portanto, para algumas formas funcionais, o valor de uma função em algum ponto de seu domínio é igual a sua expansão infinita de Taylor, não importa a que distância esse ponto esteja do centro de expansão. Para outras formas funcionais (logaritmo incluído), o ponto de interesse deve estar um pouco "próximo" do centro de expansão escolhido. No caso em que temos um rv, isso se traduz em uma restrição ao suporte teórico da variável (ou a um exame de sua faixa empiricamente observada).

Loitl, usando exemplos numéricos, também mostrou que aumentar a ordem da expansão antes do truncamento poderia piorar a situação da precisão da aproximação. Devemos observar que, empiricamente, as séries temporais de variáveis ​​observadas no setor financeiro apresentam variabilidade maior que a exigida pela desigualdade. Então Loitl defendeu que a metodologia de aproximação das séries de Taylor deveria ser descartada inteiramente, em relação à teoria de escolha de portfólio.

A recuperação veio 18 anos depois de Hlawitschka (1994) . O valioso insight e resultado aqui foi, e cito

... embora uma série possa convergir, pouco se pode dizer sobre qualquer uma de suas séries parciais; A convergência de uma série não implica que os termos diminuam imediatamente de tamanho ou que qualquer termo em particular seja suficientemente pequeno para ser ignorado. De fato, é possível, como demonstrado aqui, que uma série possa parecer divergir antes de convergir no limite. Portanto, a qualidade do momento aproximada da utilidade esperada, baseada nos primeiros termos de uma série de Taylor, não pode ser determinada pelas propriedades de convergência da série infinita. Essa é uma questão empírica e, empiricamente, as aproximações de dois momentos das funções de utilidade estudadas aqui apresentam bom desempenho na tarefa de seleção de portfólio. Hlawitschka (1994)

E(g(Y) que sempre dava resultados quantitativos que, quando suficientemente perto desse valor exato (veja sua tabela A1 na p. 718).

Então, onde isso nos deixa? No limbo, eu diria. Parece que, tanto na teoria quanto nos empíricos, a aceitabilidade da aproximação de Taylor de 2ª ordem depende criticamente de muitos aspectos diferentes do fenômeno específico em estudo e da metodologia científica empregada - depende dos pressupostos teóricos, das formas funcionais utilizadas, na variabilidade observada das séries ...

Mas vamos encerrar isso positivamente: hoje em dia, a energia do computador substitui muitas coisas. Assim, poderíamos simular e testar a validade da aproximação de 2ª ordem, para uma ampla gama de valores da variável a baixo custo, quer trabalhemos em um problema teórico ou empírico.

Alecos Papadopoulos
fonte
8

Não é uma resposta real, mas um exemplo para mostrar que as coisas não são tão agradáveis ​​e que hipóteses extras são necessárias para tornar esse resultado verdadeiro.

XnU([1n;1n])N(nn1,1n)1n11n=n1nE(Xn)=10n

E(Xn2)=13n2×1n+((nn1)2+1n)×n1n,

f(x)=1/xf(0)=0f(Xn)

1n1n1xdx
n

fXn

PS. Este exemplo não é um contra-exemplo da resposta de Nick? Quem está errado então?

Elvis
fonte
1
E[Xk]k=1,2,3
f(x)x=μf(x)=1xx=0f
μ=1
1
Elvis, sim, precisamos de uma condição global. Essencialmente, o restante deve se comportar bem depois de ser ponderado pelas caudas da distribuição. Para algo semelhante ao seu exemplo que surgiu recentemente, veja aqui , aqui e aqui .
cardeal
4

Esta não é uma resposta completa, apenas uma maneira diferente de chegar à aproximação de segunda ordem.

f(X)=f(μ)+f(ξ1)(Xμ)

Xξ1μXμXξ1μXμf(ξ1)

f(ξ1)=f(μ)+f(ξ2)(ξ1μ)

Xξ1ξ2μXμXξ1ξ2μXμ

f(X)=f(μ)+f(μ)(Xμ)+f(ξ2)(ξ1μ)(Xμ)

fXμXXξiξ1μ=12(Xμ)ξ2=μX

probabilityislogic
fonte