Como provar que

9

Eu tenho tentado estabelecer a desigualdade

|Ti|=|XiX¯|Sn1n

onde é a média da amostra e o desvio padrão da amostra, que é .X¯SS=i=1n(XiX¯)2n1

É fácil ver que e assim mas isso não está muito próximo do que eu estava procurando, nem é um limite útil. Eu experimentei as desigualdades de Cauchy-Schwarz e do triângulo, mas não fui a lugar algum. Deve haver um passo sutil que estou perdendo em algum lugar. Gostaria muito de receber ajuda, obrigado.i=1nTi2=n1|Ti|<n1

JohnK
fonte

Respostas:

10

Essa é a desigualdade de Samuelson e precisa do sinal . Se você pegar a versão da Wikipedia e refazê-la para a definição de verá que ela se tornaS , | X i - ˉ X |n1S,

|XiX¯|Sn1n
Soakley
fonte
É dado como uma estrita desigualdade no livro, mas eu o corrigi, obrigado.
JohnK
5

Depois de simplificar o problema por meio de procedimentos de rotina, ele pode ser resolvido convertendo-o em um programa de minimização duplo, que possui uma resposta bem conhecida com uma prova elementar. Talvez essa dualização seja o "passo sutil" mencionado na pergunta. A desigualdade também pode ser estabelecida de maneira puramente mecânica, maximizandovia multiplicadores Lagrange.|Ti|

Primeiro, porém, ofereço uma solução mais elegante com base na geometria dos mínimos quadrados. Não requer simplificação preliminar e é quase imediato, fornecendo intuição direta ao resultado. Como sugerido na pergunta, o problema se reduz à desigualdade de Cauchy-Schwarz.


Solução geométrica

Considere como um vetor dimensional no espaço euclidiano com o produto pontual usual. Seja seja o vetor base e . Escreva e para as projeções ortogonais de e no complemento ortogonal de . (Na terminologia estatística, eles são os resíduos com relação às médias.) Então, como ex=(X1,X2,,Xn)ny=(0,0,,0,1,0,,0)ith1=(1,1,,1)x^y^xy1XiX¯=x^yS=||x^||/n1 ,

|Ti|=n1|x^y|||x^||=n1|x^y^|||x^||

é o componente de na direção . Por Cauchy-Schwarz, ele é maximizado exatamente quando é paralelo a , para o qual QED.y^x^x^y^=(1,1,,1,n1,1,1,,1)/n

Ti=±n1y^y^||y^||=±n1||y^||=±n1n,

Aliás, esta solução fornece uma caracterização exaustiva de todos os casos em queé maximizado: eles têm todas as formas|Ti|

x=σy^+μ1=σ(1,1,,1,n1,1,1,,1)+μ(1,1,,1)

para todo real .μ,σ

Essa análise generaliza facilmente para o caso em que é substituído por qualquer conjunto de regressores. Evidentemente, o máximo de é proporcional ao comprimento do resíduo de ,.{1}Tiy||y^||


Simplificação

Como é invariável sob mudanças de localização e escala, podemos assumir, sem perda de generalidade, que soma zero e seus quadrados somam . Isso identificacom, uma vez que (o quadrado médio) é . Maximizar isso equivale a maximizar . Nenhuma generalidade é perdida ao considerar , pois os são permutáveis.TiXin1|Ti||Xi|S1|Ti|2=Ti2=Xi2i=1Xi


Solução através de uma formulação dupla

Um problema duplo é fixar o valor de e perguntar quais valores do restante são necessários para minimizar a soma dos quadrados considerando que . Como é fornecido, esse é o problema de minimizar considerando que .X12Xj,j1j=1nXj2j=1nXj=0X1j=2nXj2j=2nXj=X1

A solução é facilmente encontrada de várias maneiras. Um dos mais elementares é escrever

Xj=X1n1+εj, j=2,3,,n

para o qual . Expandir a função objetivo e usar essa identidade de soma para zero para simplificá-la produzj=2nεj=0

j=2nXj2=j=2n(X1n1+εj)2=(X1n1)22X1n1εj+εj2=Constant+εj2,

mostrar imediatamente a solução exclusiva é para todos os . Para esta solução,εj=0j

(n1)S2=X12+(n1)(X1n1)2=(1+1n1)X12=nn1X12

e

|Ti|=|X1|S=|X1|n(n1)2X12=n1n,

QED .


Solução através de máquinas

Retorne ao programa simplificado com o qual começamos:

Maximize X12

sujeito a

i=1nXi=0 and i=1nXi2(n1)=0.

O método dos multiplicadores de Lagrange (que é quase puramente mecânico e direto) iguala a uma combinação linear não trivial dos gradientes dessas três funções para zero:

(0,0,,0)=λ1D(X12)+λ2D(i=1nXi)+λ3D(i=1nXi2(n1)).

Componente por componente, essas equações sãon

0=2λ1X1+λ2+2λ3X10=λ2+2λ3X20=0=λ2+2λ3Xn.

O último deles implica ou . (Podemos descartar o último caso, porque a primeira equação implica , banalizando a combinação linear.) A restrição de soma para zero produz . A restrição da soma dos quadrados fornece as duas soluçõesn1X2=X3==Xn=λ2/(2λ3)λ2=λ3=0λ1=0X1=(n1)X2

X1=±n1n; X2=X3==Xn=1n.

Ambos produzem

|Ti|=|X1||±n1n|=n1n.
whuber
fonte
Obrigado pelo seu adendo, a geometria é muito poderosa e, das três soluções, é a mais intuitiva para mim.
JohnK
0

A desigualdade como afirmada é verdadeira. É bastante claro intuitivamente que obtemos o caso mais difícil da desigualdade (isto é, maximizar o lado esquerdo e o lado dado ) escolhendo um valor, digamos o maior possível, mantendo todos os outros iguais. Vejamos um exemplo com essa configuração:S2x1

n=4,x1=x2=x3=0,x4=4,x¯=1,S2=4,
agora dependendo de , enquanto o limite superior especificado é igual a que é apenas o suficiente. Essa ideia pode ser concluída para uma prova.|xix¯|S={12 or 32i412=1.5

EDITAR

Agora provaremos a reivindicação, como sugerido acima. Primeiro, para qualquer vetor dado nesse problema, podemos substituí-lo por sem alterar os dois lados da desigualdade acima. Portanto, a seguir, assumamos que . Também podemos mudar o rótulo assumindo que é o maior. Então, escolhendo primeiro e depois , podemos verificar, por álgebra simples, se temos igualdade na desigualdade reivindicada. Então, é afiado.x=(x1,x2,,xn)xx¯x¯=0x1x1>0x2=x3==xn=x1n1

Em seguida, defina a região (convexa) por para uma constante positiva positiva . Observe que é a interseção de um hiperplano com uma esfera centralizada na origem, assim como uma esfera no espaço . Nosso problema agora pode ser formulado como desde que umR = { x R : ˉ x = 0 , Σ ( x i - ˉ x ) 2 / ( n - 1 ) S 2 } S 2 R ( n - 1 ) max x R max i | x i | x R | x 1 |R

R={xR:x¯=0,(xix¯)2/(n1)S2}
S2R(n1)
maxxRmaxi|xi|
xmaximizar esse será o caso mais difícil para a desigualdade. Esse é um problema de encontrar o máximo de uma função convexa em um conjunto convexo, que em geral são problemas difíceis (os mínimos são fáceis!). Mas, neste caso, a região convexa é uma esfera centrada na origem, e a função que queremos maximizar é o valor absoluto das coordenadas. É óbvio que esse máximo é encontrado na esfera de fronteira de e usandoNo máximo, nosso primeiro caso de teste é forçado.R|x1|
kjetil b halvorsen
fonte
@JohnK você pode excluir seus comentários agora, o cargo é corrigida
b Kjetil Halvorsen
Embora essa resposta mostre que a desigualdade (supondo que seja verdadeira, ou seja) seja pequena , não é evidente como esse cálculo único poderia ser "concluído como prova". Você poderia fornecer alguma indicação de como isso seria feito?
whuber
Will, mas amanhã, agora eu tenho que preparar a aula de amanhã.
Kjetil b halvorsen
Obrigado. Agradeço sua formulação cuidadosa do problema. Mas sua "prova" parece chegar à afirmação de que "é óbvio isso". Você sempre pode aplicar multiplicadores Lagrange para concluir o trabalho, mas seria bom ver uma abordagem que (a) seja realmente uma prova e (b) forneça informações.
whuber
2
@whuber Se você tiver tempo, agradeceria se você pudesse publicar sua solução de multiplicadores Lagrange. Penso que a desigualdade global não é tão famosa como deveria ser.
#