Eu tenho tentado estabelecer a desigualdade
onde é a média da amostra e o desvio padrão da amostra, que é .
É fácil ver que e assim mas isso não está muito próximo do que eu estava procurando, nem é um limite útil. Eu experimentei as desigualdades de Cauchy-Schwarz e do triângulo, mas não fui a lugar algum. Deve haver um passo sutil que estou perdendo em algum lugar. Gostaria muito de receber ajuda, obrigado.
Depois de simplificar o problema por meio de procedimentos de rotina, ele pode ser resolvido convertendo-o em um programa de minimização duplo, que possui uma resposta bem conhecida com uma prova elementar. Talvez essa dualização seja o "passo sutil" mencionado na pergunta. A desigualdade também pode ser estabelecida de maneira puramente mecânica, maximizandovia multiplicadores Lagrange.|Ti|
Primeiro, porém, ofereço uma solução mais elegante com base na geometria dos mínimos quadrados. Não requer simplificação preliminar e é quase imediato, fornecendo intuição direta ao resultado. Como sugerido na pergunta, o problema se reduz à desigualdade de Cauchy-Schwarz.
Solução geométrica
Considere como um vetor dimensional no espaço euclidiano com o produto pontual usual. Seja seja o vetor base e . Escreva e para as projeções ortogonais de e no complemento ortogonal de . (Na terminologia estatística, eles são os resíduos com relação às médias.) Então, como ex=(X1,X2,…,Xn) n y=(0,0,…,0,1,0,…,0) ith 1=(1,1,…,1) x^ y^ x y 1 Xi−X¯=x^⋅y S=||x^||/n−1−−−−−√ ,
é o componente de na direção . Por Cauchy-Schwarz, ele é maximizado exatamente quando é paralelo a , para o qual QED.y^ x^ x^ y^=(−1,−1,…,−1,n−1,−1,−1,…,−1)/n
Aliás, esta solução fornece uma caracterização exaustiva de todos os casos em queé maximizado: eles têm todas as formas|Ti|
para todo real .μ,σ
Essa análise generaliza facilmente para o caso em que é substituído por qualquer conjunto de regressores. Evidentemente, o máximo de é proporcional ao comprimento do resíduo de ,.{1} Ti y ||y^||
Simplificação
Como é invariável sob mudanças de localização e escala, podemos assumir, sem perda de generalidade, que soma zero e seus quadrados somam . Isso identificacom, uma vez que (o quadrado médio) é . Maximizar isso equivale a maximizar . Nenhuma generalidade é perdida ao considerar , pois os são permutáveis.Ti Xi n−1 |Ti| |Xi| S 1 |Ti|2=T2i=X2i i=1 Xi
Solução através de uma formulação dupla
Um problema duplo é fixar o valor de e perguntar quais valores do restante são necessários para minimizar a soma dos quadrados considerando que . Como é fornecido, esse é o problema de minimizar considerando que .X21 Xj,j≠1 ∑nj=1X2j ∑nj=1Xj=0 X1 ∑nj=2X2j ∑nj=2Xj=−X1
A solução é facilmente encontrada de várias maneiras. Um dos mais elementares é escrever
para o qual . Expandir a função objetivo e usar essa identidade de soma para zero para simplificá-la produz∑nj=2εj=0
mostrar imediatamente a solução exclusiva é para todos os . Para esta solução,εj=0 j
e
QED .
Solução através de máquinas
Retorne ao programa simplificado com o qual começamos:
sujeito a
O método dos multiplicadores de Lagrange (que é quase puramente mecânico e direto) iguala a uma combinação linear não trivial dos gradientes dessas três funções para zero:
Componente por componente, essas equações sãon
O último deles implica ou . (Podemos descartar o último caso, porque a primeira equação implica , banalizando a combinação linear.) A restrição de soma para zero produz . A restrição da soma dos quadrados fornece as duas soluçõesn−1 X2=X3=⋯=Xn=−λ2/(2λ3) λ2=λ3=0 λ1=0 X1=−(n−1)X2
Ambos produzem
fonte
A desigualdade como afirmada é verdadeira. É bastante claro intuitivamente que obtemos o caso mais difícil da desigualdade (isto é, maximizar o lado esquerdo e o lado dado ) escolhendo um valor, digamos o maior possível, mantendo todos os outros iguais. Vejamos um exemplo com essa configuração:S2 x1
EDITAR
Agora provaremos a reivindicação, como sugerido acima. Primeiro, para qualquer vetor dado nesse problema, podemos substituí-lo por sem alterar os dois lados da desigualdade acima. Portanto, a seguir, assumamos que . Também podemos mudar o rótulo assumindo que é o maior. Então, escolhendo primeiro e depois , podemos verificar, por álgebra simples, se temos igualdade na desigualdade reivindicada. Então, é afiado.x=(x1,x2,…,xn) x−x¯ x¯=0 x1 x1>0 x2=x3=⋯=xn=−x1n−1
Em seguida, defina a região (convexa) por para uma constante positiva positiva . Observe que é a interseção de um hiperplano com uma esfera centralizada na origem, assim como uma esfera no espaço . Nosso problema agora pode ser formulado como desde que umR = { x ∈ R : ˉ x = 0 , Σ ( x i - ˉ x ) 2 / ( n - 1 ) ≤ S 2 } S 2 R ( n - 1 ) max x ∈ R max i | x i | x R | x 1 |R
fonte