Não tenho certeza se normalizar é a palavra correta a ser usada aqui, mas tentarei ilustrar o que estou tentando perguntar. O estimador usado aqui é de mínimos quadrados.
Suponha que você tem , você pode centralizá-lo em torno da média de onde e , de modo que não tenha mais influência na estimativa de .
Por isso eu média β 1 em y = β 1 x ' 1 é equivalente a p 1 em y = β 0 + β 1 x 1 . Reduzimos a equação para facilitar o cálculo do quadrado mínimo.
Como você aplica esse método em geral? Agora eu tenho o modelo , estou tentando reduzi-lo a .
Respostas:
Embora eu não possa fazer justiça à questão aqui - isso exigiria uma pequena monografia - pode ser útil recapitular algumas idéias-chave.
A questão
Vamos começar reafirmando a pergunta e usando terminologia inequívoca. Os dados consistem em uma lista de pares ordenados . As constantes conhecidas α 1 e α 2 determinam os valores x 1 , i = exp ( α 1 t i ) e x 2 , i = exp ( α 2 t i ) . Nós postulamos um modelo em que(ti,yi) α1 α2 x1,i=exp(α1ti) x2,i=exp(α2ti)
para que as constantes e β 2 sejam estimadas, ε i é aleatório e - para uma boa aproximação de qualquer maneira - independente e com uma variação comum (cuja estimativa também é interessante).β1 β2 εi
Segundo plano: "correspondência" linear
Mosteller e Tukey referem-se às variáveis = ( x 1 , 1 , x 1 , 2 , ... ) e x 2 como "matchers." Eles serão usados para "combinar" os valores de y = ( y 1 , y 2 , ... ) de uma maneira específica, que ilustrarei. De modo mais geral, vamos y e x haver quaisquer dois vetores no mesmo espaço vetor, com y desempenhando o papel de "target" e xx1 (x1,1,x1,2,…) x2 y=(y1,y2,…) y x y x o de "matcher". Contemplamos sistematicamente variar um coeficiente para aproximar y pelo múltiplo λ x . A melhor aproximação é obtida quando λ x é o mais próximo possível de y . Equivalentemente, o comprimento ao quadrado de y - λ x é minimizado.λ y λx λx y y−λx
Uma maneira de visualizar este processo de correspondência é fazer com que um conjunto disperso de e y na qual está desenhado o gráfico de X → X x . As distâncias verticais entre os pontos do gráfico de dispersão e este gráfico são os componentes do vetor residual y - λ x ; a soma de seus quadrados deve ser feita o menor possível. Até uma constante de proporcionalidade, esses quadrados são as áreas dos círculos centralizados nos pontos ( x i , y i ) com raios iguais aos resíduos: desejamos minimizar a soma das áreas de todos esses círculos.x y x→λx y−λx (xi,yi)
Aqui está um exemplo que mostra o valor ideal de no painel do meio:λ
Os pontos no gráfico de dispersão são azuis; o gráfico de é uma linha vermelha. Esta ilustração enfatiza que a linha vermelha é forçada a passar pela origem ( 0 , 0 ) : é um caso muito especial de ajuste de linha.x→λx (0,0)
A regressão múltipla pode ser obtida por correspondência sequencial
Voltando ao cenário da pergunta, temos um alvo e dois marcadores x 1 e x 2 . Buscamos os números b 1 e b 2 para os quais y seja o mais próximo possível de b 1 x 1 + b 2 x 2 , novamente no sentido de menor distância. Arbitrariamente começando com x . Escreva os resíduos para essas correspondências como x 2 ⋅ 1 e y ⋅ 1y x1 x2 b1 b2 y b1x1+b2x2 , Mosteller e Tukey correspondem às variáveis restantes x 2 e y a x 1x1 x2 y x1 x2⋅1 y⋅1 , respectivamente: o ⋅ 1 indica que x 1 foi "retirado" da variável.⋅1 x1
Nós podemos escrever
Tendo tirado de x 2 e y , passamos a corresponder os resíduos alvo y ⋅ 1 aos resíduos correspondentes x 2 ⋅ 1 . Os resíduos finais são y ⋅ 12 . Algebricamente, escrevemosx1 x2 y y⋅1 x2⋅1 y⋅12
Isso mostra que o na última etapa é o coeficiente de x 2 em uma correspondência de x 1 e x 2 para y .λ3 x2 x1 x2 y
Poderíamos igualmente ter procedido pela primeira tomada de X 1 e Y , produzindo x 1 ⋅ 2 e y ⋅ 2 , e, em seguida, tomando x 1 ⋅ 2 de y ⋅ 2 , obtendo-se um conjunto diferente de resíduos y ⋅ 21 . Desta vez, o coeficiente de x 1 encontrado na última etapa - vamos chamá-lo μ 3 - é o coeficiente de x 1 em uma combinação de x 1 ex2 x1 y x1⋅2 y⋅2 x1⋅2 y⋅2 y⋅21 x1 μ3 x1 x1 para y .x2 y
Finalmente, para comparação, podemos executar uma múltipla (regressão de mínimos quadrados ordinários) de contra x 1 e x 2 . Deixe aqueles resíduos ser y ⋅ l m . Acontece que os coeficientes nesta regressão múltipla são, precisamente, os coeficientes u 3 e λ 3 encontrado anteriormente e que todos os três conjuntos de resíduos, y ⋅ 12 , y ⋅ 21 , e y ⋅ l m , são idênticos.y x1 x2 y⋅lm μ3 λ3 y⋅12 y⋅21 y⋅lm
Descrevendo o processo
Nada disso é novo: está tudo no texto. Eu gostaria de oferecer uma análise pictórica, usando uma matriz de dispersão de tudo o que obtivemos até agora.
Como esses dados são simulados, temos o luxo de mostrar os valores "verdadeiros" subjacentes de na última linha e coluna: esses são os valores β 1 x 1 + β 2 x 2 sem o erro adicionado.y β1x1+β2x2
Os gráficos de dispersão abaixo da diagonal foram decorados com os gráficos dos correspondentes, exatamente como na primeira figura. Os gráficos com inclinação zero são desenhados em vermelho: indicam situações em que o jogador não nos dá nada de novo; os resíduos são os mesmos que o alvo. Além disso, para referência, a origem (onde quer que apareça em um gráfico) é mostrada como um círculo vermelho aberto: lembre-se de que todas as linhas correspondentes possíveis precisam passar por esse ponto.
Muito pode ser aprendido sobre regressão através do estudo deste enredo. Alguns dos destaques são:
The valuesx1 , x2 , x1⋅2 , and x2⋅1 have all been taken out of y⋅lm .
Multiple regression ofy against x1 and x2 can be achieved first by computing y⋅1 and x2⋅1 . These scatterplots appear at (row, column) = (8,1) and (2,1) , respectively. With these residuals in hand, we look at their scatterplot at (4,3) . These three one-variable regressions do the trick. As Mosteller & Tukey explain, the standard errors of the coefficients can be obtained almost as easily from these regressions, too--but that's not the topic of this question, so I will stop here.
Code
These data were (reproducibly) created in
R
with a simulation. The analyses, checks, and plots were also produced withR
. This is the code.fonte
y.21
toy.12
in my code.