A ordem das variáveis explicativas é importante no cálculo de seus coeficientes de regressão?

No começo, pensei que a ordem não importava, mas depois li sobre o processo de ortogonalização de Gram-Schmidt para calcular vários coeficientes de regressão, e agora estou pensando melhor.

De acordo com o processo de gram-schmidt, quanto mais tarde uma variável explicativa for indexada entre as outras variáveis, menor será o vetor residual, pois os vetores residuais das variáveis anteriores serão subtraídos. Como resultado, o coeficiente de regressão da variável explicativa também é menor.

Se isso for verdade, o vetor residual da variável em questão seria maior se fosse indexado anteriormente, uma vez que menos vetores residuais seriam subtraídos dela. Isso significa que o coeficiente de regressão também seria maior.

Ok, então me pediram para esclarecer minha pergunta. Então, publiquei capturas de tela do texto que me confundiram em primeiro lugar. Ok, aqui vai.

Meu entendimento é que existem pelo menos duas opções para calcular os coeficientes de regressão. A primeira opção é indicada (3.6) na captura de tela abaixo.

A primeira maneira

Aqui está a segunda opção (eu tive que usar várias capturas de tela).

O segundo caminho

insira a descrição da imagem aqui

A menos que eu esteja interpretando mal algo (o que é definitivamente possível), parece que a ordem é importante na segunda opção. Isso importa na primeira opção? Por que ou por que não? Ou meu quadro de referência está tão confuso que nem sequer é uma pergunta válida? Além disso, isso tudo está de alguma forma relacionado à soma dos quadrados tipo I versus soma dos quadrados tipo II?

Muito obrigado antecipadamente, estou tão confuso!

regression multiple-regression regression-coefficients Ryan Zotti
fonte

Você poderia descrever o procedimento exato de como os coeficientes são calculados? Pelo que sei sobre ortogonalização de gram-schmidt e como ela pode ser aplicada ao problema de regressão, posso presumir que, usando o procedimento gs, você pode se ajustar à regressão, mas não aos coeficientes originais. Observe que o ajuste de regressão é a projeção para o espaço das colunas. Se você ortogonalizar as colunas, obtém a base ortogonal do espaço que mede as colunas; portanto, o ajuste será uma combinação linear dessa base e também uma combinação linear de colunas originais. Será o mesmo ...

mpiktas

mas os coeficientes serão diferentes. Isso é perfeitamente normal.

precisa saber é

Acho que estou confuso porque pensei ter lido em "Os elementos do aprendizado estatístico" que os coeficientes computados usando o processo gram-schmidt seriam os mesmos que os calculados usando o processo tradicional: B = (X'X) ^ - 1 X'y.

23912 Ryan Zotti

Aqui está o trecho do livro que fala sobre o procedimento: "Podemos ver a estimativa [dos coeficientes] como resultado de duas aplicações da regressão simples. As etapas são: 1. regredir x em 1 para produzir o z = residual x - x ̄1; 2. regule y no z residual para obter o coeficiente βˆ 1. Esta receita generaliza para o caso das entradas p, como mostra o algoritmo 3.1 Observe que as entradas z0,..., zj-1 na etapa 2 são ortogonais, portanto, os coeficientes de regressão simples calculados existem de fato também os coeficientes de regressão múltiplos ".

23912 Ryan Zotti

Fico um pouco confuso quando copio e colo na seção de comentários aqui, então provavelmente é melhor apenas olhar diretamente para a fonte. As páginas 53 a 54 de "Os Elementos da Aprendizagem Estatística" estão disponíveis gratuitamente para download no site da Stanford: www-stat.stanford.edu/~tibs/ElemStatLearn .

23912 Ryan Zotti

Respostas:

Acredito que a confusão possa estar surgindo de algo um pouco mais simples, mas oferece uma boa oportunidade para revisar alguns assuntos relacionados.

Observe que o texto não está afirmando que todos os coeficientes de regressão pode ser calculado através dos vetores residuais sucessivos como mas sim que somente o último , , pode ser calculado dessa maneira! $\newcommand{\bhat}{\hat{\beta}}\newcommand{\m}{\mathbf}\newcommand{\z}{\m{z}}\bhat_i$

{\hat{β}}_{i} \overset{?}{=} \frac{⟨ y, z_{i} ⟩}{‖ z_{i} ‖^{2}},

$\bhat_i \stackrel{?}{=} \frac{\langle \m y, \z_i \rangle}{\|\z_i\|^2}\>,$

{\hat{β}}_{p}

$\bhat_p$

O esquema sucessivo de ortogonalização (uma forma de ortogonalização de Gram-Schmidt) está (quase) produzindo um par de matrizes e tal que onde seja com colunas ortonormais e seja triangular superior. Eu digo "quase", já que o algoritmo está apenas especificando até as normas das colunas, que em geral não serão uma, mas podem ter uma norma de unidade normalizando as colunas e fazendo um ajuste simples correspondente à coordenada matriz . $\newcommand{\Z}{\m{Z}}\newcommand{\G}{\m{G}}\Z$ $\G$

X = Z G,

$\m X = \Z \G \>,$

Z

$\Z$

n \times p

$n \times p$

G = (g_{i j})

$\G = (g_{ij})$

p \times p

$p \times p$

Z

$\Z$

G

$\G$

Supondo, é claro, que tenha classificação , a única solução de mínimos quadrados é o vetor que resolve o sistema $\m X \in \mathbb R^{n \times p}$ $p \leq n$ $\bhat$

X^{T} X \hat{β} = X^{T} y .

$\m X^T \m X \bhat = \m X^T \m y \>.$

Substituindo e usando (por construção), obtemos que é equivalente a $\m X = \Z \G$ $\Z^T \Z = \m I$

G^{T} G \hat{β} = G^{T} Z^{T} y,

$\G^T \G \bhat = \G^T \Z^T \m y \> ,$

G \hat{β} = Z^{T} y .

$\G \bhat = \Z^T \m y \>.$

Agora, concentre-se na última linha do sistema linear. O único elemento diferente de zero de na última linha é . Então, obtemos que Não é difícil ver (verifique isso como uma verificação de entendimento!) Quee assim isso produz a solução. ( Advertência : eu já usei já normalizado para ter norma de unidade, enquanto no livro eles não têm . Isso explica o fato de que o livro tem uma norma ao quadrado no denominador, enquanto eu só tenho a norma.) $\G$ $g_{pp}$

g_{p p} {\hat{β}}_{p} = ⟨ y, z_{p} ⟩ .

$g_{pp} \bhat_p = \langle \m y, \z_p \rangle \>.$

g_{p p} = ‖ z_{p} ‖

$g_{pp} = \|\z_p\|$

z_{i}

$\z_i$

Para encontrar todos os coeficientes de regressão, é necessário executar uma simples etapa de substituição traseira para resolver o indivíduo . Por exemplo, para a linha , e assim Pode-se continuar esse procedimento trabalhando "para trás" da última linha do sistema até a primeira, subtraindo somas ponderadas dos coeficientes de regressão já calculados e depois dividindo pelo termo inicial para obter . $\bhat_i$ $(p-1)$

g_{p - 1, p - 1} {\hat{β}}_{p - 1} + g_{p - 1, p} {\hat{β}}_{p} = ⟨ z_{p - 1}, y ⟩,

$g_{p-1,p-1} \bhat_{p-1} + g_{p-1,p} \bhat_p = \langle \m z_{p-1}, \m y \rangle \>,$

{\hat{β}}_{p - 1} = g_{p - 1, p - 1}^{- 1} ⟨ z_{p - 1}, y ⟩ - g_{p - 1, p - 1}^{- 1} g_{p - 1, p} {\hat{β}}_{p} .

$\bhat_{p-1} = g_{p-1,p-1}^{-1} \langle \m z_{p-1}, \m y \rangle \> - g_{p-1,p-1}^{-1} g_{p-1,p} \bhat_p .$

g_{i i}

$g_{ii}$

{\hat{β}}_{i}

$\bhat_i$

O ponto na seção em ESL é que poderíamos reordenar as colunas de para obter uma nova matriz com a a coluna original agora sendo a última. Se aplicarmos o procedimento Gram-Schmidt na nova matriz, obteremos uma nova ortogonalização, de modo que a solução para o coeficiente original seja encontrada pela solução simples acima. Isso nos dá uma interpretação para o coeficiente de regressão . É uma regressão univariada de no vetor residual obtido por "regressão" das colunas restantes da matriz de design de . $\m X$ $\m X^{(r)}$ $r$ $\bhat_r$ $\bhat_r$ $\m y$ $\m x_r$

Decomposições QR gerais

O procedimento de Gram-Schmidt é apenas um método de produção de uma decomposição de QR . De fato, existem muitas razões para preferir outras abordagens algorítmicas ao procedimento de Gram-Schmidt. $\m X$

As reflexões das famílias e as rotações de Givens fornecem abordagens numericamente mais estáveis para esse problema. Observe que o desenvolvimento acima não muda no caso geral de decomposição do QR. Nomeadamente, deixa ser qualquer decomposição de QR . Em seguida, usando exatamente o mesmo raciocínio e manipulações algébricas como acima, temos que a solução de mínimos quadrados satisfaz o que simplifica para Como é triangular superior, a mesma técnica de substituição traseira funciona. Primeiro resolvemos para

X = Q R,

$\m X = \m Q \m R \>,$

X

$\m X$

\hat{β}

$\bhat$

R^{T} R \hat{β} = R^{T} Q^{T} y,

$\m R^T \m R \bhat = \m R^T \m Q^T \m y \>,$

R \hat{β} = Q^{T} y .

$\m R \bhat = \m Q^T \m y \> .$

R

$\m R$

{\hat{β}}_{p}

$\bhat_p$ e, em seguida, trabalhe para trás, de baixo para cima. A escolha pela qual o algoritmo de decomposição QR usar geralmente depende do controle da instabilidade numérica e, sob essa perspectiva, Gram-Schmidt geralmente não é uma abordagem competitiva.

Essa noção de decompor como uma matriz ortogonal vezes outra coisa também pode ser generalizada um pouco mais para obter uma forma muito geral para o vetor ajustado , mas temo que essa resposta já tenha sido muito longa . $\m X$ $\hat{\m y}$

cardeal
fonte

Dei uma olhada no livro e parece que o exercício 3.4 pode ser útil para entender o conceito de uso do GS para encontrar todos os coeficientes de regressão (não apenas o coeficiente final - então digitei uma solução. útil. $\beta_j$ $\beta_p$

Exercício 3.4 em ESL

Mostre como o vetor dos coeficientes mínimos quadrados pode ser obtido a partir de uma única passagem do procedimento de Gram-Schmidt. Representar a sua solução em termos de decomposição QR de . $X$

Solução

Lembre-se de que, com uma única passagem do procedimento de Gram-Schmidt, podemos escrever nossa matriz como onde contém as colunas ortogonais e é uma matriz na diagonal superior com as na diagonal e . Isso reflete o fato de que, por definição, $X$

X = Z Γ,

$X = Z \Gamma,$

Z

$Z$

z_{j}

$z_j$

Γ

$\Gamma$

γ_{i j} = \frac{⟨ z_{i}, x_{j} ⟩}{‖ z_{i} ‖^{2}}

$\gamma_{ij} = \frac{\langle z_i, x_j \rangle}{\| z_i \|^2}$

x_{j} = z_{j} + \sum_{k = 0}^{j - 1} γ_{k j} z_{k} .

$x_j = z_j + \sum_{k=0}^{j-1} \gamma_{kj} z_k.$

Agora, pela decomposição do , podemos escrever , onde é uma matriz ortogonal e é uma matriz triangular superior. Temos e , onde é uma matriz diagonal com. $QR$ $X = QR$ $Q$ $R$ $Q = Z D^{-1}$ $R = D\Gamma$ $D$ $D_{jj} = \| z_j \|$

Agora, por definição de , temos Agora, usando a decomposição , temos $\hat \beta$

(X^{T} X) \hat{β} = X^{T} y .

$(X^T X) \hat \beta = X^T y.$

Q R

$QR$

\begin{aligned} (R^{T} Q^{T}) (Q R) \hat{β} & = R^{T} Q^{T} y \\ R \hat{β} & = Q^{T} y \end{aligned}

$\begin{align*} (R^T Q^T) (QR) \hat \beta &= R^T Q^T y \\ R \hat \beta &= Q^T y \end{align*}$

$R$ é triangular superior, podemos escrever de acordo com nossos resultados anteriores. Agora, por substituição , podemos obter a sequência de coeficientes de regressão . Como exemplo, para calcular , começamos

\begin{aligned} R_{p p} {\hat{β}}_{p} & = ⟨ q_{p}, y ⟩ \\ ‖ z_{p} ‖ {\hat{β}}_{p} & = ‖ z_{p} ‖^{- 1} ⟨ z_{p}, y ⟩ \\ {\hat{β}}_{p} & = \frac{⟨ z_{p}, y ⟩}{‖ z_{p} ‖^{2}} \end{aligned}

$\begin{align*} R_{pp} \hat \beta_p &= \langle q_p, y \rangle \\ \| z_p \| \hat \beta_p &= \| z_p \|^{-1} \langle z_p, y \rangle \\ \hat \beta_p &= \frac{\langle z_p, y \rangle}{\| z_p \|^2} \end{align*}$

{\hat{β}}_{j}

$\hat \beta_j$

{\hat{β}}_{p - 1}

$\hat \beta_{p-1}$

\begin{aligned} R_{p - 1, p - 1} {\hat{β}}_{p - 1} + R_{p - 1, p} {\hat{β}}_{p} & = ⟨ q_{p - 1}, y ⟩ \\ ‖ z_{p - 1} ‖ {\hat{β}}_{p - 1} + ‖ z_{p - 1} ‖ γ_{p - 1, p} {\hat{β}}_{p} & = ‖ z_{p - 1} ‖^{- 1} ⟨ z_{p - 1}, y ⟩ \end{aligned}

$\begin{align*} R_{p-1, p-1} \hat \beta_{p-1} + R_{p-1,p} \hat \beta_p &= \langle q_{p-1}, y \rangle \\ \| z_{p-1} \| \hat \beta_{p-1} + \| z_{p-1} \| \gamma_{p-1,p} \hat \beta_p &= \| z_{p-1} \|^{-1} \langle z_{p-1}, y \rangle \end{align*}$ e depois resolvendo . Este processo pode ser repetido para todos , obtendo assim os coeficientes de regressão em uma passagem do procedimento de Gram-Schmidt.

{\hat{β}}_{p - 1}

$\hat \beta_{p-1}$

β_{j}

$\beta_j$

Andrew Tulloch
fonte

Por que não tentar e comparar? Ajuste um conjunto de coeficientes de regressão, altere a ordem e ajuste-os novamente e veja se eles diferem (exceto o possível erro de arredondamento).

Como o @mpiktas aponta, não está exatamente claro o que você está fazendo.

Eu posso ver usando GS para resolver na equação dos mínimos quadrados . Mas então você faria o GS na matriz , não os dados originais. Nesse caso, os coeficientes devem ser os mesmos (exceto o possível erro de arredondamento). $B$ $(x'x)B=(x'y)$ $(x'x)$

Outra abordagem do GS na regressão é aplicar o GS às variáveis preditoras para eliminar a colinearidade entre elas. Em seguida, as variáveis ortogonizadas são usadas como preditores. Nesse caso, a ordem é importante e os coeficientes serão diferentes porque a interpretação dos coeficientes depende da ordem. Considere 2 preditores e e faça GS neles nessa ordem e use-os como preditores. Nesse caso, o primeiro coeficiente (após a interceptação) mostra o efeito de em por si só e o segundo coeficiente é o efeito de em após o ajuste para $x_1$ $x_2$ $x_1$ $y$ $x_2$ $y$ $x_1$ . Agora, se você reverter a ordem dos x, o primeiro coeficiente mostrará o efeito de em por si só (ignorando vez de se ajustar a ele) e o segundo é o efeito de ajustando-se a . $x_2$ $y$ $x_1$ $x_1$ $x_2$

Greg Snow
fonte

Acho que o seu último parágrafo provavelmente é o mais próximo da fonte da minha confusão - a GS faz com que a ordem seja importante. Isso foi o que eu pensei. Ainda estou um pouco confuso, porque o livro que estou lendo, chamado: "Os Elementos de Aprendizagem Estatística" (uma publicação de Stanford que está disponível gratuitamente: www-stat.stanford.edu/~tibs/ElemStatLearn ) parece sugerir que o GS é equivalente à abordagem padrão para o cálculo dos coeficientes; isto é, B = (X'X) ^ - 1 X'y.

22812 Ryan Zotti

E parte do que você diz também me confunde um pouco: "Eu posso ver usando o GS para resolver B na equação dos mínimos quadrados (x′x) ^ - 1 B = (x′y). Mas então você faria o GS na matriz (x′x), não nos dados originais. " Eu pensei que a matriz x'x continha os dados originais? ... Pelo menos é o que diz Elements of Statistical Learning. Diz que x no x'x é uma matriz N por p onde N é o número de entradas (observações) ep é o número de dimensões.

23912 Ryan Zotti

Se GS não é o procedimento padrão para o cálculo dos coeficientes, então como a colinearidade é normalmente tratada? Como a redundância (colinearidade) é tipicamente distribuída entre os x's? Tradicionalmente, a colinearidade não torna os coeficientes instáveis? Então isso não sugere que o processo GS é o processo padrão? Como o processo GS também torna os coeficientes instáveis - um vetor residual menor torna o coeficiente instável.

23912 Ryan Zotti

Pelo menos é o que o texto diz: "Se xp estiver altamente correlacionado com alguns dos outros xk, o vetor residual zp será próximo de zero e, a partir de (3,28), o coeficiente βˆp será muito instável".

23912 Ryan Zotti

Observe que GS é uma forma de decomposição QR.

cardeal

A ordem das variáveis ​​explicativas é importante no cálculo de seus coeficientes de regressão?

Respostas:

Exercício 3.4 em ESL

Solução

A ordem das variáveis explicativas é importante no cálculo de seus coeficientes de regressão?