Como um vetor de variáveis ​​representa um hiperplano?

12

Estou lendo Elementos de aprendizagem estatística e na página 12 (seção 2.3) um modelo linear é anotado como:

Y^=XTβ^

... onde é a transposição de um vetor de coluna dos preditores / variáveis ​​independentes / entradas. (Ele afirma anteriormente "todos os vetores são considerados vetores de coluna", portanto isso não tornaria um vetor de linha e um vetor de coluna?)XTXTβ^

Incluído em está um " " a ser multiplicado pelo coeficiente correspondente, dando a interceptação (constante).X1

Continua dizendo:

No espaço de entrada-saída dimensional , representa um hiperplano. Se a constante estiver incluída em , o hiperplano inclui a origem e é um subespaço; caso contrário, é um conjunto afiado que corta o eixo no ponto .(p+1)(X, Y^)XY(0, β0^)

" " descreve um vetor formado pela concatenação dos preditores, o intercepto é " " e ? E por que incluir um " " em força o hiperplano a passar pela origem, certamente que " " deve ser multiplicado por ?(X, Y^)1Y^1X1β0^

Estou falhando em entender o livro; qualquer ajuda / conselho / links para recursos seria muito apreciada.

Scott
fonte
4
Pode ajudar a considerar primeiro. Nesse caso, , com a interceptação. Esta é a equação de uma linha que passa por . Extensões para dimensões mais altas são imediatas. p=1y^=β^0+xβ^β0(0,β^0)
Ocram 29/03
Se a ajuda do @ocram não for suficiente, tente escrever os vetores e fazer a multiplicação.
Peter Flom - Restabelece Monica
2
Aqui está uma boa apresentação gráfica: blog.stata.com/2011/03/03/… . A notação é diferente: A existe o seu X e x é . β^
Dimitriy V. Masterov
2
O livro está errado, ou pelo menos é inconsistente. Evidentemente, existem variáveis não incluem a constante. Portanto, o conjunto é realmente um hiperplano, mas é incorreto dizer que a constante está "incluída em ". Em vez disso eu acho que o livro destina-se a dizer que a constante é incluída na regressão , mas ainda não deve ser considerado parte de . Portanto, o modelo realmente deve ser escrito onde . Definir imediatamente fornece a afirmação sobre a interceptação. { ( X , Y ) | X R p } X X Y = β 0 + X ' β β = ( β 1 , p 2 , ... , β p ) ' X = 0p{(X,Y^)|XRp}XXY^=β^0+Xβ^β=(β1,β2,,βp)X=0
whuber
11
(Se, em vez disso, incluímos a constante em , não podemos permitir que varie livremente sobre todos os : ele é restrito a ficar dentro de um subespaço dimensional . O gráfico , em seguida, tem codimensão pelo menos e por isso não é realmente a) "hiperplano."X R p p - 1 { ( X , Y ) } 2XXRpp1{(X,Y^)}2
whuber

Respostas:

4

Seja o número de observações e o número de variáveis ​​explicativas.KNK

NX é realmente uma matrizSomente quando olhamos para uma única observação, denotamos cada observação geralmente como - um vetor de linha de variáveis ​​explicativas de um escalar de observação específico multiplicado pelo vetor coluna . Além disso, é um vetor de coluna , contendo todas as observações .N×KxiTK×1βYN×1Yn

Agora, um hiperplana bidimensional que abrangem entre o vector e um (!) De vector de coluna . Lembre-se que é um matriz, de modo que cada variável explicativa é representada por exatamente um vector da matriz coluna . Se tiver apenas uma variável explicativo, sem interceptar e , todos os pontos de dados estão situados ao longo do plano dimensional 2 gerado por e .YXXN×KXYYX

Para uma regressão múltipla, quantas dimensões no total o hiperplano entre e a matriz possui? Resposta: Como temos vetores de coluna de variáveis ​​explicativas em , devemos ter um hiperplano dimensional .YXKXK+1

Geralmente, em uma configuração de matriz, a regressão requer que uma interceptação constante seja imparcial para uma análise razoável do coeficiente de inclinação. Para acomodar esse truque, forçamos uma coluna da matriz a consistir apenas de " s". Nesse caso, o estimador fica sozinho multiplicado por uma constante para cada observação, em vez de uma variável explicativa aleatória. O coeficiente representa, portanto, o valor esperado de dado que é mantido fixo com o valor 1 e todas as outras variáveis ​​são zero. Portanto, o hiperplano -Dimensional é reduzido por uma dimensão a um subespaço dimensional eX1β1β1Yx1iK+1Kβ1 corresponde à "interceptação" deste plano dimensionalK

Em configurações de matriz, é sempre aconselhável dar uma olhada no caso simples de duas dimensões, para ver se podemos encontrar uma intuição para nossos resultados. Aqui, a maneira mais fácil é pensar na regressão simples com duas variáveis ​​explicativas: ou expressa alternativamente na álgebra matricial: onde é um matriz.

yi=β1x1i+β2x2i+ui
Y=Xβ+uXN×2

<Y,X> abrange um hiperplano tridimensional.

Agora, se todos como todos os , obteremos: que é a nossa regressão simples usual que pode ser representada em um gráfico bidimensional . Observe que agora está reduzido a uma linha bidimensional - um subconjunto do hiperplano original tridimensional. O coeficiente corresponde à interceptação do corte de linha em .x11

yi=β1i+β2x2i+ui
X, Y<Y,X>β1x2i=0

Também pode ser mostrado que ele também passa por para quando a constante é incluída . Se deixarmos de fora a constante, o hiperplano de regressão sempre passa trivialmente por - sem dúvida. Isso generaliza para várias dimensões, como será visto mais adiante ao derivar : Como possui uma classificação completa por definição, e, portanto, a regressão passa pela origem se deixarmos de fora a interceptação.<0,β1><0,0>βX y - X β = 0

(XX)β=Xy(XX)βXy=0X(yXβ)=0.
XyXβ=0

( Edit: Acabei de perceber que, para sua segunda pergunta, é exatamente o oposto de você escrever sobre a inclusão ou exclusão da constante. No entanto, eu já desenvolvi a solução aqui e permaneço corrigido se estiver errado nessa. )

Eu sei que a representação matricial de uma regressão pode ser bastante confusa no início, mas eventualmente simplifica muito quando deriva de álgebra mais complexa. Espero que isso ajude um pouco.

Majte
fonte
1

Eu acho que a maneira de pensar é reorganizar essa equação:

Y^XTβ^=0

A única maneira de obter essa equação linear para incluir a origem é tornar o previsto igual à interceptação. E a maneira de estimar esse valor é incluir um termo de interceptação no modelo de regressão.

Y^
DWin
fonte