No livro "Os Elementos da Aprendizagem Estatística" no capítulo 2 ("Modelos lineares e mínimos quadrados; página no: 12"), está escrito que
No espaço de entrada / saída dimensional (p + 1), (X, Y) representa um hiperplano. Se a constante estiver incluída em X, o hiperplano inclui a origem e é um subespaço; caso contrário, é um conjunto afiado que corta o eixo Y no ponto (0, ).
Não recebo a frase "se constante for ... (0, )". Por favor ajude? Eu acho que o hiperplano cortaria o eixo Y em (0, ) nos dois casos, está correto?β
A resposta abaixo ajudou um pouco, mas estou procurando uma resposta mais específica. Entendo que quando é incluído no , ele não contém a origem, mas como o conteria a origem? Não deveria depender do valor de ? Se a interceptação não for , não deverá conter origem, no meu entendimento?X ( X , Y ) β β 0 0 ( X , Y )
fonte
Respostas:
Incluir a constanteβX β0+βX
1
no vetor de entrada é um truque comum para incluir um viés (pense na interceptação em Y), mas mantendo todos os termos da expressão simétricos: você pode escrever vez de todos os lugares.β 0 + β XSe você fizer isso, é correto que o hiperplano inclua a origem, já que a origem é um vetor de valores e a multiplicação por fornece o valor .0 β 0Y=βX 0 β 0
No entanto, seus vetores de entrada sempre terão o primeiro elemento igual a ; portanto, eles nunca conterão a origem e serão colocados em um hiperplano menor, que tem uma dimensão a menos.1
Você pode visualizar isso pensando em uma linha na sua folha de papel (2 dimensões). O hiperplano correspondente, se você incluir o viés seu vetor se tornará e seus coeficientes . Em 3 dimensões, este é um plano que passa da origem, que intercepta o plano produzindo a linha onde suas entradas podem ser colocadas.q X = [ x , x 0 = 1 ] β = [ m , q ] x 0 = 1Y=mx+q q X=[x,x0=1] β=[m,q] x0=1
fonte
Para ajudar você a entender isso, fiz uma visualização de um caso muito simples.
Vamos dizer que nós temos um problema dimensional (p = 1) para uma característica única (de entrada) de prever uma única variável de saída . Vamos imaginar que já encontramos uma interceptação e um coeficiente para nossa variável de entrada .X1 Y β0=5 β1=2 X1
Nosso modelo linear teria a seguinte aparência: .Y^=β0+β1×X1
Portanto, a representação óbvia seria um hiperplano (uma linha) no espaço dimensional (p + 1) neste caso (2d):
Outra representação seria adicionar outra variável que levará à seguinte equação: .X0 Y = β 0 × X 0 + β 1 × X 1Y^=β0×X0+β1×X1
Na prática, sabemos que será uma constante e igual a 1, mas vamos assumir que ainda não foi corrigido. Nesse caso, agora podemos plotar um gráfico 3d com um hiperplano da seguinte maneira:X0
Finalmente, como sabemos que apenas é possível, destaquei com uma linha tracejada vermelha a única projeção em funcionamento deste hiperplano que corresponde exatamente ao gráfico que tínhamos antes.X0=1
fonte