Estou lendo Elementos de aprendizagem estatística e na página 12 (seção 2.3) um modelo linear é anotado como:
... onde é a transposição de um vetor de coluna dos preditores / variáveis independentes / entradas. (Ele afirma anteriormente "todos os vetores são considerados vetores de coluna", portanto isso não tornaria um vetor de linha e um vetor de coluna?)
Incluído em está um " " a ser multiplicado pelo coeficiente correspondente, dando a interceptação (constante).
Continua dizendo:
No espaço de entrada-saída dimensional , representa um hiperplano. Se a constante estiver incluída em , o hiperplano inclui a origem e é um subespaço; caso contrário, é um conjunto afiado que corta o eixo no ponto .
" " descreve um vetor formado pela concatenação dos preditores, o intercepto é " " e ? E por que incluir um " " em força o hiperplano a passar pela origem, certamente que " " deve ser multiplicado por ?
Estou falhando em entender o livro; qualquer ajuda / conselho / links para recursos seria muito apreciada.
Respostas:
Seja o número de observações e o número de variáveis explicativas.KN K
NX é realmente uma matrizSomente quando olhamos para uma única observação, denotamos cada observação geralmente como - um vetor de linha de variáveis explicativas de um escalar de observação específico multiplicado pelo vetor coluna . Além disso, é um vetor de coluna , contendo todas as observações .N×K xTi K×1 β Y N×1 Yn
Agora, um hiperplana bidimensional que abrangem entre o vector e um (!) De vector de coluna . Lembre-se que é um matriz, de modo que cada variável explicativa é representada por exatamente um vector da matriz coluna . Se tiver apenas uma variável explicativo, sem interceptar e , todos os pontos de dados estão situados ao longo do plano dimensional 2 gerado por e .Y X X N×K X Y Y X
Para uma regressão múltipla, quantas dimensões no total o hiperplano entre e a matriz possui? Resposta: Como temos vetores de coluna de variáveis explicativas em , devemos ter um hiperplano dimensional .Y X K X K+1
Geralmente, em uma configuração de matriz, a regressão requer que uma interceptação constante seja imparcial para uma análise razoável do coeficiente de inclinação. Para acomodar esse truque, forçamos uma coluna da matriz a consistir apenas de " s". Nesse caso, o estimador fica sozinho multiplicado por uma constante para cada observação, em vez de uma variável explicativa aleatória. O coeficiente representa, portanto, o valor esperado de dado que é mantido fixo com o valor 1 e todas as outras variáveis são zero. Portanto, o hiperplano -Dimensional é reduzido por uma dimensão a um subespaço dimensional eX 1 β1 β1 Y x1i K+1 K β1 corresponde à "interceptação" deste plano dimensionalK
Em configurações de matriz, é sempre aconselhável dar uma olhada no caso simples de duas dimensões, para ver se podemos encontrar uma intuição para nossos resultados. Aqui, a maneira mais fácil é pensar na regressão simples com duas variáveis explicativas: ou expressa alternativamente na álgebra matricial: onde é um matriz.
Agora, se todos como todos os , obteremos: que é a nossa regressão simples usual que pode ser representada em um gráfico bidimensional . Observe que agora está reduzido a uma linha bidimensional - um subconjunto do hiperplano original tridimensional. O coeficiente corresponde à interceptação do corte de linha em .x1 1
Também pode ser mostrado que ele também passa por para quando a constante é incluída . Se deixarmos de fora a constante, o hiperplano de regressão sempre passa trivialmente por - sem dúvida. Isso generaliza para várias dimensões, como será visto mais adiante ao derivar : Como possui uma classificação completa por definição, e, portanto, a regressão passa pela origem se deixarmos de fora a interceptação.<0,β1> <0,0> β X y - X β = 0
( Edit: Acabei de perceber que, para sua segunda pergunta, é exatamente o oposto de você escrever sobre a inclusão ou exclusão da constante. No entanto, eu já desenvolvi a solução aqui e permaneço corrigido se estiver errado nessa. )
Eu sei que a representação matricial de uma regressão pode ser bastante confusa no início, mas eventualmente simplifica muito quando deriva de álgebra mais complexa. Espero que isso ajude um pouco.
fonte
Eu acho que a maneira de pensar é reorganizar essa equação:
A única maneira de obter essa equação linear para incluir a origem é tornar o previsto igual à interceptação. E a maneira de estimar esse valor é incluir um termo de interceptação no modelo de regressão.
fonte