O que torna a regressão linear com recursos polinomiais curvos?

7

A seguir, entendo o que acontece: se eu pegar um "problema bidimensional", por exemplo, eu tenho X como entradas e Y como o resultado e eu adiciono um recurso x2. Isso dá ao problema uma dimensão adicional e o ajuste linear nox e y Os valores definem uma linha, bem como o ajuste linear no x2 e yvalores e as duas linhas definem um plano que é o melhor ajuste. Isso está correto? Como isso se traduz de volta ao espaço bidimensional? De alguma forma, isso aparece em duas dimensões como curvas? Quão?

user412953
fonte
11
x2 não é uma dimensão adicional porque é determinada por x. as dimensões devem ser independentes até certo ponto, pelo menos
Aksakal
4
@Aksakal No entanto, no sentido das dimensões do espaço da coluna da matriz do modelo, x2geralmente introduz uma dimensão adicional. Essa parece ser uma maneira natural e útil de entender essa questão.
whuber
Se estamos pensando em termos da matriz de design X que tem observações como linhas e variáveis ​​como colunas, então x2possui sua própria coluna e, nesse sentido, adiciona uma dimensão. por exemplo, uma matriz de covariânciap×pserá mais uma dimensão. além disso, em muitos casos, o matix ainda mantém sua posiçãop apesar de x2 sendo dependente x, porque não é linearmente dependente. é por isso que a regressão polinomial geralmente funciona. no entanto, às vezes pode falhar devido a colinearidade ou condição.
Aksakal
Eu sugeriria o uso de polinômios ortogonais. eles estão livres de problemas de dependência de polinômios simples
Aksakal
2
O uso de polinômios ortogonais em vez de mais simples não altera o resultado - ou seja, o ajuste estimado é o mesmo -, embora os polinômios ortogonais tenham algumas vantagens práticas. Isso não é diferente da maioria dos problemas de regressão multivariada, onde os preditores são correlacionados.
Pere

Respostas:

15

Este é um pedaço de um avião em 3D.

figura 1

Aqui está o mesmo plano com as coordenadas mostradas e um conjunto de pontos selecionados ao longo de sua x eixo.

Figura 2

A terceira coordenada é usada para plotar os quadrados dessas x valores, produzindo pontos ao longo de uma parábola na base da caixa de coordenadas.

Figura 3

Uma "cortina" vertical através da parábola cruza o avião em todos os pontos diretamente acima da parábola. Essa interseção é uma curva.

Figura 4

Um modelo polinomial supõe a resposta y(representado na direção vertical) difere da altura deste plano em quantidades aleatórias. Os valores dey correspondente a estes x as coordenadas são mostradas como pontos vermelhos.

Figura 5

Consequentemente, o (x,y)os pontos estão ao longo de uma curva - essa projeção - em vez de uma linha, mesmo que o modelo da resposta seja baseado no plano mostrado originalmente.

Figura 6

Moral

Quando as variáveis ​​explicativas estão claramente em uma curva, as respostas também parecem estar em uma curva.

whuber
fonte
11
Muito obrigado, isso foi muito útil.
user412953
4

Se você tiver uma única variável independente x e uma única variável dependente y, "y = f (x)" será normalmente considerado bidimensional, mesmo que a relação entre essas duas variáveis ​​seja complicada. Como exemplo hipotético, se um modelo experimental é "pressão = a * temperatura + b * log (temperatura) - c * seno (temperatura)", existem apenas duas variáveis: temperatura e pressão. Por esse motivo, esse relacionamento pode ser plotado como uma linha curva em um plano.

Se o modelo tiver duas variáveis ​​independentes, como "pressão = a * log (temperatura) - b * exp (altitude)", ele terá a forma de "z = f (x, y)" e poderá ser plotado como um 3D superfície.

James Phillips
fonte