Dados dois modelos de regressão linear, qual modelo teria melhor desempenho?

14

Fiz um curso de aprendizado de máquina na minha faculdade. Em um dos testes, essa pergunta foi feita.

Modelo 1:

y=θx+ϵ
Modelo 2:
y=θx+θ2x+ϵ

Qual dos modelos acima encaixaria melhor nos dados? (suponha que os dados possam ser modelados usando regressão linear)

A resposta correta (de acordo com o professor) é que ambos os modelos teriam um desempenho igualmente bom. No entanto, acredito que o primeiro modelo seria um ajuste melhor.

Esta é a razão por trás da minha resposta. O segundo modelo, que pode ser reescrito como αx+ϵ , α=θ+θ2 , não seria o mesmo que o primeiro modelo. α é de fato uma parábola e, portanto, possui um valor mínimo ( 0.25 neste caso). Agora, por causa disso, o intervalo de θ no primeiro modelo é maior que o intervalo de α no segundo modelo. Portanto, se os dados fossem de tal forma que o melhor ajuste tivesse uma inclinação menor que 0.25 , o segundo modelo apresentaria um desempenho muito ruim em comparação ao primeiro. No entanto, caso a inclinação do melhor ajuste seja maior que , ambos os modelos teriam um desempenho igualmente bom.0.25

Então, o primeiro é melhor ou ambos são exatamente iguais?

kush
fonte
3
Eu acho que você está correto. Exigir que um parâmetro seja expressável como θ + θ 2 (para alguns θ ) realmente impõe uma restrição sobre o que α é possível. Isso significa que o segundo modelo pode expressar menos relacionamentos que o primeiro, pois agora é essencialmente um problema de otimização restrito. Seu raciocínio parece sólido para mim. αθ+θ2θα
Matthew Drury
@MatthewDrury eu só descobri onde eu errei, ter um olhar para a resposta abaixo (eo comentário)
Kush
3
Vejo seu comentário, mas essa é uma ginástica bastante séria para assumir que levaria valores complexos. Eu definitivamente participaria de algumas horas de expediente para conversar sobre isso com seu professor. Você terá uma boa discussão sobre isso de qualquer maneira. θ
Matthew Drury
1
Não está claro para mim de onde vem o -0,25. Você pode esclarecer?
Mad Jack
1
Eu estaria interessado em saber como o seu professor ajustaria cada modelo ao conjunto de dados de dois pontos . Com o Modelo 1 e θ = - 1, o ajuste é perfeito, mas como ele estimaria θ no Modelo 2 para obter um ajuste perfeito? {(1,1),(2,2)}θ=1θ
whuber

Respostas:

9

O modelo 2 pode ser escrito como: Isso parece semelhante ao modelo 1, apenas com notação diferente para os hiperparâmetros ( θ , β ). No entanto, para o modelo 1, podemos escrever θ = ( X

y=(θ+θ2)x+ϵ=βx+ϵ.
θ,β
θ^=(XX)1Xy.

Mas desde que no modelo 2, temos que em seguida, como você mencionou, na verdade a gama de β deveria pertencer a [ - 0,25 , + ] para θ R . O que levará à diferença nesses 2 modelos.

β=θ+θ2,
β^[0.25,+]θR

Assim, no modelo 2 você está restringindo sua estimativa coeficiente ao contrário do modelo 1. Para tornar isso mais claro, deve-se notar que no modelo é obtido através minimizando a função de perda quadrado θ = arg min θ R ( y - X θ )θ^ No entanto no modelo de 2 a estimativa é obtido através β =arg min β - 0,25 (y-Xβ)

θ^=argminθR  (yXθ)(yXθ)=(XX)1Xy.
que pode levar a um resultado diferente.
β^=argminβ0.25  (yXβ)(yXβ)
Wis
fonte
1
θθ+θ2θ
@kush Por favor, verifique a minha resposta editada, que também adresses sua preocupação
Wis
1

Não tenho certeza se entendi seu raciocínio. Se você pegar:

y=αx+ϵ
y=θx+ϵ

αθαθR2θα=θ+θ2

akeenlogician
fonte
5
θ(,)α(0.25,)x