Fiz um curso de aprendizado de máquina na minha faculdade. Em um dos testes, essa pergunta foi feita.
Modelo 1:
Modelo 2:Qual dos modelos acima encaixaria melhor nos dados? (suponha que os dados possam ser modelados usando regressão linear)
A resposta correta (de acordo com o professor) é que ambos os modelos teriam um desempenho igualmente bom. No entanto, acredito que o primeiro modelo seria um ajuste melhor.
Esta é a razão por trás da minha resposta. O segundo modelo, que pode ser reescrito como , , não seria o mesmo que o primeiro modelo. é de fato uma parábola e, portanto, possui um valor mínimo ( neste caso). Agora, por causa disso, o intervalo de no primeiro modelo é maior que o intervalo de no segundo modelo. Portanto, se os dados fossem de tal forma que o melhor ajuste tivesse uma inclinação menor que , o segundo modelo apresentaria um desempenho muito ruim em comparação ao primeiro. No entanto, caso a inclinação do melhor ajuste seja maior que , ambos os modelos teriam um desempenho igualmente bom.
Então, o primeiro é melhor ou ambos são exatamente iguais?
Respostas:
O modelo 2 pode ser escrito como: Isso parece semelhante ao modelo 1, apenas com notação diferente para os hiperparâmetros ( θ , β ). No entanto, para o modelo 1, podemos escrever θ = ( X
Mas desde que no modelo 2, temos que em seguida, como você mencionou, na verdade a gama de β deveria pertencer a [ - 0,25 , + ∞ ] para θ ∈ R . O que levará à diferença nesses 2 modelos.
Assim, no modelo 2 você está restringindo sua estimativa coeficiente ao contrário do modelo 1. Para tornar isso mais claro, deve-se notar que no modelo é obtido através minimizando a função de perda quadrado θ = arg min θ ∈ R ( y - X θ )θ^
No entanto no modelo de 2 a estimativa é obtido através
β =arg min β ≥ - 0,25 (y-Xβ)
fonte
Não tenho certeza se entendi seu raciocínio. Se você pegar:
fonte