Essa questão é interessante na medida em que expõe algumas conexões entre teoria da otimização, métodos de otimização e métodos estatísticos que qualquer usuário capaz de estatística precisa entender. Embora essas conexões sejam simples e fáceis de aprender, elas são sutis e muitas vezes esquecidas.
Para resumir algumas idéias dos comentários a outras respostas, gostaria de salientar que há pelo menos duas maneiras pelas quais a "regressão linear" pode produzir soluções não exclusivas - não apenas teoricamente, mas na prática.
Falta de identificação
A primeira é quando o modelo não é identificável. Isso cria uma função objetiva convexa, mas não estritamente convexa, com várias soluções.
Considere-se, por exemplo, regredindo contra e (com uma intercepção) para o de dados . Uma solução é . Outra é . Para ver que deve haver várias soluções, parametrize o modelo com três parâmetros reais e um termo de erro no formatox y ( x , y , z ) ( 1 , - 1 , 0 ) , ( 2 , - 2 , - 1 ) , ( 3 , - 3 , - 2 ) z = 1 + y z = 1 - x ( λ , μ , ν ) εzxy( x , y, z)( 1 , - 1 , 0 ) , ( 2 , - 2 , - 1 ) , ( 3 , - 3 , - 2 )z^= 1 + yz^= 1 - x( λ , μ , ν)ε
z= 1 + μ + ( λ + ν- 1 ) x + ( λ - ν) y+ ε .
A soma dos quadrados dos resíduos simplifica para
SSR = 3 μ2+ 24 μ ν+ 56 ν2.
(Este é um caso limitante de funções objetivas que surgem na prática, como o discutido em Pode o hessian empírico de um estimador M ser indefinido?, Onde você pode ler análises detalhadas e visualizar gráficos da função.)
Como os coeficientes dos quadrados ( e ) são positivos e o determinante é positivo, essa é uma forma quadrática semidefinida positiva em . É minimizado quando , mas pode ter qualquer valor. Como a função objetivo não depende de , seu gradiente (ou quaisquer outros derivados) também não. Portanto, qualquer algoritmo de descida de gradiente - se ele não fizer algumas mudanças arbitrárias de direção - definirá o valor da solução de como o valor inicial.56 3 × 56 - ( 24 / 2 ) 2 = 24 ( μ , ν , λ ) μ = ν = 0 λ SSR λ λ356.3 × 56 - ( 24 de / 2 )2= 24( μ , ν, λ )μ = ν= 0λSSRλλ
Mesmo quando a descida do gradiente não é usada, a solução pode variar. Por R
exemplo, existem duas maneiras fáceis e equivalentes de especificar esse modelo: como z ~ x + y
ou z ~ y + x
. O primeiro produz mas o segundo fornece . z =1+yz^= 1 - xz^= 1 + y
> x <- 1:3
> y <- -x
> z <- y+1
> lm(z ~ x + y)
Coefficients:
(Intercept) x y
1 -1 NA
> lm(z ~ y + x)
Coefficients:
(Intercept) y x
1 1 NA
(Os NA
valores devem ser interpretados como zeros, mas com um aviso de que existem várias soluções. O aviso foi possível devido a análises preliminares realizadas R
independentemente do método de solução. Um método de descida de gradiente provavelmente não detectaria a possibilidade de várias soluções, embora uma boa advertisse você de alguma incerteza de que havia chegado ao ideal.)
Restrições de parâmetro
A convexidade estrita garante um ótimo global único, desde que o domínio dos parâmetros seja convexo. As restrições de parâmetro podem criar domínios não convexos, levando a várias soluções globais.
Um exemplo muito simples é fornecido pelo problema de estimar uma "média" para os dados sujeitos à restrição . Isso modela uma situação que é exatamente o oposto de métodos de regularização como Ridge Regression, Lasso ou Elastic Net: está insistindo que um parâmetro de modelo não se torne muito pequeno. (Várias perguntas apareceram neste site perguntando como resolver problemas de regressão com tais restrições de parâmetros, mostrando que elas surgem na prática.)- 1 , 1 | u | ≥ 1 / 2μ- 1 , 1| u | ≥1 / 2
Existem duas soluções de mínimos quadrados para este exemplo, ambas igualmente boas. Eles são encontrados minimizando sujeito à restrição . As duas soluções são . Mais de uma solução pode surgir porque a restrição de parâmetro torna o domínio não-convexo:( 1 - μ )2+ ( - 1 - μ )2| u | ≥1 / 2μ = ± 1 / 2u ∈ ( - ∞ , - 1 / 2 ] ∪ [ 1 / 2 , ∞ )
A parábola é o gráfico de uma função (estritamente) convexa. A parte vermelha grossa é a parte restrita ao domínio : possui dois pontos mais baixos em , onde a soma dos quadrados é . O restante da parábola (mostrado pontilhado) é removido pela restrição, eliminando assim seu mínimo exclusivo de consideração.μμ = ± 1 / 25 / 2
Um método de descida de gradiente, a menos que esteja disposto a dar grandes saltos, provavelmente encontrará a solução "única" ao iniciar com um valor positivo e, caso contrário, encontraria a solução "única" ao iniciar com um valor negativo.μ = 1 / 2μ = - 1 / 2
A mesma situação pode ocorrer com conjuntos de dados maiores e em dimensões mais altas (ou seja, com mais parâmetros de regressão para ajustar).
Receio que não haja resposta binária para sua pergunta. Se a regressão linear for estritamente convexa (sem restrições de coeficientes, regularizador etc.), a descida do gradiente terá uma solução única e será ótima global. A descida de gradiente pode e retornará várias soluções se você tiver um problema não convexo.
Embora o OP solicite uma regressão linear, o exemplo abaixo mostra uma minimização mínima quadrada, embora não linear (versus a regressão linear que o OP deseja) possa ter várias soluções e a descida do gradiente possa retornar uma solução diferente.
Eu posso mostrar empiricamente usando um exemplo simples que
Considere o exemplo em que você está tentando minimizar o mínimo de quadrados para o seguinte problema:
onde você está tentando resolver minimizando a função objetiva. A função acima, embora diferenciável, não é convexa e pode ter várias soluções. Substituindo valores reais para veja abaixo.w a
O problema acima tem 3 soluções diferentes e são as seguintes:
Como mostrado acima, o problema dos mínimos quadrados pode não ser convexo e pode ter várias soluções. Em seguida, o problema acima pode ser resolvido usando o método gradiente de descida, como o Microsoft Excel Solver, e toda vez que executamos, acabamos recebendo uma solução diferente. Como a descida do gradiente é um otimizador local e pode ficar travada na solução local, precisamos usar diferentes valores iniciais para obter ótimas otimizações globais. Um problema como esse depende dos valores iniciais.
fonte
Isso ocorre porque a função objetivo que você está minimizando é convexa, há apenas um mínimo / máximo. Portanto, o ideal local também é o ideal global. A descida do gradiente encontrará a solução eventualmente.
Por que essa função objetivo é convexa? Essa é a beleza de usar o erro quadrático para minimização. A derivação e a igualdade para zero mostrarão muito bem por que esse é o caso. É um problema bastante comum e é abordado em quase todos os lugares.
fonte