Eu costumo ouvir sobre "mínimos quadrados comuns". Esse é o algoritmo mais usado para regressão linear? Existem motivos para usar um diferente?
42
Eu costumo ouvir sobre "mínimos quadrados comuns". Esse é o algoritmo mais usado para regressão linear? Existem motivos para usar um diferente?
Respostas:
Em relação à pergunta no título, sobre qual é o algoritmo usado:
Em uma perspectiva de álgebra linear, o algoritmo de regressão linear é a maneira de resolver um sistema linear com mais equações que incógnitas. Na maioria dos casos, não há solução para esse problema. E isso ocorre porque o vetor não pertence ao espaço da coluna de , .b A C ( A )Ax=b b A C(A)
Oe=Ax−b b ∈ C ( A )∥e∥2 b∈C(A)
best straight line
é o que faz com que o erro global tão pequeno quanto for preciso. E é conveniente pensar que o tamanho do quadrado é pequeno, , porque não é negativo e só é igual a 0 quando b \ em C (\ mathbf {A}) .Projetar (ortogonalmente) o vetor para o ponto mais próximo no espaço da coluna de fornece o vetor que resolve o sistema (seus componentes estão na melhor linha reta) com o erro mínimo.A b ∗b A b∗
e o vetor projetado é dado por:b∗
Talvez o método dos mínimos quadrados não seja usado exclusivamente porque isso
squaring
compensa demais os valores extremos.Deixe-me dar um exemplo simples em R, que resolve o problema de regressão usando este algoritmo:
fonte
could not find inv
?!lm
é QR, há razões para isso, você poderia explicar por quê?Para responder à letra da pergunta, "mínimos quadrados comuns" não é um algoritmo; ao contrário, é um tipo de problema na álgebra linear computacional, da qual a regressão linear é um exemplo. Geralmente dados e uma função experimental ("modelo") para ajustar os dados, na forma . Os são chamados de "funções " e podem ser de monômeros a funções trigonométricas (por exemplo, , ) e funções exponenciais ( ). O termo "linear" em "regressão linear" aqui não se refere às funções básicas,{(x1,y1),…,(xm,ym)} f(x)=c1f1(x)+⋯+cnfn(x) fj(x) xj sin(jx) cos(jx) exp(−jx) cj , em que a derivada parcial do modelo em relação a qualquer um dos fornece o fator multiplicador de ; isto é, .cj cj fj(x)
Agora, matriz retangular ("matriz de design") que (geralmente) possui mais linhas do que colunas, e cada entrada possui o formato , sendo o índice de linha e sendo o índice da coluna. O OLS agora é a tarefa de encontrar o vetor que minimiza a quantidade (na notação da matriz, ; aqui, é geralmente chamado de "vetor de resposta").m×n A fj(xi) i j c=(c1…cn)⊤ ∑j=1m(yj−f(xj))2−−−−−−−−−−−−−√ ∥Ac−y∥2 y=(y1…ym)⊤
Existem pelo menos três métodos usados na prática para calcular soluções de mínimos quadrados: as equações normais, decomposição QR e decomposição de valor singular. Em resumo, são maneiras de transformar a matriz em um produto de matrizes que são facilmente manipuladas para resolver o vetor .A c
George já mostrou o método das equações normais em sua resposta; basta resolver o conjunto de equações linearesn×n
para . Devido ao fato de a matriz ser simétrica positiva (semi) definida, o método usual usado para isso é a decomposição de Cholesky, que fatores no formato , com uma matriz triangular inferior. O problema com essa abordagem, apesar da vantagem de ser capaz de compactar os matriz de projeto em uma (geralmente) muito menores matriz, é que esta operação é propenso a perda de algarismos significativos (isso tem algo a faça com o "número da condição" da matriz de design).c A⊤A A⊤A GG⊤ G m×n n×n
Uma maneira um pouco melhor é a decomposição do QR, que trabalha diretamente com a matriz de design. É factores como , onde é uma matriz ortogonal (multiplicando uma tal matriz, com a sua transposta dá uma matriz de identidade) e é triangular superior. é posteriormente computado como . Por razões que não abordarei (basta ver qualquer texto de álgebra linear numérica decente, como este ), ele possui melhores propriedades numéricas do que o método das equações normais.A A=QR Q R c R−1Q⊤y
Uma variação no uso da decomposição QR é o método de equações seminormais . Resumidamente, se alguém tiver a decomposição , o sistema linear a ser resolvido assume a formaA=QR
Efetivamente, alguém está usando a decomposição QR para formar o triângulo de Cholesky de nessa abordagem. Isso é útil no caso em que é escasso, e o armazenamento explícito e / ou a formação de (ou uma versão fatorada) é indesejável ou impraticável.A⊤A A Q
Finalmente, a maneira mais cara, porém mais segura, de resolver o OLS é a decomposição de valor singular (SVD). Desta vez, é fatorado como , onde e são ortogonais eA = U Σ V ⊤ U V ΣA A=UΣV⊤ U V Σ é uma matriz diagonal, cujas entradas diagonais são denominadas "valores singulares". O poder dessa decomposição reside na capacidade de diagnóstico concedida a você pelos valores singulares, pois se alguém vê um ou mais valores singulares minúsculos, é provável que você tenha escolhido um conjunto de bases não totalmente independente, necessitando, assim, de uma reformulação seu modelo. (O "número da condição" mencionado anteriormente está de fato relacionado à razão entre o maior valor singular e o menor; é claro que a razão se torna enorme (e a matriz está, portanto, mal condicionada) se o menor valor singular for "minúsculo" .)
Este é apenas um esboço desses três algoritmos; qualquer bom livro sobre estatística computacional e álgebra linear numérica deve fornecer detalhes mais relevantes.
fonte
R^{-1} Q^T y
se A não é quadrado? Você deixa cair as zero linhas em R?O link do wiki: Métodos de estimativa para regressão linear fornece uma lista bastante abrangente de métodos de estimativa, incluindo OLS e os contextos nos quais métodos alternativos de estimativa são usados.
fonte
É fácil se confundir entre definições e terminologia. Ambos os termos são usados, às vezes de forma intercambiável. Uma rápida pesquisa na Wikipedia deve ajudar:
Mínimos Quadrados Ordinários (OLS) é um método usado para ajustar modelos de regressão linear. Devido à consistência e eficiência demonstráveis (sob premissas suplementares) do método OLS, é a abordagem dominante. Veja os artigos para obter mais pistas.
fonte
Costumo pensar em 'mínimos quadrados' como um critério para definir a linha de regressão mais adequada (ou seja, aquela que torna a soma dos resíduos 'quadrados' menores '') e o 'algoritmo' nesse contexto como o conjunto de etapas usadas determinar os coeficientes de regressão que atendem a esse critério. Essa distinção sugere que é possível ter algoritmos diferentes que satisfizessem o mesmo critério.
Eu ficaria curioso para saber se outros fazem essa distinção e que terminologia eles usam.
fonte
Um livro antigo, no entanto, ao qual me pego repetidamente, é
Lawson, CL e Hanson, RJ Resolvendo problemas dos mínimos quadrados , Prentice-Hall, 1974.
Ele contém uma discussão detalhada e muito legível de alguns dos algoritmos mencionados pelas respostas anteriores. Você pode querer olhar para ele.
fonte