Eu estou querendo saber a diferença entre eles. Basicamente, eles fazem o mesmo trabalho no final, encontrando coeficientes de parâmetros, mas parecem diferentes da maneira como encontramos os coeficientes. Para mim, o método dos mínimos quadrados parece usar diferenciação e forma de matriz para encontrar os coeficientes e o pseudo-inverso parece usar apenas manipulação de matriz, mas como posso dizer a diferença entre eles? Ou não há diferença alguma?
11
Respostas:
No contexto da regressão linear, 'mínimos quadrados' significa que queremos encontrar os coeficientes que minimizam o erro ao quadrado. Ele não especifica como essa minimização deve ser executada e há muitas possibilidades. Multiplicar o vetor de resposta pelo pseudo-inverso de Moore-Penrose da matriz regressora é uma maneira de fazê-lo e, portanto, é uma abordagem para a regressão linear de mínimos quadrados (como outros já apontaram).
Podem surgir diferenças entre os métodos quando a matriz regressora não possui classificação completa. Isso pode acontecer, por exemplo, quando o número de variáveis excede o número de pontos de dados. Nesse caso, existem infinitas opções de coeficientes ótimos. Os métodos diferem na maneira como escolhem uma solução desse conjunto infinito. A característica distintiva do método pseudoinverso nessa situação é que ele retorna a solução com a norma mínima .ℓ2
fonte
Depende do que você quer dizer com "técnicas de diferenciação". Existem dois métodos que eu pude entender com isso:
Use a diferenciação para derivar o gradiente e execute a descida do gradiente na superfície do erro. No entanto, isso seria bastante incomum para regressão linear (mas não para outros tipos de regressão).
Use diferenciação para derivar o gradiente e use-o para determinar analiticamente um mínimo, definindo o gradiente como zero.
O primeiro método é muito diferente do pseudo-inverso. O segundo não é. Se você realizar a diferenciação e resolver a equação resultante da configuração do gradiente para zero, obterá exatamente o pseudo-inverso como uma solução geral.
Se você pensar sobre isso, faz muito sentido. Se diferentes técnicas levariam a diferentes coeficientes, seria difícil dizer quais são as corretas. Se eles gerarem os mesmos coeficientes, também deve ser o caso, de que você pode derivar as equações usadas para um método do outro.
fonte
Como foi apontado nas outras respostas, multiplicar pelo pseudo-inverso é uma das maneiras de obter uma solução de mínimos quadrados.
É fácil ver porque. Digamos que você tenha pontos no espaço dimensional:k n -
Deixe que cada ponto correspondente tenha um valor em :Y
Você deseja encontrar um conjunto de pesos
de modo que o erro quadrado entre e seja minimizado, ou seja, a solução dos mínimos quadrados: , em que (você pode ver facilmente que é a soma dos erros quadráticos).XW Y m inWf( W) f( W) = ( Y- XW)T( Y- XW) f( W)
Fazemos isso localizando a derivada de por e definindo-a como :f( W) W 0 0
Configurando a derivada para :0 0
Dessa forma, podemos derivar a matriz pseudo-inversa como solução para o problema dos mínimos quadrados.
fonte
A solução pseudo-inversa é baseada no erro do quadrado mínimo, como Łukasz Grad apontou. Ou seja, você está realmente resolvendo o problema de minimização de,
diferenciando o erro wrt . Então você obtém a solução: . (Observe que pseudo-inverso não é inverso. Portanto, você não pode interpretar a solução como igual a , que pode parecer uma solução de diretamente com a manipulação de matriz. Outro tópico sobre como encontrar o pseudo -inverso.)W W=(XTX)- 1XTY X- 1Y XW= Y
Se estiver a pedir sobre a solução à base de covariância , que pode ser interpretado como uma solução directa com base na relação linear entre e . Na verdade, essa solução também é estritamente deduzida do erro do quadrado mínimo, e a diferença não é essencial da pseudo-inversa. Essa ainda é a solução pseudo-inversa, mas sabendo que sua linha definitivamente passará pelo ponto dos valores médios . Portanto, a medida de erro pode ser reescrita como,W=c o v ( X, Y)v a r ( X) X Y (X¯,Y¯)
Quando você usa para representar e para representar , sua solução com pseudo-inversa é a mesma que com covariância. A diferença é, agora você tem que calcular a interceptação separadamente, porque, por subtracing os valores médios de e , você centrar praticamente as coordenadas em e sua linha passa, portanto, a interceptação é zero. Você o novo sistema de coordenadas de volta ao original calculando a interceptação com .x -x¯ x y-y¯ y x y (x¯,y¯) W0 0=y¯-WTx¯
fonte