Necessidade de centralizar e padronizar dados em regressão

16

Considere regressão linear com alguma regularização: por exemplo, encontre que minimize | | A x - b | | 2 + λ | | x |x||Axb||2+λ||x||1

Normalmente, as colunas de A são padronizadas para ter média zero e norma de unidade, enquanto é centralizado para ter média zero. Quero garantir que meu entendimento do motivo da padronização e centralização esteja correto.b

Fazendo com que as médias das colunas e b sejam zero, não precisamos mais de um termo de interceptação. Caso contrário, o objetivo teria sido | | A x - x 0 1 - b | | 2 + λ | | x | | 1 . Ao tornar as normas das colunas de A iguais a 1, removemos a possibilidade de um caso em que, apenas porque uma coluna de A tem uma norma muito alta, ela obtém um baixo coeficiente em x , o que pode nos levar a concluir incorretamente que essa coluna de A não "explica" x bem.Ab||Axx01b||2+λ||x||1xx

Esse raciocínio não é exatamente rigoroso, mas intuitivamente, é o caminho certo para pensar?

rk2
fonte

Respostas:

14

Você está correto em zerar as médias das colunas de e bAb .

No entanto, quanto ao ajuste das normas das colunas de , considere o que aconteceria se você começasse com um A normalizado , e todos os elementos de x tivessem aproximadamente a mesma magnitude. Vamos multiplicar uma coluna por, digamos, 10 - 6 . O elemento correspondente de x seria, em uma regressão não regulamentada, aumentado por um fator de 10 6 . Veja o que aconteceria com o termo de regularização? A regularização se aplicaria, para todos os efeitos práticos, apenas a esse coeficiente. AAx106x106

Ao normatizar as colunas de , nós, escrevendo intuitivamente, colocamos todas na mesma escala. Consequentemente, as diferenças nas magnitudes dos elementos de x estão diretamente relacionadas à "oscilação" da função explicativa ( A x ), que é, em termos gerais, o que a regularização tenta controlar. Sem ele, um valor de coeficiente de, por exemplo, 0,1 vs. outro de 10,0 diria, na ausência de conhecimento sobre A , nada sobre qual coeficiente estava contribuindo mais para a "oscilação" de A x . (Para uma função linear, como A x , "wiggliness" está relacionado ao desvio de 0.)AxAxAAxAx

AxAxAx

jbowman
fonte
$x$ does not ''explain'' $A$ wellx does not ''explain'' $A$ at allAx is the model in this case.
user3813057
@user3813057 - this was a question about regularization, and has nothing to do with explanatory power. x would more usually be labeled β, A would more usually be labeled X, and b would be more usually labeled y. x is not there to explain A at all.
jbowman