Por que usar a regularização na regressão polinomial em vez de diminuir o grau?

32

Ao fazer a regressão, por exemplo, dois hiper parâmetros a serem escolhidos geralmente são a capacidade da função (por exemplo, o maior expoente de um polinômio) e a quantidade de regularização. O que me deixa confuso é por que não escolher uma função de baixa capacidade e depois ignorar qualquer regularização? Dessa forma, não será superajustado. Se eu tenho uma função de alta capacidade junto com a regularização, não é o mesmo que ter uma função de baixa capacidade e sem regularização?

regression machine-learning optimization regularization polynomial Karnivaurus
fonte

49

Recentemente, criei um pouco no aplicativo de navegador que você pode usar para brincar com essas idéias: Scatterplot Smoothers (*).

Aqui estão alguns dados que eu criei, com um ajuste polinomial de baixo grau

É claro que o polinômio quadrático não é flexível o suficiente para dar um bom ajuste aos dados. Temos regiões de viés muito alto, entre e todos os dados estão abaixo do ajuste e, após todos os dados estão acima da curva. $0.6$ $0.85$ $0.85$

Para nos livrar do viés, podemos aumentar o grau da curva para três, mas o problema permanece, a curva cúbica ainda é muito rígida

Então, continuamos a aumentar o grau, mas agora enfrentamos o problema oposto

Essa curva rastreia os dados muito de perto e tem tendência a voar em direções não tão bem confirmadas por padrões gerais nos dados. É aqui que entra a regularização. Com a mesma curva de graus (dez) e alguma regularização bem escolhida

Temos um ajuste muito bom!

Vale a pena focar um pouco em um aspecto bem escolhido acima. Quando você ajusta polinômios aos dados, você tem um conjunto discreto de opções por grau. Se uma curva de grau três estiver desajustada e uma curva de grau quatro desajustada, você não terá para onde ir no meio. A regularização resolve esse problema, pois fornece uma variedade contínua de parâmetros de complexidade para você brincar.

como você reivindica "Nós temos um ajuste muito bom!". Para mim, todos parecem iguais, a saber, inconclusivos. Qual racional você está usando para decidir o que é bom ou ruim?

Ponto justo.

A suposição que estou fazendo aqui é que um modelo bem ajustado não deve ter um padrão discernível nos resíduos. Agora, como não estou traçando os resíduos, você deve trabalhar um pouco para ver as fotos, mas deve usar sua imaginação.

Na primeira figura, com a curva quadrática ajustada aos dados, posso ver o seguinte padrão nos resíduos

De 0,0 a 0,3, eles são colocados uniformemente acima e abaixo da curva.
De 0,3 a cerca de 0,55, todos os pontos de dados estão acima da curva.
De 0,55 a cerca de 0,85, todos os pontos de dados estão abaixo da curva.
A partir de 0,85, eles estão todos acima da curva novamente.

Eu me referiria a esses comportamentos como viés local , há regiões em que a curva não está bem próxima da média condicional dos dados.

Compare isso com o último ajuste, com o spline cúbico. Não consigo identificar regiões a olho nu, onde o ajuste não parece estar sendo executado exatamente no centro de massa dos pontos de dados. Isso é geralmente (embora impreciso) o que quero dizer com um bom ajuste.

Nota final : tome tudo isso como ilustração. Na prática, não recomendo o uso de expansões de base polinomial para graus superiores a . Seus problemas são bem discutidos em outros lugares, mas, por exemplo: $2$

O comportamento deles nos limites dos seus dados pode ser muito caótico, mesmo com regularização.
Eles não são locais em nenhum sentido. Alterar seus dados em um local pode afetar significativamente o ajuste em um local muito diferente.

Em vez disso, em uma situação como você descreve, recomendo o uso de splines cúbicos naturais junto com a regularização, que oferecem o melhor compromisso entre flexibilidade e estabilidade. Você pode ver por si próprio ajustando algumas splines no aplicativo.

(*) Eu acredito que isso só funciona no chrome e no firefox devido ao uso de alguns recursos modernos de javascript (e preguiça geral de corrigi-lo no safari e, por exemplo). O código fonte está aqui , se você estiver interessado.

Matthew Drury
fonte

3

Obrigado, e sua ferramenta de navegação é incrível - eu amo pequenas demonstrações interativas como essa!

Karnivaurus

@Karnivaurus Obrigado, estou feliz por poder ajudar. A ferramenta foi divertido para construir, eu gosto de escrever javascript:)

Matthew Drury

3

+6. Bom trabalho ao escrever esta ferramenta! Você receberá uma recompensa de mim assim que a linha tiver idade suficiente para colocar uma recompensa nela.

Ameba diz Reinstate Monica

4

+1 Esta é uma resposta muito boa. Uma maneira de mostrar a instabilidade do ajuste polinomial de alto grau seria plotar a regressão de alta ordem com um ponto de dados removido para cada ponto e contrastar isso com a solução RCS.

Sycorax diz Restabelecer Monica

1

@MatthewDrury "splines cúbicos restritos" - desculpe por isso.

Sycorax diz Restabelecer Monica

4

Não, não é o mesmo. Compare, por exemplo, um polinômio de segunda ordem sem regularização com um polinômio de quarta ordem com ele. Este último pode colocar grandes coeficientes para a terceira e quarta potências, desde que isso pareça aumentar a precisão preditiva, de acordo com qualquer procedimento usado para escolher o tamanho da penalidade para o procedimento de regularização (provavelmente validação cruzada). Isso mostra que um dos benefícios da regularização é que ela permite ajustar automaticamente a complexidade do modelo para encontrar um equilíbrio entre super ajuste e sub adequação.

Kodiologist
fonte

Mas se você adicionar regularização a um polinômio de quarta ordem, isso impedirá que ela utilize toda a extensão de sua expressividade. Portanto, com regularização suficiente, a expressividade será reduzida ao ponto em que é tão expressiva quanto um polinômio de segunda ordem. Não?

Karnivaurus

1

Talvez se você fixou o tamanho da penalidade com antecedência, mas qual é o sentido disso? O tamanho da penalidade deve ser escolhido com base nos dados.

Kodiologist

4

Para polinômios, mesmo pequenas alterações nos coeficientes podem fazer a diferença para os expoentes mais altos.

$L_2$

mathreadler
fonte

2

Todas as respostas são ótimas e eu tenho simulações semelhantes com Matt para dar outro exemplo para mostrar por que o modelo complexo com regularização geralmente é melhor que o modelo simples .

Fiz uma analogia para ter uma explicação intuitiva.

Caso 1, você só tem um estudante do ensino médio com conhecimento limitado (um modelo simples sem regularização)
Caso 2, você tem um estudante de graduação, mas restringe-o a usar apenas o conhecimento do ensino médio para resolver problemas. (modelo complexo com regularização)

Se duas pessoas estão resolvendo o mesmo problema, geralmente os estudantes de pós-graduação trabalhariam melhor solução, devido à experiência e insights sobre o conhecimento.

A Figura 1 mostra 4 acessórios para os mesmos dados. 4 acessórios são linha, parábola, modelo de 3ª ordem e modelo de 5ª ordem. Você pode observar que o modelo de 5ª ordem pode ter um problema de sobreajuste.

Por outro lado, no segundo experimento, usaremos o modelo de 5ª ordem com diferentes níveis de regularização. Compare o último com o modelo de segunda ordem. (dois modelos são destacados), você encontrará o último semelhante (aproximadamente com a mesma complexidade de modelo) à parábola, mas um pouco mais flexível para os dados.

Haitao Du
fonte

1

"aproximadamente a mesma complexidade de modelo" ... essa é visualmente a comparação "óbvia", existe uma maneira matemática de medi-la?

Silverfish

Por que usar a regularização na regressão polinomial em vez de diminuir o grau?

Respostas: