Modelos flexíveis e inflexíveis no aprendizado de máquina

10

Me deparei com uma pergunta simples sobre a comparação de modelos flexíveis (ou seja, splines) versus modelos inflexíveis (por exemplo, regressão linear) em diferentes cenários. A questão é:

Em geral, esperamos que o desempenho de um método flexível de aprendizado estatístico tenha um desempenho melhor ou pior que um método inflexível quando:

O número de preditores é extremamente grande e o número de observações é pequeno? $p$ $n$
A variação dos termos do erro, ou seja, $σ^2 = \text{Var}(e)$ , é extremamente alta?

Penso em (1), quando $n$ é pequeno, modelos inflexíveis são melhores (não tenho certeza). Para (2), não sei qual modelo é (relativamente) melhor.

machine-learning model alittleboy
fonte

O erro de generalização está longe de ser trivial. Infelizmente, as regras práticas não ajudam muito nesse sentido.

Marc Claesen

8

Parece que este é de James, Witten, Hastie, Introdução de Tibshirani a estatística de Aprendizagem

Noel Evans

1. Um método flexível superajustaria o pequeno número de observações. 2. Um método flexível se ajusta ao ruído nos termos do erro e aumenta a variação.

Zanark

3

Nessas 2 situações, o desempenho comparativo flexível versus modelo inflexível também depende de:

é uma relação verdadeira y = f (x) próxima de linear ou muito não linear;
você ajusta / restringe o grau de flexibilidade do modelo "flexível" ao ajustá-lo.

Se a relação for próxima de linear e você não restringir a flexibilidade, o modelo linear deverá fornecer um erro de teste melhor em ambos os casos, porque o modelo flexível provavelmente se ajustará em excesso nos dois casos.

Você pode vê-lo assim:

Nos dois casos, os dados não contêm informações suficientes sobre a relação verdadeira (no primeiro caso, a relação é alta dimensional e você não possui dados suficientes; no segundo caso, corrompidos pelo ruído), mas
- O modelo linear traz algumas informações prévias externas sobre a relação verdadeira (restringir a classe de relações ajustadas às relações lineares) e
- essa informação anterior está correta (a relação verdadeira é quase linear).
Embora o modelo flexível não contenha informações anteriores (pode caber em qualquer coisa), é adequado ao ruído.

Se, no entanto, a verdadeira relação for muito não linear, é difícil dizer quem vencerá (ambos perderão :)).

Se você ajustar / restringir o grau de flexibilidade e fazê-lo da maneira correta (digamos por validação cruzada), o modelo flexível deverá vencer em todos os casos.

Kochede
fonte

4

É claro que depende dos dados subjacentes que você deve sempre explorar para descobrir algumas de suas características antes de tentar ajustar um modelo, mas o que aprendi como regras gerais gerais são:

Um modelo flexível permite tirar o máximo proveito de um grande tamanho de amostra (grande n).
Um modelo flexível será necessário para encontrar o efeito não linear.
Um modelo flexível fará com que você ajuste muito do ruído no problema (quando a variação dos termos do erro for alta).

Paul PM
fonte

1

Bem, para a segunda parte, acho que o modelo mais flexível tentará ajustá-lo bastante e os dados de treinamento contenham um ruído alto; portanto, o modelo flexível também tentará aprender esse ruído e resultará em mais erros de teste. Conheço a fonte dessa pergunta, pois também estou lendo o mesmo livro :)

lovekesh
fonte

1

Para a primeira parte, eu esperaria que o modelo inflexível tivesse melhor desempenho com um número limitado de observações. Quando n é muito pequeno, ambos os modelos (flexíveis ou inflexíveis) não produziriam uma previsão suficientemente boa. No entanto, o modelo flexível tenderia a superestimar os dados e apresentaria um desempenho inferior quando se trata de um novo conjunto de testes.

Idealmente, eu coletaria mais observações para melhorar o ajuste, mas se esse não for o caso, usaria o modelo inflexível, tentando minimizar um erro de teste com um novo conjunto de testes.

user40935
fonte

0

Para a segunda pergunta, acredito que a resposta é que ambos terão o mesmo desempenho (supondo que esses erros sejam irredutíveis, ou seja, esse erro). Mais informações são fornecidas em Introdução à aprendizagem estatística na página 18 (tópico: Por que estimar ) onde o autor explica dizendo $f$

A precisão de como uma previsão para depende de duas quantidades, que chamaremos de erro redutível e erro irredutível . Em geral, não será uma estimativa perfeita para , e essa imprecisão introduzirá algum erro. Esse erro é redutível porque podemos potencialmente melhorar a precisão de usando a técnica de aprendizado estatístico mais apropriada para estimar . Entretanto, mesmo que fosse possível formar uma estimativa perfeita para , de modo que nossa resposta estimada assumisse a forma $Y$ $Y$ $\hat f$ $f$ $\hat f$ $\hat f$ $f$ $\hat Y = f(X)$ , nossa previsão ainda terá algum erro! Isto é porque é também uma função de , o que, por definição, não podem ser previstas utilizando . Portanto, a variabilidade associada ao também afeta a precisão de nossas previsões. Isso é conhecido como erro irredutível , porque, por mais que calculemos , não podemos reduzir o erro introduzido por . $Y$ $\epsilon$ $X$ $\epsilon$ $f$ $\epsilon$

ants.in.my.eyes
fonte

Eu não entendo isso.

Michael R. Chernick 31/03

0

Para cada uma das partes (a) a (d), indique se i. ou ii. está correto e explique sua resposta. Em geral, esperamos que o desempenho de um método flexível de aprendizado estatístico tenha um desempenho melhor ou pior que um método inflexível quando:

O tamanho da amostra n é extremamente grande e o número de preditores p é pequeno?

Melhor. Um método flexível ajustará os dados mais próximos e, com o grande tamanho da amostra, teria melhor desempenho do que uma abordagem inflexível.

O número de preditores p é extremamente grande e o número de observações n é pequeno?

Pior. Um método flexível superajustaria o pequeno número de observações.

A relação entre os preditores e a resposta é altamente não linear?

Melhor. Com mais graus de liberdade, um método flexível se encaixaria melhor do que um método inflexível.

A variação dos termos de erro, ou seja, σ2 = Var (ε), é extremamente alta?

Pior. Um método flexível se ajustaria ao ruído nos termos do erro e aumentaria a variação.

Tomado daqui .

Harvey
fonte

Modelos flexíveis e inflexíveis no aprendizado de máquina

Respostas: