Certamente é possível ajustar bons modelos quando houver mais variáveis que pontos de dados, mas isso deve ser feito com cuidado.
Quando há mais variáveis do que pontos de dados, o problema pode não ter uma solução única, a menos que seja mais restrito. Ou seja, pode haver várias soluções (talvez infinitas) que se ajustem igualmente bem aos dados. Esse problema é chamado de "mal-posado" ou "sub-determinado". Por exemplo, quando há mais variáveis que pontos de dados, a regressão padrão de mínimos quadrados possui infinitas soluções que alcançam erro zero nos dados de treinamento.
Esse modelo certamente superajustaria porque é "flexível demais" para a quantidade de dados de treinamento. À medida que a flexibilidade do modelo aumenta (por exemplo, mais variáveis em um modelo de regressão) e a quantidade de dados de treinamento diminui, torna-se cada vez mais provável que o modelo consiga obter um erro baixo ajustando flutuações aleatórias nos dados de treinamento que não representam o distribuição subjacente verdadeira. Portanto, o desempenho será ruim quando o modelo for executado em dados futuros extraídos da mesma distribuição.
ℓ1ℓ2
Restrições podem gerar uma solução única, desejável quando queremos interpretar o modelo para aprender algo sobre o processo que gerou os dados. Eles também podem produzir um melhor desempenho preditivo, limitando a flexibilidade do modelo, reduzindo assim a tendência ao super ajuste.
No entanto, impor restrições ou garantir a existência de uma solução exclusiva não implica que a solução resultante será boa. As restrições só produzirão boas soluções quando forem realmente adequadas ao problema.
Alguns pontos diversos:
- A existência de múltiplas soluções não é necessariamente problemática. Por exemplo, as redes neurais podem ter muitas soluções possíveis que são distintas umas das outras, mas quase igualmente boas.
- A existência de mais variáveis do que pontos de dados, a existência de várias soluções e o ajuste excessivo geralmente coincidem. Mas, esses são conceitos distintos; cada um pode ocorrer sem os outros.