Faria sentido exagerar um modelo de propósito?
Digamos que eu tenha um caso de uso em que eu saiba que os dados não variarão muito em relação aos dados de treinamento.
Estou pensando aqui na previsão de tráfego, em que o status do tráfego segue um conjunto fixo de padrões
- Manhã de comutação
- atividade noturna
- e assim por diante.
Esses padrões não mudarão muito, a menos que haja um aumento repentino de usuários de carros ou grandes mudanças na infraestrutura da estrada. Nesse caso, eu gostaria que o modelo fosse o mais tendencioso possível em relação aos padrões que aprendeu nos dados atuais, assumindo que, no futuro, o padrão e os dados sejam muito semelhantes.
Respostas:
Em geral, não faz sentido superestimar seus dados de propósito. O problema é que é difícil garantir que os padrões também apareçam na parte que não está incluída nos seus dados. Você precisa afirmar que há um padrão nos dados. Uma possibilidade de fazer isso é o conceito de estacionariedade.
O que você descreve me lembra de estacionariedade e ergodicidade. Do lado contextual / comercial, você assume que sua série cronológica segue certos padrões. Esses padrões são chamados de estacionariedade ou ergodicidade.
Definição estacionária:
Um processo estacionário é um processo estocástico cuja distribuição de probabilidade conjunta incondicional não muda quando deslocada no tempo. Portanto, parâmetros como média e variância também não mudam com o tempo.
Definição ergodicidade:
Um processo ergódico é um processo relacionado ou denotando sistemas ou processos com a propriedade que, com tempo suficiente, inclui ou colide com todos os pontos de um determinado espaço e pode ser representado estatisticamente por uma seleção razoavelmente grande de pontos.
Agora você quer ter certeza de que realmente segue esses certos padrões. Você pode fazer isso, por exemplo, com teste de raiz unitária (como Dickey-Fuller) ou teste de estacionariedade (como KPSS).
Teste de raiz da unidade de definição:
Teste de estacionariedade de definição:
Leitura adicional:
Qual é a diferença entre um teste estacionário e um teste de raiz unitária?
Se a série cronológica realmente seguir esses padrões, a previsão e a previsão serão "mais fáceis do ponto de vista estatístico"; por exemplo, você pode aplicar modelos econométricos para previsões como ARIMA ou TBATS. Minha resposta diz respeito a séries temporais univariadas e também multivariadas, se você tiver estacionariedade de dados transversal e raízes de unidade não são conceitos comuns.
fonte
Não, não faz sentido superestimar seus dados.
O termo sobreajuste na verdade se refere a uma comparação entre modelos: se model_a desempenho for melhor nos dados de treinamento fornecidos, mas for pior fora da amostra que model_b , model_a estará sobreajustando . Ou em outras palavras: " existe uma alternativa melhor ".
Se o status do tráfego " não variar de forma alguma com relação aos dados de treinamento", você obterá os melhores resultados possíveis simplesmente memorizando os dados de treinamento (novamente, isso não é "excessivo").
Mas "os dados não variam muito em relação aos dados de treinamento" simplesmente equivale a ter uma representação razoável do padrão subjacente. É aqui que o aprendizado de máquina funciona melhor ( ambiente estacionário, como Ferdi explicou ).
fonte
Eu diria que existe um sentido de superestimar seus dados, mas apenas para fins de pesquisa. (Não use modelo com excesso de equipamento na produção!)
Nos casos em que os dados podem ser complexos e tarefas não triviais, tentar super-ajustar um modelo pode ser uma etapa importante!
Se você pode superestimar um modelo - isso significa que os dados podem ser descritos pelo modelo.
Se você não pode se superestimar, pode dar uma pista para a investigação:
fonte