Se você pode continuar adicionando novos dados (com base em um conceito principal, como área, por exemplo, o CEP) e o desempenho do seu modelo melhorar, é claro que é permitido ... supondo que você se preocupe apenas com o resultado final.
Existem métricas que tentarão guiá-lo com isso, como o Critério de informação de Akaike (AIC) ou o Critério de informação bayesiano comparável (BIC). Eles ajudam a escolher um modelo com base em seu desempenho, sendo punidos por todos os parâmetros adicionais introduzidos e que devem ser estimados. A AIC fica assim:
A I C =2k-2ln( L^)
onde é o número de parâmetros a serem estimados, ou seja, número de recursos que você aplica, porque cada um terá um coeficiente na sua regressão logística. é o valor máximo da Máxima Verossimilhança (equivalente à pontuação ideal). O BIC simplesmente usa um pouco diferente para punir os modelos.L kkL^k
Esses critérios podem ajudá-lo a dizer quando parar, pois você pode experimentar modelos com mais e mais parâmetros e simplesmente escolher o modelo que possui o melhor valor de AIC ou BIC.
Se você ainda tiver outros recursos no modelo, que não estão relacionados ao ZIP, eles poderão ficar sobrecarregados - isso depende do modelo usado. No entanto, eles também podem explicar coisas sobre o conjunto de dados que simplesmente não podem estar contidas nas informações do CEP, como a área útil de uma casa (assumindo que isso seja relativamente independente do CEP).
Nesse caso, você pode compará-las a algo como Análise de componentes principais, onde uma coleção de recursos explica uma dimensão da variação no conjunto de dados, enquanto outros recursos explicam outra dimensão. Portanto, não importa quantos recursos relacionados ao ZIP você tenha, você nunca poderá explicar a importância da área do piso.
Geralmente, quanto mais ricos os recursos, melhor.
Um aspecto a ter em mente, no entanto, as regressões, em geral, não funcionam bem com dados altamente correlacionados (multicolinearidade). Quando você expande seus recursos dessa maneira, é algo que você deve ter em mente.
Há muita informação sobre esse mesmo tópico (e possíveis maneiras de mitigar), apenas a regressão do Google e a multicolinearidade.
Em resumo,
fonte
Recursos são as informações do seu modelo. Quanto mais informações, melhor será capaz de executar e prever. Quanto menor, mais difícil de prever valores. Portanto, o curto naser é sim. Sempre vale a pena ter tantos recursos quanto possível. Há sempre um limite para isso, uma vez que uma sobrecarga de informações também pode queimar seu processador, portanto, tenha cuidado com quantos recursos estão sendo projetados. Além disso, recursos desnecessários são adicionados apenas ao burnout, portanto, é sempre uma boa prática limpar determinados recursos. Toda a fase de pré-processamento de dados é sobre isso.
A primeira resposta tem alguns bons detalhes sobre isso. No que diz respeito à interrupção de um ciclo, existem várias medidas e fatores que você precisa conhecer para verificar onde seu modelo parou de ter um desempenho melhor e são medidas como o RMSE. Um exemplo simples será usar
xgboost
regressão em seus dados e especificar o número de ciclos. Execute o modelo e você obterá o RMSE para cada ciclo. Ele diminuirá para um limite após o qual você poderá deduzir que o modelo atingiu o platô após um certo ciclo. É assim que o ajuste e a otimização do modelo funcionam.fonte