Eu tenho uma regressão aleatória da floresta criada usando skl e observo que produzo resultados diferentes com base na definição da semente aleatória com valores diferentes.
Se eu usar o LOOCV para estabelecer qual semente funciona melhor, esse é um método válido?
cross-validation
random-forest
user2723494
fonte
fonte
Respostas:
A resposta é não .
Seu modelo fornece um resultado diferente para cada semente que você usa. Isso é resultado da natureza não determinística do modelo. Escolher uma semente específica que maximize o desempenho no conjunto de validação significa que você escolheu o "arranjo" que melhor se ajusta a esse conjunto. No entanto, isso não garante que o modelo com essa semente tenha um desempenho melhor em um conjunto de testes separado . Isso significa simplesmente que você ajustou demais o modelo no conjunto de validação .
Esse efeito é o motivo pelo qual você vê muitas pessoas com uma classificação alta em competições (por exemplo, kaggle) no conjunto de testes público, caindo muito no conjunto de testes oculto. Essa abordagem não é considerada de forma alguma a abordagem correta.
fonte