A modelagem com florestas aleatórias requer validação cruzada?

Tanto quanto eu vi, as opiniões tendem a diferir sobre isso. As melhores práticas certamente ditariam a validação cruzada (especialmente se comparar RFs com outros algoritmos no mesmo conjunto de dados). Por outro lado, a fonte original afirma que o fato de o erro OOB ser calculado durante o treinamento do modelo é um indicador suficiente do desempenho do conjunto de testes. Até Trevor Hastie, em conversas relativamente recentes, afirma que "as florestas aleatórias fornecem validação cruzada gratuita". Intuitivamente, isso faz sentido para mim, se estiver treinando e tentando melhorar um modelo baseado em RF em um conjunto de dados.

Qual a sua opinião sobre isso?

cross-validation random-forest overfitting out-of-sample neurônio
fonte

isso não está abordando o ponto principal da pergunta - mas você provavelmente ainda deseja validar cruzadamente parâmetros secundários (como profundidade de árvores etc.) #

Wouter

Você pode usar a RF ou compará-la com outras abordagens em termos de desempenho no conjunto de treinamento ou usar dados independentes / subconjuntos para testar o desempenho. É uma questão de sua hipótese: você está tentando generalizar os resultados para uma população maior ou apenas classificar os dados disponíveis, em vez de uma propriedade da RF.

Katya

Respostas:

O erro OOB é calculado por para cada observação usando apenas as árvores que não tiveram essa observação específica em sua amostra de inicialização; veja esta pergunta relacionada . Isso é praticamente equivalente à validação cruzada dupla, pois a probabilidade de uma observação específica estar em uma amostra de bootstrap específica é . $1-(1-\frac{1}{N})^N \approx 1-e^{-1} \approx 0.6$

Como o @Wouter aponta, você provavelmente desejará fazer a validação cruzada para o ajuste de parâmetros, mas como uma estimativa do erro do conjunto de testes, o erro OOB deve estar correto.

einar
fonte