Entendi que Floresta Aleatória e Árvores Extremamente Aleatórias diferem no sentido de que as divisões das árvores na Floresta Aleatória são determinísticas, enquanto que são aleatórias no caso de Árvores Extremamente Aleatórias (para ser mais preciso, a próxima divisão é a melhor divisão entre divisões uniformes aleatórias nas variáveis selecionadas para a árvore atual). Mas não entendo completamente o impacto dessas diferentes divisões em várias situações.
- Como eles se comparam em termos de viés / variação?
- Como eles se comparam na presença de variáveis irrelevantes?
- Como eles se comparam na presença de variáveis correlacionadas?
machine-learning
correlation
references
random-forest
RUser4512
fonte
fonte
uniform split
?Respostas:
O (Randomized) -Árvores (ET) Extra- artigo contém uma análise de polarização-variância. Na página 16, você pode ver uma comparação com vários métodos, incluindo RF em seis testes (classificação em árvore e três regressões).
Ambos os métodos são praticamente os mesmos, com o ET sendo um pouco pior quando existe um número alto de recursos barulhentos (em conjuntos de dados de alta dimensão).
Dito isto, desde que a seleção de recursos (talvez manual) seja quase ideal, o desempenho seja praticamente o mesmo; no entanto, os ETs podem ser computacionalmente mais rápidos.
Do próprio artigo:
Nenhuma bala de prata como sempre.
Pierre Geurts, Damien Ernst, Louis Wehenke. "Árvores extremamente aleatórias"
fonte
A resposta é que depende. Eu sugiro que você tente floresta aleatória e árvores extras no seu problema. Experimente uma floresta grande (1000 - 3000 árvores / estimadores, n_estimators no sklearn) e ajuste o número de recursos considerados em cada divisão (max_features no sklearn), bem como as amostras mínimas por divisão (min_samples_split no sklearn) e a profundidade máxima da árvore ( max_depth no sklearn). Dito isto, você deve ter em mente que o ajuste excessivo pode ser uma forma de ajuste excessivo.
Aqui estão dois problemas nos quais trabalhei pessoalmente, onde árvores extras se mostraram úteis com dados muito barulhentos:
Florestas de decisão para classificação de aprendizado de máquina de conjuntos de recursos grandes e barulhentos no fundo do mar
Uma previsão eficiente de desordem proteica distribuída com amostras coladas
fonte
Muito obrigado pelas respostas! Como ainda tinha dúvidas, realizei algumas simulações numéricas para ter mais informações sobre o comportamento desses dois métodos.
A figura abaixo mostra o desempenho (avaliado com validação cruzada) à medida que colunas aleatórias irrelevantes para o destino são adicionadas ao conjunto de dados. O alvo é apenas uma combinação linear das três primeiras colunas.
Quando todas as variáveis são relevantes, ambos os métodos parecem alcançar o mesmo desempenho,
Árvores extras parecem três vezes mais rápidas que a floresta aleatória (pelo menos, na implementação do scikit learn)
Fontes
Link para o artigo completo: floresta aleatória vs árvores extras .
fonte