Diferença entre floresta aleatória e árvores extremamente aleatórias

40

Entendi que Floresta Aleatória e Árvores Extremamente Aleatórias diferem no sentido de que as divisões das árvores na Floresta Aleatória são determinísticas, enquanto que são aleatórias no caso de Árvores Extremamente Aleatórias (para ser mais preciso, a próxima divisão é a melhor divisão entre divisões uniformes aleatórias nas variáveis ​​selecionadas para a árvore atual). Mas não entendo completamente o impacto dessas diferentes divisões em várias situações.

  • Como eles se comparam em termos de viés / variação?
  • Como eles se comparam na presença de variáveis ​​irrelevantes?
  • Como eles se comparam na presença de variáveis ​​correlacionadas?
RUser4512
fonte
2
(a) Às vezes, a ERT pode ser mais tendenciosa devido a divisões menos ótimas / a ERT às vezes reduz a variação devido à posterior correlação das árvores; (b) eu acho o mesmo, não tenho certeza; (c) Eu acho o mesmo, não tenho certeza. Extra: Eu não chamaria a divisão de RF de determinística devido à amostragem aleatória de variáveis, e as árvores, é claro, também não são devidas ao bootstrap.
Soren Havelund Welling
O que é um uniform split?
Octavian

Respostas:

28

O (Randomized) -Árvores (ET) Extra- artigo contém uma análise de polarização-variância. Na página 16, você pode ver uma comparação com vários métodos, incluindo RF em seis testes (classificação em árvore e três regressões).

Ambos os métodos são praticamente os mesmos, com o ET sendo um pouco pior quando existe um número alto de recursos barulhentos (em conjuntos de dados de alta dimensão).

Dito isto, desde que a seleção de recursos (talvez manual) seja quase ideal, o desempenho seja praticamente o mesmo; no entanto, os ETs podem ser computacionalmente mais rápidos.

Do próprio artigo:

A análise do algoritmo e a determinação do valor ótimo de K em várias variantes de problemas de teste mostraram que o valor depende, em princípio, das especificidades do problema, em particular a proporção de atributos irrelevantes . [...] A análise de viés / variância mostrou que as Extra-Árvores funcionam diminuindo a variação e, ao mesmo tempo, aumentando o viés . [...] Quando a randomização é aumentada acima do nível ideal, a variação diminui ligeiramente, enquanto o viés aumenta frequentemente significativamente.

Nenhuma bala de prata como sempre.


Pierre Geurts, Damien Ernst, Louis Wehenke. "Árvores extremamente aleatórias"

shuriken x blue
fonte
3
Alguma referência (empírica ou teórica) sobre ET é um pouco pior quando existe um número alto de recursos barulhentos? Ou isso é baseado na experiência?
ramhiser
11
Na minha experiência, o oposto é verdadeiro: o Extra-Trees se sai melhor com muitos recursos barulhentos. Com a ressalva de que você precisa ter uma floresta grande (muitos estimadores, n_estimators no sklearn) e ajustar o número de recursos considerados em cada divisão (max_features no sklearn) para que isso funcione. Uma única Extra-Tree superajustará mais do que uma única árvore da floresta aleatória, mas se você tiver muitas Extra-Trees, elas tenderão a super-ajustar de maneiras diferentes e não a super-ajustar. Costumo obter melhorias substanciais em até 3000 estimadores.
denson
Como o @ramhiser apontou, o ET parece manter um desempenho superior na presença de recursos barulhentos. Você pode adicionar algumas referências à sua resposta?
Goncalo Peres apoia Monica
3

A resposta é que depende. Eu sugiro que você tente floresta aleatória e árvores extras no seu problema. Experimente uma floresta grande (1000 - 3000 árvores / estimadores, n_estimators no sklearn) e ajuste o número de recursos considerados em cada divisão (max_features no sklearn), bem como as amostras mínimas por divisão (min_samples_split no sklearn) e a profundidade máxima da árvore ( max_depth no sklearn). Dito isto, você deve ter em mente que o ajuste excessivo pode ser uma forma de ajuste excessivo.

Aqui estão dois problemas nos quais trabalhei pessoalmente, onde árvores extras se mostraram úteis com dados muito barulhentos:

Florestas de decisão para classificação de aprendizado de máquina de conjuntos de recursos grandes e barulhentos no fundo do mar

Uma previsão eficiente de desordem proteica distribuída com amostras coladas

denson
fonte
2

Muito obrigado pelas respostas! Como ainda tinha dúvidas, realizei algumas simulações numéricas para ter mais informações sobre o comportamento desses dois métodos.

  • Árvores extras parecem manter um desempenho mais alto na presença de recursos barulhentos.

A figura abaixo mostra o desempenho (avaliado com validação cruzada) à medida que colunas aleatórias irrelevantes para o destino são adicionadas ao conjunto de dados. O alvo é apenas uma combinação linear das três primeiras colunas. floresta aleatória vs árvores extras na presença de variáveis ​​irrelevantes

  • Quando todas as variáveis ​​são relevantes, ambos os métodos parecem alcançar o mesmo desempenho,

  • Árvores extras parecem três vezes mais rápidas que a floresta aleatória (pelo menos, na implementação do scikit learn)

Fontes

Link para o artigo completo: floresta aleatória vs árvores extras .

RUser4512
fonte
Do seu artigo vinculado: "Em azul são apresentados os resultados da floresta aleatória e em vermelho para as árvores extras".
tomsv 19/11