A Random Forest é uma boa opção para a classificação de dados não balanceados? [fechadas]

9

Apesar das abordagens semelhantes e outras crescentes de variabilidade de dados, a floresta aleatória "como um algoritmo" pode ser considerada uma boa opção para a classificação de dados desequilibrada?

mhdella
fonte
Não . (Seja mais específico em sua pergunta, pois ela é muito ampla. Você precisa esclarecer sua situação e o que quer dizer com a afirmação "como um algoritmo" - em oposição a outra coisa?)
usεr11852
5
@ usεr11852 Não acho que seja muito amplo - apenas tem uma resposta de uma palavra.
shadowtalker
O que eu quis dizer com algoritmo é comparado a outras ferramentas de classificação como SVM, regressão logística, ... a RF é considerada uma boa opção?
Mhdella 28/10
Por que não editar sua pergunta para mostrar quais comparadores você está considerando e em que situação você imagina usando o método escolhido?
Mdwey #
@ssdecontrol: Sou a favor de respostas sucintas; Eu raramente achei respostas de uma palavra muito esclarecedoras. Sua própria resposta é uma prova disso (pois não tem uma palavra: D).
usεr11852

Respostas:

9

É não uma boa opção.

As florestas aleatórias são construídas em árvores de decisão e as árvores de decisão são sensíveis ao desequilíbrio de classe . Cada árvore é construída em um saco e cada saco é uma amostra aleatória uniforme dos dados (com substituição). Portanto, cada árvore será enviesada na mesma direção e magnitude (em média) pelo desequilíbrio de classe.

Existem várias técnicas para reduzir ou mitigar o desequilíbrio de classe, algumas das quais gerais e outras específicas de florestas aleatórias. Esse tópico foi discutido extensivamente aqui e em outros lugares.

editar: eu acrescentaria que não acho que seja dramaticamente pior do que qualquer outra opção, por exemplo, regressão logística, embora não tenha provas disso

shadowtalker
fonte
aumente o tamanho das amostras de autoinicialização .. para obter a classe em todas as amostras.
Arpit Sisodia
@ArpitSisodia que ainda resultará em amostras desequilibradas. Você precisaria usar pesos de amostragem para sobre-amostrar a classe mais rara em cada amostra de bootstrap antes de construir a árvore.
shadowtalker
Essa resposta opinativa é enganosa, pois a floresta aleatória é uma ótima opção, especialmente porque um RF pode ser facilmente ponderado por classe. Siga as práticas recomendadas de fornecer uma contraproposta ao dizer não, caso contrário, dizer não é mais prejudicial do que útil.
SwimBikeRun
3

Classes desequilibradas são apenas um problema se você também tiver um desequilíbrio de custo com classificação incorreta. Se houver classes minoritárias pequenas e não for mais caro classificá-las como classe majoritária do que o contrário, o racional a fazer é permitir a classificação incorreta de classes minoritárias.

Então, vamos supor que você tenha desequilíbrio de classe e custo. Existem várias maneiras de lidar com isso. O livro de Max Kuhn, "Modelagem preditiva aplicada", apresenta uma boa visão geral no capítulo 16. Esses remédios incluem o uso de um ponto de corte diferente de 0,5, que reflete os custos desiguais. Isso é fácil de fazer na classificação binária, desde que o seu classificador produz probabilidades de rótulo (árvores e florestas fazem isso). Ainda não procurei em várias classes. Você também pode exagerar a classe minoritária para dar mais peso.

David Ernst
fonte
Eu não acho que isso esteja correto. Se eu tiver um custo igual de classificação incorreta, mas meu modelo for tendencioso para superestimar uma classe, ainda me resta um modelo tendencioso no final do dia.
Shadowtalker
Não importaria embora. Casos de câncer são muito menos que pacientes saudáveis. No entanto, você precisa prever com segurança os pacientes com câncer, porque a falta de um deles é muito mais cara do que a previsão de muitos. Se você tivesse um conjunto de dados com 99,9% de pessoas saudáveis ​​e 0,1% de casos de resfriado comum, o melhor classificador simplesmente ignoraria esses casos de resfriado comum.
David Ernst