Limites para métodos de conjunto baseado em árvore em pequenos n, grandes problemas de p?

10

Métodos de conjuntos baseados em árvores, como Floresta Aleatória e derivadas subsequentes (por exemplo, floresta condicional), todos pretendem ser úteis nos chamados problemas "pequenos n , grandes p ", para identificar importância relativa variável. De fato, esse parece ser o caso, mas minha pergunta é até que ponto essa capacidade pode ser levada? Pode-se ter, digamos, 30 observações e 100 variáveis? Qual é o ponto de ruptura dessa abordagem e existem regras práticas decentes? Eu preferiria e aceitaria respostas apoiadas por links para evidências reais (não conjecturas), usando conjuntos de dados simulados ou reais. Eu não encontrei muito sobre este último ( aqui e aqui), portanto suas sugestões de referência de pensamentos / conselhos / (no tópico) são bem-vindas!

Profhet60091
fonte

Respostas:

3

Eu suspeito que não haverá uma resposta definitiva para essa pergunta até que alguns estudos de simulação sejam realizados. Enquanto isso, encontrei as florestas aleatórias de Genuer et al .: Algumas idéias metodológicas ajudaram a colocar alguma perspectiva sobre essa questão, pelo menos em termos de teste de RF contra uma variedade de conjuntos de dados "baixo n, alto p". Vários desses conjuntos de dados têm> 5000 preditores e <100 observações !!

Profhet60091
fonte
3

O modo de falha que você encontrará é que, com recursos aleatórios suficientes, existirão recursos que se relacionam com o destino nas amostras ensacadas usadas para cada árvore, mas não no conjunto de dados maior. Um problema semelhante ao observado em vários testes.

É difícil desenvolver regras práticas para isso, pois o ponto exato em que isso acontece depende da quantidade de ruído e da força do sinal nos dados. Também existem métodos que abordam isso usando vários valores p corrigidos de teste como critérios de divisão, executando uma etapa de seleção de recurso com base na importância variável e / ou comparação de importâncias de recurso a recursos de contraste artificial produzidos por permutação aleatória do recurso real, uso de out de caixas para validar a seleção dividida e outros métodos. Estes podem ser extremamente eficazes.

Eu usei florestas aleatórias (incluindo alguns dos ajustes metodológicos acima) em conjuntos de dados com ~ 1000 casos e 30.000 a 1.000.000 de recursos. (Conjuntos de dados em genética humana com diferentes níveis de seleção ou engenharia de recursos). Eles certamente podem ser eficazes na recuperação de um sinal forte (ou efeito de lote) nesses dados, mas não funcionam bem como uma doença com causas heterogêneas, pois a variação aleatória da quantidade supera cada sinal

Ryan Bressler
fonte
0

Também dependerá do sinal e do ruído nos seus dados. Se sua variável dependente é muito bem explicada por uma combinação das variáveis ​​em seu modelo, acho que você pode se safar com uma relação n / p menor.

Suspeito que também seja necessário um número mínimo absoluto de n para obter um modelo decente além da proporção.

Uma maneira de ver isso é que cada árvore é construída usando variáveis ​​SQRT (p) e se esse número é grande e o número de pontos são pequenas, as árvores podem ser ajustadas sem realmente ter um modelo real. Portanto, muitas dessas árvores super ajustadas darão importância variável falsa.

Normalmente, se no gráfico de importância variável, vejo muitas das principais variáveis ​​com quase o mesmo nível de importância, concluo que está me dando apenas ruído.

DeepakML
fonte
De onde vem o SQRT (p)?
LauriK
No RandomForest, cada árvore é construída usando uma amostra das variáveis. Por padrão (pelo menos no pacote R randomForest), o valor usado é o número mais próximo menor ou igual a SQRT (p), em que p é o número de colunas.
precisa saber é o seguinte