Isenção de responsabilidade: certamente está longe de ser uma resposta completa para a pergunta!
Eu acho que há pelo menos dois níveis a serem considerados antes de estabelecer uma distinção entre todos esses métodos:
- se um único modelo é adequado ou não: isso ajuda a métodos opostos, como regressão logística vs. RF ou Gradient Boosting (ou, geralmente, métodos Ensemble ) e também enfatiza a estimativa de parâmetros (com intervalos de confiança assintóticos ou de autoinicialização associados) vs. classificação ou computação de precisão de previsão;
- se todas as variáveis são consideradas ou não: Esta é a base da seleção de recurso, no sentido de que a penalização ou regularização permite a lidar com "irregulares" conjuntos de dados (por exemplo, grandes e / ou pequeno ) e melhorar a generalização dos resultados.pn
Aqui estão alguns outros pontos que eu acho relevantes para a questão.
Caso consideremos vários modelos - o mesmo modelo é ajustado em diferentes subconjuntos (indivíduos e / ou variáveis) dos dados disponíveis, ou diferentes modelos competitivos são ajustados no mesmo conjunto de dados -, a validação cruzada pode ser usada para evitar sobreajustar e executar a seleção de modelo ou recurso, embora o CV não se limite a esses casos específicos (ele pode ser usado com GAMs ou GLMs penalizados, por exemplo). Além disso, existe a questão da interpretação tradicional: modelos mais complexos geralmente implicam uma interpretação mais complexa (mais parâmetros, suposições mais rigorosas etc.).
O aumento de gradiente e os RFs superam as limitações de uma única árvore de decisão, graças ao Boosting, cuja principal idéia é combinar a saída de vários algoritmos de aprendizado fracos, a fim de criar uma regra de decisão mais precisa e estável, e Bagging, onde "medimos" os resultados sobre conjuntos de dados reamostrados. No total, são frequentemente vistos como algum tipo de caixa preta em comparação com modelos mais "clássicos", onde são fornecidas especificações claras para o modelo (posso pensar em três classes de modelos: paramétrico , semi-paramétrico , não paramétrico ), mas Eu acho que a discussão realizada sob esse outro tópico As Duas Culturas: estatística versus aprendizado de máquina? fornecer pontos de vista interessantes.
Aqui estão alguns artigos sobre seleção de recursos e algumas técnicas de ML:
- Saeys, Y, Inza, I e Larrañaga, P. Uma revisão das técnicas de seleção de recursos em bioinformática , Bioinformatics (2007) 23 (19): 2507-2517.
- Dougherty, ER, Hua J e Sima, C. Desempenho dos métodos de seleção de recursos , Current Genomics (2009) 10 (6): 365–374.
- Boulesteix, AL e Strobl, C. Seleção ideal de classificadores e viés negativo na estimativa da taxa de erro: um estudo empírico sobre previsão de alta dimensão , BMC Medical Research Methodology (2009) 9:85.
- Caruana, R e Niculescu-Mizil, A. Uma comparação empírica de algoritmos de aprendizado supervisionado . Anais da 23ª Conferência Internacional sobre Aprendizado de Máquina (2006).
- Friedman, J, Hastie, T e Tibshirani, R. Regressão logística aditiva: Uma visão estatística do aumento , Ann. Statist. (2000) 28 (2): 337-407. (Com discussão)
- Olden, JD, Lawler, JJ e Poff, NL. Métodos de aprendizado de máquina sem lágrimas: uma cartilha para ecologistas , Q Rev Biol. (2008) 83 (2): 171-93.
E, é claro, The Elements of Statistical Learning , de Hastie e col., Está cheio de ilustrações e referências. Verifique também os Tutoriais de Mineração de Dados Estatísticos , de Andrew Moore.