Lendo a excelente modelagem estatística: As duas culturas (Breiman 2001) , podemos aproveitar toda a diferença entre modelos estatísticos tradicionais (por exemplo, regressão linear) e algoritmos de aprendizado de máquina (por exemplo, Bagging, Random Forest, Boosted trees ...).
Breiman critica os modelos de dados (paramétricos) porque eles se baseiam na suposição de que as observações são geradas por um modelo formal conhecido e prescrito pelo estatístico, que pode emular mal a Natureza. Por outro lado, os algos de ML não assumem nenhum modelo formal e aprendem diretamente as associações entre variáveis de entrada e saída a partir dos dados.
Percebi que o Bagging / RF e o Boosting também são meio paramétricos: por exemplo, ntree , mtry na RF, taxa de aprendizado , fração do saco , complexidade da árvore nas árvores com estocástico gradiente Boosted estão ajustando parâmetros de . Também estamos estimando esses parâmetros a partir dos dados, já que estamos usando os dados para encontrar os valores ideais desses parâmetros.
Então qual a diferença? Os modelos RF e Boosted Trees são paramétricos?
Penso que o critério para paramétrico e não paramétrico é este: se o número de parâmetros cresce com o número de amostras de treinamento. Para regressão logística e svm, quando você seleciona os recursos, não obtém mais parâmetros adicionando mais dados de treinamento. Mas para RF e assim por diante, os detalhes do modelo serão alterados (como a profundidade da árvore), mesmo que o número de árvores não seja alterado.
fonte
tree.complexity
parâmetro, basta alterar seu valor. Além disso, em RF e aumentar o número de árvores na floresta / sequência muda dependendo do seu tamanho da amostraNo sentido estatístico, o modelo é paramétrico, se os parâmetros forem aprendidos ou inferidos com base nos dados. Uma árvore nesse sentido é não paramétrica. Obviamente, a profundidade da árvore é um parâmetro do algoritmo, mas não é derivado inerentemente dos dados, mas um parâmetro de entrada que deve ser fornecido pelo usuário.
fonte