A floresta aleatória e o reforço são paramétricos ou não paramétricos?

13

Lendo a excelente modelagem estatística: As duas culturas (Breiman 2001) , podemos aproveitar toda a diferença entre modelos estatísticos tradicionais (por exemplo, regressão linear) e algoritmos de aprendizado de máquina (por exemplo, Bagging, Random Forest, Boosted trees ...).

Breiman critica os modelos de dados (paramétricos) porque eles se baseiam na suposição de que as observações são geradas por um modelo formal conhecido e prescrito pelo estatístico, que pode emular mal a Natureza. Por outro lado, os algos de ML não assumem nenhum modelo formal e aprendem diretamente as associações entre variáveis ​​de entrada e saída a partir dos dados.

Percebi que o Bagging / RF e o Boosting também são meio paramétricos: por exemplo, ntree , mtry na RF, taxa de aprendizado , fração do saco , complexidade da árvore nas árvores com estocástico gradiente Boosted estão ajustando parâmetros de . Também estamos estimando esses parâmetros a partir dos dados, já que estamos usando os dados para encontrar os valores ideais desses parâmetros.

Então qual a diferença? Os modelos RF e Boosted Trees são paramétricos?

Antoine
fonte

Respostas:

12

Os modelos paramétricos têm parâmetros (inferindo-os) ou suposições sobre a distribuição de dados, enquanto RF, redes neurais ou árvores de aumento têm parâmetros relacionados ao próprio algoritmo, mas eles não precisam de suposições sobre sua distribuição de dados ou classificam seus dados em uma distribuição teórica. . De fato, quase todos os algoritmos têm parâmetros como iterações ou valores de margem relacionados à otimização.

D.Castro
fonte
5
Portanto, para resumir: 1) os parâmetros de modelos ML e paramétricos são ajustados / estimados com base nos dados, MAS 2) em ML, os parâmetros controlam como os algoritmos aprendem com os dados (sem fazer nenhuma suposição sobre os dados e a jusante de dados). a geração de dados), enquanto os parâmetros dos modelos paramétricos (modelos que são assumidos a priori) controlam o mecanismo que se supõe ter produzido os dados (com muitas suposições irrealistas que raramente são válidas na prática). Você acha que este é um resumo adequado? Você adicionaria / mudaria alguma coisa?
Antoine
4
Penso que uma frase do artigo de Breiman que resume tudo é "modelagem algorítmica muda o foco dos modelos de dados para as propriedades dos algoritmos".
Antoine
1
Você pode resumir assim, mas .. não subestime os modelos paramétricos. Existem situações em que eles são necessários e ideais para resolver muitos problemas. Também suas suposições não são tão irrealistas. Muitas distribuições teóricas são válidas para explicar muitas coisas, do normal ao binomial e ao lognormal, geométrico etc. Não se trata de uma ou de outra, é de escolher o caminho certo para resolver um problema.
D.Castro
4
Concordo. Quando o processo físico subjacente é bem conhecido, modelos paramétricos são apropriados. Breiman está criticando o uso de modelos paramétricos para descoberta de conhecimento e previsão quando os processos subjacentes são desconhecidos
Antoine
1

Penso que o critério para paramétrico e não paramétrico é este: se o número de parâmetros cresce com o número de amostras de treinamento. Para regressão logística e svm, quando você seleciona os recursos, não obtém mais parâmetros adicionando mais dados de treinamento. Mas para RF e assim por diante, os detalhes do modelo serão alterados (como a profundidade da árvore), mesmo que o número de árvores não seja alterado.

Yu Zhang
fonte
mas em RF ou Boosting, aumentar a profundidade da árvore não está adicionando parâmetros. Você ainda tem seu tree.complexityparâmetro, basta alterar seu valor. Além disso, em RF e aumentar o número de árvores na floresta / sequência muda dependendo do seu tamanho da amostra
Antoine
nas minhas opções, quando a profundidade da árvore muda, há mais algumas divisões na árvore, para que você tenha mais parâmetros. Quando o número de árvores muda no RF e no Boosting conforme os dados mudam, mas isso não acontece quando o modelo é linear.
Yu Zhang
1

No sentido estatístico, o modelo é paramétrico, se os parâmetros forem aprendidos ou inferidos com base nos dados. Uma árvore nesse sentido é não paramétrica. Obviamente, a profundidade da árvore é um parâmetro do algoritmo, mas não é derivado inerentemente dos dados, mas um parâmetro de entrada que deve ser fornecido pelo usuário.

PeterPancake
fonte
Então, digamos que você tenha que apresentar modelos baseados em árvore e OLS para um público não técnico, você poderia dizer que os primeiros são paramétricos, enquanto os segundos não são paramétricos?
Tanguy