Lasso aplicado para classificar os recursos e obter os seguintes resultados:
rank feature prob.
==================================
1 a 0.1825477951589229
2 b 0.07858498115577893
3 c 0.07041793111843796
Observe que o conjunto de dados possui 3 rótulos. A classificação dos recursos para os diferentes rótulos é a mesma.
Em seguida, aplicou a floresta aleatória ao mesmo conjunto de dados:
rank feature score
===================================
1 b 0.17504808300002753
6 a 0.05132699243632827
8 c 0.041690685195283385
Observe que a classificação é muito diferente daquela produzida por Lasso.
Como interpretar a diferença? Isso implica que o modelo subjacente é inerentemente não linear?
Respostas:
Portanto, sua consulta é uma comparação da regressão linear versus a importância das variáveis derivadas do modelo da floresta aleatória.
O laço encontra coeficientes do modelo de regressão linear aplicando a regularização. Uma abordagem popular para classificar a importância de uma variável em um modelo de regressão linear é decompor em contribuições atribuídas a cada variável. Mas a importância das variáveis não é direta na regressão linear devido a correlações entre variáveis. Consulte o documento que descreve o método PMD (Feldman, 2005) nas referências abaixo.R2
Outra abordagem popular é a média de pedidos (LMG, 1980). O LMG funciona assim:
O algoritmo de floresta aleatória se encaixa em várias árvores, cada árvore na floresta é construída selecionando aleatoriamente diferentes recursos do conjunto de dados. Os nós de cada árvore são construídos escolhendo e dividindo para obter a máxima redução de variação. Ao prever no conjunto de dados de teste, a saída individual das árvores é calculada como média para obter a saída final. Cada variável é permutada entre todas as árvores e a diferença no erro fora da amostra de antes e depois da permutação é calculada. As variáveis com maior diferença são consideradas mais importantes e aquelas com valores mais baixos são menos importantes.
O método pelo qual o modelo se encaixa nos dados de treinamento é muito diferente para um modelo de regressão linear em comparação com o modelo de floresta aleatória. Mas ambos os modelos não contêm nenhum relacionamento estrutural entre as variáveis.
Em relação à sua consulta sobre a não linearidade da variável dependente: O laço é essencialmente um modelo linear que não será capaz de fornecer boas previsões para processos não lineares subjacentes, em comparação com modelos baseados em árvore. Você deve poder verificar isso verificando o desempenho dos modelos em um conjunto de testes de retirada de terras. Se a floresta aleatória tiver um desempenho melhor, o processo subjacente poderá ser não linear. Como alternativa, você pode incluir efeitos de interação variáveis e variáveis de ordem superior criadas usando a, bec no modelo de laço e verificar se esse modelo tem melhor desempenho em comparação com um laço com apenas uma combinação linear de a, bec. Se isso acontecer, o processo subjacente pode ser não linear.
Referências:
fonte