As florestas aleatórias funcionam criando um conjunto de árvores de decisão em que cada árvore é criada usando uma amostra de autoinicialização dos dados de treinamento originais (amostra de variáveis de entrada e observações).
Um processo semelhante pode ser aplicado para regressão linear? Crie k modelos de regressão linear usando uma amostra de inicialização aleatória para cada uma das k regressões
Quais são os motivos para NÃO criar um modelo semelhante à "regressão aleatória"?
Obrigado. Se há algo que eu estou basicamente entendendo errado, por favor me avise.
a_0 + a_1 * x_1 + ... + a_d * x_d
, a função linear média resultante (após a agregação da inicialização) ainda possui a mesma forma funcional linear que a que você inicia (por exemplo, o 'aprendiz básico').Respostas:
Discordo parcialmente das respostas presentes, porque a floresta aleatória da metodologia baseia-se na introdução de variância (CARTs construídos em amostras com bootstrap + método de subespaço aleatório) para torná-las independentes. Depois de ter árvores ortogonais, a média de suas previsões tende (em muitos casos) a ser melhor do que a previsão da árvore média (devido à desigualdade de Jensen). Embora os CARTs tenham vantagens notáveis quando sujeitos a esse tratamento, essa metodologia definitivamente se aplica a qualquer modelo, e os modelos lineares não são exceção. Aqui está um pacote R que é exatamente o que você está procurando. Apresenta um bom tutorial sobre como ajustá-los e interpretá-los e a bibliografia sobre o assunto: Modelos lineares generalizados aleatórios .
fonte
Para colocar a resposta do @ ziggystar em termos de jargão de aprendizado de máquina: a idéia por trás das técnicas de agregação de bootstrap (por exemplo, florestas aleatórias) é ajustar muitos modelos de viés baixo e alta variância aos dados com algum elemento de "aleatoriedade" ou "instabilidade". No caso de florestas aleatórias, a instabilidade é adicionada através da inicialização e da seleção de um conjunto aleatório de recursos para dividir cada nó da árvore. A média dessas árvores barulhentas, mas com pouco viés, alivia a alta variação de qualquer árvore individual.
Enquanto as árvores de regressão / classificação são modelos de "baixo viés, alta variação", os modelos de regressão linear são tipicamente o oposto - "alto viés, baixa variação". Assim, o problema que frequentemente se depara com modelos lineares é reduzir o viés, não a variação. A agregação de bootstrap simplesmente não é feita para fazer isso.
Um problema adicional é que o bootstrapping pode não fornecer "aleatoriedade" ou "instabilidade" suficiente em um modelo linear típico. Eu esperaria que uma árvore de regressão fosse mais sensível à aleatoriedade das amostras de bootstrap, já que cada folha normalmente contém apenas alguns pontos de dados. Além disso, as árvores de regressão podem ser estocásticas, dividindo a árvore em um subconjunto aleatório de variáveis em cada nó. Consulte esta pergunta anterior para saber por que isso é importante: Por que as florestas aleatórias são divididas com base em m recursos aleatórios?
Tudo o que foi dito, você certamente pode usar a inicialização em modelos lineares [LINK] , e isso pode ser muito útil em determinados contextos. No entanto, a motivação é muito diferente das técnicas de agregação de inicialização.
fonte
E aqui está o porquê de não ser tão atraente fazer algo "aleatório" com modelos lineares quanto com árvores de decisão:
É provável que uma grande árvore de decisão criada a partir de uma amostra grande super ajuste os dados, e o método de floresta aleatória combate esse efeito contando com o voto de muitas árvores pequenas.
A regressão linear, por outro lado, é um modelo que não é muito propenso a sobreajuste e, portanto, não é prejudicado treinando-o na amostra completa no início. E mesmo se você tiver muitas variáveis regressivas, poderá aplicar outras técnicas, como regularização, para combater o overfitting.
fonte
fonte