A metodologia de floresta aleatória pode ser aplicada a regressões lineares?

14

As florestas aleatórias funcionam criando um conjunto de árvores de decisão em que cada árvore é criada usando uma amostra de autoinicialização dos dados de treinamento originais (amostra de variáveis ​​de entrada e observações).

Um processo semelhante pode ser aplicado para regressão linear? Crie k modelos de regressão linear usando uma amostra de inicialização aleatória para cada uma das k regressões

Quais são os motivos para NÃO criar um modelo semelhante à "regressão aleatória"?

Obrigado. Se há algo que eu estou basicamente entendendo errado, por favor me avise.

Rick
fonte
Ao inicializar árvores agregadas, a função de regressão geral se torna cada vez mais complexa a cada árvore que se adiciona. Por outro lado, ao iniciar a agregação de funções lineares do formulário a_0 + a_1 * x_1 + ... + a_d * x_d, a função linear média resultante (após a agregação da inicialização) ainda possui a mesma forma funcional linear que a que você inicia (por exemplo, o 'aprendiz básico').
11134 Andre Holzner
1
@ Andrew Holzner - o que você diz verdade, mas, mas, mas ... fazer esse forrest aleatório é na verdade uma forma de regularização, em uma classe semelhante à do ridging. Vou lhe contar um segredo, uma árvore de regressão é na verdade um modelo linear - classe semelhante aos splines. ao colocar meu chapéu bayesiano, o regularizador aleatório de forrest provavelmente corresponderia aproximadamente aos anteriores de "espigão e laje" usados ​​no contexto bayesiano.
probabilityislogic
@probabilityislogic, você pode explicar?
Simon Kuang
Você pode pensar em árvores como o modelo linear . Z t é uma matriz de projeto que indica a qual nó terminal cada observação pertence à árvore t e θ t é o vetor correspondente das previsões do nó terminal. Qualquer árvore pode ser descrita desta maneira - escolher uma árvore é equivalente ao modelo linear padrão selectionin o espaço de Z t - da qual há 2 n possíveis cconfigurations "nó terminal" I pensam (onde n é o tamanho da amostra de treinamento). y=Ztθt+eZttθtZt2nn
probabilityislogic

Respostas:

5

Discordo parcialmente das respostas presentes, porque a floresta aleatória da metodologia baseia-se na introdução de variância (CARTs construídos em amostras com bootstrap + método de subespaço aleatório) para torná-las independentes. Depois de ter árvores ortogonais, a média de suas previsões tende (em muitos casos) a ser melhor do que a previsão da árvore média (devido à desigualdade de Jensen). Embora os CARTs tenham vantagens notáveis ​​quando sujeitos a esse tratamento, essa metodologia definitivamente se aplica a qualquer modelo, e os modelos lineares não são exceção. Aqui está um pacote R que é exatamente o que você está procurando. Apresenta um bom tutorial sobre como ajustá-los e interpretá-los e a bibliografia sobre o assunto: Modelos lineares generalizados aleatórios .

JEquihua
fonte
14

Para colocar a resposta do @ ziggystar em termos de jargão de aprendizado de máquina: a idéia por trás das técnicas de agregação de bootstrap (por exemplo, florestas aleatórias) é ajustar muitos modelos de viés baixo e alta variância aos dados com algum elemento de "aleatoriedade" ou "instabilidade". No caso de florestas aleatórias, a instabilidade é adicionada através da inicialização e da seleção de um conjunto aleatório de recursos para dividir cada nó da árvore. A média dessas árvores barulhentas, mas com pouco viés, alivia a alta variação de qualquer árvore individual.

Enquanto as árvores de regressão / classificação são modelos de "baixo viés, alta variação", os modelos de regressão linear são tipicamente o oposto - "alto viés, baixa variação". Assim, o problema que frequentemente se depara com modelos lineares é reduzir o viés, não a variação. A agregação de bootstrap simplesmente não é feita para fazer isso.

Um problema adicional é que o bootstrapping pode não fornecer "aleatoriedade" ou "instabilidade" suficiente em um modelo linear típico. Eu esperaria que uma árvore de regressão fosse mais sensível à aleatoriedade das amostras de bootstrap, já que cada folha normalmente contém apenas alguns pontos de dados. Além disso, as árvores de regressão podem ser estocásticas, dividindo a árvore em um subconjunto aleatório de variáveis ​​em cada nó. Consulte esta pergunta anterior para saber por que isso é importante: Por que as florestas aleatórias são divididas com base em m recursos aleatórios?

Tudo o que foi dito, você certamente pode usar a inicialização em modelos lineares [LINK] , e isso pode ser muito útil em determinados contextos. No entanto, a motivação é muito diferente das técnicas de agregação de inicialização.

Alex Williams
fonte
Obrigado pelos links e resposta. Se o método de aleatoriedade é útil para modelos de "baixo viés, alta variação", existem metodologias para lidar com o tipo oposto de modelos "viés alto, baixa variação"?
Rick Rick
Se você tem um modelo de viés baixo e alta variação, metodologias como ensacamento podem reduzir a variação com um ligeiro aumento no viés. Se você tem um viés alto, baixa variação, use um modelo com viés menor e maior variação - como uma regressão polinomial ou, geralmente, métodos de kernel.
Joe
10

kk

E aqui está o porquê de não ser tão atraente fazer algo "aleatório" com modelos lineares quanto com árvores de decisão:

É provável que uma grande árvore de decisão criada a partir de uma amostra grande super ajuste os dados, e o método de floresta aleatória combate esse efeito contando com o voto de muitas árvores pequenas.

A regressão linear, por outro lado, é um modelo que não é muito propenso a sobreajuste e, portanto, não é prejudicado treinando-o na amostra completa no início. E mesmo se você tiver muitas variáveis ​​regressivas, poderá aplicar outras técnicas, como regularização, para combater o overfitting.

ziggystar
fonte
0

k

X1,X2,...,XnBe(p)
p1-p
θ=1{p>0 0}
XEu=1θ=1θθ
BEuumas bumaggEung=Prob(Eun uma bootstrumap sumampeue X(1)=...=X(n)=0 0)>0 0,
θ=1

stans - Restabelecer Monica
fonte