As diferenças entre regressão logística aleatória e regressão logística de baunilha simples

12

Gostaria de saber as diferenças entre Regressão Logística Aleatória (RLR) e Regressão Logística Simples (LR), portanto, estou lendo um artigo "Seleção de Estabilidade" de Meinshausen, et al. ; no entanto, eu não entendo o que é RLR e quais são as diferenças entre RLR e LR.

Alguém poderia apontar o que eu deveria ler para entender a RLR? Ou existe um exemplo simples para começar?

Hendra Bunyamin
fonte
1
RLR não é um termo padrão. Por favor, defina o método
Frank Harrell
Obrigado @FrankHarrell ... O método vem de uma biblioteca de aprendizado do scikit .
Hendra Bunyamin
Agora que existe um novo site de troca de pilhas para aprendizado de máquina / Big Data, talvez essa pergunta esteja lá.
Placidia
4
@ Placidia Essa é uma boa sugestão. No entanto, sua própria resposta mostra por que essa pergunta pertence aqui: somos mais capazes de fornecer uma perspectiva equilibrada que caracterize e compare com precisão os aspectos estatísticos e de ML da pergunta. Embora seja possível que alguém no site "ciência de dados" contribua com essa resposta, minha experiência é que isso seria improvável.
whuber
3
Estou surpreso que o novo site seja chamado de ciência de dados, que é mais da metade sobre estatísticas, e é disso que trata este site.
Frank Harrell

Respostas:

17

Você pode querer verificar esta referência . O aprendizado do Sci-kit implementa regressão logística aleatória e o método é descrito lá.

Mas, para responder à sua pergunta, os dois métodos diferem amplamente em seus objetivos. A regressão logística é sobre o ajuste de um modelo e RLR é sobre a localização das variáveis ​​que entram no modelo.

A regressão logística de baunilha é um modelo linear generalizado. Para uma resposta binária, postulamos que as chances de log da probabilidade de resposta são uma função linear de vários preditores. Os coeficientes dos preditores são estimados usando a máxima verossimilhança e a inferência sobre os parâmetros é então baseada nas grandes propriedades da amostra do modelo. Para melhores resultados, normalmente assumimos que o modelo é bastante simples e bem compreendido. Sabemos quais variáveis ​​independentes afetam a resposta. Queremos estimar os parâmetros do modelo.

Obviamente, na prática, nem sempre sabemos quais variáveis ​​devem ser incluídas no modelo. Isso é especialmente verdadeiro em situações de aprendizado de máquina nas quais o número de variáveis ​​explicativas em potencial é enorme e seus valores são escassos.

Ao longo dos anos, muitas pessoas tentaram usar as técnicas de ajuste estatístico de modelos para fins de seleção de variáveis ​​(leia-se "característica"). No aumento do nível de confiabilidade:

  1. Ajuste um grande modelo e elimine variáveis ​​com estatísticas não significativas da Wald. Nem sempre produz o melhor modelo.
  2. Veja todos os modelos possíveis e escolha o "melhor". Computacionalmente intensivo e não robusto.
  3. Ajuste o modelo grande com um termo de penalidade L1 (estilo de laço). Variáveis ​​inúteis são descartadas no ajuste. Melhor, mas instável com matrizes esparsas.
  4. Método de randomização 3. Pegue subconjuntos aleatórios, ajuste um modelo penalizado para cada um e agrupe os resultados. Variáveis ​​que aparecem com frequência são selecionadas. Quando a resposta é binária, isso é regressão logística aleatória. Uma técnica semelhante pode ser obtida com dados contínuos e o modelo linear geral.
Placidia
fonte
1
+1 É um prazer ver uma pesquisa tão articulada, legível e informativa de uma metodologia geral.
whuber