Eu estava lendo este artigo relacionado à rede elástica. Eles dizem que usam rede elástica porque, se usarmos o Lasso, tende a selecionar apenas um preditor entre os preditores altamente correlacionados. Mas não é isso que queremos. Quero dizer, isso nos salva dos problemas da multicolinearidade, não é?
Suponha que dois preditores tenham um forte efeito na resposta, mas estejam altamente correlacionados na amostra a partir da qual você constrói seu modelo. Se você retirar um do modelo, ele não será bom para amostras de populações semelhantes nas quais os preditores não estão altamente correlacionados.
Se você deseja melhorar a precisão de suas estimativas de coeficiente na presença de multicolinearidade, é necessário introduzir um pequeno viés, compensando-o por uma redução maior na variação. Uma maneira é remover completamente os preditores - com o LASSO ou, antigamente, com métodos passo a passo -, que está definindo suas estimativas de coeficiente como zero. Outra é desviar um pouco todas as estimativas - com regressão de crista, ou, antigamente, com os primeiros componentes principais. Uma desvantagem do primeiro é que é muito inseguro se o modelo será usado para prever respostas para padrões de preditores distantes daquelas que ocorreram na amostra original, pois os preditores tendem a ser excluídos apenas por não serem muito utilizados em conjunto com outros, quase colineares, preditores. (Não que a extrapolação seja totalmente segura.) A rede elástica é uma mistura dos dois, como explica @ user12436, e tende a manter grupos de preditores correlacionados no modelo.
Porque o modelo está faltando um preditor importante.
Scortchi - Reinstate Monica
2
Se dois preditores são correlacionados em uma amostra representativa de uma população, eles não devem ser correlacionados em outra amostra? se você usa um modelo com dados "distantes dos que ocorreram na amostra original", esse não é um uso inválido de qualquer modelo?
Matthew Drury
@MatthewDrury: Bem, se o modelo está "certo" - se não há fatores de confusão não observados que valham a pena se preocupar, e se a forma funcional é extrapolável -, a distribuição de preditores na amostra não importa (embora, é claro, ela determine a precisão de estimativas e previsões). Portanto, em um extremo, você pode ter um modelo mecanicista construído com base em dados de um estudo experimental bem controlado sobre fatores causais; no outro, um modelo empírico construído com base em dados coletados de um estudo observacional sobre várias variáveis meramente fáceis de medir.
Scortchi - Reinstate Monica
A frase: " Nos velhos tempos, os métodos passo a passo . Me fez sorrir: D (Obvious +1, esta é uma boa resposta)
usεr11852
4
Mas não é isso que queremos. Quero dizer, isso nos salva dos problemas da multicolinearidade, não é?
Sim! e não. A rede elástica é uma combinação de duas técnicas de regularização, a regularização L2 (usada na regressão de crista) e a regularização L1 (usada no LASSO).
Lasso produz modelos naturalmente esparsos, ou seja, a maioria dos coeficientes variáveis será reduzida para 0 e efetivamente excluída do modelo. Portanto, as variáveis menos significativas são reduzidas, antes de diminuir as outras, ao contrário do cume, onde todas as variáveis são reduzidas, enquanto nenhuma delas é realmente reduzida a 0.
A rede elástica usa uma combinação linear de ambas as abordagens. O caso específico mencionado por Hastie ao discutir o método foi no caso de p grande, pequeno n. O que significa: dados de alta dimensão com relativamente poucas observações. Nesse caso, o LASSO (supostamente) selecionaria apenas no máximo n variáveis, enquanto elimina todo o resto, consulte o artigo de Hastie .
Ele sempre dependerá do conjunto de dados real, mas você pode imaginar que nem sempre o limite superior do número de variáveis em seus modelos é igual ou inferior ao número de suas observações.
Mas e a multicolinearidade. A rede elástica permite selecionar recursos multi-colineares, o que não é bom, não é?
user31820
Eu não acho que muitos conjuntos de dados reais tenham variáveis perfeitamente multicolineares. Variáveis altamente correlacionadas podem ser quase colineares, o que ainda é um problema, mas que você pode estar disposto a aceitar, caso sejam importantes para o seu modelo.
Lasso e Elastic Net são métodos eficientes para executar a seleção de variáveis ou recursos em configurações de dados de alta dimensão (muito mais variáveis que pacientes ou amostras; por exemplo, 20.000 genes e 500 amostras de tumores).
Foi demonstrado (por Hastie e outros) que a Elastic Net pode superar o Lasso quando os dados são altamente correlacionados. Lasso pode apenas selecionar uma das variáveis correlacionadas e não se importa com qual delas está selecionada. Isso pode ser um problema quando se deseja validar as variáveis selecionadas em um conjunto de dados independente. A variável selecionada por Lasso pode não ser o melhor preditor entre todas as variáveis correlacionadas. A Elastic Net resolve esse problema calculando a média de variáveis altamente correlacionadas.
Sim! e não. A rede elástica é uma combinação de duas técnicas de regularização, a regularização L2 (usada na regressão de crista) e a regularização L1 (usada no LASSO).
Lasso produz modelos naturalmente esparsos, ou seja, a maioria dos coeficientes variáveis será reduzida para 0 e efetivamente excluída do modelo. Portanto, as variáveis menos significativas são reduzidas, antes de diminuir as outras, ao contrário do cume, onde todas as variáveis são reduzidas, enquanto nenhuma delas é realmente reduzida a 0.
A rede elástica usa uma combinação linear de ambas as abordagens. O caso específico mencionado por Hastie ao discutir o método foi no caso de p grande, pequeno n. O que significa: dados de alta dimensão com relativamente poucas observações. Nesse caso, o LASSO (supostamente) selecionaria apenas no máximo n variáveis, enquanto elimina todo o resto, consulte o artigo de Hastie .
Ele sempre dependerá do conjunto de dados real, mas você pode imaginar que nem sempre o limite superior do número de variáveis em seus modelos é igual ou inferior ao número de suas observações.
fonte
Lasso e Elastic Net são métodos eficientes para executar a seleção de variáveis ou recursos em configurações de dados de alta dimensão (muito mais variáveis que pacientes ou amostras; por exemplo, 20.000 genes e 500 amostras de tumores).
Foi demonstrado (por Hastie e outros) que a Elastic Net pode superar o Lasso quando os dados são altamente correlacionados. Lasso pode apenas selecionar uma das variáveis correlacionadas e não se importa com qual delas está selecionada. Isso pode ser um problema quando se deseja validar as variáveis selecionadas em um conjunto de dados independente. A variável selecionada por Lasso pode não ser o melhor preditor entre todas as variáveis correlacionadas. A Elastic Net resolve esse problema calculando a média de variáveis altamente correlacionadas.
fonte