Estou realmente interessado no procedimento de rede elástica para retração / seleção de preditores. Parece muito poderoso.
Mas, do ponto de vista científico, não sei bem o que fazer quando obtive os coeficientes. Que pergunta estou respondendo? Essas são as variáveis que mais influenciam esse resultado e esses são os coeficientes que fornecem a melhor razão de variância / viés durante a validação?
Essa é, obviamente, uma abordagem muito descritiva / preditiva em comparação com a abordagem clássica de p / intervalos de confiança. A estimativa inferencial está sendo estudada agora pela Tibshirani & Co., mas ainda é experimental.
Algumas pessoas estão usando as variáveis escolhidas pela rede elástica para realizar análises inferenciais clássicas, mas isso eliminaria a limitação na variância trazida pela técnica.
Outro problema é que, como os parâmetros lambda e alfa para a rede elástica são escolhidos por validação cruzada, eles estão sujeitos a variabilidade aleatória. Portanto, toda vez que você executa (por exemplo) cv.glmnet (), você seleciona um subconjunto de preditores ligeiramente diferente, com sempre coeficientes diferentes.
Pensei em resolver isso considerando o lambda e o alfa certos como variáveis aleatórias e execute novamente a etapa de validação cruzada n vezes para obter uma distribuição desses parâmetros. Dessa forma, para cada preditor, eu teria o número de ocorrências e para todos os coeficientes, teria a distribuição dos resultados. Isso deve me dar resultados mais generalizáveis com estatísticas de intervalos (como sd dos coeficientes). Também seria interessante ver se o lambda e o alfa escolhidos dessa maneira se aproximam de alguma distribuição assintoticamente, pois isso abriria caminho para algum teste de inferência (mas eu não sou estatístico, então não devo falar sobre coisas que não uso). entender completamente).
Então, finalmente, minha pergunta é: depois de obter os preditores e os coeficientes de uma rede elástica com validação cruzada baseada em alfa e lambda, qual e como você deve apresentar esses resultados? Como você deve discuti-los? o que aprendemos? Que hipótese / generalização estamos confundindo?
Respostas:
Esses métodos - o laço e a rede elástica - nasceram dos problemas de seleção e previsão de recursos. É através dessas duas lentes que acho que uma explicação pode ser encontrada.
Matthew Gunn explica muito bem em sua resposta que esses dois objetivos são distintos e freqüentemente assumidos por pessoas diferentes. No entanto, felizmente para nós, os métodos nos quais estamos interessados podem ter um bom desempenho em ambas as arenas.
Seleção de Recursos
Primeiro, vamos falar sobre a seleção de recursos. Primeiro devemos motivar a rede elástica da perspectiva do laço. Ou seja, para citar Hastie e Zou : "Se existe um grupo de variáveis entre as quais as correlações aos pares são muito altas, o laço tende a selecionar apenas uma variável do grupo e não se importa com a que está selecionada". Este é um problema, por exemplo, porque significa que não é provável que encontremos um elemento do verdadeiro suporte usando o laço - apenas um altamente correlacionado com ele. (O artigo menciona que isso está comprovado no artigo LARS, que ainda não li.) A dificuldade de recuperação do suporte na presença de correlação também é apontada por Wainwright ,0,5 quando houver alta correlação entre o verdadeiro suporte e seu complemento.
Agora, a penalidade de l2 na rede elástica incentiva características que têm coeficientes tratados como indistinguíveis apenas pela penalidade de perda e l1 a ter coeficiente estimado igual. Podemos ver isso vagamente observando que satisfaz. Devido a isso, a rede elástica faz com que seja menos provável que 'acidentalmente' desapareça uma estimativa de coeficiente que está no verdadeiro suporte. Ou seja, é mais provável que o suporte verdadeiro esteja contido no suporte estimado. Isso é bom! Isso significa que há mais descobertas falsas, mas esse é um preço que a maioria das pessoas está disposta a pagar.| a | = | b |( a , b ) = argminuma′, b′: c = | uma′| + | b′|( a′)2+ ( b′)2 | a | = | b |
Como um aparte, vale ressaltar que o fato de que recursos altamente correlacionados tenderão a ter estimativas de coeficientes muito semelhantes torna possível detectar grupos de recursos dentro do suporte estimado que influenciam a resposta da mesma forma.
Predição
Agora, passamos à previsão. Como Matthew Gunn aponta, a escolha de parâmetros de ajuste por meio da validação cruzada cria um objetivo de escolher um modelo com erro de previsão mínimo. Como qualquer modelo selecionado pelo laço pode ser selecionado pela rede elástica (assumindo ), faz sentido que a rede elástica seja capaz de encontrar um modelo que preveja melhor que o laço.α = 1
Lederer, Yu e Gaynanova mostram, sob nenhuma premissa sobre os recursos, que o laço e a rede elástica podem ter seu erro de previsão de l2 limitado pela mesma quantidade. Não é necessariamente verdade que seus limites são estreitos, mas isso pode ser interessante notar, pois as desigualdades dos oráculos parecem ser uma maneira padrão na literatura estatística de quantificar o desempenho preditivo dos estimadores - talvez porque as distribuições sejam tão complicadas! Também vale a pena notar que Lederer (1) (2) tem alguns trabalhos sobre previsões de laço na presença de características correlatas.
Sumário
Em resumo, os problemas de interesse são o verdadeiro suporte dentro do suporte e previsão estimados. Para recuperação de suporte, há garantias rigorosamente comprovadas (por meio de Wainwright) de que o laço seleciona os recursos corretos para estar no modelo sob premissas de baixa correlação entre o suporte verdadeiro e seu complemento. No entanto, na presença de correlação, podemos voltar à rede elástica para ter mais chances de selecionar os recursos no verdadeiro suporte entre os que ele seleciona. (Observe que precisamos selecionar cuidadosamente os parâmetros de ajuste aqui.) E, para prever quando escolhemos o parâmetro de ajuste por meio da validação cruzada, faz sentido intuitivo que a rede elástica tenha um desempenho melhor que o laço - especialmente na presença de correlação .
Deixando de lado a previsão e alguma formalidade, o que aprendemos? Aprendemos sobre o verdadeiro apoio.
Intervalos de confiança
Vale ressaltar que muita coisa mudou nos últimos 2 anos no que diz respeito à inferência válida para o laço. Em particular, o trabalho de Lee, Sun, Sun e Taylor fornece inferência exata para os coeficientes do laço, dependendo do modelo selecionado. (Os resultados da inferência no laço para os coeficientes verdadeiros existiam no momento da publicação do OP e estão bem resumidos no artigo vinculado.)
fonte
O que você está fazendo com elástico, crista ou laço, usando a validação cruzada para escolher parâmetros de regularização, está ajustando alguma forma linear para otimizar a previsão . Por que esses parâmetros específicos de regularização? Porque eles funcionam melhor para prever novos dados. Reduzir as estimativas do coeficiente para zero, introduzir viés (como é feito em Ridge ou Lasso) pode reduzir o ajuste excessivo e a variação de retração . A ideia é que os parâmetros da penalidade atinjam o equilíbrio certo para otimizar a previsão de novos dados.
Imagine que o processo de geração de dados é:
Seja nossa estimativa de parâmetros e seja nossa previsão para observação p y jjβ^ β y^j j
Como você deve apresentar seus resultados? Depende da sua pergunta de pesquisa subjacente! Você pode dar um passo atrás e pensar profundamente sobre qual pergunta você está tentando responder. Com o que seu público se importa? O que você está tentando fazer?
É importante distinguir entre dois tipos de perguntas de pesquisa:
Desligar a máquina prateleira técnicas de aprendizagem pode ser extremamente poderosa para o primeiro, problemas de previsão. Porém, como você parece reconhecer, as técnicas padrão de aprendizado de máquina de prateleira podem ser extremamente problemáticas para , problemas de estimativa de parâmetros: βy^ β^
E, como você reconhece, pode haver problemas na interpretação de por que algumas parametrizações de aprendizado de máquina funcionam. Seu público está confortável com uma caixa preta de previsão? Ou é como a previsão funciona central na sua pergunta?
Lasso e Ridge: razões clássicas para usá-los
Você pode usar uma rede elástica para aprendizado de máquina clássico, problemas de previsão, situações em que sua principal preocupação é . Em certo sentido, a regularização permite incluir mais preditores, mas ainda assim a sobreajuste sob controle.y^
Você pode usar a regularização para evitar o ajuste excessivo. Por exemplo. A regressão de crista no contexto do ajuste da curva polinomial pode funcionar bastante bem.
Como @Benjamin aponta em sua resposta, Lasso também pode ser usado para seleção de variáveis. Sob certas condições de regularidade, Lasso seleciona consistentemente o modelo apropriado: coeficientes irrelevantes serão definidos como zero.
Os e penalidades, e do laço de Ridge, respectivamente, o coeficiente de polarização estima para zero. Se o viés for grande, isso pode ser um problema sério se você estiver tentando interpretar estimativas de coeficiente. E para obter estimativas de erro padrão, você precisa fazer algo como inicialização; não há soluções simples de formulário fechado (que eu saiba). Ridge, laço e rede elástica têm semelhanças com a regressão OLS regular, mas a regularização e a seleção de variáveis tornam a inferência bastante diferente ...L 2eu1 L2
O que eu continuo voltando é que é bastante difícil interpretar os resultados da regressão de cordilheira, laço ou rede elástica sem um pouco mais de contexto do que você está tentando descobrir!
O professor Sendhil Mullainathan fez uma palestra sobre aprendizado de máquina na reunião da AFA de janeiro de 2017 que motivou partes deste post.
fonte