Análise elástica / cume / laço, e então?

19

Estou realmente interessado no procedimento de rede elástica para retração / seleção de preditores. Parece muito poderoso.

Mas, do ponto de vista científico, não sei bem o que fazer quando obtive os coeficientes. Que pergunta estou respondendo? Essas são as variáveis ​​que mais influenciam esse resultado e esses são os coeficientes que fornecem a melhor razão de variância / viés durante a validação?

Essa é, obviamente, uma abordagem muito descritiva / preditiva em comparação com a abordagem clássica de p / intervalos de confiança. A estimativa inferencial está sendo estudada agora pela Tibshirani & Co., mas ainda é experimental.

Algumas pessoas estão usando as variáveis ​​escolhidas pela rede elástica para realizar análises inferenciais clássicas, mas isso eliminaria a limitação na variância trazida pela técnica.

Outro problema é que, como os parâmetros lambda e alfa para a rede elástica são escolhidos por validação cruzada, eles estão sujeitos a variabilidade aleatória. Portanto, toda vez que você executa (por exemplo) cv.glmnet (), você seleciona um subconjunto de preditores ligeiramente diferente, com sempre coeficientes diferentes.

Pensei em resolver isso considerando o lambda e o alfa certos como variáveis ​​aleatórias e execute novamente a etapa de validação cruzada n vezes para obter uma distribuição desses parâmetros. Dessa forma, para cada preditor, eu teria o número de ocorrências e para todos os coeficientes, teria a distribuição dos resultados. Isso deve me dar resultados mais generalizáveis ​​com estatísticas de intervalos (como sd dos coeficientes). Também seria interessante ver se o lambda e o alfa escolhidos dessa maneira se aproximam de alguma distribuição assintoticamente, pois isso abriria caminho para algum teste de inferência (mas eu não sou estatístico, então não devo falar sobre coisas que não uso). entender completamente).

Então, finalmente, minha pergunta é: depois de obter os preditores e os coeficientes de uma rede elástica com validação cruzada baseada em alfa e lambda, qual e como você deve apresentar esses resultados? Como você deve discuti-los? o que aprendemos? Que hipótese / generalização estamos confundindo?

Bakaburg
fonte
Eu acho que isso é excessivamente amplo / pouco claro para responder adequadamente. Em alguns casos, acho suas declarações pouco claras (por exemplo, o que você quer dizer com " mas isso eliminaria a limitação de variação trazida pela técnica ") e, em outros casos, enganada (por exemplo, " toda vez que você executa (por exemplo)" cv.glmnet () você selecionará um subconjunto ligeiramente diferente de preditores com coeficientes sempre diferentes "- esse não é o caso todas as vezes e, mesmo quando ocorre, geralmente não é catastrófico se o CV foi feito corretamente.)
usεr11852 diz Reinstate Monic
uma motivação que eu vi da rede elástica relacionou-a ao agrupamento variável (na seção 2.3 do papel da rede elástica zou, hastie), que é expandida com mais detalhes (através de um método um pouco diferente) aqui: ncbi.nlm.nih .gov / pmc / articles / PMC4011669
user795305

Respostas:

8

Esses métodos - o laço e a rede elástica - nasceram dos problemas de seleção e previsão de recursos. É através dessas duas lentes que acho que uma explicação pode ser encontrada.

Matthew Gunn explica muito bem em sua resposta que esses dois objetivos são distintos e freqüentemente assumidos por pessoas diferentes. No entanto, felizmente para nós, os métodos nos quais estamos interessados ​​podem ter um bom desempenho em ambas as arenas.

Seleção de Recursos

Primeiro, vamos falar sobre a seleção de recursos. Primeiro devemos motivar a rede elástica da perspectiva do laço. Ou seja, para citar Hastie e Zou : "Se existe um grupo de variáveis ​​entre as quais as correlações aos pares são muito altas, o laço tende a selecionar apenas uma variável do grupo e não se importa com a que está selecionada". Este é um problema, por exemplo, porque significa que não é provável que encontremos um elemento do verdadeiro suporte usando o laço - apenas um altamente correlacionado com ele. (O artigo menciona que isso está comprovado no artigo LARS, que ainda não li.) A dificuldade de recuperação do suporte na presença de correlação também é apontada por Wainwright ,0.5 quando houver alta correlação entre o verdadeiro suporte e seu complemento.

Agora, a penalidade de l2 na rede elástica incentiva características que têm coeficientes tratados como indistinguíveis apenas pela penalidade de perda e l1 a ter coeficiente estimado igual. Podemos ver isso vagamente observando que satisfaz. Devido a isso, a rede elástica faz com que seja menos provável que 'acidentalmente' desapareça uma estimativa de coeficiente que está no verdadeiro suporte. Ou seja, é mais provável que o suporte verdadeiro esteja contido no suporte estimado. Isso é bom! Isso significa que há mais descobertas falsas, mas esse é um preço que a maioria das pessoas está disposta a pagar.| a | = | b |(a,b)=argmina,b:c=|a|+|b|(a)2+(b)2|a|=|b|

Como um aparte, vale ressaltar que o fato de que recursos altamente correlacionados tenderão a ter estimativas de coeficientes muito semelhantes torna possível detectar grupos de recursos dentro do suporte estimado que influenciam a resposta da mesma forma.

Predição

Agora, passamos à previsão. Como Matthew Gunn aponta, a escolha de parâmetros de ajuste por meio da validação cruzada cria um objetivo de escolher um modelo com erro de previsão mínimo. Como qualquer modelo selecionado pelo laço pode ser selecionado pela rede elástica (assumindo ), faz sentido que a rede elástica seja capaz de encontrar um modelo que preveja melhor que o laço.α=1

Lederer, Yu e Gaynanova mostram, sob nenhuma premissa sobre os recursos, que o laço e a rede elástica podem ter seu erro de previsão de l2 limitado pela mesma quantidade. Não é necessariamente verdade que seus limites são estreitos, mas isso pode ser interessante notar, pois as desigualdades dos oráculos parecem ser uma maneira padrão na literatura estatística de quantificar o desempenho preditivo dos estimadores - talvez porque as distribuições sejam tão complicadas! Também vale a pena notar que Lederer (1) (2) tem alguns trabalhos sobre previsões de laço na presença de características correlatas.

Sumário

Em resumo, os problemas de interesse são o verdadeiro suporte dentro do suporte e previsão estimados. Para recuperação de suporte, há garantias rigorosamente comprovadas (por meio de Wainwright) de que o laço seleciona os recursos corretos para estar no modelo sob premissas de baixa correlação entre o suporte verdadeiro e seu complemento. No entanto, na presença de correlação, podemos voltar à rede elástica para ter mais chances de selecionar os recursos no verdadeiro suporte entre os que ele seleciona. (Observe que precisamos selecionar cuidadosamente os parâmetros de ajuste aqui.) E, para prever quando escolhemos o parâmetro de ajuste por meio da validação cruzada, faz sentido intuitivo que a rede elástica tenha um desempenho melhor que o laço - especialmente na presença de correlação .

Deixando de lado a previsão e alguma formalidade, o que aprendemos? Aprendemos sobre o verdadeiro apoio.

Intervalos de confiança

Vale ressaltar que muita coisa mudou nos últimos 2 anos no que diz respeito à inferência válida para o laço. Em particular, o trabalho de Lee, Sun, Sun e Taylor fornece inferência exata para os coeficientes do laço, dependendo do modelo selecionado. (Os resultados da inferência no laço para os coeficientes verdadeiros existiam no momento da publicação do OP e estão bem resumidos no artigo vinculado.)

user795305
fonte
Seria correto supor que as estimativas de covariáveis ​​regularizadas são provavelmente mais semelhantes às que poderíamos encontrar repetindo um estudo? Ou seja, como a regularização ajuda a minimizar o erro de previsão fora da amostra, pode ajudar a minimizar a diferença na estimativa da amostra e fora da amostra?
Bakaburg 19/02
1
@ Bakaburg, sim, isso faz sentido para dizer. A regularização cria estimadores com menor variação.
user795305
9

O que você está fazendo com elástico, crista ou laço, usando a validação cruzada para escolher parâmetros de regularização, está ajustando alguma forma linear para otimizar a previsão . Por que esses parâmetros específicos de regularização? Porque eles funcionam melhor para prever novos dados. Reduzir as estimativas do coeficiente para zero, introduzir viés (como é feito em Ridge ou Lasso) pode reduzir o ajuste excessivo e a variação de retração . A ideia é que os parâmetros da penalidade atinjam o equilíbrio certo para otimizar a previsão de novos dados.

Imagine que o processo de geração de dados é:

yi=f(xi,β)+ϵi

Seja nossa estimativa de parâmetros e seja nossa previsão para observação p y jjβ^βy^jj

Como você deve apresentar seus resultados? Depende da sua pergunta de pesquisa subjacente! Você pode dar um passo atrás e pensar profundamente sobre qual pergunta você está tentando responder. Com o que seu público se importa? O que você está tentando fazer?

  • Predição?
  • Estimar coeficientes?
  • Seleção variável?

É importante distinguir entre dois tipos de perguntas de pesquisa:

  1. Perguntas nas quais você se preocupa predominantemente com previsões, ou seja, com as quaisy^j
  2. Perguntas nas quais você se preocupa predominantemente com estimativas de parâmetros .β^

Desligar a máquina prateleira técnicas de aprendizagem pode ser extremamente poderosa para o primeiro, problemas de previsão. Porém, como você parece reconhecer, as técnicas padrão de aprendizado de máquina de prateleira podem ser extremamente problemáticas para , problemas de estimativa de parâmetros: βy^β^

  • Em uma configuração de alta dimensão, muitas parametrizações diferentes fornecerão as mesmas previsões . Se o número de parâmetros for alto em relação ao número de observações , talvez você não consiga estimar bem nenhum parâmetro individual. kny^kn
  • Algoritmos treinados em dobras diferentes podem ter estimativas de parâmetros significativamente diferentes.
  • A ênfase no aprendizado de máquina está na previsão, não na estimativa consistente dos efeitos causais. (Isso contrasta com a econometria, onde normalmente a questão principal é a estimativa consistente dos efeitos causais). A previsão, estimando alguma forma funcional, é diferente de estimar a causa. Os níveis policiais podem ser um bom indicador dos níveis de criminalidade, e isso não significa que a polícia os cause.

E, como você reconhece, pode haver problemas na interpretação de por que algumas parametrizações de aprendizado de máquina funcionam. Seu público está confortável com uma caixa preta de previsão? Ou é como a previsão funciona central na sua pergunta?

Lasso e Ridge: razões clássicas para usá-los

  • Você pode usar uma rede elástica para aprendizado de máquina clássico, problemas de previsão, situações em que sua principal preocupação é . Em certo sentido, a regularização permite incluir mais preditores, mas ainda assim a sobreajuste sob controle.y^

  • Você pode usar a regularização para evitar o ajuste excessivo. Por exemplo. A regressão de crista no contexto do ajuste da curva polinomial pode funcionar bastante bem.

  • Como @Benjamin aponta em sua resposta, Lasso também pode ser usado para seleção de variáveis. Sob certas condições de regularidade, Lasso seleciona consistentemente o modelo apropriado: coeficientes irrelevantes serão definidos como zero.

Os e penalidades, e do laço de Ridge, respectivamente, o coeficiente de polarização estima para zero. Se o viés for grande, isso pode ser um problema sério se você estiver tentando interpretar estimativas de coeficiente. E para obter estimativas de erro padrão, você precisa fazer algo como inicialização; não há soluções simples de formulário fechado (que eu saiba). Ridge, laço e rede elástica têm semelhanças com a regressão OLS regular, mas a regularização e a seleção de variáveis ​​tornam a inferência bastante diferente ...L 2L1L2

O que eu continuo voltando é que é bastante difícil interpretar os resultados da regressão de cordilheira, laço ou rede elástica sem um pouco mais de contexto do que você está tentando descobrir!


O professor Sendhil Mullainathan fez uma palestra sobre aprendizado de máquina na reunião da AFA de janeiro de 2017 que motivou partes deste post.

Matthew Gunn
fonte
3
Este tipo de pensamento é falho na minha opinião. É baseado no pressuposto de que o fenômeno subjacente é simples o suficiente para ser compreendido por um ser humano. Modelos de alta dimensão são na maioria das vezes complexos demais para serem compreendidos pelos seres humanos, mas são muito adequados para inteligência artificial em larga escala. Na realidade, o melhor preditor é a melhor interpretação do fenômeno, se você pode compreendê-lo ou não.
Cagdas Ozgenc
2
@CagdasOzgenc Acho que é um ponto válido que algumas funções são terrivelmente complexas, difíceis de descrever para os seres humanos, mas compreensíveis e aprendíveis por máquinas (por exemplo, avaliação do tabuleiro de xadrez). Nessas situações, pode ser melhor levantar as mãos, nem tentar interpretar o que a máquina aprendeu. Por outro lado, há situações como testes de drogas em que há um efeito causal, alguma eficácia média que você está tentando estimar na presença de vários fatores de confusão, efeitos de seleção, etc. técnicas diferentes.
Matthew Gunn
1
y^