A seguir, é apresentado o gráfico do glmnet com alfa padrão (1, portanto, laço) usando o mtcars
conjunto de dados em R com mpg
o DV e outros como variáveis preditoras.
glmnet(as.matrix(mtcars[-1]), mtcars[,1])
O que podemos concluir desse gráfico em relação a diferentes variáveis, especialmente am
, cyl
e wt
(linhas vermelhas, pretas e azuis claras)? Como podemos descrever a saída de um relatório a ser publicado?
Eu pensei em seguir:
wt
é o preditor mais importante dempg
. Está afetando negativamente ompg
.cyl
é um fraco preditor negativo dempg
.am
pode ser um preditor positivo dempg
.Outras variáveis não são preditores robustos de
mpg
.
Obrigado por seus pensamentos sobre este assunto.
(Nota: cyl
é a linha preta que não atinge 0 até muito perto dela.)
Edit: A seguir é plot (mod, xvar = 'lambda') que mostra o eixo x na ordem inversa do plot acima:
(PS: Se você acha esta questão interessante / importante, faça um voto positivo;)
-1
emglmnet(as.matrix(mtcars[-1]), mtcars[,1])
.my_data_frame[1]
devolve uma trama de dados com uma coluna, enquanto quemy_data_frame[[1]]
emy_data_frame[, 1]
tanto um vector de retorno que é não "contido" por uma trama de dados. Matrizes, no entanto, são na verdade vetores apenas plana com um atributo especial que permite que R Para acessá-los como uma grade, por issomy_matrix[1]
,my_matrix[1, 1]
emy_matrix[[1]]
tudo vai retornar o primeiro elemento demy_matrix
.my_matrix[, 1
] retorna a primeira coluna.Respostas:
Acho que ao tentar interpretar esses gráficos de coeficientes por , ou, ajuda muito a saber como elas ficam em alguns casos simples. Em particular, como eles ficam quando a matriz de design do modelo não está correlacionada, versus quando há correlação no design.log ( λ ) ∑ i | β i |λ registro( λ ) ∑Eu| βEu|
Para esse fim, criei alguns dados correlacionados e não correlacionados para demonstrar:
Os dados
x_uncorr
possuem colunas não correlacionadasenquanto
x_corr
tem uma correlação predefinida entre as colunasAgora vamos examinar os gráficos de laço para ambos os casos. Primeiro os dados não correlacionados
Alguns recursos se destacam
Todos esses são fatos gerais que se aplicam à regressão do laço com dados não correlacionados e todos podem ser comprovados à mão (bom exercício!) Ou encontrados na literatura.
Agora vamos fazer dados correlatos
Você pode ler algumas coisas deste gráfico comparando-o com o caso não relacionado
Então agora vamos olhar para o seu gráfico a partir do conjunto de dados de carros e ler algumas coisas interessantes (reproduzi seu gráfico aqui para que esta discussão seja mais fácil de ler):
Uma palavra de advertência : escrevi a seguinte análise baseada na suposição de que as curvas mostram os coeficientes padronizados , neste exemplo eles não. Os coeficientes não padronizados não são adimensionais e comparáveis; portanto, nenhuma conclusão pode ser tirada deles em termos de importância preditiva. Para que a análise a seguir seja válida, finja que o gráfico é dos coeficientes padronizados e execute sua própria análise em caminhos de coeficientes padronizados.
wt
preditor parece muito importante. Ele entra no modelo primeiro e tem uma descida lenta e constante até seu valor final. Ele tem algumas correlações que o tornam um passeio levemente acidentado,am
em particular parece ter um efeito drástico quando entra.am
também é importante. Ele aparece mais tarde e está correlacionado comwt
, pois afeta a inclinação dewt
maneira violenta. Também está correlacionado comcarb
eqsec
, porque não vemos o amolecimento previsível da inclinação quando eles entram. Após estas quatro variáveis entraram no entanto, nós não ver o padrão uncorrelated agradável, por isso parece ser não correlacionado com todos os preditores no final.cyl
ewt
.cyl
é bastante fascinante. Ele entra em segundo, então é importante para modelos pequenos. Depois que outras variáveis, e especialmenteam
inseridas, não são mais tão importantes e sua tendência se inverte, sendo eventualmente removida. Parece que o efeito decyl
pode ser completamente capturado pelas variáveis que entram no final do processo. Se é mais apropriado usarcyl
ou o grupo complementar de variáveis, realmente depende da troca de viés e variância. Ter o grupo em seu modelo final aumentaria significativamente sua variação, mas pode ser que o viés mais baixo o compense!Essa é uma pequena introdução de como aprendi a ler informações desses gráficos. Eu acho que eles são muito divertidos!
Eu diria que o caso
wt
eam
são bem definidos, eles são importantes.cyl
é muito mais sutil, é importante em um modelo pequeno, mas não é relevante em um modelo grande.Eu não seria capaz de determinar o que incluir com base apenas na figura, que realmente deve ser respondida no contexto do que você está fazendo. Você poderia dizer que, se você deseja um modelo de três preditores, então
wt
,am
ecyl
são boas escolhas, pois são relevantes no grande esquema das coisas, e deve acabar tendo tamanhos de efeito razoáveis em um modelo pequeno. Isso se baseia na suposição de que você tenha algum motivo externo para desejar um pequeno modelo de três preditores.É verdade que esse tipo de análise examina todo o espectro de lambdas e permite selecionar relacionamentos em uma variedade de complexidades do modelo. Dito isto, para um modelo final, acho que ajustar um lambda ideal é muito importante. Na ausência de outras restrições, eu definitivamente usaria a validação cruzada para descobrir onde, ao longo desse espectro, é o lambda mais preditivo e, em seguida, utilizá-lo para um modelo final e uma análise final.
Por outro lado, às vezes existem restrições externas à complexidade de um modelo (custos de implementação, sistemas legados, minimalismo explicativo, interpretabilidade dos negócios, patrimônio estético) e esse tipo de inspeção pode realmente ajudá-lo a entender a forma de seus dados e as compensações que você está fazendo escolhendo um modelo menor que o ideal.
fonte