Quão defensável é escolher

11

Quando eu determino meu lambda através da validação cruzada, todos os coeficientes se tornam zero. Mas tenho algumas dicas da literatura de que alguns dos preditores devem definitivamente afetar o resultado. É besteira escolher arbitrariamente lambda para que haja a escassez que se deseja?

Quero selecionar os 10 principais preditores dentre 135 para um modelo cox e, infelizmente, os tamanhos de efeito são pequenos.

miura
fonte
6
Parece que você deve usar um informativo prévio, pois possui informações não baseadas em dados.
probabilityislogic
No fundo, acho que isso seria correto, infelizmente ainda não tenho a capacidade estatística de começar por onde começar.
001 miura
1
Você parece confundir duas coisas diferentes: (1) Se a literatura lhe diz para usar preditores específicos, inclua-os em todos os modelos. (2) Em vez disso, você parece reinterpretar isso como indicando que deve selecionar um certo número dentre muitos preditores, independentemente de incluir os específicos mencionados na literatura. Você poderia esclarecer o que realmente está tentando realizar?
whuber

Respostas:

4

p(βi)=λ2exp(λ|βi|),
λ
Néstor
fonte
3

Existe uma boa maneira de executar o LASSO, mas use um número fixo de preditores. É a regressão de menor ângulo (LAR ou LARS) descrita no artigo de Efron. Durante o procedimento iterativo, ele cria vários modelos lineares, cada novo possui mais um preditor, para que você possa selecionar um com o número desejado de preditores.

l1l2

Alexey Zaytsev
fonte
3
Embora o LARS e o laço estejam intimamente relacionados, para um número fixo de preditores, eles podem até não incluir as mesmas variáveis. Pode-se escolher um valor de penalidade para o laço que forneça o número desejado de preditores, mas a escolha em nenhum dos casos será única! Portanto, o PO ainda não forneceu um procedimento bem definido, que faz parte do problema. Para o LARS, existe o bom benefício de que os valores das penalidades que produzem um certo número de preditores formam um intervalo; portanto, escolher um ponto de extremidade (qual?) Ou ponto médio ou algum outro critério é um pouco mais fácil.
cardeal
1
Sim, é verdade que o LARS e o LASSO não são idênticos, mas uma simples modificação do LARS sugerida pelos autores no artigo original pode ser introduzida para obter soluções LASSO usando a técnica baseada no LARS.
Alexey Zaytsev
Sim, Alexey, isso é verdade. Eu acho que meu comentário gira em torno do porquê mudar para o LARS em primeiro lugar. Geralmente, pode-se escolher com a mesma facilidade um valor do parâmetro de penalidade para o laço que produz o número desejado de preditores. O ponto principal que não foi abordado é como se deve fazer uma seleção única e as consequências que podem ter no caso do OP. :)
cardeal
2

|S|=|{j:βj0}|β|S|2p|S|(p|S|) modelos, que é muito menos.

A teoria do laço depende do parâmetro de regularização ser suficientemente grande para tornar o modelo selecionado suficientemente escasso. Pode ser que seus 10 recursos sejam muitos ou muito poucos, pois não é trivial transformar um limite inferior em em um limite superior em.λλ|S|

Seja nossa estimativa baseada em dados para e coloque . Então, talvez você esteja tentando garantir que possa recuperar pelo menos os recursos relevantes? Ou talvez você esteja tentando estabelecer esse para saber que os recursos encontrados valem a pena? Nesses casos, seu procedimento seria mais justificado se você tivesse informações anteriores sobre os tamanhos relativos de .β^βS^={j:β^j0}SS^S^SS

Além disso, observe que você pode deixar alguns coeficientes sem compensação ao executar o laço, por exemplo glmnet.

user795305
fonte