Os métodos de seleção de variáveis algorítmicas passo a passo tendem a selecionar modelos que enviesam mais ou menos todas as estimativas em modelos de regressão ( s e seus SEs, valores de p , estatísticas F , etc.) e têm a probabilidade de excluir preditores verdadeiros como incluir preditores falsos de acordo com uma literatura de simulação razoavelmente madura.
O LASSO sofre da mesma maneira específica quando usado para selecionar variáveis?
11.4.1 Variable-Selection Consistency for the Lasso
Respostas:
A interpretação da probabilidade de expressões freqüentes de probabilidade, valores de p etc., para um modelo LASSO e regressão passo a passo, não está correta.
Essas expressões superestimam a probabilidade. Por exemplo, um intervalo de confiança de 95% para algum parâmetro deve dizer que você tem uma probabilidade de 95% de que o método resultará em um intervalo com a variável de modelo verdadeira dentro desse intervalo.
No entanto, os modelos ajustados não resultam de uma única hipótese típica e, em vez disso, escolhemos (selecionamos dentre muitos possíveis modelos alternativos) quando fazemos regressão passo a passo ou regressão LASSO.
Não faz muito sentido avaliar a correção dos parâmetros do modelo (especialmente quando é provável que o modelo não esteja correto).
Exemplo: o gráfico abaixo, que exibe os resultados de um modelo de brinquedo para algum sinal que é uma soma linear de 10 curvas gaussianas (isso pode, por exemplo, se assemelhar a uma análise em química em que um sinal para um espectro é considerado uma soma linear de vários componentes). O sinal das 10 curvas é equipado com um modelo de 100 componentes (curvas Gaussianas com média diferente) usando LASSO. O sinal é bem estimado (compare as curvas vermelha e preta que estão razoavelmente próximas). Porém, os coeficientes subjacentes reais não são bem estimados e podem estar completamente errados (compare as barras vermelha e preta com pontos que não são iguais). Veja também os últimos 10 coeficientes:
O modelo LASSO seleciona coeficientes muito aproximados, mas da perspectiva dos próprios coeficientes, isso significa um grande erro quando se estima que um coeficiente que não seja zero e zero e se estima que um coeficiente vizinho que seja zero. diferente de zero. Qualquer intervalo de confiança para os coeficientes faria muito pouco sentido.
Conexão LASSO
Montagem passo a passo
Como comparação, a mesma curva pode ser ajustada com um algoritmo stepwise que leva à imagem abaixo. (com problemas semelhantes aos dos coeficientes, mas não coincidem)
Mesmo quando você considera a precisão da curva (e não os parâmetros, que no ponto anterior fica claro que isso não faz sentido), você precisa lidar com o ajuste excessivo. Ao executar um procedimento de ajuste com o LASSO, você utiliza dados de treinamento (para ajustar os modelos com parâmetros diferentes) e dados de teste / validação (para ajustar / descobrir qual é o melhor parâmetro), mas você também deve usar um terceiro conjunto separado de dados de teste / validação para descobrir o desempenho dos dados.
Um valor-p ou algo semelhante não funcionará porque você está trabalhando em um modelo ajustado que é uma escolha diferente e diferente (graus de liberdade muito maiores) do método de ajuste linear regular.
Eu pensei que o principal motivo para usar o LASSO no lugar da regressão passo a passo é que o LASSO permite uma seleção de parâmetros menos gananciosa, menos influenciada pela multicolinearidade. (mais diferenças entre o LASSO e o stepwise: superioridade do LASSO em relação à seleção direta / eliminação retroativa em termos de erro de previsão de validação cruzada do modelo )
Código para a imagem de exemplo
fonte
- Frank Harrell
- Adrian
- Adrian
fonte