Minha situação:
- tamanho pequeno da amostra: 116
- variável de resultado binário
- lista longa de variáveis explicativas: 44
- variáveis explicativas não vieram do alto da minha cabeça; sua escolha foi baseada na literatura.
- a maioria dos casos na amostra e a maioria das variáveis têm valores ausentes.
Abordagem da seleção de recursos escolhida: LASSO
O pacote glmnet do R não me permite executar a rotina glmnet, aparentemente devido à existência de valores ausentes no meu conjunto de dados. Parece haver vários métodos para lidar com dados ausentes, então eu gostaria de saber:
- O LASSO impõe alguma restrição em termos do método de imputação que eu posso usar?
- Qual seria a melhor aposta para o método de imputação? Idealmente, preciso de um método que eu possa executar no SPSS (preferencialmente) ou R.
ATUALIZAÇÃO 1: Ficou claro a partir de algumas das respostas abaixo que eu lidei com questões mais básicas antes de considerar os métodos de imputação. Eu gostaria de adicionar aqui novas perguntas sobre isso. Na resposta que sugere a codificação como valor constante e a criação de uma nova variável para lidar com valores 'não aplicáveis' e o uso do laço de grupo:
- Você diria que, se eu usar o grupo LASSO, seria capaz de usar a abordagem sugerida para preditores contínuos também para preditores categóricos? Nesse caso, suponho que seria equivalente a criar uma nova categoria - desconfio que isso possa introduzir viés.
- Alguém sabe se o pacote glmnet do R suporta o grupo LASSO? Caso contrário, alguém sugeriria outro que faça isso em combinação com a regressão logística? Várias opções que mencionam o grupo LASSO podem ser encontradas no repositório CRAN, alguma sugestão das mais apropriadas para o meu caso? Talvez SGL?
Este é um acompanhamento de uma pergunta anterior minha ( como selecionar um subconjunto de variáveis da minha lista longa original para realizar análise de regressão logística? ).
OBS: Eu não sou estatístico.
fonte
Respostas:
Quando um preditor contínuo contém valores 'não aplicáveis', geralmente é útil codificá-lo usando duas variáveis:x
onde é uma constante, &c
Suponha que o preditor linear para a resposta seja dado por
que resolve
quando é medido, ou parax
quando x é 'não aplicável'. A escolha de é arbitrária e não afeta as estimativas da interceptação ou da inclinação ; descreve o efeito de ser 'não aplicável' comparado a quando .c β0 0 β1 1 β2 x x = c
Essa não é uma abordagem adequada quando a resposta varia de acordo com um valor desconhecido de : a variabilidade do grupo 'ausente' será inflada e as estimativas dos coeficientes de outros preditores são tendenciosas devido a confusão. Melhor imputar valores ausentes.x
O uso do LASSO apresenta dois problemas:
Você pode resolver esses dois usando em vez do LASSO grupo com um grupo compreendendo & : o pena -norm é aplicada ao -norm do orthonormalized matriz . (Os preditores categóricos são o filho do pôster do grupo LASSO - você apenas codificaria 'não aplicável' como um nível separado, como costuma ser feito em regressão não compensada.) Veja Meier et al (2008), JRSS B, 70 , 1, "The laço de grupo para regressão logística " & grplasso .x1 1 x2 eu1 1 eu2 [ x1 1→ x2→]
fonte
A imputação múltipla nunca é uma abordagem ruim. Você também pode obter a probabilidade máxima de informações completas. Boa revisão e comparação aqui e aqui .
Mas se você estiver seguindo esse caminho, considere usar Stan para ajustar a imputação do ML simultaneamente à sua regressão como um único modelo bayesiano, já que o LASSO é um caso especial de regressão bayesiana de qualquer maneira .
fonte
mi
que pode ajudá-lo.Amelia
emice
.O comando CATREG no Statistics lida com dados ausentes com o LASSO. Você pode excluir casos de maneira listada ou imputar o procedimento Embora o nome sugira que seja para variáveis categóricas, você pode definir a escala como Numérico para lidar com o caso contínuo.
fonte
PROC CATREG
, eu acho?Você também pode considerar a abordagem simples apresentada no documento a seguir:
Loh, PL & Wainwright, MJ (2011). Regressão de alta dimensão com dados ruidosos e ausentes: garantias disponíveis com não-convexidade . In Advances in Neural Information Processing Systems (pp. 2726-2734).
fonte