Modelos penalizados podem ser usados para estimar modelos em que o número de parâmetros é igual ou até maior que o tamanho da amostra. Essa situação pode surgir em modelos log-lineares de grandes tabelas esparsas de dados categóricos ou de contagem. Nessas configurações, geralmente também é desejável ou útil recolher tabelas combinando níveis de um fator em que esses níveis não são distinguíveis em termos de como eles interagem com outros fatores. Duas questões:
- Existe uma maneira de usar modelos penalizados, como LASSO ou rede elástica, para testar a capacidade de recolhimento de níveis dentro de cada fator?
- Se a resposta para a primeira pergunta for afirmativa, pode e deve ser configurada de tal maneira que o colapso dos níveis e a estimativa dos coeficientes do modelo ocorram em uma única etapa?
Respostas:
É possível. Podemos usar uma variante do laço fundido para fazer isso.
Observe que é a função de perda para log-linear modelos.- 1n∑ni = 1( yEuβTxEu- eβTxEu)
Isso incentiva os coeficientes dentro de um grupo a serem iguais. Essa igualdade de coeficientes é equivalente ao colapso dos níveis e do fator juntos. No caso de quando , é equivalente a recolher o nível com o nível de referência. Os parâmetros de ajuste podem ser tratados como constantes, mas, se houver apenas alguns fatores, seria melhor tratá-los como separados. k t h β j = 0 j t h λ gjt h kt h β^j= 0 jt h λg
O estimador é um minimizador de uma função convexa, para que possa ser computado eficientemente através de solucionadores arbitrários. É possível que, se um fator tiver muitos, muitos níveis, essas diferenças aos pares fiquem fora de controle - nesse caso, será necessário conhecer mais estrutura sobre possíveis padrões de colapso.
Observe que tudo isso é realizado em uma única etapa! Isso faz parte do que torna os estimadores do tipo laço tão legais!
Outra abordagem interessante é usar o estimador OSCAR, que é como acima, exceto a penalidade é substituída por . ‖ [ β i∥ [ - 11 ] ⋅ [ βEuβj]′∥1 1 ∥ [ βEuβj] ∥∞
fonte