Métodos penalizados para dados categóricos: combinando níveis em um fator

9

Modelos penalizados podem ser usados ​​para estimar modelos em que o número de parâmetros é igual ou até maior que o tamanho da amostra. Essa situação pode surgir em modelos log-lineares de grandes tabelas esparsas de dados categóricos ou de contagem. Nessas configurações, geralmente também é desejável ou útil recolher tabelas combinando níveis de um fator em que esses níveis não são distinguíveis em termos de como eles interagem com outros fatores. Duas questões:

  1. Existe uma maneira de usar modelos penalizados, como LASSO ou rede elástica, para testar a capacidade de recolhimento de níveis dentro de cada fator?
  2. Se a resposta para a primeira pergunta for afirmativa, pode e deve ser configurada de tal maneira que o colapso dos níveis e a estimativa dos coeficientes do modelo ocorram em uma única etapa?
andrewH
fonte
11
Este documento, doi.org/10.1177/1471082X16642560 , fornece uma boa visão geral do que foi feito nessa área nos últimos dez anos.
Jorne Biccler
11
Nota: a penalidade que discuto abaixo é a equação 3.4 no link de @JorneBiccler. (É interessante ver que essa pergunta já foi considerada antes!) #
User795305 6/17/17
Possível duplicado de variáveis categóricas pré-processo com muitos valores
b Kjetil Halvorsen
Como podemos chamar isso de duplicado para uma pergunta que o precedeu?
Michael R. Chernick

Respostas:

3

É possível. Podemos usar uma variante do laço fundido para fazer isso.

β^=argminβ-1 1nEu=1 1n(yEuβTxEu-eβTxEu)+fatores gλg(jg|βj|+1 12j,kg|βj-βk|).

Observe que é a função de perda para log-linear modelos.-1 1nEu=1 1n(yEuβTxEu-eβTxEu)

Isso incentiva os coeficientes dentro de um grupo a serem iguais. Essa igualdade de coeficientes é equivalente ao colapso dos níveis e do fator juntos. No caso de quando , é equivalente a recolher o nível com o nível de referência. Os parâmetros de ajuste podem ser tratados como constantes, mas, se houver apenas alguns fatores, seria melhor tratá-los como separados. k t h β j = 0 j t h λ gjthkthβ^j=0 0jthλg

O estimador é um minimizador de uma função convexa, para que possa ser computado eficientemente através de solucionadores arbitrários. É possível que, se um fator tiver muitos, muitos níveis, essas diferenças aos pares fiquem fora de controle - nesse caso, será necessário conhecer mais estrutura sobre possíveis padrões de colapso.

Observe que tudo isso é realizado em uma única etapa! Isso faz parte do que torna os estimadores do tipo laço tão legais!


Outra abordagem interessante é usar o estimador OSCAR, que é como acima, exceto a penalidade é substituída por .[ β i__[-1 11 1][βEuβj]__1 1__[βEuβj]__

user795305
fonte