Estou tentando estimar um modelo de escolha ocupacional com três opções. Existem alternativas ao uso da regressão logística multinomial ao lidar com esses resultados categóricos não ordenados?
Ao lidar com variáveis dependentes binárias, parece haver várias opções, como o modelo LPM, bem como o modelo probit e logit binário. Ao lidar com variáveis categóricas não ordenadas, a literatura continua recomendando o modelo de logit multinomial sem compará-lo com alternativas.
Respostas:
Há uma variedade de modelos disponíveis para modelar modelos multinomiais.
Recomendo a Cameron & Trivedi Microeconometrics Using Stata para uma introdução fácil e excelente ou dê uma olhada nos slides da palestra de Imbens & Wooldridge ou aqui, disponíveis on-line.
Os modelos amplamente utilizados incluem:
regressão logística multinomial ou mlogit no Stata
logit condicional multinomial (permite incluir facilmente não apenas preditores específicos de indivíduos, mas também específicos de escolhas) ou asclogit no Stata
logit aninhado (relaxe a independência da suposição de alternativas irrelevantes (IIA) agrupando / classificando as opções de maneira hierárquica) ou nlogit no Stata
logit misto (relaxa a suposição IIA assumindo, por exemplo, parâmetros distribuídos normais) ou mixlogit em Stata.
modelo de probit multinomial (pode relaxar ainda mais a suposição IIA, mas você deve ter preditores específicos de escolha disponíveis) logit misto (relaxa a suposição IIA assumindo, por exemplo, parâmetros distribuídos normais), use asmprobit no Stata (mprobit não permite usar preditores específicos de escolha, mas você deve usá-los para relaxar a suposição do IIA )
fonte
Se você quer opções bem diferentes de uma regressão logística, pode usar uma rede neural. Por exemplo, o
nnet
pacote de R tem umamultinom
função. Ou você pode usar uma floresta aleatória (randomForest
pacote de R e outros). E existem várias outras alternativas de aprendizado de máquina, embora opções como um SVM tendam a não ser bem calibradas, o que torna suas saídas inferiores - na minha opinião - a uma regressão logística.[Na verdade, um logit provavelmente está sendo usado sob o capô pelos neurônios da rede neural. Portanto, é bem diferente, mas não muito diferente ao mesmo tempo.]
fonte
Além disso, pense que Redes Neurais (com ativação softmax), Árvores de Decisão (ou Florestas Aleatórias) não exigem que a suposição do IIA seja atendida, considerando a falta de confiabilidade desses testes relacionados à verificação da suposição do IIA. Portanto, isso pode ser uma vantagem em comparação com a logística multinomial se tudo o que estamos preocupados são apenas previsões.
Como alternativa, vários modelos logísticos podem ser construídos para as categorias K-1 com a categoria K como referência. Isso também permite que diferentes preditores sejam conectados a cada uma das equações, em contraste com o multinomial
fonte