Como lidar com a variável categórica ordinal como variável independente

18

Estou usando um modelo de logit. Minha variável dependente é binária. No entanto eu tenho uma variável independente que é categórica e contém as respostas: 1.very good, 2.good, 3.average, 4.poor and 5.very poor. Portanto, é ordinal ("categórico quantitativo"). Não tenho certeza de como lidar com isso no modelo. Eu estou usando gretl.

[Nota do @ttnphns: Embora a pergunta diga que o modelo é logit (porque o dependente é categórico), a questão crucial - variáveis independentes ordinais - é basicamente a mesma, seja categórica ou quantitativa. Portanto, a questão é igualmente relevante para, digamos, a regressão linear também - como é a regressão logística ou outro modelo de logit.]

rahmat
fonte
Minha variável dependente assume o valor 0 e 1, tenho 6 variáveis ​​independentes, 3 delas são categóricas e são como "como você avalia os serviços locais de saúde em sua área? Como você avalia o transporte local em sua área e como você classifica" ? serviços policiais em sua área as respostas são muito bom, bom, médio, pobres e muito pobres.
rahmat
@ Tim Se a variável dependente é binária, não há necessidade de nenhuma regressão ordinal. A implicação é lidar com um preditor ordinal usando variáveis ​​indicadoras (fictícias).
Nick Cox
obrigado tim, se não me engano o que você diz é que eu deveria criar manequim para todas as categorias ?? por exemplo, tenho cinco respostas (muito boa, boa, média, ruim e muito ruim) para uma variável indep, portanto, devo criar 5 manequins.
22416 rahmat #

Respostas:

14

O problema com a variável independente ordinal é que, por definição, os verdadeiros intervalos métricos entre seus níveis não são conhecidos , nenhum relacionamento de tipo apropriado - além do guarda-chuva "monotônico" - pode ser assumido a priori. Temos que fazer algo a respeito, por exemplo - para "filtrar ou combinar variantes" ou "preferir o que maximiza algo".

Se você insiste em tratar sua classificação likert IV como ordinal (em vez de intervalo ou nominal), tenho um par de alternativas para você.

  1. Use contrastes polinomiais Ou seja, cada um desses preditores usados ​​no modelo entra não apenas linearmente, mas também quadrática e cubicamente. Portanto, não apenas o efeito monotônico linear, mas mais geral, pode ser capturado (o efeito linear corresponde ao preditor mantido como escala / intervalo e os outros dois efeitos têm o gosto de ter intervalos não iguais). Além disso, os manequins de cada preditor também podem ser inseridos, o que testará o efeito nominal / fatorial. No final de tudo isso, você sabe quanto o seu preditor atua como fator, quanto a covariável linear e quanto a covariável não linear. Essa opção é fácil de fazer em quase qualquer regressão (linear, logística, outros modelos lineares generalizados). Ele consumirá df s, portanto o tamanho da amostra deve ser grande o suficiente.
  2. Use a regressão de escala ideal . Essa abordagem transforma monotonicamente um preditor ordinal em um intervalo um, a fim de maximizar o efeito linear no preditor e. CATREG (regressão categórica) é uma implementação dessa idéia no SPSS. Um problema do seu caso específico é que você deseja fazer regressão logística, não linear, mas o CATREG não é baseado no modelo de logit. Eu acho que esse obstáculo é relativamente menor, já que sua previsão e é apenas de 2 categorias (binária): quero dizer que você ainda pode fazer o CATREG para uma escala ideal e, em seguida, fazer a regressão logística final com os preditores de escala transformados disponíveis.
  3. Observe também que, no caso simples de uma escala ou DV ordinal e um teste ordinal de Jonckheere-Terpstra IV , pode ser uma análise razoável em vez de regressão.

Também pode haver outras sugestões. Os três acima são o que me vem à mente apenas lendo sua pergunta instantaneamente.

Deixe-me recomendar que você também visite estes tópicos: Associação entre nominal e escala ou ordinal ; Associação entre ordinal e escala . Eles podem ser úteis, apesar de não se tratarem de regressões especifialmente.

Mas esses tópicos são sobre regressões, particularmente logísticas: você deve olhar para dentro: um , dois , três , quatro , cinco .

ttnphns
fonte
(+1) (1) Você também pode usar apenas os primeiros contrastes polinomiais se achar que são suficientes. (2) A definição de preditores a partir da resposta no mesmo conjunto de dados deve vir com um aviso de integridade. (3) Você também pode penalizar a discrepância entre os coeficientes dos níveis adjacentes - consulte stats.stackexchange.com/q/77796/17230 .
Scortchi - Restabelece Monica
1
@ Scortchi, obrigado pelo comentário. Em relação a (2) - sim, em particular, é claro que é mais confiável fazer o dimensionamento ideal em um subconjunto separado dos dados nos quais a regressão final será feita. (3) - obrigado também, vou me familiarizar com isso.
Tfnphns
1
Outra opção é usar um modelo aditivo e representar a variável independente ordinal por meio de um spline.
Kjetil b halvorsen
2
@kjetilbhalvorsen, Sim, é possível, obrigado. Essa opção, no entanto, já está implícita na Pt 2, porque um dos métodos de dimensionamento ideal para variáveis ​​ordinais usa spline.
ttnphns
7

Apenas para acrescentar às outras excelentes respostas: Uma maneira moderna de lidar com isso poderia ser por meio de um modelo aditivo, representando a variável independente ordinal por meio de um spline. Se você tiver certeza de que o efeito da variável é monótono, poderá restringir a um spline monótono. (Para obter um exemplo de splines monótonos em uso, consulte Procurando função para ajustar-se à curva sigmóide ).

Em R, se você tornar o preditor ordinal um "fator ordenado" (com, por exemplo, o código ord <- factor(sample(1:5,20,replace=TRUE),ordered=TRUE) ), em um modelo linear, ele será representado por polinômios ortogonais.

kjetil b halvorsen
fonte
4
Seria bom expandi-lo um pouco, para incluir mais alguns detalhes de como ele funcionará com os preditores ordinais.
ttnphns
0

k-1k

Austin T
fonte
3
n
1
obrigado tim e nick. Então eu tenho que executar todos os quatro manequins na regressão. certo? Nesse caso, tenho 3 variáveis ​​categóricas, cada uma com 5 respostas. portanto, meu modelo terá 12 variáveis. certo?
rahmat
1
Obrigado @NickCox - Eu sou novo no mundo CV e aprecio as correções respeitosas #
Austin T
1
Infelizmente, você não explicou por que as variáveis ​​fictícias serão necessárias. Não acho que essa resposta, como está atualmente, pareça uma resposta para a pergunta.
ttnphns
2
Em apoio, não creio que seja necessário argumentar que são necessários indicadores ; apenas permitem que vários efeitos sejam capturados, incluindo relacionamentos não monotônicos.
Nick Cox