Como lidar com variáveis ​​categóricas não binárias em regressão logística (SPSS)

10

Eu tenho que fazer regressão logística binária com muitas variáveis ​​independentes. A maioria deles é binária, mas algumas das variáveis ​​categóricas têm mais de dois níveis.

Qual é a melhor maneira de lidar com essas variáveis?

Por exemplo, para uma variável com três valores possíveis, suponho que duas variáveis ​​fictícias devam ser criadas. Então, em um procedimento de regressão passo a passo, é melhor testar as duas variáveis ​​fictícias ao mesmo tempo ou testá-las separadamente?

Vou usar o SPSS, mas não me lembro muito bem, então: como o SPSS lida com essa situação?

Além disso, para uma variável categórica ordinal, é bom usar variáveis ​​fictícias que recriam a escala ordinal? (Por exemplo, utilizando três variáveis binárias para uma variável ordinal 4-estado, colocado 0-0-0para o nível , para o nível , para o nível e para o nível , em vez de , , e para os níveis 4).2 3 411-0-021-1-031-1-140-0-01-0-00-1-00-0-1

vítreo
fonte
2
Esta é apenas uma resposta parcial: mesmo quando você cria os manequins explicitamente (em vez de usar os recursos implícitos do software), mantenha-os juntos em todas as análises. Em particular, todos devem entrar juntos e sair juntos em uma regressão gradual, com o valor p calculado adequadamente para o número total de variáveis ​​envolvidas. (Esta é a recomendação de Hosmer & Lemeshow, de qualquer maneira, e isso faz muito sentido.)
whuber
Escrevi um post sobre os recursos de regressão logística multinomial no SPSS .
Jeromy Anglim
Você está falando sobre suas variáveis ​​independentes. São apenas as variáveis ​​dependentes que precisam ser binárias para a regressão logística.
John
11
Uma coisa a observar aqui é que você não deve usar procedimentos de seleção gradual; eles não são válidos. Se isso não faz sentido / você quer entender o porquê, pode ajudá-lo a ler minha resposta aqui: algoritmos para seleção automática de modelo .
gung - Restabelece Monica

Respostas:

10

O site da UCLA possui vários tutoriais excelentes para todos os procedimentos detalhados pelo tipo de software que você conhece. Confira Saída anotada do SPSS: regressão logística - a variável SES mencionada é categórica (e não binária). O SPSS criará automaticamente as variáveis ​​indicadoras para você. Há também uma página dedicada aos Preditores Categóricos em Regressão com SPSS que contém informações específicas sobre como alterar as codificações padrão e uma página específica para Regressão Logística .

M. Tibbits
fonte
7

A regressão logística é um método bastante flexível. Pode facilmente usar como variáveis ​​independentes variáveis ​​categóricas. A maioria dos softwares que usam regressão logística deve permitir o uso de variáveis ​​categóricas.

Como exemplo, digamos que uma de suas variáveis ​​categóricas seja a temperatura definida em três categorias: frio / leve / quente. Como você sugere, você pode interpretar isso como três variáveis ​​fictícias separadas, cada uma com o valor 1 ou 0. Mas, o software deve permitir que você use uma única variável categórica em vez do valor do texto frio / leve / quente. E, a regressão logit derivaria coeficiente (ou constante) para cada uma das três condições de temperatura. Se um não for significativo, o software ou o usuário poderão removê-lo prontamente (depois de observar os valores de stat e p).

O principal benefício de agrupar categorias de variáveis ​​categóricas em uma única variável categórica é a eficiência do modelo. Uma única coluna no seu modelo pode manipular quantas categorias forem necessárias para uma única variável categórica. Se, em vez disso, você usar uma variável dummy para cada categoria de uma variável categórica, seu modelo poderá crescer rapidamente para ter várias colunas supérfluas, dada a alternativa mencionada.

Sympa
fonte
11
@gaetan Eu não entendo a observação sobre uma única coluna vs várias colunas. Você está sugerindo que as variáveis ​​categóricas devem ser codificadas como 1, 2, 3 etc. em uma única coluna, em vez de usar variáveis ​​fictícias? Não sei se isso faz sentido para mim, pois você está impondo uma restrição implícita de que a diferença no efeito no dv entre os níveis 1 e 2 é a mesma que a diferença no efeito no dv entre os níveis 2 e 3. Talvez eu estou faltando alguma coisa.
11
@ Gaetan Não tenho certeza de segui-lo. Como exatamente o XLStat transforma os valores de 'texto' de frio, suave ou quente em valores numéricos para fins de estimativa? Se houver um método que permita estimar os efeitos de variáveis ​​categóricas sem o uso de variáveis ​​fictícias, certamente deve ser independente do software usado, pois deve haver alguma lógica subjacente baseada em conceitual / modelo.
@ Gaetan Eu não sigo o seu ponto, a menos que você considere que sua variável ordinal é tratada como contínua (às vezes isso pode fazer sentido, embora presumamos claramente que a variável possa herdar a propriedade de uma escala de intervalo, como apontado por @Skrikant) . Geralmente, uma variável com níveis é representada na matriz de design como colunas , e acho que isso é bastante independente do software usado (certamente, o XLStat se encarrega de construir a matriz de design correta como R, SPSS ou Stata) . k - 1kk1
chl
11
@Gatean Ok, neste caso, o mesmo pode ser feito no SPSS (você pode escolher entre numérico / ordinal / nominal para cada variável) - então, a matriz de design é construída de acordo.
chl
2
@Gaetan @chl Para resumir meu entendimento: Os recursos do SPSS e XLStat nos quais você pode especificar a escala de medição (nominal, ordinal etc.) diminui o tamanho do arquivo de dados. No entanto, em ambos os casos, o software usa o esquema de codificação correto (por exemplo, expanda uma variável nominal com categorias J em variáveis ​​dummy J-1) como parte do processo de estimativa em segundo plano. Seria uma avaliação justa da situação?
0

No meu entender, é bom usar variáveis ​​dummy para dados categóricos / nominais, enquanto para dados ordinais podemos usar codificação de 1,2,3 para diferentes níveis. Para variável dummy, codificaremos 1 se for verdadeiro para uma determinada conservação e 0 caso contrário. Também variáveis ​​fictícias serão 1 a menos que o não. Dos níveis, por exemplo, no binário, temos 1. Uma observação toda '0' na variável dummy fará automaticamente 1 para o dummy não codificado.

Jayr
fonte