Eu tenho que fazer regressão logística binária com muitas variáveis independentes. A maioria deles é binária, mas algumas das variáveis categóricas têm mais de dois níveis.
Qual é a melhor maneira de lidar com essas variáveis?
Por exemplo, para uma variável com três valores possíveis, suponho que duas variáveis fictícias devam ser criadas. Então, em um procedimento de regressão passo a passo, é melhor testar as duas variáveis fictícias ao mesmo tempo ou testá-las separadamente?
Vou usar o SPSS, mas não me lembro muito bem, então: como o SPSS lida com essa situação?
Além disso, para uma variável categórica ordinal, é bom usar variáveis fictícias que recriam a escala ordinal? (Por exemplo, utilizando três variáveis binárias para uma variável ordinal 4-estado, colocado 0-0-0
para o nível , para o nível , para o nível e para o nível , em vez de , , e para os níveis 4).2 3 41-0-0
1-1-0
1-1-1
0-0-0
1-0-0
0-1-0
0-0-1
Respostas:
O site da UCLA possui vários tutoriais excelentes para todos os procedimentos detalhados pelo tipo de software que você conhece. Confira Saída anotada do SPSS: regressão logística - a variável SES mencionada é categórica (e não binária). O SPSS criará automaticamente as variáveis indicadoras para você. Há também uma página dedicada aos Preditores Categóricos em Regressão com SPSS que contém informações específicas sobre como alterar as codificações padrão e uma página específica para Regressão Logística .
fonte
A regressão logística é um método bastante flexível. Pode facilmente usar como variáveis independentes variáveis categóricas. A maioria dos softwares que usam regressão logística deve permitir o uso de variáveis categóricas.
Como exemplo, digamos que uma de suas variáveis categóricas seja a temperatura definida em três categorias: frio / leve / quente. Como você sugere, você pode interpretar isso como três variáveis fictícias separadas, cada uma com o valor 1 ou 0. Mas, o software deve permitir que você use uma única variável categórica em vez do valor do texto frio / leve / quente. E, a regressão logit derivaria coeficiente (ou constante) para cada uma das três condições de temperatura. Se um não for significativo, o software ou o usuário poderão removê-lo prontamente (depois de observar os valores de stat e p).
O principal benefício de agrupar categorias de variáveis categóricas em uma única variável categórica é a eficiência do modelo. Uma única coluna no seu modelo pode manipular quantas categorias forem necessárias para uma única variável categórica. Se, em vez disso, você usar uma variável dummy para cada categoria de uma variável categórica, seu modelo poderá crescer rapidamente para ter várias colunas supérfluas, dada a alternativa mencionada.
fonte
No meu entender, é bom usar variáveis dummy para dados categóricos / nominais, enquanto para dados ordinais podemos usar codificação de 1,2,3 para diferentes níveis. Para variável dummy, codificaremos 1 se for verdadeiro para uma determinada conservação e 0 caso contrário. Também variáveis fictícias serão 1 a menos que o não. Dos níveis, por exemplo, no binário, temos 1. Uma observação toda '0' na variável dummy fará automaticamente 1 para o dummy não codificado.
fonte