Regressão para variáveis ​​independentes categóricas e uma variável dependente contínua

20

Acabei de perceber que sempre trabalhei com problemas de regressão em que as variáveis ​​independentes sempre eram numéricas. Posso usar regressão linear no caso em que todas as variáveis ​​independentes são categóricas?

famargar
fonte

Respostas:

24

Apenas algumas semânticas e para ser claro:

  • variável dependente == resultado == " y " em fórmulas de regressão como y=β0 0+β1x1+β2x2+...+βkxk
  • variável independente == preditor == um dos " " em fórmulas de regressão comoxky=β0 0+β1x1+β2x2+...+βkxk

Portanto, na maioria das situações, o tipo de regressão depende do tipo de variável dependente, resultado ou " "y . Por exemplo, a regressão linear é usada quando a variável dependente é contínua, a regressão logística quando o dependente é categórico com 2 categorias e a regressão multinomi (n) al quando o dependente é categórico com mais de 2 categorias. Os preditores podem ser qualquer coisa (nominal ou ordinal categórica, ou contínua ou uma mistura) .

(A observação abaixo pode ser redundante para você, mas eu a adiciono de qualquer maneira)

No entanto, observe que a maioria dos softwares exige que você recodifique preditores categóricos em um sistema numérico binário . Isso significa apenas codificar sexo para 0 para mulheres e 1 para homens ou vice-versa. Para variáveis ​​categóricas com mais de 2 níveis, você precisará recodificá-las em variáveis ​​dummy , onde é o número de níveis e esses manequins contêm um 0 ou 1 quando estão na categoria correspondente. Dessa forma, cada indivíduo (amostra) deve ser representado com 1 para a variável dummy da qual faz parte e 0 para os outros, ou 0 para todos os manequins quando faz parte do grupo de referência.eu-1eu

IWS
fonte
obrigado. enquanto escrevo no título da pergunta, a variável dependente é contínua. Portanto, entendo sua resposta como "você pode usar regressão linear, desde que faça codificação fictícia". Por favor corrija-me se eu estiver errado.
famargar
sim, era o que eu estava dizendo.
IWS
2
Vejo que você editou a pergunta para adicionar uma segunda pergunta e postou uma pergunta semelhante aqui: stats.stackexchange.com/questions/267137/… . Além disso, eu perguntaria o que você quer dizer com suavização de suas previsões ou o que você quer dizer com previsão de valores discretos. AFAIK, uma regressão linear fornecerá o valor médio do dependente contínuo com base em suas variáveis ​​preditoras (através da fórmula de regressão). Por favor, elabore
IWS 13/17
1
Eu apaguei a segunda pergunta quando você respondeu totalmente à original. Para responder sua pergunta, se eu alimentar novos "eventos" ( ) para o modelo, obteria valores diferentes que levariam um dos quatro valores regredidos. Acho que estou dizendo que, se as variáveis ​​categóricas fossem realmente ordinais, gostaria de introduzir alguma (logit?) Suavização entre valores. x i nnxEuny
famargar
1
No caso de uma variável ordinal, pode-se sempre optar por assumir que é "contínuo o suficiente" para usá-la como se fosse um preditor contínuo (simplesmente não usando manequins, mas inserindo a variável como uma versão numérica). No entanto, se você fizer isso e tiver apenas alguns níveis, estará ajustando uma linha reta (assumindo linearidade) através de apenas alguns pontos (observe que a quantidade de níveis é importante aqui). Uma escala Likert é um bom exemplo de uma variável usada dessa maneira, que lamentavelmente cria problemas em várias ocasiões.
IWS