Posso usar regressão múltipla quando misturo preditores categóricos e contínuos?

12

Parece que você pode usar a codificação para uma variável categórica, mas eu tenho duas variáveis ​​categóricas e uma variável preditora contínua. Posso usar regressão múltipla para isso no SPSS? Em caso afirmativo, como? obrigado!


fonte
Tenho certeza que você pode , mas tenho medo de não ter idéia de como !
onestop
Sugiro digitar algo como regressão na documentação de ajuda que acompanha o SPSS. Deve ser coisa de pão com manteiga para qualquer pacote de estatísticas
probabilityislogic
Não sei o que você quer dizer com codificar para uma variável categórica. Você pode dar um exemplo em sintaxe? Sua variável dependente é contínua ou categórica?
21711 Andy As

Respostas:

8
  1. Se essa é uma pergunta de sintaxe do SPSS, a resposta é apenas colocar a variável categórica, codificada adequadamente, na lista de variáveis ​​para "variáveis ​​independentes" junto com a contínua.
  2. Nas estatísticas: sua variável categórica é binária? Nesse caso, você precisa usar um código fictício ou outro código de contraste válido. Se não for binário, sua variável categórica é ordinal ou nominal? Se nominal, então, novamente, você deve usar alguma estratégia de código contrastante - modelando o impacto de cada nível da variável no resultado ou na variável "dependente". Se a variável categórica for ordinal, provavelmenteo mais sensato a fazer é inseri-lo como está no modelo, da mesma forma que faria com uma variável preditora contínua (ou seja, "independente"). Você estaria assumindo, nesse caso, que os incrementos entre os níveis da variável preditora categórica ("independente"); raramente isso será um erro, mas quando for, você deve novamente usar um código de contraste e modelar o impacto de cada nível. Esta questão surge neste fórum com bastante frequência - aqui está uma boa análise
  3. Como lidar com dados ausentes é, a meu ver, um assunto completamente separado. Meu entendimento é que a exclusão em pares não é vista como uma abordagem válida para a regressão multivariada. Listwise é bastante comum, mas também pode influenciar resultados e certamente é uma vergonha. A imputação múltipla é uma coisa de beleza.
dmk38
fonte
Eu tenho uma pergunta para DMK38. Acima, você escreve que não há problema em adicionar uma variável categórica a um modelo como está quando é ordinal. Fico feliz em ler isso ;-) Você tem uma boa fonte que mencione isso também para que eu possa adicioná-la ao meu trabalho? Muito obrigado pela sua resposta! Lilian
Lilian Jans-Beken
1
@ LilianJans-Beken: Consulte Variável dependente contínua com variável independente ordinal e regressão logística e variáveis ​​independentes ordinais . Você pode não querer usar os métodos mais complicados, mas observe que, mesmo que esteja feliz em considerar o preditor como em escala de intervalo, não é necessário restringir-o a ter um relacionamento linear com a resposta. E não se sinta obrigado a assumir intervalos iguais entre níveis contíguos se algo mais parecer mais sensato.
Scortchi - Restabelece Monica
1
@ LilianJans-Beken: Também como lidar com variáveis ​​categóricas ordinais como variáveis ​​independentes e Logit com variáveis ​​independentes ordinais . Bem-vindo ao Cross Validated!
Scortchi - Restabelece Monica
2

Você definitivamente pode, seguindo o mesmo método usado para o primeiro preditor categórico. Crie variáveis ​​fictícias como faria para a primeira variável. Mas geralmente é mais fácil usar o comando Unianova do SPSS. Você pode procurar isso em qualquer Guia de sintaxe impresso ou em pdf, ou pode acessá-lo através de Analisar ... Modelo linear geral ... Univariada.

Apesar de um pouco mais complicado, o comando Regression tem várias vantagens sobre o Unianova. O principal é que você pode escolher 'falta par aos pares' (você não precisa perder um caso simplesmente porque está faltando um valor para um ou dois preditores). Você também pode obter muitos diagnósticos valiosos, como gráficos parciais e estatísticas de influência.

rolando2
fonte
1
@ rolando - boa resposta. Dito isto, a falta de abordagens aos pares tende a confundir a comparação dos efeitos, pois são baseados em diferentes números de observações. Pode ser algo para se ter em mente.
richiemorrisroe
Eu acho que sua falta um pouco confusa e em pares só importa se você estiver executando modelos totalmente separados (como usar um procedimento de seleção de modelo por etapas). Se você inserir todas as variáveis ​​no modelo, ele ainda descarta os valores ausentes na lista.
21711 Andy As
@ richiemorrisroe - eu concordo, vale a pena ter em mente. @ Andy W - Acabei de confirmar no SPSS que, usando apenas a entrada forçada, a falta de pares e a falta de listas de notas fornece resultados diferentes em todos os aspectos, incluindo diferentes df.
Rolando2
Ainda acho que você está confuso, como o SPSS pode retornar diferentes conjuntos de resultados declarando a falta par aos pares, a menos que compense valores para os dados ausentes? Aqui está um exemplo usando dados simulados que eu publiquei em um arquivo de texto, dl.dropbox.com/u/3385251/SPSS_missing_Listwise_vs_Pairwise.txt . No momento, diminuiu a sua resposta, já que toda essa conversa sobre como o comando regression trata os dados ausentes é confusa, não tem nada a ver com a pergunta original do OP e provavelmente é enganosa.
Andy W
1

Uma maneira simples de transformar variáveis ​​categóricas em um conjunto de variáveis ​​fictícias para uso em modelos no SPSS é usar a sintaxe do repeat. É o mais simples de usar se suas variáveis ​​categóricas estiverem em ordem numérica.

*making vector of dummy variables.
vector dummy(3,F1.0).
*looping through dummy variables using do repeat, in this example category would be the categorical variable to recode. 
do repeat dummy = dummy1 to dummy3 /#i = 1 to 3.
compute dummy = 0.
if category = #i dummy = 1.
end repeat.
execute. 

Caso contrário, você pode simplesmente executar um conjunto de instruções if para criar suas variáveis ​​fictícias. Minha versão atual (16) não tem capacidade nativa de especificar um conjunto de variáveis ​​fictícias automaticamente no comando regression (como você pode no Stata usando o comando xi ), mas não ficaria surpreso se isso estiver disponível em alguma versão mais recente. Observe também o ponto 2 de dmk38, este esquema de codificação está assumindo categorias nominais. Se sua variável for ordinal, mais discrição poderá ser usada.

Também concordo com o dmk38 e a discussão sobre a regressão ser melhor devido à sua capacidade de especificar dados ausentes de uma maneira específica é uma questão completamente separada.

Andy W
fonte