Como realizar análise residual de preditores independentes binários / dicotômicos em regressão linear?

11

Estou executando a regressão linear múltipla abaixo em R para prever retornos sobre o fundo gerenciado.

reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata)

Aqui, apenas GRI e MBA são preditores binários / dicotômicos; os preditores restantes são contínuos.

Estou usando esse código para gerar gráficos residuais para as variáveis ​​binárias.

plot(rawdata$GRI, reg$residuals)
abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) 

plot(rawdata$MBA, reg$residuals)
abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 

Minha pergunta: Eu sei como inspecionar gráficos residuais em busca de preditores contínuos, mas como você testa suposições de regressão linear, como a homocedasticidade, quando uma variável independente é binária?

Parcelas residuais:

Gráfico Residual para GR1 Gráfico Residual para MBA

GeorgeOfTheRF
fonte

Respostas:

8

O @NickCox fez um bom trabalho falando sobre exibições de resíduos quando você tem dois grupos. Deixe-me abordar algumas das perguntas explícitas e suposições implícitas que estão por trás desse tópico.

A pergunta é: "como você testa suposições de regressão linear, como a homoscedasticidade, quando uma variável independente é binária?" Você tem um modelo de regressão múltipla . Um modelo de regressão (múltiplo) assume que há apenas um termo de erro, que é constante em todos os lugares. Não é muito significativo (e você não tem) verificar a heterocedasticidade de cada preditor individualmente. É por isso que, quando temos um modelo de regressão múltipla, diagnosticamos heterocedasticidade a partir de gráficos dos resíduos versus os valores previstos. Provavelmente, o gráfico mais útil para esse fim é um gráfico de localização da escala (também chamado de 'nível de dispersão'), que é um gráfico da raiz quadrada do valor absoluto dos resíduos versus os valores previstos. Para ver exemplos,O que significa ter "variação constante" em um modelo de regressão linear?

Da mesma forma, você não precisa verificar os resíduos de cada preditor quanto à normalidade. (Sinceramente, nem sei como isso funcionaria.)

O que você pode fazer com gráficos de resíduos em relação a preditores individuais é verificar se a forma funcional está especificada corretamente. Por exemplo, se os resíduos formarem uma parábola, há alguma curvatura nos dados que você perdeu. Para ver um exemplo, veja o segundo gráfico na resposta do @ Glen_b aqui: Verificando a qualidade do modelo em regressão linear . No entanto, esses problemas não se aplicam a um preditor binário.

Pelo que vale a pena, se você tiver apenas preditores categóricos, poderá testar a heterocedasticidade. Você acabou de usar o teste de Levene. Eu discuto aqui: Por que o teste de Levene da igualdade de variâncias, em vez da razão F? Em R você usa ? LeveneTest da embalagem do carro.


Editar: para ilustrar melhor o ponto em que observar um gráfico dos resíduos versus uma variável preditora individual não ajuda quando você tem um modelo de regressão múltipla, considere este exemplo:

set.seed(8603)                       # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50))  # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12)        # here is the (dichotomous) x2 variable
y  = 5 + 1*x1 + 2*x2 + rnorm(48)     # the true data generating process, there is 
                                     #   no heteroscedasticity

mod = lm(y~x1+x2)                    # this fits the model

Você pode ver no processo de geração de dados que não há heterocedasticidade. Vamos examinar os gráficos relevantes do modelo para ver se eles implicam heterocedasticidade problemática:

insira a descrição da imagem aqui

Não, nada para se preocupar. No entanto, vejamos o gráfico dos resíduos versus a variável preditora binária individual para ver se parece que há heterocedasticidade lá:

insira a descrição da imagem aqui

Ah, parece que pode haver um problema. Sabemos pelo processo de geração de dados que não há heterocedasticidade, e os gráficos principais para explorar isso também não mostraram, então o que está acontecendo aqui? Talvez essas parcelas ajudem:

insira a descrição da imagem aqui

x1e x2não são independentes um do outro. Além disso, as observações x2 = 1estão nos extremos. Eles têm mais influência, então seus resíduos são naturalmente menores. No entanto, não há heterocedasticidade.

A mensagem principal: sua melhor aposta é diagnosticar apenas a heterocedasticidade a partir das plotagens apropriadas (os resíduos versus a plotagem ajustada e a plotagem no nível de dispersão).

- Reinstate Monica
fonte
Obrigado! Para a mesma regressão que eu estava fazendo, descobri que o Residual Vs Y é homoscedástico, mas quando eu verifiquei o Residual Vs posse (independente), era uma forma de funil. Então, eu preciso fazer alguma transformação para corrigir isso certo? Então, neste contexto, só queria entender por que você mencionou que a verificação da variável independente Vs residual não é necessária?
GeorgeOfTheRF 14/10
@ mrcet007, não, você não precisa de uma transformação. Se o res vs ajustado não mostrar heterocedasticidade, você está bem. Talvez uma ilustração o ajude. Editei minha resposta para adicionar uma demonstração.
gung - Restabelece Monica
Você pode verificar este link people.duke.edu/~rnau/testing.htm . Diz também verificar a variável independente residual Vs. Apenas compartilhando por causa das discussões. Você pode comentar sobre isso? O que eu estava pensando era que sempre precisamos verificar os Vs residuais previstos e os residuais vs independentes. homoscedasticidade (variância constante) dos erros (um) versus tempo (no caso de dados de séries de tempo) (b) em comparação com as previsões (c) versus qualquer variável independente
GeorgeOfTheRF
Meu comentário é que forneci a você uma razão pela qual você olha para gráficos residuais vs previstos para verificar a heterocedasticidade e mostrou um exemplo de como a observação de gráficos residuais vs IV pode desviá-lo. Não sei mais o que dizer.
gung - Restabelece Monica
6

É verdade que plotagens residuais convencionais são um trabalho mais difícil nesse caso: pode ser (muito) mais difícil verificar se as distribuições são iguais. Mas existem alternativas fáceis aqui. Você está apenas comparando duas distribuições, e há muitas boas maneiras de fazer isso. Algumas possibilidades são gráficos quantílicos lado a lado ou sobrepostos, histogramas ou gráficos em caixa. Meu próprio preconceito é que as parcelas sem adornos geralmente são superutilizadas aqui: elas geralmente suprimem os detalhes que devemos examinar, mesmo que possamos descartá-los como sem importância. Mas você pode comer o seu bolo e tê-lo.

Você usa R, mas nada estatístico na sua pergunta é específico de R. Aqui, usei o Stata para uma regressão em um único preditor binário e, em seguida, iniciei gráficos de caixas quantílicas comparando os resíduos dos dois níveis do preditor. A conclusão prática neste exemplo é que as distribuições são praticamente as mesmas.

insira a descrição da imagem aqui

Mais detalhes se o gráfico parecer enigmático: Para cada distribuição, temos um gráfico quantil, ou seja, os valores ordenados são plotados versus sua classificação (fracionária). Uma caixa mostrando mediana e quartis é sobreposta. Portanto, cada caixa é definida verticalmente da maneira usual e horizontal, porque é delimitada por linhas para as classificações fracionárias e .3 / 41/43/4

Nota: Veja também Como apresentar o gráfico de caixa com um valor extremos extremo? incluindo o exemplo de @ Glen_b de gráficos semelhantes usando R. Esses gráficos devem ser fáceis em qualquer software decente; caso contrário, seu software não é decente.

Nick Cox
fonte
+1 lindo. Você acha que também há um papel para o teste de hipóteses nos resíduos aqui?
Alexis #
@gung Eu editei sua edição. O original evidentemente não era suficientemente claro se você o entendeu mal.
Nick #
2
@Alexis Thanks! Fico feliz com a ideia de que uma hipótese de dispersão igual é apoiada informalmente pelo gráfico neste caso. Não sou da escola de pensamento que cada pequeno passo em uma análise precisa ser santificado por um valor-P. Infelizmente, nunca é fácil ter certeza de que você pula da maneira certa, mas, na prática, também entraria em contato com outros modelos se estivesse em dúvida. Aqui, o exemplo é apenas inventado para a pergunta e não faz parte de uma análise séria.
Nick #
Minhas desculpas, Nick. Eu não entendi o ponto dessa frase. Eu pensei que era um erro de digitação. Está mais claro agora.
gung - Restabelece Monica
11
@ whuber Isso é bom para mim. Algumas pessoas os acham confusos, pelo que me disseram.
Nick Cox