O @NickCox fez um bom trabalho falando sobre exibições de resíduos quando você tem dois grupos. Deixe-me abordar algumas das perguntas explícitas e suposições implícitas que estão por trás desse tópico.
A pergunta é: "como você testa suposições de regressão linear, como a homoscedasticidade, quando uma variável independente é binária?" Você tem um modelo de regressão múltipla . Um modelo de regressão (múltiplo) assume que há apenas um termo de erro, que é constante em todos os lugares. Não é muito significativo (e você não tem) verificar a heterocedasticidade de cada preditor individualmente. É por isso que, quando temos um modelo de regressão múltipla, diagnosticamos heterocedasticidade a partir de gráficos dos resíduos versus os valores previstos. Provavelmente, o gráfico mais útil para esse fim é um gráfico de localização da escala (também chamado de 'nível de dispersão'), que é um gráfico da raiz quadrada do valor absoluto dos resíduos versus os valores previstos. Para ver exemplos,O que significa ter "variação constante" em um modelo de regressão linear?
Da mesma forma, você não precisa verificar os resíduos de cada preditor quanto à normalidade. (Sinceramente, nem sei como isso funcionaria.)
O que você pode fazer com gráficos de resíduos em relação a preditores individuais é verificar se a forma funcional está especificada corretamente. Por exemplo, se os resíduos formarem uma parábola, há alguma curvatura nos dados que você perdeu. Para ver um exemplo, veja o segundo gráfico na resposta do @ Glen_b aqui: Verificando a qualidade do modelo em regressão linear . No entanto, esses problemas não se aplicam a um preditor binário.
Pelo que vale a pena, se você tiver apenas preditores categóricos, poderá testar a heterocedasticidade. Você acabou de usar o teste de Levene. Eu discuto aqui: Por que o teste de Levene da igualdade de variâncias, em vez da razão F? Em R você usa ? LeveneTest da embalagem do carro.
Editar: para ilustrar melhor o ponto em que observar um gráfico dos resíduos versus uma variável preditora individual não ajuda quando você tem um modelo de regressão múltipla, considere este exemplo:
set.seed(8603) # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50)) # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12) # here is the (dichotomous) x2 variable
y = 5 + 1*x1 + 2*x2 + rnorm(48) # the true data generating process, there is
# no heteroscedasticity
mod = lm(y~x1+x2) # this fits the model
Você pode ver no processo de geração de dados que não há heterocedasticidade. Vamos examinar os gráficos relevantes do modelo para ver se eles implicam heterocedasticidade problemática:
Não, nada para se preocupar. No entanto, vejamos o gráfico dos resíduos versus a variável preditora binária individual para ver se parece que há heterocedasticidade lá:
Ah, parece que pode haver um problema. Sabemos pelo processo de geração de dados que não há heterocedasticidade, e os gráficos principais para explorar isso também não mostraram, então o que está acontecendo aqui? Talvez essas parcelas ajudem:
x1
e x2
não são independentes um do outro. Além disso, as observações x2 = 1
estão nos extremos. Eles têm mais influência, então seus resíduos são naturalmente menores. No entanto, não há heterocedasticidade.
A mensagem principal: sua melhor aposta é diagnosticar apenas a heterocedasticidade a partir das plotagens apropriadas (os resíduos versus a plotagem ajustada e a plotagem no nível de dispersão).
É verdade que plotagens residuais convencionais são um trabalho mais difícil nesse caso: pode ser (muito) mais difícil verificar se as distribuições são iguais. Mas existem alternativas fáceis aqui. Você está apenas comparando duas distribuições, e há muitas boas maneiras de fazer isso. Algumas possibilidades são gráficos quantílicos lado a lado ou sobrepostos, histogramas ou gráficos em caixa. Meu próprio preconceito é que as parcelas sem adornos geralmente são superutilizadas aqui: elas geralmente suprimem os detalhes que devemos examinar, mesmo que possamos descartá-los como sem importância. Mas você pode comer o seu bolo e tê-lo.
Você usa R, mas nada estatístico na sua pergunta é específico de R. Aqui, usei o Stata para uma regressão em um único preditor binário e, em seguida, iniciei gráficos de caixas quantílicas comparando os resíduos dos dois níveis do preditor. A conclusão prática neste exemplo é que as distribuições são praticamente as mesmas.
Mais detalhes se o gráfico parecer enigmático: Para cada distribuição, temos um gráfico quantil, ou seja, os valores ordenados são plotados versus sua classificação (fracionária). Uma caixa mostrando mediana e quartis é sobreposta. Portanto, cada caixa é definida verticalmente da maneira usual e horizontal, porque é delimitada por linhas para as classificações fracionárias e .3 / 41 / 4 3 / 4
Nota: Veja também Como apresentar o gráfico de caixa com um valor extremos extremo? incluindo o exemplo de @ Glen_b de gráficos semelhantes usando R. Esses gráficos devem ser fáceis em qualquer software decente; caso contrário, seu software não é decente.
fonte