O que esse borrão ao redor da linha significa neste gráfico?

8

Eu estava brincando com o ggplot2 usando os seguintes comandos para ajustar uma linha aos meus dados:

ggplot(data=datNorm, aes(x=Num, y=Val)) + geom_point() + 
stat_summary(fun.data = "mean_cl_boot", geom="errorbar", colour="red", width=0.8) + 
stat_sum_single(median) + 
stat_sum_single(mean, colour="blue") + 
geom_smooth(level = 0.95, aes(group=1), method="lm")

Os pontos vermelhos são valores medianos, o azul é a média e as linhas vermelhas verticais mostram as barras de erro. Como passo final, eu costumava geom_smoothajustar uma linha usando suavização linear method="lm". Junto com a linha, uma sombra opaca foi gerada também ao redor da linha. Enquanto eu descobri como removê-lo da documentação, a opção que usei para desativá-lo é:

se: display confidence interval around smooth? 

Alguém pode me dizer o que eu devo entender da sombra ao redor da linha? Especificamente, estou tentando entender como interpretá-lo. Talvez deva ser adequado para a linha, mas qualquer informação extra poderia ser muito útil para mim. Alguma sugestão?

insira a descrição da imagem aqui

lenda
fonte

Respostas:

6

Eu suspeito que isso significa muito pouco na sua figura real; você desenhou uma forma de tira / gráfico. Mas como não temos dados ou exemplo reproduzível, descreverei apenas o que essas linhas / regiões mostram em geral.

Em geral, a linha é o modelo linear ajustado que descreve a relação A banda sombreada é um intervalo de confiança de 95% nos valores ajustados (a linha ) Esse intervalo de confiança contém a linha de regressão verdadeira, populacional e com probabilidade de 0,95. Ou, em outras palavras, há 95% de confiança de que a verdadeira linha de regressão está dentro da região sombreada. Isso nos mostra a incerteza inerente à nossa estimativa da verdadeira relação entre sua resposta e a variável preditora.

vumaeu^=β0 0+β1Nvocêm
Gavin Simpson
fonte
Obrigado pela sua resposta e tempo. Passarei algum tempo entendendo o seu primeiro comentário sobre por que isso significa pouco no meu gráfico. Em vez de desenhar um gráfico de barras com a média, desenhei um gráfico de tira para ter uma idéia de quantos pontos foram usados ​​também. Mas, por favor, corrija-me se eu estiver enganado. Minha última pergunta seria se existe uma relação entre esse intervalo de confiança de 95% e o intervalo de confiança de 95% mostrado pelas barras de erro. Especificamente, o que significa que a linha ajustada esteja acima ou abaixo das barras de erro? Ou são totalmente independentes e devem ser interpretados separadamente?
Legenda
Se a variável x for categórica, pode não fazer sentido tratá-lo como um termo linear de 1 grau de liberdade, que é como foi tratado no cálculo da linha ajustada. Além disso, seus dados não parecem exibir a suposição de variação constante para os resíduos do modelo. O stripchart não é o problema, é se a regressão desses dados faz sentido. A linha ajustada estará próxima (ou pode ser que alguém possa me corrigir) da melhor linha de ajuste através dos meios do grupo.
Gavin Simpson
Muito obrigado pela sua compreensão. Vou ler mais sobre a suposição de variância constante para resíduos.
Legenda
2
Hummm. Não tenho certeza absoluta de que sua explicação está correta - o padrão é desenhar um intervalo de confiança de 95% no sentido dos pontos . Não acho que seja exatamente a mesma coisa que dizer que há uma chance de 95% de que a verdadeira linha de regressão esteja na região sombreada.
hadley
@hadley bate na cabeça sim, isso seria um intervalo de confiança simultâneo. Atualizará.
Gavin Simpson