Não consigo interpretar este gráfico. Minha variável dependente é o número total de ingressos de cinema que serão vendidos para um show. As variáveis independentes são o número de dias que restam antes do show, variáveis fictícias da sazonalidade (dia da semana, mês do ano, feriado), preço, ingressos vendidos até a data, classificação do filme, tipo de filme (suspense, comédia, etc., como manequins ) Além disso, observe que a capacidade da sala de cinema é fixa. Ou seja, ele pode hospedar no máximo x número de pessoas apenas. Estou criando uma solução de regressão linear e ela não está ajustando meus dados de teste. Então, pensei em começar com o diagnóstico de regressão. Os dados são de uma única sala de cinema para a qual eu quero prever a demanda.
O é um conjunto de dados multivariado. Para cada data, há 90 linhas duplicadas, representando dias antes do show. Portanto, para 1 de janeiro de 2016, existem 90 registros. Existe uma variável 'lead_time' que me fornece o número de dias antes do show. Portanto, para 1 de janeiro de 2016, se lead_time tiver o valor 5, significa que os ingressos serão vendidos até 5 dias antes da data do show. Na variável dependente, total de ingressos vendidos, terei o mesmo valor 90 vezes.
Além disso, como observação lateral, existe algum livro que explica como interpretar a plotagem residual e melhorar o modelo posteriormente?
fonte
Respostas:
Como o enredo é muito denso, não é fácil ver todas as tendências que possam existir. Você pode executar testes alternativos para hetorocedasticidade e autocorrelação para obter diagnósticos adicionais.
O que é visível é que, nos primeiros 100 valores, mais ou menos, a variação do resíduo aumenta, o que pode sugerir uma hetorocedasticidade. Posteriormente, a variação parece diminuir novamente. Esse comportamento não linear da variação também pode apontar para a necessidade de uma forma funcional diferente (talvez polinomial em vez de linear). Outra indicação para isso é a tendência nos resíduos observados na extremidade alta dos valores ajustados (não há mais resíduos positivos).
fonte
Sua plotagem residual possui um padrão definido, com várias linhas tendendo para baixo à medida que os valores ajustados aumentam. Esse padrão pode ocorrer se você não considerar os efeitos fixos / aleatórios em seu modelo e os efeitos fixos estiverem correlacionados com variáveis explicativas. Considere o seguinte exemplo:
Isso resulta no seguinte gráfico residual / ajustado:
Você pode ver algo semelhante se, por exemplo, regredir as pontuações do SAT nos ganhos de entrada para várias escolas secundárias, mas não incluir os efeitos fixos da escola; cada escola terá diferentes ganhos de linha de base (efeitos fixos) e pontuações médias no SAT, que provavelmente estão correlacionadas.
Incluindo efeitos fixos de grupo, obtemos
que fornece uma plotagem residual / ajustada muito melhor:
fonte
O gráfico residual parece incomum do ponto de vista da regressão OLS (linear) padrão. Há, por exemplo, uma indicação de heterocedasticidade, especificamente que a dispersão dos resíduos é maior no meio do que nas duas extremidades. Este não é o problema real, no entanto.
yd d d+ 1 (Desculpe, ao reler a pergunta, vejo que você já incluiu os ingressos vendidos até a data da variável.)Pode haver mais problemas a serem resolvidos na modelagem de seus dados. Esses são tópicos bastante avançados; se você não estiver familiarizado com eles, pode precisar trabalhar com um consultor de estatística.
fonte
fitdistrplus