Tentando calcular a contagem de visitas de dados demográficos e de serviço. Os dados estão muito distorcidos.
Histogramas:
gráficos qq (à esquerda é log):
m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)
city
e service
são variáveis fatoriais.
Eu recebo um valor p baixo *** para todas as variáveis, mas também recebo um r-quadrado baixo de 0,05. O que devo fazer? Outro modelo funcionaria, como exponencial ou algo assim?
Respostas:
A regressão linear não é a escolha certa para o seu resultado, dado:
Modelos variáveis dependentes limitados para dados de contagem
A estratégia de estimativa que você pode escolher é ditada pela "estrutura" da sua variável de resultado. Ou seja, se sua variável de resultado é limitada nos valores que ela pode assumir (ou seja, se é uma variável dependente limitada ), você precisa escolher um modelo em que os valores previstos caiam dentro do intervalo possível para o seu resultado. Embora às vezes a regressão linear seja uma boa aproximação para variáveis dependentes limitadas (por exemplo, no caso de logit / probit binário), muitas vezes não é. Entrar modelos lineares generalizados . No seu caso, como a variável de resultado é dados de contagem, você tem várias opções:
A escolha é geralmente determinada empiricamente. Discutirei brevemente a escolha entre essas opções abaixo.
Poisson vs. Binomial Negativo
ZIP vs. ZINB
Uma complicação potencial é a inflação zero, o que pode ser um problema aqui. É aqui que entram os modelos ZIP e ZINB com inflação zero. Usando esses modelos, você assume que o processo que gera os valores zero é separado do processo que gera os outros valores diferentes de zero. Como antes, ZINB é apropriado quando o resultado tem zeros excessivos e é superdisperso, enquanto ZIP é apropriado quando o resultado tem zeros excessivos, mas média condicional = variação condicional. Para os modelos inflados a zero, além das covariáveis listadas acima, você precisará pensar em variáveis que podem ter gerado o excesso de zeros que você viu no resultado. Novamente, existem testes estatísticos que acompanham a saída desses modelos (às vezes você pode precisar especificá-los quando executa um comando) que permiteθ
Por fim, não uso R, mas a página de exemplos de análise de dados da UCLA da IDRE pode ajudá- lo a ajustar esses modelos.
[Editar por outro usuário sem reputação suficiente para comentar: Este artigo explica por que você não deve usar o teste de Vuong para comparar um modelo de inflação zero e fornece alternativas.
P. Wilson, "O uso indevido do teste de Vuong para modelos não aninhados para testar a inflação zero". Economics Letters, 2015, vol. 127, edição C, 51-53 ]
fonte
Tente o modelo linear generalizado com distribuição gama. Pode aproximar bem sua variável dependente, pois é positiva e é igual a zero em x = 0. Eu usei R e GLM com algum sucesso em um caso semelhante.
fonte
Todas as suposições estatísticas são sobre os erros de um modelo. Se você criar um modelo simples usando 6 séries de indicadores que refletem o dia da semana ... você começará a ver uma distribuição muito mais agradável de erros. Prossiga com a incorporação de efeitos mensais e de férias (ANTES, LIGADOS E APÓS) e a distribuição de erros se tornará ainda melhor. A adição de indicadores do dia do mês, da semana do mês e de final de semana prolongado e as coisas ficarão ainda mais agradáveis.
Veja o método Simples de previsão do número de convidados com dados atuais e históricos e /stats//search?q=user%3A3382+daily+data para obter uma leitura mais divertida.
fonte