Regressão com dados assimétricos

11

Tentando calcular a contagem de visitas de dados demográficos e de serviço. Os dados estão muito distorcidos.

Histogramas:

histogramas

gráficos qq (à esquerda é log):

qq plots - o direito é log

m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)

citye servicesão variáveis ​​fatoriais.

Eu recebo um valor p baixo *** para todas as variáveis, mas também recebo um r-quadrado baixo de 0,05. O que devo fazer? Outro modelo funcionaria, como exponencial ou algo assim?

pxxd
fonte
Como o que eu pensava originalmente era que uma alta frequência de zeros era na verdade uma alta frequência de dois, você poderia nos contar um pouco mais sobre o processo de geração de dados? Em que tipo de serviço as pessoas estavam participando e qual é o "objetivo final" da análise? Você está tentando prever o número (contagem) de visitas, considerando um conjunto de características (isto é, como uma medida da qualidade do serviço)? Você absolutamente precisa manter o resultado como conta com o objetivo de responder à sua pergunta de pesquisa, ou poderia recolher a variável do resultado em categorias menores, porém maiores?
Marquis de Carabas
2
Você tem dados de contagem. Pesquise neste site a regressão de Poisson.
Kjetil b halvorsen / 02/16

Respostas:

10

A regressão linear não é a escolha certa para o seu resultado, dado:

  1. A variável de resultado não é normalmente distribuída
  2. A variável de resultado é limitada nos valores que pode assumir (os dados da contagem significam que os valores previstos não podem ser negativos)
  3. O que parece ser uma alta frequência de casos com 0 visitas

Modelos variáveis ​​dependentes limitados para dados de contagem

A estratégia de estimativa que você pode escolher é ditada pela "estrutura" da sua variável de resultado. Ou seja, se sua variável de resultado é limitada nos valores que ela pode assumir (ou seja, se é uma variável dependente limitada ), você precisa escolher um modelo em que os valores previstos caiam dentro do intervalo possível para o seu resultado. Embora às vezes a regressão linear seja uma boa aproximação para variáveis ​​dependentes limitadas (por exemplo, no caso de logit / probit binário), muitas vezes não é. Entrar modelos lineares generalizados . No seu caso, como a variável de resultado é dados de contagem, você tem várias opções:

  1. Modelo de Poisson
  2. Modelo binomial negativo
  3. Modelo de Poisson inflado zero (ZIP)
  4. Modelo Binomial Negativo Inflado Zero (ZINB)

A escolha é geralmente determinada empiricamente. Discutirei brevemente a escolha entre essas opções abaixo.


Poisson vs. Binomial Negativo

θH0 0:θ=0 0H1:θ0 0θ

ZIP vs. ZINB

Uma complicação potencial é a inflação zero, o que pode ser um problema aqui. É aqui que entram os modelos ZIP e ZINB com inflação zero. Usando esses modelos, você assume que o processo que gera os valores zero é separado do processo que gera os outros valores diferentes de zero. Como antes, ZINB é apropriado quando o resultado tem zeros excessivos e é superdisperso, enquanto ZIP é apropriado quando o resultado tem zeros excessivos, mas média condicional = variação condicional. Para os modelos inflados a zero, além das covariáveis ​​listadas acima, você precisará pensar em variáveis ​​que podem ter gerado o excesso de zeros que você viu no resultado. Novamente, existem testes estatísticos que acompanham a saída desses modelos (às vezes você pode precisar especificá-los quando executa um comando) que permiteθ

θH0 0:θ=0 0H1:θ0 0H0 0:Excess zeroes Eus not uma resvocêeut of uma sepumarumate processH1:Excess zeroes Eus uma resvocêeut of uma sepumarumate process


θθ

Por fim, não uso R, mas a página de exemplos de análise de dados da UCLA da IDRE pode ajudá- lo a ajustar esses modelos.

[Editar por outro usuário sem reputação suficiente para comentar: Este artigo explica por que você não deve usar o teste de Vuong para comparar um modelo de inflação zero e fornece alternativas.

P. Wilson, "O uso indevido do teste de Vuong para modelos não aninhados para testar a inflação zero". Economics Letters, 2015, vol. 127, edição C, 51-53 ]

Marquês de Carabas
fonte
a maioria é de 2 ~ visitas. Todos os registros têm mais de uma visita
pxxd 13/04/16
Estou recebendo gráficos qq semelhantes para glm de poisson e gama, está tudo bem?
Pxxd
3
1. A variável de resultado não é normalmente distribuída não é, por si só, um argumento válido contra a regressão linear. Um conjunto de premissas de regressão que garante boas propriedades do estimador (como consistência e normalidade assintótica) não inclui a normalidade da variável de resultado (e nem mesmo a normalidade dos erros).
Richard Hardy
2

Tente o modelo linear generalizado com distribuição gama. Pode aproximar bem sua variável dependente, pois é positiva e é igual a zero em x = 0. Eu usei R e GLM com algum sucesso em um caso semelhante.

Diego
fonte
VEusEuts d
1
Não, acredito que você não deve usar o link de log, mas o link de identidade. Mas primeiro verifique como a função gama se ajusta à sua distribuição.
Diego
0

Todas as suposições estatísticas são sobre os erros de um modelo. Se você criar um modelo simples usando 6 séries de indicadores que refletem o dia da semana ... você começará a ver uma distribuição muito mais agradável de erros. Prossiga com a incorporação de efeitos mensais e de férias (ANTES, LIGADOS E APÓS) e a distribuição de erros se tornará ainda melhor. A adição de indicadores do dia do mês, da semana do mês e de final de semana prolongado e as coisas ficarão ainda mais agradáveis.

Veja o método Simples de previsão do número de convidados com dados atuais e históricos e /stats//search?q=user%3A3382+daily+data para obter uma leitura mais divertida.

IrishStat
fonte
1
Essa resposta não parece se referir à pergunta realmente feita. Você poderia tornar a conexão explícita?
whuber
Eu levei o seu DVISITS para sugerir dados diários ... se não é assim, então eu revogo minha resposta. Se for realmente transversal, talvez ele deva considerar estratificar os dados pelas principais classificações.
precisa saber é o seguinte