Regressão com dados assimétricos

11

Tentando calcular a contagem de visitas de dados demográficos e de serviço. Os dados estão muito distorcidos.

Histogramas:

histogramas

gráficos qq (à esquerda é log):

qq plots - o direito é log

m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)

citye servicesão variáveis fatoriais.

Eu recebo um valor p baixo *** para todas as variáveis, mas também recebo um r-quadrado baixo de 0,05. O que devo fazer? Outro modelo funcionaria, como exponencial ou algo assim?

regression multiple-regression predictive-models exponential qq-plot pxxd
fonte

Como o que eu pensava originalmente era que uma alta frequência de zeros era na verdade uma alta frequência de dois, você poderia nos contar um pouco mais sobre o processo de geração de dados? Em que tipo de serviço as pessoas estavam participando e qual é o "objetivo final" da análise? Você está tentando prever o número (contagem) de visitas, considerando um conjunto de características (isto é, como uma medida da qualidade do serviço)? Você absolutamente precisa manter o resultado como conta com o objetivo de responder à sua pergunta de pesquisa, ou poderia recolher a variável do resultado em categorias menores, porém maiores?

Marquis de Carabas

2

Você tem dados de contagem. Pesquise neste site a regressão de Poisson.

Kjetil b halvorsen / 02/16

10

A regressão linear não é a escolha certa para o seu resultado, dado:

A variável de resultado não é normalmente distribuída
A variável de resultado é limitada nos valores que pode assumir (os dados da contagem significam que os valores previstos não podem ser negativos)
O que parece ser uma alta frequência de casos com 0 visitas

Modelos variáveis dependentes limitados para dados de contagem

A estratégia de estimativa que você pode escolher é ditada pela "estrutura" da sua variável de resultado. Ou seja, se sua variável de resultado é limitada nos valores que ela pode assumir (ou seja, se é uma variável dependente limitada ), você precisa escolher um modelo em que os valores previstos caiam dentro do intervalo possível para o seu resultado. Embora às vezes a regressão linear seja uma boa aproximação para variáveis dependentes limitadas (por exemplo, no caso de logit / probit binário), muitas vezes não é. Entrar modelos lineares generalizados . No seu caso, como a variável de resultado é dados de contagem, você tem várias opções:

Modelo de Poisson
Modelo binomial negativo
Modelo de Poisson inflado zero (ZIP)
Modelo Binomial Negativo Inflado Zero (ZINB)

A escolha é geralmente determinada empiricamente. Discutirei brevemente a escolha entre essas opções abaixo.

Poisson vs. Binomial Negativo

$\theta$ $H_0:\theta=0$ $H_1: \theta≠0$ $\theta$

ZIP vs. ZINB

Uma complicação potencial é a inflação zero, o que pode ser um problema aqui. É aqui que entram os modelos ZIP e ZINB com inflação zero. Usando esses modelos, você assume que o processo que gera os valores zero é separado do processo que gera os outros valores diferentes de zero. Como antes, ZINB é apropriado quando o resultado tem zeros excessivos e é superdisperso, enquanto ZIP é apropriado quando o resultado tem zeros excessivos, mas média condicional = variação condicional. Para os modelos inflados a zero, além das covariáveis listadas acima, você precisará pensar em variáveis que podem ter gerado o excesso de zeros que você viu no resultado. Novamente, existem testes estatísticos que acompanham a saída desses modelos (às vezes você pode precisar especificá-los quando executa um comando) que permite $\theta$

$\theta$ $H_0: \theta=0$ $H_1: \theta≠0$ $H_0: Excess$ $zeroes$ $is$ $not$ $a$ $result$ $of$ $a$ $separate$ $process$ $H_1:Excess$ $zeroes$ $is$ $a$ $result$ $of$ $a$ $separate$ $process$

$\theta$ $\theta$

Por fim, não uso R, mas a página de exemplos de análise de dados da UCLA da IDRE pode ajudá- lo a ajustar esses modelos.

[Editar por outro usuário sem reputação suficiente para comentar: Este artigo explica por que você não deve usar o teste de Vuong para comparar um modelo de inflação zero e fornece alternativas.

P. Wilson, "O uso indevido do teste de Vuong para modelos não aninhados para testar a inflação zero". Economics Letters, 2015, vol. 127, edição C, 51-53 ]

Marquês de Carabas
fonte

a maioria é de 2 ~ visitas. Todos os registros têm mais de uma visita

pxxd 13/04/16

Estou recebendo gráficos qq semelhantes para glm de poisson e gama, está tudo bem?

Pxxd

3

1. A variável de resultado não é normalmente distribuída não é, por si só, um argumento válido contra a regressão linear. Um conjunto de premissas de regressão que garante boas propriedades do estimador (como consistência e normalidade assintótica) não inclui a normalidade da variável de resultado (e nem mesmo a normalidade dos erros).

Richard Hardy

2

Tente o modelo linear generalizado com distribuição gama. Pode aproximar bem sua variável dependente, pois é positiva e é igual a zero em x = 0. Eu usei R e GLM com algum sucesso em um caso semelhante.

Diego
fonte

V i s i t s d

$Visits~d$

1

Não, acredito que você não deve usar o link de log, mas o link de identidade. Mas primeiro verifique como a função gama se ajusta à sua distribuição.

Diego

0

Todas as suposições estatísticas são sobre os erros de um modelo. Se você criar um modelo simples usando 6 séries de indicadores que refletem o dia da semana ... você começará a ver uma distribuição muito mais agradável de erros. Prossiga com a incorporação de efeitos mensais e de férias (ANTES, LIGADOS E APÓS) e a distribuição de erros se tornará ainda melhor. A adição de indicadores do dia do mês, da semana do mês e de final de semana prolongado e as coisas ficarão ainda mais agradáveis.

Veja o método Simples de previsão do número de convidados com dados atuais e históricos e /stats//search?q=user%3A3382+daily+data para obter uma leitura mais divertida.

IrishStat
fonte

1

Essa resposta não parece se referir à pergunta realmente feita. Você poderia tornar a conexão explícita?

whuber

Eu levei o seu DVISITS para sugerir dados diários ... se não é assim, então eu revogo minha resposta. Se for realmente transversal, talvez ele deva considerar estratificar os dados pelas principais classificações.

precisa saber é o seguinte

Regressão com dados assimétricos

Respostas:

Modelos variáveis ​​dependentes limitados para dados de contagem

Modelos variáveis dependentes limitados para dados de contagem