Esses dados podem ser agregados em uma proporção para um binômio glm?

11

Pedimos a 60 pessoas que listassem o maior número possível de franquias de restaurantes em Atlanta. A lista geral incluía mais de 70 restaurantes, mas eliminamos os mencionados por menos de 10% das pessoas, deixando-nos 45. Para esses 45, calculamos a proporção de informantes que listaram a franquia e estamos interessados ​​em modelar essa proporção em função do orçamento de publicidade das franquias (transformadas em log) e anos desde que se tornou uma franquia.

Então eu escrevi este código:

model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)

Como previsto, ambas as variáveis ​​exibem efeitos fortes e significativos.

Mas mesmo sabendo que dados proporcionais nunca devem ser modelados com regressão OLS, escrevi posteriormente este código:

model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)

Nesse caso, "orçamento" ainda é um preditor significativo, mas "anos" é relativamente fraco e não significativo.

Preocupa-me que a confiança nas estimativas seja inflada artificialmente pela agregação. O binômio glm essencialmente não vetoriza os dados de modo que o modelo seja baseado em 45 * 55 = 2.475 linhas? Isso é apropriado, uma vez que existem realmente apenas 45 restaurantes e 55 informantes? Isso exigiria modelagem de efeitos mistos?

Jeremy _
fonte
4
dica: veja o que acontece comfamily=quasibinomial
Ben Bolker 10/09/12
1
Interessante. Os coeficientes estimados são os mesmos, mas os erros padrão são mais conservadores (e os anos não são significativos no modelo quasibinomial). Estou procurando nos arquivos de ajuda um quase-binômio, mas você pode explicar o que está acontecendo? Minha impressão foi de que quase-binômio é usado principalmente para super-dispersão. . .
Jeremy _
3
Exatamente. Há uma variedade de diferenças entre lme glm(...,family=binomial), mas uma das mais importantes é que um GLM binomial faz fortes suposições sobre a variação. Se os dados não forem super dispersos, a agregação / desagregação não fará diferença.
precisa saber é o seguinte
1
A saída R mostra que o paramater de dispersão é considerado 8,7. Estou tentando descobrir o que isso diz sobre superdispersão. Enquanto isso, Ben, vejo que você tem bastante experiência com modelos mistos. Estou seguro usando um binômio glm sem efeitos mistos para o informante ou a franquia (nesse caso, presumivelmente, eu teria que vetorizar todos os dados enquanto adicionava uma coluna para "Informant ID")?
Jeremy _

Respostas:

1

Y=cX1k1X2k2...Xnknem(Y)=em(c)+k1em(X1)+k2em(X2)...+knem(Xn)R2

Agora, se a linha de regressão inalterada (idealmente uma regressão bivariada, por exemplo, uma regressão de Deming) não passa plausivelmente por {0,0}, fica um pouco mais complicada e minimiza-se uma função de perda proporcional de compensação em vez de usar menos comum quadrados

Carl
fonte