Estou lendo A. Agresti (2007), Introdução à análise de dados categóricos , 2ª. edição e não tenho certeza se entendi corretamente este parágrafo (p.106, 4.2.1) (embora deva ser fácil):
Na Tabela 3.1 sobre ronco e doenças cardíacas no capítulo anterior, 254 indivíduos relataram ronco todas as noites, dos quais 30 tiveram doenças cardíacas. Se o arquivo de dados agrupou dados binários, uma linha no arquivo de dados relata esses dados como 30 casos de doença cardíaca em um tamanho de amostra de 254. Se o arquivo de dados agrupar dados binários, cada linha no arquivo de dados se refere a um assunto separado, então 30 linhas contêm um 1 para doenças cardíacas e 224 linhas contêm um 0 para doenças cardíacas. As estimativas de ML e valores de SE são os mesmos para qualquer tipo de arquivo de dados.
Transformar um conjunto de dados não agrupados (1 dependente, 1 independente) levaria mais do que "uma linha" para incluir todas as informações !?
No exemplo a seguir, um conjunto de dados simples (irrealista!) É criado e um modelo de regressão logística é construído.
Como seriam os dados agrupados (guia variável?)? Como o mesmo modelo pode ser construído usando dados agrupados?
> dat = data.frame(y=c(0,1,0,1,0), x=c(1,1,0,0,0))
> dat
y x
1 0 1
2 1 1
3 0 0
4 1 0
5 0 0
> tab=table(dat)
> tab
x
y 0 1
0 2 1
1 1 1
> mod1=glm(y~x, data=dat, family=binomial())
tab <- table(x,y, dnn=c('snoring','disease')); glm(tab ~ as.numeric(rownames(tab)), family=binomial)
funcionaria (inversão de sinal de menos para os coeficientes porque "Sim" é codificado como 0 em vez de 1).