Eu gostaria de empregar os dados de contagem como covariáveis ao ajustar um modelo de regressão logística. Minha pergunta é:
- Eu viole alguma suposição dos modelos logísticos (e, mais geralmente, do linear generalizado), empregando variáveis inteiras não negativas de contagem como variáveis independentes?
Eu encontrei muitas referências na literatura sobre hot para usar dados de contagem como resultado, mas não como covariáveis; veja, por exemplo, o artigo muito claro: "NE Breslow (1996) Modelos Lineares Generalizados: Verificando Pressupostos e Fortalecendo Conclusões, Congresso Nacional de Sociologia Italiana de Biometria, Cortona, junho de 1995", disponível em http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf .
Em termos gerais, parece que as suposições da glm podem ser expressas da seguinte forma:
- resíduos residuais;
- a função de link deve representar corretamente o relacionamento entre variáveis dependentes e independentes;
- ausência de outliers
Todo mundo sabe se existe algum outro pressuposto / problema técnico que possa sugerir o uso de outro tipo de modelo para lidar com covariáveis de contagem?
Por fim, observe que meus dados contêm relativamente poucas amostras (<100) e que os intervalos de variáveis de contagem podem variar entre 3-4 ordens de magnitude (ou seja, algumas variáveis têm valor no intervalo de 0 a 10, enquanto outras variáveis podem ter valores dentro de 0-10000).
Um exemplo simples de código R é o seguinte:
\###########################################################
\#generating simulated data
var1 <- sample(0:10, 100, replace = TRUE);
var2 <- sample(0:1000, 100, replace = TRUE);
var3 <- sample(0:100000, 100, replace = TRUE);
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);
\#fitting the model
model <- glm(outcome ~ ., family=binomial, data = dataset)
\#inspecting the model
print(model)
\###########################################################
fonte
Respostas:
Há algumas nuances em jogo aqui, e elas podem estar criando alguma confusão.
Você afirma que entende que as suposições de uma regressão logística incluem " iid residual ...". Eu diria que isso não está correto. Geralmente dizemos isso sobre o Modelo Linear Geral (isto é, regressão), mas nesse caso significa que os resíduos são independentes um do outro, com a mesma distribuição (normalmente normal) tendo a mesma média (0) e variação ( isto é, variância constante: homogeneidade de variância / homoscedasticidade). Observe, porém, que para a distribuição de Bernoulli e a distribuição binomial, a variação é uma função da média. Assim, a variância não poderia ser constante, a menos que a covariável não estivesse perfeitamente relacionada à resposta. Isso seria uma suposição tão restritiva que tornaria a regressão logística inútil. Observo que no resumo do pdf que você cita, ele lista as suposições começando com "a independência estatística das observações", que poderíamos chamar
i-but-not-id
(sem querer ser muito fofo com isso).Em seguida, como @kjetilbhalvorsen observa no comentário acima , valores covariáveis (ou seja, suas variáveis independentes) são assumidos como fixos no Modelo Linear Generalizado. Ou seja, nenhuma suposição distributiva específica é feita. Portanto, não importa se são contagens ou não, nem se variam de 0 a 10, de 1 a 10000 ou de -3,1415927 a -2,718281828.
Uma coisa a considerar, no entanto, como o @whuber observa , se você tiver um pequeno número de dados muito extremos em uma das dimensões covariáveis, esses pontos podem ter uma grande influência sobre os resultados de sua análise. Ou seja, você pode obter um determinado resultado apenas por causa desses pontos. Uma maneira de pensar sobre isso é fazer um tipo de análise de sensibilidade ajustando seu modelo com e sem os dados incluídos. Você pode acreditar que é mais seguro ou mais apropriado descartar essas observações, usar alguma forma de análise estatística robusta ou transformar essas covariáveis para minimizar a extrema alavancagem que esses pontos teriam. Eu não caracterizaria essas considerações como "suposições", mas elas certamente são considerações importantes no desenvolvimento de um modelo apropriado.
fonte
Uma coisa que eu definitivamente verificaria são as propriedades distributivas de suas variáveis independentes. Com muita frequência, com dados de contagem, você verá inclinações à direita moderadas a graves. Nesse caso, você provavelmente desejará transformar seus dados, pois perderá o relacionamento log-linear. Mas não, o uso de um modelo logístico (ou outro GLM) é bom.
fonte