O uso de dados de contagem como variável independente viola algumas das suposições do GLM?

14

Eu gostaria de empregar os dados de contagem como covariáveis ​​ao ajustar um modelo de regressão logística. Minha pergunta é:

  • Eu viole alguma suposição dos modelos logísticos (e, mais geralmente, do linear generalizado), empregando variáveis ​​inteiras não negativas de contagem como variáveis ​​independentes?

Eu encontrei muitas referências na literatura sobre hot para usar dados de contagem como resultado, mas não como covariáveis; veja, por exemplo, o artigo muito claro: "NE Breslow (1996) Modelos Lineares Generalizados: Verificando Pressupostos e Fortalecendo Conclusões, Congresso Nacional de Sociologia Italiana de Biometria, Cortona, junho de 1995", disponível em http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf .

Em termos gerais, parece que as suposições da glm podem ser expressas da seguinte forma:

  • resíduos residuais;
  • a função de link deve representar corretamente o relacionamento entre variáveis ​​dependentes e independentes;
  • ausência de outliers

Todo mundo sabe se existe algum outro pressuposto / problema técnico que possa sugerir o uso de outro tipo de modelo para lidar com covariáveis ​​de contagem?

Por fim, observe que meus dados contêm relativamente poucas amostras (<100) e que os intervalos de variáveis ​​de contagem podem variar entre 3-4 ordens de magnitude (ou seja, algumas variáveis ​​têm valor no intervalo de 0 a 10, enquanto outras variáveis ​​podem ter valores dentro de 0-10000).

Um exemplo simples de código R é o seguinte:

\###########################################################

\#generating simulated data

var1 <- sample(0:10, 100, replace = TRUE);    
var2 <- sample(0:1000, 100, replace = TRUE);    
var3 <- sample(0:100000, 100, replace = TRUE);    
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);

\#fitting the model

model <- glm(outcome ~ ., family=binomial, data = dataset)

\#inspecting the model

print(model)

\###########################################################
Vincenzo Lagani
fonte
Bem vindo ao site! Uma observação: se você deseja assinar suas postagens, use seu perfil (especialmente a caixa sobre mim).
11
normalmente, nos modelos GLM, as variáveis ​​preditoras ("independentes") são apenas algumas constantes conhecidas, NÃO HÁ suposições distributivas sobre elas! Portanto, não há nada errado em usar os dados de contagem como preditores.
Kjetil b halvorsen
1
kjetil Está correto - e uma boa resposta para a pergunta. No entanto, com os intervalos extremos de IVs descritos aqui, seria sensato avaliar a influência dos dados, verificar a adequação do ajuste e, particularmente, avaliar o potencial de um relacionamento não linear. Isso seria feito na esperança de que o relacionamento realmente não seja linear e que uma re-expressão dos IVs, como raiz ou log, o linearize, aliviando simultaneamente alguns dos problemas de influência. Provavelmente é isso que @ user14583 está tentando indicar em sua resposta.
whuber
@kjetilbhalvorsen - Eu concordo em "sem suposições distributivas", mas acho que você não quis dizer "conhecidas" ou "constantes", pois nenhuma dessas palavras se encaixa.
Rolando2
4
Eles são "constantes" no sentido de que não são aleatórios: nenhuma distribuição. Eles são "conhecidos" no sentido em que se supõe que sejam medidos sem erro, portanto, o valor medido é o que realmente estava trabalhando no mecanismo de geração de dados. O modelo GLM assume que toda a aleatoriedade está no mecanismo de resposta, que geralmente é duvidoso!
Kjetil b halvorsen

Respostas:

5

Há algumas nuances em jogo aqui, e elas podem estar criando alguma confusão.

Você afirma que entende que as suposições de uma regressão logística incluem " iid residual ...". Eu diria que isso não está correto. Geralmente dizemos isso sobre o Modelo Linear Geral (isto é, regressão), mas nesse caso significa que os resíduos são independentes um do outro, com a mesma distribuição (normalmente normal) tendo a mesma média (0) e variação ( isto é, variância constante: homogeneidade de variância / homoscedasticidade). Observe, porém, que para a distribuição de Bernoulli e a distribuição binomial, a variação é uma função da média. Assim, a variância não poderia ser constante, a menos que a covariável não estivesse perfeitamente relacionada à resposta. Isso seria uma suposição tão restritiva que tornaria a regressão logística inútil. Observo que no resumo do pdf que você cita, ele lista as suposições começando com "a independência estatística das observações", que poderíamos chamar i-but-not-id(sem querer ser muito fofo com isso).

Em seguida, como @kjetilbhalvorsen observa no comentário acima , valores covariáveis ​​(ou seja, suas variáveis ​​independentes) são assumidos como fixos no Modelo Linear Generalizado. Ou seja, nenhuma suposição distributiva específica é feita. Portanto, não importa se são contagens ou não, nem se variam de 0 a 10, de 1 a 10000 ou de -3,1415927 a -2,718281828.

Uma coisa a considerar, no entanto, como o @whuber observa , se você tiver um pequeno número de dados muito extremos em uma das dimensões covariáveis, esses pontos podem ter uma grande influência sobre os resultados de sua análise. Ou seja, você pode obter um determinado resultado apenas por causa desses pontos. Uma maneira de pensar sobre isso é fazer um tipo de análise de sensibilidade ajustando seu modelo com e sem os dados incluídos. Você pode acreditar que é mais seguro ou mais apropriado descartar essas observações, usar alguma forma de análise estatística robusta ou transformar essas covariáveis ​​para minimizar a extrema alavancagem que esses pontos teriam. Eu não caracterizaria essas considerações como "suposições", mas elas certamente são considerações importantes no desenvolvimento de um modelo apropriado.

Repor a Monica
fonte
1

Uma coisa que eu definitivamente verificaria são as propriedades distributivas de suas variáveis ​​independentes. Com muita frequência, com dados de contagem, você verá inclinações à direita moderadas a graves. Nesse caso, você provavelmente desejará transformar seus dados, pois perderá o relacionamento log-linear. Mas não, o uso de um modelo logístico (ou outro GLM) é bom.

user14583
fonte
3
Como a inclinação correta perde 'a relação log-linear'?
Glen_b -Reinstala Monica
3
Este comentário parece incorreto para mim. Como @Glen_b, não vejo como isso necessariamente perderia a relação log-linear. De qualquer forma, seria melhor examinar o relacionamento diretamente (por meio de plotagem, por exemplo).
Peter Flom - Restabelece Monica
2
Uma transformação não linear de um IV definitivamente mudará o relacionamento log-linear para outra coisa, @Peter. Esta resposta parece basicamente correta para mim.
whuber
1
@whuber Concordo que uma transformação não linear de uma variável alterará o relacionamento entre ela e outra variável. Isso parece bem claro. Mas de que tipo de relacionamento com que tipo? Por que não examinar o relacionamento diretamente, em vez de assumir como ele será alterado? Além disso, a resposta parece dizer que a pessoa deseja perder o relacionamento linear logarítmico.
Peter Flom - Restabelece Monica
2
Esse é um bom argumento @ Peter. No entanto, algumas pessoas não deseja alterar a relação; isso não é necessariamente uma noção equivocada. Concordo que um exame direto é o procedimento correto: sugerirá como reexprimir os IVs envolvidos para criar relacionamentos lineares.
whuber