Duas perguntas relacionadas de mim. Eu tenho um quadro de dados que contém o número de pacientes em uma coluna (intervalo de 10 a 17 pacientes) e 0s e 1s mostrando se um incidente aconteceu naquele dia. Estou usando um modelo binomial para regredir a probabilidade de incidente no número de pacientes. No entanto, gostaria de ajustar o fato de que, quando houver mais pacientes, inevitavelmente haverá mais incidentes, porque a quantidade total de tempo do paciente na enfermaria é maior naquele dia.
Então, eu estou usando um modelo binomial de deslocamento como este (código R):
glm(Incident~Numbers, offset=Numbers, family=binomial, data=threatdata)
Minhas perguntas são:
Tudo bem ter exatamente as mesmas variáveis prevendo e no deslocamento? Quero parcial do aumento tônico na probabilidade de incidentes e ver se resta alguma coisa, essencialmente. Faz sentido para mim, mas sou um pouco cauteloso caso esteja errado.
O deslocamento foi especificado corretamente? Eu sei que nos modelos de Poisson seria lido
offset=log(Numbers)
Não sei se existe um equivalente aqui e não consigo encontrar nenhuma compensação binomial com o Google (o maior problema é que eu continuo recebendo binomial negativo, o que obviamente não é bom).
fonte
Respostas:
Se você está interessado na probabilidade de um incidente dado N dias de pacientes na enfermaria, deseja um modelo como:
o deslocamento representa tentativas,
incident
é 0 ou 1, e a probabilidade de um incidente é constante (sem heterogeneidade na tendência de gerar incidentes) e os pacientes não interagem para causar incidentes (sem contágio). Como alternativa, se a chance de um incidente for pequena, qual é para você (ou você limitou o número de incidentes sem mencionar isso para nós), então você pode preferir a formulação de Poissononde as mesmas premissas se aplicam. O deslocamento é registrado porque o número de pacientes na enfermaria tem um efeito proporcional / multiplicativo.
Expandindo o segundo modelo, talvez você ache que há mais incidentes do que seria esperado, simplesmente devido ao aumento do número de pacientes. Ou seja, talvez os pacientes interajam ou sejam heterogêneos. Então você tenta
Se o coeficiente ligado
log.patients.on.ward
for significativamente diferente de 1, onde foi fixadomod2
, algo pode estar errado com suas suposições de não heterogeneidade e sem contágio. E, embora você não possa, é claro, distinguir essas duas (nem uma das outras variáveis ausentes), agora você tem uma estimativa de quanto o aumento do número de pacientes na enfermaria aumenta a taxa / probabilidade de um incidente acima do que você esperar do acaso. No espaço de parâmetros, é1-coef(mod3)[2]
com intervalo derivável deconfint
.Como alternativa, você pode trabalhar diretamente com a quantidade do log e seu coeficiente. Se você quiser apenas prever a probabilidade de um incidente usando o número de pacientes na enfermaria, esse modelo seria uma maneira simples de fazê-lo.
As questões
Tudo bem ter variáveis dependentes no seu deslocamento? Parece uma péssima ideia para mim, mas não vejo que você precise.
O deslocamento nos modelos de regressão de Poisson para
exposure
é de fatolog(exposure)
. Talvez, de maneira confusa, o usooffset
nos modelos de regressão binomial de R seja basicamente uma maneira de indicar o número de tentativas. Ele sempre pode ser substituído por uma variável dependente definida comocbind(incidents, patients.on.ward-incidents)
e sem deslocamento. Pense assim: no modelo de Poisson, ele entra no lado direito, atrás da função de link de log, e no modelo binomial, no lado esquerdo, em frente à função de link de logit.fonte
Compensações em regressões de Poisson
Vamos começar examinando por que usamos um deslocamento em uma regressão de Poisson. Muitas vezes, queremos isso para controlar a exposição. Seja a taxa de referência por unidade de exposição e t o tempo de exposição nas mesmas unidades. O número esperado de eventos será λ × t .λ t λ × t
Em um modelo GLM, estamos modelando o valor esperado usando uma função de link , que ég
Podemos simplificar simplificando a expressão acima
Regressão binomial
Em uma regressão binomial, que normalmente usa um link de logit, ou seja:
Como resultado, não podemos usar um deslocamento neste caso.
fonte
Essa resposta vem em duas partes, a primeira uma resposta direta à pergunta e a segunda um comentário sobre o modelo que você está propondo.
A primeira parte refere-se ao uso de
Numbers
como deslocamento, além de tê-lo nos rhs da equação. O efeito de fazer isso será simplesmente subtrair 1 do coeficiente estimado deNumbers
, revertendo assim o efeito do deslocamento e, de outra forma, não alterará os resultados. O exemplo a seguir, com algumas linhas de saída irrelevante removidas, demonstra isso:Observe como tudo é o mesmo, exceto o coeficiente de números e o desvio nulo (e a estatística t, porque ainda está testando contra 0 em vez de -1).
Pode-se também suspeitar que a probabilidade por paciente varia de paciente para paciente, o que levaria a um modelo hierárquico mais complexo, mas não vou abordar isso aqui.
De qualquer forma, dado esse e o intervalo limitado do número de pacientes que você observa, em vez de usar um modelo linear na escala logit, talvez seja melhor não ser paramétrico sobre o relacionamento e agrupar o número de pacientes em três ou mais pacientes. quatro grupos, por exemplo, 10-11, 12-13, 14-15 e 16-17, constroem variáveis fictícias para esses grupos e executam a regressão logística com as variáveis fictícias no lado direito. Isso permitirá melhor a captura de relacionamentos não lineares, como "o sistema está sobrecarregado em torno de 16 pacientes e os incidentes começam a aumentar significativamente". Se você tiver uma gama muito maior de pacientes, sugiro um modelo aditivo generalizado, por exemplo, 'gam' do pacote 'mgcv'.
fonte
Parece mais simples especificar um link de log e manter o deslocamento como no modelo de Poisson.
fonte