Eu tenho dois anos de dados que se parecem basicamente com isso:
Data _ __ Violência S / N? _ Número de pacientes
1/1/2008 _ ___ 0 0 __ _ __ _ ____ 11
2/1/2008 _ __ _ 0 _ __ _ __ _ __ 11
1/3/2008 _ ____ 1 __ _ __ _ ____ 12
01/04/2008 _ ____ 0 __ _ __ _ ____ 12
...
31/12 / 2009_ _ __ 0_ _ __ _ __ _ __ 14
isto é, dois anos de observações, uma por dia, de uma enfermaria psiquiátrica, que indicam se houve um incidente de violência naquele dia (1 é sim, 0 não), bem como o número de pacientes na enfermaria. A hipótese que desejamos testar é que mais pacientes na enfermaria estão associados a uma maior probabilidade de violência na enfermaria.
Percebemos, é claro, que teremos que nos ajustar ao fato de que, quando houver mais pacientes na enfermaria, a violência é mais provável porque há apenas mais deles - estamos interessados em saber se a probabilidade de violência de cada indivíduo aumenta quando há mais pacientes na enfermaria.
Eu já vi vários artigos que usam apenas regressão logística, mas acho que isso está errado porque existe uma estrutura autorregressiva (embora, olhando para a função de autocorrelação, ela não fique acima de .1 em nenhum atraso, embora esteja acima da Linha tracejada azul "significativa" que R desenha para mim).
Só para tornar as coisas mais complicadas, eu posso, se desejar dividir os resultados em pacientes individuais, para que os dados tenham a mesma aparência acima, exceto que eu teria os dados de cada paciente, 1/1/2008, 2 / 1/2008 etc. e um código de identificação indo para o lado para que os dados mostrassem todo o histórico de incidentes para cada paciente separadamente (embora nem todos os pacientes estejam presentes o dia inteiro, não tenho certeza se isso importa).
Eu gostaria de usar o lme4 em R para modelar a estrutura auto-regressiva em cada paciente, mas alguns pesquisadores pesquisam a citação "o lme4 não está configurado para lidar com estruturas auto-regressivas". Mesmo que fosse, não tenho certeza se entendi como escrever o código.
Caso alguém perceba, eu fiz uma pergunta como essa há um tempo atrás, eles são conjuntos de dados diferentes com problemas diferentes, embora resolver esse problema realmente ajude com esse (alguém sugeriu que eu usasse métodos mistos anteriormente, mas essa coisa de auto-regressão me fez não sabe como fazer isso).
Então, eu estou um pouco preso e perdido para ser honesto. Qualquer ajuda recebida com gratidão!
fonte
pgmm
do pacote plm , mas como sua variável de resposta é binária, não sei exatamente como fazê-lo. Talvez outros possam elaborar ... (E sim, você está certo: meu entendimento é que sempre que você tem uma variável endógena, nesse caso o valor defasado, você não pode usar o REML para estimar porque é tendencioso, então você precisa usar o GMM .)Respostas:
Aqui está uma idéia que conecta sua variável dependente binária a uma variável contínua e não observada; uma conexão que pode permitir que você aproveite o poder dos modelos de séries temporais para variáveis contínuas.
Definir:
Onde,
Você pode usar um modelo de série temporal para e estimar os parâmetros relevantes. Por exemplo, você pode modelar como:Pw,t Pw,t
Onde,
w tnw,t é o número de pacientes na enfermaria no tempo .w t
Você pode ver se é significativamente diferente de 0 para testar sua hipótese de que "mais pacientes levam a um aumento na probabilidade de violência".β
O desafio da especificação do modelo acima é que você realmente não observa e, portanto, o acima não é o seu modelo de série temporal usual. Eu não sei nada sobre R, então talvez outra pessoa faça um chip se houver um pacote que permita estimar modelos como o acima.Pw,t
fonte