Sou um epidemiologista tentando entender os GEEs para analisar adequadamente um estudo de coorte (usando a regressão de Poisson com um link de log para estimar o risco relativo). Tenho algumas perguntas sobre a "correlação de trabalho" que gostaria que alguém com mais conhecimento esclarecesse:
(1) Se eu repeti medições no mesmo indivíduo, é geralmente mais razoável assumir uma estrutura permutável? (Ou um autorregressivo se as medidas mostrarem uma tendência)? E quanto à independência - há casos em que se pode assumir independência para medições no mesmo indivíduo?
(2) Existe alguma maneira (razoavelmente simples) de avaliar a estrutura adequada examinando os dados?
(3) Notei que, ao escolher uma estrutura de independência, recebo as mesmas estimativas de pontos (mas com erros padrão mais baixos) que ao executar uma regressão simples de Poisson (usando R, function glm()
e geeglm()
from package geepack
). Por que isso está acontecendo? Entendo que, com os GEEs, você estima um modelo de média populacional (em contraste com o assunto específico), portanto, você deve obter as mesmas estimativas pontuais apenas no caso de regressão linear.
(4) Se minha coorte está em vários locais de localização (mas uma medição por indivíduo), devo escolher uma independência ou uma correlação de trabalho intercambiável e por quê? Quero dizer, os indivíduos em cada site ainda são independentes um do outro, certo? Assim, para um modelo específico de assunto, por exemplo, eu especificaria o site como um efeito aleatório. No entanto, com o GEE, independência e permutabilidade fornecem estimativas diferentes e não tenho certeza de qual é a melhor em termos de suposições subjacentes.
(5) O GEE pode lidar com um cluster hierárquico de dois níveis, ou seja, uma coorte de vários locais com medidas repetidas por indivíduo? Se sim, o que devo especificar como uma variável de cluster geeglm()
e qual deve ser a correlação de trabalho se alguém assume, por exemplo, "independência" para o primeiro nível (site) e "trocável" ou "autoregressivo" para o segundo nível (individual)?
Entendo que essas são algumas perguntas, e algumas delas podem ser bastante básicas, mas ainda muito difíceis de entender (e talvez outros novatos?). Portanto, qualquer ajuda é muito e sinceramente apreciada, e para mostrar isso, comecei uma recompensa.
(1) Você provavelmente precisará de algum tipo de estrutura auto-regressiva, simplesmente porque esperamos que as medidas tomadas mais distantes sejam menos correlacionadas do que aquelas tomadas mais próximas. Trocável assumiria que todos são igualmente correlacionados. Mas, como em todo o resto, depende.
(2) Acho que esse tipo de decisão se resume a pensar em como os dados foram gerados, em vez de ver como eles são.
(4) depende. Por exemplo, crianças aninhadas nas escolas não devem, na maioria dos casos, ser tratadas como independentes. Devido a padrões sociais, etc., se eu sei algo sobre uma criança em uma determinada escola, provavelmente conheço pelo menos um pouco sobre outras crianças nas escolas. Uma vez, usei o GEE para analisar as relações entre diferentes indicadores sociais e econômicos e a prevalência de obesidade em uma coorte de nascimentos em que os participantes estavam aninhados nos bairros. Eu usei uma estrutura trocável. Você pode encontrar o artigo aqui e conferir algumas das referências, incluindo 2 de periódicos epi.
(5) Aparentemente, sim (por exemplo, veja este exemplo ), mas não posso ajudar com as especificações R de fazer isso.
Zeger SL, Liang KY, Albert PS. Modelos para dados longitudinais: uma abordagem de equações de estimativa generalizada. Biometria. 1988; 44: 1049–60.
Hubbard AE, Ahern J, Fleischer N, van der Laan M, Lippman S, Bruckner T, Satariano W. Para GEE ou não para GEE: comparação da função de estimativa e métodos baseados em probabilidade para estimar as associações entre bairros e saúde. Epidemiologia. 2009
Hanley JA, Negassa A, Edwardes MDB, Forrester JE. Análise estatística de dados correlacionados usando equações de estimativa generalizadas: uma orientação. Am J Epidemiol. 2003; 157: 364.
fonte
(0) Comentários gerais: a maioria dos modelos que vejo em validação cruzada é muito complicada. Simplifique se possível. Geralmente vale a pena modelar com GEE e modelo misto para comparar resultados.
(1) Sim Escolha permutável. Minha resposta inequívoca é baseada no benefício mais amplamente elogiado pelo GEE: resiliência das estimativas às suposições feitas.
Se você observar estudos em seu campo, verá que o exch é a opção padrão. Isso não significa que é o melhor, mas deve ser o primeiro a considerar. O aconselhamento técnico será o melhor aconselhamento sem ter conhecimento detalhado de seus dados.
(2) Sim, existem abordagens orientadas a dados como "QIC". Este é um exemplo de Stata, mas amplamente aceito como uma opção razoável, embora muito raramente usado na prática:http://www.stata-journal.com/sjpdf.html?articlenum=st0126 )
(3) As estimativas de pontos nunca são exatamente as mesmas (a menos que você esteja usando a estrutura de correlação indep), mas geralmente são bastante próximas. Você pode encontrar muitos artigos comparando estimativas simples de modelo / efeito gee / efeitos mistos para ter uma idéia disso ( https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf ) A maioria dos livros didáticos também possui uma tabela ou dois para isso. Para uma estrutura de correlação independente, você está essencialmente executando o modelo de poisson com SEs robustas. Portanto, as estimativas serão exatamente as mesmas. O SE é geralmente maior. Mas, às vezes, os SE robustos são menores (ou seja, a vida: o Google fornece uma explicação sem dor, se estiver interessado)
(4) Veja (1) e (2) acima.
(5) Não. Ou melhor, você pode fazer qualquer coisa se esforçar o suficiente, mas raramente vale a pena.
fonte
Você está usando a abordagem errada com uma pessoa para fazer o que está fazendo, porque não conhece a estrutura e seus resultados provavelmente serão confundidos. Consulte Jamie Robinson isso. Você precisa usar por muito tempo. TMLE (mark van der laan) ou talvez um gee com pesos iptw. Não considerar a correlação subestima a variação. Basta pensar que se todas as medidas repetidas fossem 100% correlacionadas, você teria efetivamente menos observações (essencialmente apenas n para seus n sujeitos) e menor n significa maior variação.
fonte