GEE: escolhendo a estrutura de correlação de trabalho adequada

19

Sou um epidemiologista tentando entender os GEEs para analisar adequadamente um estudo de coorte (usando a regressão de Poisson com um link de log para estimar o risco relativo). Tenho algumas perguntas sobre a "correlação de trabalho" que gostaria que alguém com mais conhecimento esclarecesse:

(1) Se eu repeti medições no mesmo indivíduo, é geralmente mais razoável assumir uma estrutura permutável? (Ou um autorregressivo se as medidas mostrarem uma tendência)? E quanto à independência - há casos em que se pode assumir independência para medições no mesmo indivíduo?

(2) Existe alguma maneira (razoavelmente simples) de avaliar a estrutura adequada examinando os dados?

(3) Notei que, ao escolher uma estrutura de independência, recebo as mesmas estimativas de pontos (mas com erros padrão mais baixos) que ao executar uma regressão simples de Poisson (usando R, function glm()e geeglm()from package geepack). Por que isso está acontecendo? Entendo que, com os GEEs, você estima um modelo de média populacional (em contraste com o assunto específico), portanto, você deve obter as mesmas estimativas pontuais apenas no caso de regressão linear.

(4) Se minha coorte está em vários locais de localização (mas uma medição por indivíduo), devo escolher uma independência ou uma correlação de trabalho intercambiável e por quê? Quero dizer, os indivíduos em cada site ainda são independentes um do outro, certo? Assim, para um modelo específico de assunto, por exemplo, eu especificaria o site como um efeito aleatório. No entanto, com o GEE, independência e permutabilidade fornecem estimativas diferentes e não tenho certeza de qual é a melhor em termos de suposições subjacentes.

(5) O GEE pode lidar com um cluster hierárquico de dois níveis, ou seja, uma coorte de vários locais com medidas repetidas por indivíduo? Se sim, o que devo especificar como uma variável de cluster geeglm()e qual deve ser a correlação de trabalho se alguém assume, por exemplo, "independência" para o primeiro nível (site) e "trocável" ou "autoregressivo" para o segundo nível (individual)?

Entendo que essas são algumas perguntas, e algumas delas podem ser bastante básicas, mas ainda muito difíceis de entender (e talvez outros novatos?). Portanto, qualquer ajuda é muito e sinceramente apreciada, e para mostrar isso, comecei uma recompensa.

Theodore Lytras
fonte

Respostas:

12
  1. Não necessariamente. Com clusters pequenos, design desequilibrado e ajuste incompleto de confusão de cluster, a correlação trocável pode ser mais ineficiente e tendenciosa em relação ao GEE de independência. Essas suposições também podem ser bastante fortes. No entanto, quando essas premissas são atendidas, você obtém uma inferência mais eficiente com o trocável. Nunca encontrei um caso em que as estruturas de correlação AR-1 fizessem sentido, pois é incomum ter medições equilibradas no tempo (trabalho com dados de sujeitos humanos).

  2. Bem, explorar a correlação é bom e deve ser feito na análise de dados. No entanto, realmente não deve orientar a tomada de decisão. Você pode usar variogramas e lorelogramas para visualizar a correlação em estudos longitudinais e em painel. A correlação intracluster é uma boa medida da extensão da correlação nos clusters.

  3. A estrutura de correlação no GEE, diferentemente dos modelos mistos, não afeta as estimativas dos parâmetros marginais (que você está estimando com o GEE). Isso afeta as estimativas de erro padrão. Isso é independente de qualquer função de link. A função de link no GEE é para o modelo marginal.

  4. Os sites podem ser fontes de variação não medida, como dentes na boca ou estudantes em um distrito escolar. Há potencial para fatores de confusão no nível de cluster nesses dados, como propensão genética à cárie dentária ou financiamento da educação da comunidade; portanto, por esse motivo, você obterá melhores estimativas de erro padrão usando uma estrutura de correlação intercambiável.

  5. O cálculo dos efeitos marginais em um GEE é complicado quando eles não estão aninhados, mas pode ser feito . O aninhamento é fácil e você faz exatamente o que disse.

AdamO
fonte
(Em relação ao item 5) Então, no caso de cluster aninhado, basta selecionar a variável de cluster de nível superior e é isso?
Theodore Lytras
Não, você pode criar uma estrutura hierárquica de correlação intercambiável de dois níveis e estimar consistentemente os dois parâmetros de correlação separados para correlação usando um algoritmo EM de 3 etapas. Dessa forma, você saberia que as crianças dentro das comunidades estão correlacionadas, mas não tão correlatas quanto as crianças dentro de uma casa.
AdamO
Desculpe, eu não entendo isso. Você poderia me indicar algum código, de preferência em R ou Stata? Eu acho que isso deve ajudar.
Theodore Lytras
1
@TheodoreLytras desculpe, eu estava enganado. Sua afirmação anterior está correta. No próprio artigo, vinculei: "Além disso, se vários clusters estiverem perfeitamente aninhados, o cluster GEE no cluster de nível superior é responsável pela estrutura de correlação multinível por meio do estimador de variação sanduíche".
AdamO
1
Talvez você queira dizer outra coisa, mas quando você declara "A estrutura de correlação no GEE, diferentemente dos modelos mistos, não afeta as estimativas dos parâmetros marginais", acho que isso não é verdade. Pelo menos, se você quer dizer que os coeficientes permanecem inalterados ao escolher uma matriz de correlação de trabalho diferente, não é isso que acontece: a matriz de correlação trabalha na matriz de ponderação e afeta a matriz de covariância e os coeficientes.
Nick
6

(1) Você provavelmente precisará de algum tipo de estrutura auto-regressiva, simplesmente porque esperamos que as medidas tomadas mais distantes sejam menos correlacionadas do que aquelas tomadas mais próximas. Trocável assumiria que todos são igualmente correlacionados. Mas, como em todo o resto, depende.

(2) Acho que esse tipo de decisão se resume a pensar em como os dados foram gerados, em vez de ver como eles são.

(4) depende. Por exemplo, crianças aninhadas nas escolas não devem, na maioria dos casos, ser tratadas como independentes. Devido a padrões sociais, etc., se eu sei algo sobre uma criança em uma determinada escola, provavelmente conheço pelo menos um pouco sobre outras crianças nas escolas. Uma vez, usei o GEE para analisar as relações entre diferentes indicadores sociais e econômicos e a prevalência de obesidade em uma coorte de nascimentos em que os participantes estavam aninhados nos bairros. Eu usei uma estrutura trocável. Você pode encontrar o artigo aqui e conferir algumas das referências, incluindo 2 de periódicos epi.

(5) Aparentemente, sim (por exemplo, veja este exemplo ), mas não posso ajudar com as especificações R de fazer isso.

Zeger SL, Liang KY, Albert PS. Modelos para dados longitudinais: uma abordagem de equações de estimativa generalizada. Biometria. 1988; 44: 1049–60.

Hubbard AE, Ahern J, Fleischer N, van der Laan M, Lippman S, Bruckner T, Satariano W. Para GEE ou não para GEE: comparação da função de estimativa e métodos baseados em probabilidade para estimar as associações entre bairros e saúde. Epidemiologia. 2009

Hanley JA, Negassa A, Edwardes MDB, Forrester JE. Análise estatística de dados correlacionados usando equações de estimativa generalizadas: uma orientação. Am J Epidemiol. 2003; 157: 364.

DL Dahly
fonte
Isso é realmente útil, mas me faz pensar por que alguém usaria uma estrutura de independência, porque o agrupamento em si implica um certo grau de semelhança entre as observações. No entanto, tenho a impressão de que, no caso das escolas, a semelhança é em relação a outras escolas e, dentro de cada escola, os alunos seriam independentes. Então, eu ainda não estou muito claro sobre isso.
Theodore Lytras
Sim, se você restringiu sua modelagem de amostra e subseq a uma única escola, não se preocupe. Nesse caso, seria mais justificável assumir que os erros são iid. Porém, uma vez que você começa a combinar crianças de escolas diferentes na mesma amostra / modelo, essa suposição se torna insignificante, a menos que você considere a escola no modelo, ou seja, para que os erros condicionais à escola sejam assumidos.
DL Dahly
É importante notar também que as pessoas podem ser mais útil para você, se você poderia fornecer alguns detalhes sobre o tamanho da amostra, o número e data das medidas repetidas, o número de clusters, etc.
DL Dahly
2
@DLDahly seu argumento em (1) não é algo que eu frequentemente encontro nas análises de painéis bioestatísticos. Uma das suposições por trás das estruturas de correlação AR-N é que, dado tempo suficiente entre elas, duas medidas no mesmo indivíduo serão tão correlacionadas quanto duas medidas entre indivíduos diferentes. Entretanto, os principais fatores de confusão entre agrupamentos subjacentes geralmente não são covariáveis ​​variáveis ​​no tempo (como marcadores genéticos), e presumir o contrário é muito difícil (se não impossível) de avaliar. Um lorrelograma é um ótimo lugar para começar.
AdamO 31/01
1

(0) Comentários gerais: a maioria dos modelos que vejo em validação cruzada é muito complicada. Simplifique se possível. Geralmente vale a pena modelar com GEE e modelo misto para comparar resultados.
(1) Sim Escolha permutável. Minha resposta inequívoca é baseada no benefício mais amplamente elogiado pelo GEE: resiliência das estimativas às suposições feitas.
Se você observar estudos em seu campo, verá que o exch é a opção padrão. Isso não significa que é o melhor, mas deve ser o primeiro a considerar. O aconselhamento técnico será o melhor aconselhamento sem ter conhecimento detalhado de seus dados.
(2) Sim, existem abordagens orientadas a dados como "QIC". Este é um exemplo de Stata, mas amplamente aceito como uma opção razoável, embora muito raramente usado na prática:http://www.stata-journal.com/sjpdf.html?articlenum=st0126 )
(3) As estimativas de pontos nunca são exatamente as mesmas (a menos que você esteja usando a estrutura de correlação indep), mas geralmente são bastante próximas. Você pode encontrar muitos artigos comparando estimativas simples de modelo / efeito gee / efeitos mistos para ter uma idéia disso ( https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf ) A maioria dos livros didáticos também possui uma tabela ou dois para isso. Para uma estrutura de correlação independente, você está essencialmente executando o modelo de poisson com SEs robustas. Portanto, as estimativas serão exatamente as mesmas. O SE é geralmente maior. Mas, às vezes, os SE robustos são menores (ou seja, a vida: o Google fornece uma explicação sem dor, se estiver interessado)
(4) Veja (1) e (2) acima.
(5) Não. Ou melhor, você pode fazer qualquer coisa se esforçar o suficiente, mas raramente vale a pena.

Charles
fonte
0

Você está usando a abordagem errada com uma pessoa para fazer o que está fazendo, porque não conhece a estrutura e seus resultados provavelmente serão confundidos. Consulte Jamie Robinson isso. Você precisa usar por muito tempo. TMLE (mark van der laan) ou talvez um gee com pesos iptw. Não considerar a correlação subestima a variação. Basta pensar que se todas as medidas repetidas fossem 100% correlacionadas, você teria efetivamente menos observações (essencialmente apenas n para seus n sujeitos) e menor n significa maior variação.

Jonathan Levy
fonte
Se você tiver um resultado que não seja de sobrevivência, poderá usar a abordagem gee com estrutura de correias independente e pesos de iptw, conforme sugerido para estimativas imparciais, supondo que você obtenha a pontuação de propensão correta. O TMLE é o melhor em todos os casos, sobrevivência ou não, porque você pode usar o aprendizado de conjuntos para prever pontuações de propensão e regressões sequenciais e ainda obter inferência eficiente. Sua abordagem certamente será tendenciosa e dará inferência incorreta e quanto maior o tamanho da amostra, se não houver efeito, você provavelmente identificará um efeito significativo errado !!
Jonathan Levy
Isso poderia usar mais detalhes. O que é Janie Robinson? Qual artigo de van der Laan?
Mdewey # 16/16
@mdewey desculpe, erro de digitação, significa Jamie Robins. Experimente os modelos estruturais marginais de Robins, hernan, Babette 2000 e inferência causal - ótimo método para resultados de não sobrevivência, incluindo uma maneira de fazer msm com modificadores de efeito. Para laan, faça referência ao livro, aprendizado direcionado. Como eu disse, laan é provavelmente o melhor, mas é preciso mais para entender. O pacote R Ltmle faz essa metodologia, mas leva algum tempo para aprender.
Jonathan Levy