A meta-análise de odds ratio é essencialmente inútil?

12

Num artigo recente, Norton et al. (2018) [ 1 ] afirmam que[1]

Odds ratio diferentes do mesmo estudo não podem ser comparados quando os modelos estatísticos que resultam em estimativas de odds ratio possuem variáveis ​​explicativas diferentes, pois cada modelo possui um fator de escala arbitrário diferente. Tampouco a magnitude do odds ratio de um estudo pode ser comparada com a magnitude do odds ratio de outro estudo, porque amostras diferentes e especificações de modelo diferentes terão fatores de escala arbitrários diferentes. Uma implicação adicional é que as magnitudes de odds ratio de uma determinada associação em vários estudos não podem ser sintetizadas em uma meta-análise.

Uma pequena simulação ilustra isso (o código R está na parte inferior da pergunta). Suponhamos que o verdadeiro modelo é:

euogEut(yEu)=1+registro(2)x1Eu+registro(2.5)x2Eu+registro(3)x3Eu+0 0x4Eu
Imagine ainda que os mesmos dados gerados pelo modelo acima sejam analisados ​​por quatro pesquisadores diferentes usando uma regressão logística. O pesquisador 1 inclui apenas x1 como covariável, o pesquisador 2 inclui x1 e x2 e assim por diante. As estimativas médias simuladas do odds ratio para x1 dos quatro pesquisadores foram:

res_1    res_2    res_3    res_4 
1.679768 1.776200 2.002157 2.004077

É aparente que apenas os pesquisadores 3 e 4 obtêm a razão de chances correta de cerca de 2 enquanto os pesquisadores 1 e 2 não. Isso não acontece na regressão linear, que pode ser facilmente mostrada por uma simulação semelhante (não mostrada aqui). Devo confessar que esse resultado foi bastante surpreendente para mim, embora esse problema pareça ser bem conhecido [ 2 ] . Hernán et al. (2011) [ 3 ] chamam isso de "estranheza matemática" em vez de um viés.[2][3]

Minhas perguntas:

  1. Se as razões de chances são basicamente incomparáveis ​​entre estudos e modelos, como podemos combinar os resultados de diferentes estudos para obter resultados binários?
  2. O que pode ser dito sobre os inúmeros meta-análises que se combinam as odds ratio de diferentes estudos em que cada estudo, possivelmente, ajustados para um conjunto diferente de co-variáveis? Eles são essencialmente inúteis?

Referências

[1]: Norton EC, Dowd BE, Maciejewski ML (2018): Odds Ratios - Melhores práticas e uso atuais. JAMA 320 (1): 84-85.

[2]: Norton EC, Dowd BE (2017): Odds de log e a interpretação dos modelos Logit. Health Serv Res. 53 (2): 859-878.

[3]: Hernán MA, Clayton D, Keiding N (2011): O paradoxo de Simpson se desvendou. Int J Epidemiol 40: 780-785.

Divulgação

A pergunta (incluindo o código R) é uma versão modificada de uma pergunta feita pelo timdisher do usuário nos métodos de dados .

Código R

set.seed(142857)

n_sims <- 1000 # number of simulations

out <- data.frame(
  treat_1 = rep(NA, n_sims)
  , treat_2 = rep(NA, n_sims)
  , treat_3 = rep(NA, n_sims)
  , treat_4 = rep(NA, n_sims)
)

n <- 1000 # number of observations in each simulation

coef_sim <- "x1" # Coefficient of interest

# Coefficients (log-odds)

b0 <- 1
b1 <- log(2)
b2 <- log(2.5)
b3 <- log(3)
b4 <- 0

for(i in 1:n_sims){

  x1 <- rbinom(n, 1, 0.5)
  x2 <- rnorm(n)
  x3 <- rnorm(n) 
  x4 <- rnorm(n) 

  z <-  b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4

  pr <- 1/(1 + exp(-z))  

  y <-  rbinom(n, 1, pr)

  df <-  data.frame(y = y, x1 = x1, x2 = x2, x3 = x3, x4 = x4)
  model1 <- glm(y ~ x1, data = df, family = "binomial")
  model2 <- glm(y ~ x1 + x2, data = df, family = "binomial")
  model3 <- glm(y ~ x1 + x2 + x3, data = df, family = "binomial")
  model4 <- glm(y ~ x1 + x2 + x3 + x4, data = df, family = "binomial")


  out$treat_1[i] <- model1$coefficients[coef_sim]
  out$treat_2[i] <- model2$coefficients[coef_sim]
  out$treat_3[i] <- model3$coefficients[coef_sim]
  out$treat_4[i] <- model4$coefficients[coef_sim]

}

# Coefficients

colMeans(out)
exp(colMeans(out)) # Odds ratios
COOLSerdash
fonte
Por que você diz que isso não acontece com a regressão linear. Parece que você está apenas descrevendo o viés de variável omitida?
user2879934

Respostas:

11

Há um número de efeitos alternativos que se pode derivar do modelo de regressão logística que não sofre o mesmo problema. Um dos mais fáceis é o efeito marginal médio da variável. Suponha o seguinte modelo de regressão logística:

em[p1-p]=Xβ+γd

Xnkβkdγ

d

1nEu=1n[(1+e-(Xβ+γ))-1-(1+e-Xβ)-1]

Esse efeito seria a diferença de probabilidade média no resultado entre o grupo de tratamento e controle para aqueles que têm os mesmos valores em outros preditores (ver Gelman & Hill, 2007, p. 101).

A sintaxe R correspondente, dado o exemplo do OP, seria:

dydx_bin <- function(fit, coef) {
  mod.mat <- model.matrix(fit) # Obtain model matrix
  coefs <- coef(fit)
  oth_coefs <- coefs[!(names(coefs) == coef)] # Coefs bar focal predictor
  # Get model matrix excluding focal predictor
  X_nb <- as.matrix(mod.mat[, names(oth_coefs)])
  # Predictions for all data ignoring focal predictor
  Xb_nb <- X_nb %*% oth_coefs
  mean(plogis(Xb_nb + coefs[coef]) - plogis(Xb_nb))
}

Modifiquei a sintaxe do OP para demonstrar que ele não é afetado por quais variáveis ​​estão no modelo, desde que a variável preditora de interesse não esteja relacionada a outros preditores.

Eu modifiquei o quadro de dados de resultados assim:

out <- data.frame(
  treat_1 = rep(NA, n_sims), treat_2 = rep(NA, n_sims),
  treat_3 = rep(NA, n_sims), treat_4 = rep(NA, n_sims),
  treat_11 = rep(NA, n_sims), treat_21 = rep(NA, n_sims),
  treat_31 = rep(NA, n_sims), treat_41 = rep(NA, n_sims)
)

E dentro da simulação, salvei a diferença de probabilidade média calculada:

out$treat_11[i] <- dydx_bin(model1, coef_sim)
out$treat_21[i] <- dydx_bin(model2, coef_sim)
out$treat_31[i] <- dydx_bin(model3, coef_sim)
out$treat_41[i] <- dydx_bin(model4, coef_sim)

E os novos resultados:

colMeans(out)[5:8]
 treat_11  treat_21  treat_31  treat_41 
0.1019574 0.1018248 0.1018544 0.1018642 

O efeito estimado foi consistente, independentemente da especificação do modelo. E a adição de covariáveis ​​melhorou a eficiência, como no modelo de regressão linear:

apply(out[, 5:8], 2, sd)
  treat_11   treat_21   treat_31   treat_41 
0.02896480 0.02722519 0.02492078 0.02493236 

Existem efeitos adicionais que o OP pode calcular como a taxa de probabilidade média entre os dois grupos. A diferença de probabilidade média calculada acima está disponível no pacote de margens no comando R e margens no Stata. A taxa de probabilidade média está disponível apenas no Stata.

Sobre a outra questão sobre confiar nos resultados da metanálise. Por um lado, a direção do efeito não deve ser inútil. O problema com odds ratio não afeta o sinal dos coeficientes. Portanto, se muitos estudos têm uma razão de chances acima de um, não há razão para duvidar desse efeito devido a esse problema específico.

Quanto à estimativa exata, não há razão para acreditar. O bom é que, se os estudos constituintes são ensaios clínicos randomizados, os odds ratio são estimativas conservadoras e os resultados reais são ainda maiores. Isso ocorre porque o efeito OP demonstrado reduz as taxas de chances em uma. Portanto, se a maior parte dos estudos tem uma razão de chances acima de 1 e a metanálise está apontando nessa direção, o OR real, uma vez que todas as covariáveis ​​relevantes são ajustadas, é ainda maior. Portanto, essas meta-análises não são totalmente inúteis.

Mas prefiro que outras estimativas de efeitos sejam usadas na metanálise. A diferença de probabilidade média é uma abordagem e existem outras.


Gelman, A. & Hill, J. (2007). Análise de dados usando regressão e modelos multiníveis / hierárquicos. Cambridge University Press.

Jim Heteroskedastic
fonte
1
@COOLSerdash Thanks. Há muito mais para explorar aqui. Torna-se ainda mais interessante quando o odds ratio vem de uma variável contínua dicotomizada, especialmente se houver heterocedasticidade nos relacionamentos originais. Veja a resposta de Achim Zeileis a esta pergunta - stats.stackexchange.com/questions/370876/…
Heteroskedastic Jim
Obrigado pelo link. Devo confessar que a derivação do modelo logístico usando uma variável contínua latente subjacente é nova para mim. Vim da bioestatística e as fontes seminais neste campo parecem não mencionar esses problemas (por exemplo, o livro de Lemeshow & Hosmer "Regressão logística aplicada"). Eu lhe darei a recompensa o mais rápido possível (amanhã).
COOLSerdash
Eu acho que a derivação sob variável contínua subjacente é estranha se você assumir erros de logística. Se você assumir erros normais, é mais justificável graças ao CLT. Portanto, para a regressão probit usada muito em econometria, é uma derivação comum. Mas se você dicotomizar uma variável contínua, a derivação sob erros é muito útil. Além disso, essa derivação permite explorar melhor o modelo em geral e descobrir certas peculiaridades. E obrigado pela recompensa retrospectiva.
Heteroskedastic Jim