Num artigo recente, Norton et al. (2018) [ 1 ] afirmam que
Odds ratio diferentes do mesmo estudo não podem ser comparados quando os modelos estatísticos que resultam em estimativas de odds ratio possuem variáveis explicativas diferentes, pois cada modelo possui um fator de escala arbitrário diferente. Tampouco a magnitude do odds ratio de um estudo pode ser comparada com a magnitude do odds ratio de outro estudo, porque amostras diferentes e especificações de modelo diferentes terão fatores de escala arbitrários diferentes. Uma implicação adicional é que as magnitudes de odds ratio de uma determinada associação em vários estudos não podem ser sintetizadas em uma meta-análise.
Uma pequena simulação ilustra isso (o código R está na parte inferior da pergunta). Suponhamos que o verdadeiro modelo é:
res_1 res_2 res_3 res_4
1.679768 1.776200 2.002157 2.004077
É aparente que apenas os pesquisadores 3 e 4 obtêm a razão de chances correta de cerca de enquanto os pesquisadores 1 e 2 não. Isso não acontece na regressão linear, que pode ser facilmente mostrada por uma simulação semelhante (não mostrada aqui). Devo confessar que esse resultado foi bastante surpreendente para mim, embora esse problema pareça ser bem conhecido [ 2 ] . Hernán et al. (2011) [ 3 ] chamam isso de "estranheza matemática" em vez de um viés.
Minhas perguntas:
- Se as razões de chances são basicamente incomparáveis entre estudos e modelos, como podemos combinar os resultados de diferentes estudos para obter resultados binários?
- O que pode ser dito sobre os inúmeros meta-análises que se combinam as odds ratio de diferentes estudos em que cada estudo, possivelmente, ajustados para um conjunto diferente de co-variáveis? Eles são essencialmente inúteis?
Referências
[1]: Norton EC, Dowd BE, Maciejewski ML (2018): Odds Ratios - Melhores práticas e uso atuais. JAMA 320 (1): 84-85.
[2]: Norton EC, Dowd BE (2017): Odds de log e a interpretação dos modelos Logit. Health Serv Res. 53 (2): 859-878.
[3]: Hernán MA, Clayton D, Keiding N (2011): O paradoxo de Simpson se desvendou. Int J Epidemiol 40: 780-785.
Divulgação
A pergunta (incluindo o código R) é uma versão modificada de uma pergunta feita pelo timdisher do usuário nos métodos de dados .
Código R
set.seed(142857)
n_sims <- 1000 # number of simulations
out <- data.frame(
treat_1 = rep(NA, n_sims)
, treat_2 = rep(NA, n_sims)
, treat_3 = rep(NA, n_sims)
, treat_4 = rep(NA, n_sims)
)
n <- 1000 # number of observations in each simulation
coef_sim <- "x1" # Coefficient of interest
# Coefficients (log-odds)
b0 <- 1
b1 <- log(2)
b2 <- log(2.5)
b3 <- log(3)
b4 <- 0
for(i in 1:n_sims){
x1 <- rbinom(n, 1, 0.5)
x2 <- rnorm(n)
x3 <- rnorm(n)
x4 <- rnorm(n)
z <- b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4
pr <- 1/(1 + exp(-z))
y <- rbinom(n, 1, pr)
df <- data.frame(y = y, x1 = x1, x2 = x2, x3 = x3, x4 = x4)
model1 <- glm(y ~ x1, data = df, family = "binomial")
model2 <- glm(y ~ x1 + x2, data = df, family = "binomial")
model3 <- glm(y ~ x1 + x2 + x3, data = df, family = "binomial")
model4 <- glm(y ~ x1 + x2 + x3 + x4, data = df, family = "binomial")
out$treat_1[i] <- model1$coefficients[coef_sim]
out$treat_2[i] <- model2$coefficients[coef_sim]
out$treat_3[i] <- model3$coefficients[coef_sim]
out$treat_4[i] <- model4$coefficients[coef_sim]
}
# Coefficients
colMeans(out)
exp(colMeans(out)) # Odds ratios
fonte
Respostas:
Há um número de efeitos alternativos que se pode derivar do modelo de regressão logística que não sofre o mesmo problema. Um dos mais fáceis é o efeito marginal médio da variável. Suponha o seguinte modelo de regressão logística:
Esse efeito seria a diferença de probabilidade média no resultado entre o grupo de tratamento e controle para aqueles que têm os mesmos valores em outros preditores (ver Gelman & Hill, 2007, p. 101).
A sintaxe R correspondente, dado o exemplo do OP, seria:
Modifiquei a sintaxe do OP para demonstrar que ele não é afetado por quais variáveis estão no modelo, desde que a variável preditora de interesse não esteja relacionada a outros preditores.
Eu modifiquei o quadro de dados de resultados assim:
E dentro da simulação, salvei a diferença de probabilidade média calculada:
E os novos resultados:
O efeito estimado foi consistente, independentemente da especificação do modelo. E a adição de covariáveis melhorou a eficiência, como no modelo de regressão linear:
Existem efeitos adicionais que o OP pode calcular como a taxa de probabilidade média entre os dois grupos. A diferença de probabilidade média calculada acima está disponível no pacote de margens no comando R e margens no Stata. A taxa de probabilidade média está disponível apenas no Stata.
Sobre a outra questão sobre confiar nos resultados da metanálise. Por um lado, a direção do efeito não deve ser inútil. O problema com odds ratio não afeta o sinal dos coeficientes. Portanto, se muitos estudos têm uma razão de chances acima de um, não há razão para duvidar desse efeito devido a esse problema específico.
Quanto à estimativa exata, não há razão para acreditar. O bom é que, se os estudos constituintes são ensaios clínicos randomizados, os odds ratio são estimativas conservadoras e os resultados reais são ainda maiores. Isso ocorre porque o efeito OP demonstrado reduz as taxas de chances em uma. Portanto, se a maior parte dos estudos tem uma razão de chances acima de 1 e a metanálise está apontando nessa direção, o OR real, uma vez que todas as covariáveis relevantes são ajustadas, é ainda maior. Portanto, essas meta-análises não são totalmente inúteis.
Mas prefiro que outras estimativas de efeitos sejam usadas na metanálise. A diferença de probabilidade média é uma abordagem e existem outras.
Gelman, A. & Hill, J. (2007). Análise de dados usando regressão e modelos multiníveis / hierárquicos. Cambridge University Press.
fonte