Regressão de Poisson para estimar o risco relativo de resultados binários

42

Sumário breve

Por que é mais comum a regressão logística (com odds ratio) ser usada em estudos de coorte com resultados binários, em oposição à regressão de Poisson (com riscos relativos)?

fundo

Os cursos de estatística e epidemiologia de graduação e pós-graduação, na minha experiência, geralmente ensinam que a regressão logística deve ser usada para modelar dados com resultados binários, com estimativas de risco relatadas como odds ratio.

No entanto, a regressão de Poisson (e relacionada: quase-Poisson, binomial negativo, etc.) também pode ser usada para modelar dados com resultados binários e, com métodos apropriados (por exemplo, estimador robusto de variância sanduíche), fornece estimativas de risco válidas e níveis de confiança. Por exemplo,

A partir da regressão de Poisson, podem ser relatados riscos relativos, que alguns argumentam serem mais fáceis de interpretar em comparação com odds ratio, especialmente para resultados freqüentes, e especialmente por indivíduos sem um forte histórico em estatística. Veja Zhang J. e Yu KF, qual é o risco relativo? Um método de correção do odds ratio em estudos de coorte de resultados comuns , JAMA. 18 de novembro de 1998; 280 (19): 1690-1.

Ao ler a literatura médica, entre estudos de coorte com resultados binários, parece que ainda é muito mais comum relatar odds ratio de regressões logísticas do que riscos relativos das regressões de Poisson.

Questões

Para estudos de coorte com resultados binários:

  1. Há boas razões para relatar odds ratio de regressões logísticas em vez de riscos relativos de regressões de Poisson?
  2. Caso contrário, a infreqüência das regressões de Poisson com riscos relativos na literatura médica pode ser atribuída principalmente a um atraso entre a teoria e a prática metodológicas entre cientistas, clínicos, estatísticos e epidemiologistas?
  3. Os cursos intermediários de estatística e epidemiologia devem incluir mais discussões sobre a regressão de Poisson para resultados binários?
  4. Devo incentivar os alunos e colegas a considerar a regressão de Poisson sobre a regressão logística, quando apropriado?
jthetzel
fonte
Se você deseja um risco relativo, por que não usaria apenas a regressão binomial com o link log (em vez de logístico)? A relação de variação média da família Poisson não faz muito sentido se você condicionou o número de eventos possíveis por observação.
Andrew M
@AndrewM Como você aplicaria uma regressão binomial com link de log? Valores positivos do regressor implicariam valores de probabilidade maiores que 1.
Rufo 17/05
@Rufo: Se eu entendi, eu chamaria isso de preditor linear, em vez de regressor. E sim, o espaço do parâmetro agora está restrito para que o preditor linear seja negativo, ao contrário do caso irrestrito do link logístico. Sua resposta prevista (em novos dados) pode estar fora de , embora eu acredite que um MLE sempre exista (talvez no limite do espaço de parâmetro). Esses modelos às vezes são exigentes para se ajustarem. [0,1]
Andrew M
@ AndrewM Sim, eu menti preditor linear, obrigado :). Mas mesmo quando você consegue implementar o modelo, não tenho certeza de que seja adequado. Como indiquei em um comentário na primeira resposta, se você trocar 0s por 1s e vice-versa pela variável de resposta, como o link do log não é simétrico em torno de 0,5, as estimativas dos riscos relativos são diferentes ( exp(beta_M1) =/= 1/exp(beta_M2)). Isso me perturba bastante.
Rufo
1
@Rufo: Claro que não é recíproco. Você está calculando um risco relativo: e , em geral, independentemente da função de link usada. P ( Y | X ) / P ( Y | X c ) P ( Y c | X ) / P ( Y c | X c )P(Y|X)/P(Y|Xc)P(Y|X)/P(Y|Xc)P(Yc|X)/P(Yc|Xc)
Andrew M

Respostas:

28

Uma resposta para todas as suas quatro perguntas, precedida por uma observação:

Na verdade, não é tão comum que estudos epidemiológicos modernos relatem uma razão de chances de uma regressão logística para um estudo de coorte. Continua sendo a técnica de regressão preferida para estudos de controle de casos, mas técnicas mais sofisticadas agora são o padrão de fato para análise em grandes periódicos de epidemiologia como Epidemiology , AJE ou IJE. Haverá uma tendência maior para eles aparecerem em revistas clínicas que relatam os resultados de estudos observacionais. Também haverá alguns problemas porque a regressão de Poisson pode ser usada em dois contextos: ao que você está se referindo, em que é um substituto para um modelo de regressão binomial e em um contexto de tempo para evento, que é extremamente comum para coortes estudos. Mais detalhes nas respostas da pergunta específica:

  1. Para um estudo de coorte, na verdade não. Existem alguns casos extremamente específicos em que, digamos, um modelo logístico por partes pode ter sido usado, mas esses são discrepantes. O ponto principal de um estudo de coorte é que você pode medir diretamente o risco relativo, ou muitas medidas relacionadas, e não precisa confiar em uma razão de chances. No entanto, farei duas anotações: Uma regressão de Poisson está estimando frequentemente uma taxa, não é um risco, e, portanto, a estimativa de efeito a partir disso geralmente será anotada como uma taxa de taxa (principalmente, em minha opinião, para que você ainda possa abreviá-lo RR) ou uma taxa de densidade de incidência (TIR ou IDR). Portanto, verifique em sua pesquisa os termos certos: existem muitos estudos de coorte usando métodos de análise de sobrevivência. Para esses estudos, a regressão de Poisson faz algumas suposições problemáticas, principalmente que o risco é constante. Como tal, é muito mais comum analisar um estudo de coorte usando modelos de riscos proporcionais de Cox, em vez de modelos de Poisson, e relatar a taxa de risco resultante (FC). Se pressionado para nomear um método "padrão" com o qual analisar uma coorte, eu diria que a epidemiologia é realmente dominada pelo modelo de Cox. Isso tem seus próprios problemas, e alguns bons epidemiologistas gostariam de mudar isso,

  2. Há duas coisas às quais eu poderia atribuir a infreqüência - uma infrequência que eu não acho necessariamente que exista na medida em que você sugere. Uma é que sim - a "epidemiologia" como um campo não está exatamente fechada, e você recebe um grande número de artigos de médicos, cientistas sociais, etc., bem como epidemiologistas de diferentes contextos estatísticos. O modelo logístico é comumente ensinado e, na minha experiência, muitos pesquisadores se voltam para a ferramenta familiar sobre a melhor.

    A segunda é na verdade uma questão do que você quer dizer com estudo de "coorte". Algo como o modelo de Cox, ou um modelo de Poisson, precisa de uma estimativa real do tempo da pessoa. É possível obter um estudo de coorte que segue uma população um pouco fechada por um período específico - especialmente nos exemplos iniciais "Intro to Epi", onde métodos de sobrevivência como os modelos de Poisson ou Cox não são tão úteis. O modelo logístico podeser usado para estimar um odds ratio que, com uma prevalência suficientemente baixa da doença, se aproxima de um risco relativo. Outras técnicas de regressão que a estimam diretamente, como a regressão binomial, têm problemas de convergência que podem facilmente atrapalhar um novo aluno. Lembre-se de que os artigos de Zou que você cita estão usando uma técnica de regressão de Poisson para contornar os problemas de convergência da regressão binomial. Porém, os estudos de coorte apropriados ao binômio são na verdade uma pequena fatia do "bolo de estudo de coorte".

  3. Sim. Francamente, os métodos de análise de sobrevivência devem surgir mais cedo do que costumam aparecer. Minha teoria do animal de estimação é que a razão pela qual isso não é verdade é que métodos como a regressão logística são mais fáceis de codificar . Técnicas que são mais fáceis de codificar, mas vêm com advertências muito maiores sobre a validade de suas estimativas de efeito, são ensinadas como o padrão "básico", que é um problema.

  4. Você deve incentivar os alunos e colegas a usar a ferramenta apropriada. Geralmente para o campo, acho que você provavelmente sugeriria uma consideração do modelo de Cox sobre uma regressão de Poisson, pois a maioria dos revisores (e deveria) rapidamente levanta preocupações sobre a suposição de um risco constante. Mas sim, quanto mais cedo você puder afastá-los de "Como calço minha pergunta em um modelo de regressão logística?" melhor estaremos todos. Mas sim, se você estiver estudando um estudo sem tempo, os alunos devem apresentar a regressão binomial e abordagens alternativas, como a regressão de Poisson, que podem ser usadas em caso de problemas de convergência.

Fomite
fonte
Quando você diz Outras técnicas de regressão que a estimam diretamente [risco relativo, presumo], como a regressão binomial, têm problemas de convergência [...] , como você aplicaria uma regressão binomial para que ela lhe desse um risco relativo? @AndrewM sugere uma ligação log, mas não vejo como é que você evita o problema de ter estimativas da probabilidade de sucesso maior do que 1.
Rufo
@Rufo Um modelo binomial com um link de log, quando executado em uma coorte, estimará o risco relativo. O fato de esses modelos às vezes estimarem probabilidades maiores que 1 é, de fato, uma das razões pelas quais os modelos binomiais são mais difíceis de implementar do que o ideal. Mas consegui usá-los - é útil que seus dados tenham probabilidades muito abaixo de 1, para que o modelo nunca acabe com o problema com o qual você está preocupado.
Fomite 17/05
A função de link de log não forneceria resultados diferentes, dependendo da codificação da sua variável de resposta? Quero dizer, se você trocar 0s por 1s e vice-versa, como o link do log não é simétrico em torno de 0,5, as estimativas para o parâmetro dão certos valores das covariáveis ​​e as estimativas preditivas são diferentes. Isso me perturba bastante. p
Rufo
9

Também especulo sobre a prevalência de modelos logísticos na literatura quando um modelo de risco relativo seria mais apropriado. Nós, como estatísticos, estamos familiarizados demais com a aderência à convenção ou com as análises de "menu suspenso". Isso cria muito mais problemas do que resolve. A regressão logística é ensinada como uma "ferramenta padrão de prateleira" para analisar resultados binários, onde um indivíduo tem um tipo de resultado sim / não, como morte ou incapacidade.

A regressão de Poisson é freqüentemente ensinada como um método para analisar contagens . É um pouco enfatizado que esse modelo de probabilidade funciona excepcionalmente bem para modelar resultados 0/1, especialmente quando são raros. No entanto, um modelo logístico também é bem aplicado com resultados raros: o odds ratio é aproximadamente um risco, mesmo com amostras dependentes de resultados, como nos estudos de controle de caso. O mesmo não se pode dizer do risco relativo ou dos modelos de Poisson.

Um modelo de poisson também é útil quando os indivíduos podem ter um "resultado" mais de uma vez e você pode estar interessado em incidência cumulativa, como surtos de herpes, hospitalizações ou câncer de mama. Por esse motivo, os coeficientes exponenciados podem ser interpretados como taxas relativas . Para destacar a diferença entre taxas e riscos: Se houver 100 casos por 1.000 pessoas-ano, mas todos os 100 casos ocorreram em um indivíduo, a incidência (taxa) ainda será de 1 caso por 10 pessoas-ano. Em um ambiente de prestação de serviços de saúde, você ainda precisa tratar 100 casos e a vacinação de 80% das pessoas tem uma redução na taxa de incidência de 80% (a priori). No entanto, o risco de pelo menos um resultado é 1/1000. A natureza do resultado e a pergunta, juntas, determinam qual modelo é apropriado.

Eu estaria preocupado em dizer "nós ajustamos um modelo de regressão de Poisson para incidência para estimar taxas relativas " porque isso pode introduzir alguma confusão quanto à natureza do resultado e se uma pessoa pode experimentá-lo mais de uma vez. Se você estiver interessado em riscos relativos, deve dizer isso e estar preparado para discutir as sensibilidades da suposição de variação inadequada, em que a média é proporcional ao resultado quando eventos binários têm a seguinte relação de variação média:var(y)=E(y)(1E(y))

Meu entendimento é que, se o interesse científico reside na estimativa de taxas relativas, existe um modelo híbrido: regressão de risco relativo, que é um GLM usando a estrutura de variância logística e a estrutura média de Poisson. Ou seja: e ,var ( Y ) = E [ Y ] ( 1 - E [ Y ] )log(E[Y|X])=β0+β1Xvar(Y)=E[Y](1E[Y])

A propósito, o artigo de Zhang fornece uma estimativa tendenciosa de inferência com base na estimativa de risco relativo, que não leva em conta a variabilidade no termo de interceptação. Você pode corrigir o estimador através da inicialização.

Para responder a perguntas específicas:

  1. Se o resultado for raro, eles são aproximadamente os mesmos. Se o resultado for comum, a variação do estimador de taxa relativa do Poisson pode ser exagerada, e podemos preferir o odds ratio como uma estimativa tendenciosa, mas eficiente, da associação entre um resultado binário e várias exposições. Eu também acho que os estudos de caso-controle justificam o uso do odds ratio como uma medida que não varia com a amostragem dependente do resultado. Scott e Wild 97 discutem métodos em torno disso. Obviamente, outros periódicos podem não ter revisores estatísticos dedicados.

2.3 Eu acho que você está culpando e assumindo muito sobre o que acontece na revisão médica e nos acadêmicos.

  1. Você deve sempre incentivar seus alunos a usar modelos apropriados sempre que possível.

http://biostats.bepress.com/cgi/viewcontent.cgi?article=1128&context=uwbiostat

AdamO
fonte
2
"Meu entendimento é que, se o interesse científico reside em estimar taxas relativas, existe um modelo híbrido: regressão de risco relativo, que é um GLM usando a estrutura de variância logística e a estrutura média de poisson": Também conhecida como regressão binomial com um link de log.
Andrew M
2
@AndrewM Indeed. Na verdade, acho que é o idioma preferido. Obrigado por apontar isso. Eu editei a pergunta para incluir uma referência a um documento de trabalho de Thomas Lumley, que enfatiza que o modelo de Poisson é um "modelo de trabalho", pois é uma relação incorreta de variância média assumida incorretamente.
21416 AdamOu em 17/11/2017
O que você quer dizer com "Se o resultado é raro , é aproximadamente o mesmo"? Qual é a porcentagem máxima de resultado "raro" para usar OR em vez de RR para estimar a prevalência?
vasili111 9/07
2
@ vasili111 este é um tópico muito debatido, sem resposta clara. Atualmente, você vê muitas críticas de pessoas fazendo a suposição "rara" quando a incidência não era tão rara, como mais de 1/30. E com modelos multivariados, vale tudo!
AdamO 9/07