Eu tenho dificuldade em entender o uso da regressão logística em um artigo. O artigo disponível aqui utiliza regressão logística para prever a probabilidade de complicações durante a cirurgia de catarata.
O que me confunde é que o artigo apresenta um modelo que atribui odds ratio de 1 à linha de base descrita a seguir:
Um paciente cujo perfil de risco estava no grupo de referência para todos os indicadores de risco (ou seja, OR ajustado = 1,00 para todos na Tabela 1) pode ser considerado como tendo um 'perfil de risco de linha de base', e o modelo de regressão logística indica uma 'probabilidade prevista de linha de base' para PCR ou VL ou ambos = 0,736%.
Portanto, a probabilidade de 0,00736 é apresentada com odds ratio de 1. Com base na transformação de probabilidades em odds ratio: , isso não pode ser igual a 1: .
Fica ainda mais confuso. O odds ratio composto que representa várias covariáveis com valores diferentes da linha de base é usado para calcular o risco previsto.
... o OR composto da Tabela 1 seria 1,28 X 1,58 X 2,99 X 2,46 X 1,45 X 1,60 = 34,5 e, a partir do gráfico da Figura 1, vemos que esse OR corresponde a uma probabilidade prevista de PCR ou VL ou ambos de cerca de 20%
A única maneira de chegar aos valores que o artigo está fornecendo como exemplo é multiplicar a probabilidade da linha de base com probabilidades compostas como esta: .
Então, o que está acontecendo aqui? Qual é a lógica para atribuir a razão de chances 1 a uma probabilidade de linha de base que não seja 0,5? A fórmula de atualização que criei acima apresenta as probabilidades corretas para exemplos no artigo, mas essa não é a multiplicação direta da razão de chances que eu esperaria. Então o que é?
fonte
Respostas:
As probabilidades são uma maneira de expressar chances. As probabilidades são justas: uma chance dividida por outra. Isso significa que um odds ratio é o que você multiplica uma chance para produzir outra. Vamos ver como eles funcionam nessa situação comum.
Convertendo entre probabilidades e probabilidade
As probabilidades de uma resposta binária são a razão da chance que ocorre (codificada com 1 ), escrita Pr ( Y = 1 ) , e a chance que não ocorre (codificada com 0 ), escrita Pr ( Y = 0 ) :Y 1 Pr ( Y= 1 ) 0 0 Pr ( Y= 0 )
A expressão equivalente à direita mostra que basta modelar para encontrar as probabilidades. Por outro lado, observe que podemos resolverPr ( Y= 1 )
Regressão logística
A regressão logística modela o logaritmo das chances de como uma função linear das variáveis explicativas. Geralmente, escrevendo essas variáveis como x 1 , … , x pY x1, … , Xp e incluindo um possível termo constante na função linear, podemos nomear os coeficientes (que devem ser estimados a partir dos dados) como e β 0 . Formalmente, isso produz o modeloβ1, ... , βp β0 0
As probabilidades podem ser recuperadas desfazendo o logaritmo:
Usando variáveis categóricas
Variáveis categóricas, como faixa etária, sexo, presença de glaucoma, etc. , são incorporadas por meio de "codificação fictícia". Para mostrar que como a variável é codificada não importa, fornecerei um exemplo simples de um pequeno grupo; sua generalização para vários grupos deve ser óbvia. Neste estudo, uma variável é "tamanho da pupila", com três categorias: "Grande", "Média" e "Pequena". (O estudo as trata como puramente categóricas, aparentemente não prestando atenção à sua ordem inerente.) Intuitivamente, cada categoria tem suas próprias probabilidades, digamos para "Grande", α M para "Médio" e α S para "Pequeno" . Isso significa que, todas as outras coisas iguais,αL αM αS
para qualquer pessoa na categoria "Grande",
para qualquer pessoa na categoria "Média" e
para aqueles na categoria "Pequeno".
Criando coeficientes identificáveis
Eu pintei os dois primeiros coeficientes para destacá-los, porque quero que você observe que eles permitem uma mudança simples: podemos escolher qualquer número e, adicionando-o a β 0 e subtraindo-o de cada um de α L ,γ β0 αL e α S ,não alteraríamos nenhuma chance prevista. Isso ocorre pelas equivalências óbvias da formaαM αS
etc. Embora isso não apresente problemas para o modelo - ainda prediz exatamente as mesmas coisas -, mostra que os parâmetros não são, por si só, interpretáveis. O que permanece o mesmo quando fazemos essa manobra de adição e subtração são as diferenças entre os coeficientes. Convencionalmente, para resolver essa falta de identificabilidade, as pessoas (e, por padrão, software) escolhem uma das categorias em cada variável como "base" ou "referência" e simplesmente estipulam que seu coeficiente será zero. Isso remove a ambiguidade.
Comparando probabilidades
Vamos comparar as probabilidades. Suponha que um indivíduo hipotético seja um
Essa é precisamente a quantidade pela qual as chances de log desse paciente variam em relação à base. Para converter de probabilidades de log, desfaça o logaritmo e lembre-se de que isso transforma adição em multiplicação. Portanto, as probabilidades básicas devem ser multiplicadas por
(Observe que todas as categorias de base têm odds ratio de1,00 = exp( 0 ) , porque incluindo 1 no produto o deixa inalterado. É assim que você pode identificar as categorias de base na tabela.)
Reapresentando os resultados como probabilidades
Finalmente, vamos converter esse resultado em probabilidades. Nos disseram que a probabilidade prevista da linha de base é0,736 % = 0,00736 . Portanto, usando as fórmulas relacionadas a probabilidades e probabilidades derivadas desde o início, podemos calcular
Consequentemente, as probabilidades de Charlie são
Por fim, converter isso de volta em probabilidades fornece
fonte