Sou um pouco novo em usar regressão logística e um pouco confuso com uma discrepância entre minhas interpretações dos seguintes valores, que pensei que seriam os mesmos:
- valores beta exponenciados
- probabilidade prevista do resultado usando valores beta.
Aqui está uma versão simplificada do modelo que estou usando, onde a desnutrição e o seguro são binários e a riqueza é contínua:
Under.Nutrition ~ insurance + wealth
Meu modelo (real) retorna um valor beta exponenciado de 0,8 para o seguro, que eu interpretaria como:
"A probabilidade de estar desnutrido para um indivíduo segurado é 0,8 vezes a probabilidade de estar desnutrido para um indivíduo não segurado".
No entanto, quando calculo a diferença de probabilidades para indivíduos, inserindo os valores de 0 e 1 na variável seguro e no valor médio da riqueza, a diferença na desnutrição é de apenas 0,04. Isso é calculado da seguinte maneira:
Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) /
(1+exp(β0 + β1*Insurance + β2*wealth))
Eu realmente apreciaria se alguém pudesse explicar por que esses valores são diferentes e qual a melhor interpretação (principalmente para o segundo valor).
Esclarecimentos adicionais Editar
Pelo que entendi, a probabilidade de ser subnutrido para uma pessoa sem seguro (onde B1 corresponde ao seguro) é:
Prob(Unins) = exp(β0 + β1*0 + β2*Wealth) /
(1+exp(β0 + β1*0+ β2*wealth))
Embora a probabilidade de ser subnutrido para um segurado seja:
Prob(Ins)= exp(β0 + β1*1 + β2*Wealth) /
(1+exp(β0 + β1*1+ β2*wealth))
As chances de ser desnutrido para uma pessoa não segurada em comparação com uma pessoa segurada são:
exp(B1)
Existe uma maneira de traduzir entre esses valores (matematicamente)? Ainda estou um pouco confuso com esta equação (onde eu provavelmente deveria ter um valor diferente no RHS):
Prob(Ins) - Prob(Unins) != exp(B)
Nos termos dos leigos, a questão é por que garantir que um indivíduo não mude sua probabilidade de ser subnutrido tanto quanto a razão de chances indica? Nos meus dados, Prob (Ins) - Prob (Unins) = .04, onde o valor beta exponenciado é 0,8 (então, por que a diferença não é 0,2?)
Respostas:
Parece-me evidente que menos que . Então, sou menos claro sobre o que pode ser a confusão. O que posso dizer é que o lado esquerdo (LHS) do (não) sinal de igual é a probabilidade de estar desnutrido, enquanto o RHS é a probabilidade de estar desnutrido. Quando examinado por si só, , é a razão de chances , que é o fator multiplicativo que permite mover das probabilidades ( ) para as probabilidades ( ).
Entre em contato se precisar de informações adicionais / diferentes.
Atualização:
Eu acho que isso é principalmente uma questão de não estar familiarizado com probabilidades e probabilidades, e como elas se relacionam. Nada disso é muito intuitivo; você precisa sentar e trabalhar com ele por um tempo e aprender a pensar nesses termos; não vem naturalmente para ninguém.
A questão é que números absolutos são muito difíceis de interpretar por si próprios. Digamos que eu estava falando sobre uma época em que eu tinha uma moeda e me perguntei se era justo. Então eu virei um pouco e tenho 6 cabeças. O que isso significa? 6 é muito, um pouco, certo? É muito difícil dizer. Para lidar com esse problema, queremos dar algum contexto aos números. Em um caso como esse, há duas opções óbvias de como fornecer o contexto necessário: eu poderia fornecer o número total de lançamentos ou o número de caudas. Em qualquer um dos casos, você tem informações adequadas para entender 6 cabeças e pode calcular o outro valor se o que eu lhe disse não for o preferido. Probabilidade é o número de cabeças dividido pelo número total de eventos. A probabilidade é a razão entre o número de cabeças e o número denão cabeças (intuitivamente, queremos dizer o número de caudas, que funciona neste caso, mas não se houver mais de duas possibilidades). Com as probabilidades, é possível fornecer os dois números, por exemplo, 4 a 5. Isso significa que, a longo prazo, algo acontecerá 4 vezes para cada 5 vezes que isso não acontecer. Quando as probabilidades são apresentadas dessa maneira, elas são chamadas de " probabilidades de Las Vegas ". No entanto, nas estatísticas, geralmente dividimos e dizemos que as probabilidades são de 0,8 (ou seja, 4/5 = 0,8) para fins de padronização. Também podemos converter entre probabilidades e probabilidades:
O que é importante reconhecer a partir de todas essas equações é que probabilidades, probabilidades e razões de chances não são iguais de maneira direta; só porque a probabilidade aumenta em 0,04 muito não implica que a probabilidade ou razão de chances seja algo como 0,04! Além disso, as probabilidades variam de , enquanto as probabilidades ln (a saída da equação de regressão logística bruta) podem variar de , e as probabilidades e odds ratio podem variar de . Esta última parte é vital: devido ao intervalo limitado de probabilidades, as probabilidades são não lineares , mas as probabilidades podem ser lineares. Ou seja, como (por exemplo)[0,1] (−∞,+∞) (0,+∞)
wealth
sob incrementos constantes, a probabilidade de desnutrição aumentará em quantidades variáveis, mas as chances de ln aumentarão em uma quantidade constante e as chances aumentarão por um fator multiplicativo constante. Para qualquer conjunto de valores em seu modelo de regressão logística, pode haver algum ponto em que para alguns e , mas será desigual em qualquer outro lugar. xx′(Embora tenha sido escrito no contexto de uma pergunta diferente, minha resposta aqui contém muitas informações sobre regressão logística que podem ser úteis para você entender melhor a RL e questões relacionadas.)
fonte
Bem, a resposta é simples quando você deseja manter todas as variáveis constantes e variar uma variável. No entanto, torna-se um pouco complicado no momento em que cada variável varia. Você pode consultar o seguinte post, ele pode ajudar http://analyticspro.org/2016/03/02/r-tutorial-multiple-linear-regression/
fonte
A razão de chances OR = Exp (b) se traduz em Probabilidade A = SQRT (OR) / (SQRT (OR) +1), onde Probabilidade A é probabilidade do Evento A e OR é razão do evento A / não evento A (ou exposto / não exposto pelo seguro, como na pergunta acima). Demorei um pouco para resolver; Não sei por que essa fórmula não é conhecida.
Há um exemplo. Suponha que haja 10 pessoas admitidas na universidade; 7 deles são homens. Portanto, para todo homem, é 70% de probabilidade de ser admitido. As probabilidades de admissão para homens são 7/3 = 2,33 e não de admissão 3/7 = 0,43. A razão de chances (OR) é de 2,33 / 0,43 = 5,44, o que significa que, para os homens, 5,44 vezes mais chances de serem admitidos do que para mulheres. Vamos encontrar probabilidade de ser admitido pelo homem em OR: P = SQRT (5.44) / (SQRT (5.44) +1) = 0.7
Atualização Isso é verdade apenas se o número de homens ou mulheres admitidos for igual ao número de candidatos. Em outras palavras, não é OR. Não podemos encontrar o ganho (ou perda) de probabilidade depende do fator sem conhecer informações adicionais.
fonte