Por que usar probabilidades e não probabilidades na regressão logística?

8

Por que usaríamos probabilidades em vez de probabilidades ao realizar regressão logística?

Kenny
fonte

Respostas:

22

A vantagem é que as probabilidades definidas em mapeadas para as probabilidades de log em (- \ infty, \ infty) , embora esse não seja o caso das probabilidades. Como resultado, você pode usar equações de regressão como \ log \ left (\ frac {p_i} {1-p_i} \ right) = \ beta_0 + \ sum_ {j = 1} ^ J \ beta_j x_ {ij} para o log -odds sem nenhum problema (isto é, para qualquer valor dos coeficientes de regressão e covariáveis, um valor válido para as probabilidades são previstos). Você precisaria de restrições multidimensionais extremamente complicadas nos coeficientes de regressão \ beta_0, \ beta_1, \ ldots(0,)(,)

log(pi1pi)=β0+j=1Jβjxij
β0,β1,, se você quiser fazer o mesmo para a probabilidade do log (e é claro que isso também não funcionaria de maneira direta para a probabilidade ou probabilidades não transformadas). Como conseqüência, você obtém efeitos como ser incapaz de ter uma taxa de risco constante em todas as probabilidades da linha de base (algumas taxas de risco resultariam em probabilidades> 1), enquanto isso não é um problema com uma razão de chances.
Björn
fonte
17

A probabilidade é o número esperado de "sucessos" por "fracasso"; portanto, os valores podem ser menores que um, um ou mais que um, mas valores negativos não farão sentido; você pode ter 3 sucessos por falha, mas -3 sucessos por falha não faz sentido. O logaritmo de uma probabilidade pode assumir qualquer valor positivo ou negativo. A regressão logística é um modelo linear para o log (odds). Isso funciona porque o log (odds) pode receber qualquer número positivo ou negativo, portanto, um modelo linear não levará a previsões impossíveis. Podemos fazer um modelo linear para a probabilidade, um modelo linear de probabilidade, mas isso pode levar a previsões impossíveis, pois a probabilidade deve permanecer entre 0 e 1.

Maarten Buis
fonte