Propriedades das regressões logísticas

17

Estamos trabalhando com algumas regressões logísticas e percebemos que a probabilidade média estimada sempre é igual à proporção de uma na amostra; isto é, a média dos valores ajustados é igual à média da amostra.

Alguém pode me explicar o motivo ou me dar uma referência para encontrar essa demonstração?

Gabi Foix
fonte
2
A razão para isso é que a regressão logística está tentando conseguir exatamente isso: modelando a distribuição de dados, incluindo as probabilidades anteriores ("médias"). Esse comportamento é indesejável?
bayerj
1
@bayer A não linearidade da função de link indica que esse fenômeno é mais profundo que a sua caracterização. Realmente há algo a ser demonstrado aqui.
whuber
Essa propriedade às vezes é chamada de calibração geral quando a regressão logística é usada para estimar o risco.
julieth 26/09/18

Respostas:

26

O comportamento que você está observando é o caso "típico" da regressão logística, mas nem sempre é verdadeiro. Também possui muito mais generalidade (veja abaixo). É a conseqüência da confluência de três fatos separados.

  1. A escolha de modelar as chances de log como uma função linear dos preditores,
  2. O uso da probabilidade máxima para obter estimativas dos coeficientes no modelo de regressão logística, e
  3. A inclusão de um termo de interceptação no modelo.

Se qualquer uma das opções acima não estiver presente, as probabilidades médias estimadas não corresponderão, em geral, à proporção de uma na amostra.

No entanto, (quase) todo software estatístico usa estimativa de probabilidade máxima para esses modelos; portanto, na prática, os itens 1 e 2 estão sempre sempre presentes e o item 3 geralmente está presente, exceto em casos especiais.

Alguns detalhes

Na estrutura típica de regressão logística, observamos o resultado de ensaios binomiais independentes com probabilidade . Deixeipi ser as respostas observadas. Então a probabilidade total é L = n i = 1 p y i i ( 1 - p i ) 1 - y i = n i = 1 exp ( y i log ( p i / ( 1 - p iyi e , portanto, a probabilidade do log é = n i = 1 y i log ( p i / ( 1 - p i ) ) + n i = 1 log ( 1 - p i )

eu=Eu=1npEuyEu(1-pEu)1-yEu=Eu=1nexp(yEuregistro(pEu/(1-pEu))+registro(1-pEu)),
=Eu=1nyEuregistro(pEu/(1-pEu))+Eu=1nregistro(1-pEu).

Agora, temos um vetor de preditores para cada observação e, a partir do Fato 1 acima, o modelo de regressão logística postula que para algum vetor desconhecido de parâmetros . Nota : Ao reorganizar isso, obtemos que . log p ixEu

registropEu1-pEu=βTxEu,
p i = 1 / ( 1 + e - β T x i )βpEu=1/(1+e-βTxEu)

Usar a probabilidade máxima de ajustar-se ao modelo (Fato 2) produz um conjunto de equações a serem resolvidas considerando . Observe que usando a relação linear assumida entre as probabilidades de log e os preditores. Isso significa que o MLE satisfaz uma vez que os MLEs são invariantes em transformações, portanto neste caso.l de/β=0 0

β=EuyEuxEu-EuxEu1+exp(-βTxEu)=EuyEuxEu-EupEuxEu,
EuyEuxEu=Eup^EuxEu,
p^Eu=(1+exp(-β^TxEu))-1

Usando o Fato 3, se tem um componente que é sempre 1 para cada , então e, portanto, a proporção empírica de respostas positivas corresponde à média das probabilidades ajustadas.xEujEuEuyEuxEuj=EuyEu=Eup^Eu

Uma simulação

A inclusão de um intercepto é importante. Aqui está um exemplo em para demonstrar que o comportamento observado pode não ocorrer quando nenhuma interceptação estiver presente no modelo.R

x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )

Caso geral : Como mencionado acima, a propriedade de que a resposta média é igual à média média prevista possui uma generalidade muito maior para a classe de modelos lineares generalizados, ajustada pela máxima verossimilhança, usando a função de link canônico e incluindo uma interceptação no modelo.

Referências

Algumas boas referências para a teoria associada são as seguintes.

  1. A. Agresti (2002), Categorical Data Analysis , 2ª ed., Wiley.
  2. P. McCullagh e JA Nelder (1989), Generalized Linear Models , 2ª ed., Chapman & Hall. (Texto de autores originais dos métodos gerais.)
cardeal
fonte
4
+1 Esta demonstração (específica para o modelo de regressão logística, sem tentar generalizar para todos os GLMs) também é apresentada em Maddala (1983) Variáveis ​​Dependentes e Qualitativas Limitadas em Econometria , pp. 25-26.
StasK 5/10
@ Task: Obrigado pela referência adicional, que eu não estou familiarizado. Felicidades.
cardeal
@ cardinal: Não me lembro da Agresti discutindo isso. É discutido em McCullagh e Nelder?
julieth 26/09/18