Estamos trabalhando com algumas regressões logísticas e percebemos que a probabilidade média estimada sempre é igual à proporção de uma na amostra; isto é, a média dos valores ajustados é igual à média da amostra.
Alguém pode me explicar o motivo ou me dar uma referência para encontrar essa demonstração?
Respostas:
O comportamento que você está observando é o caso "típico" da regressão logística, mas nem sempre é verdadeiro. Também possui muito mais generalidade (veja abaixo). É a conseqüência da confluência de três fatos separados.
Se qualquer uma das opções acima não estiver presente, as probabilidades médias estimadas não corresponderão, em geral, à proporção de uma na amostra.
No entanto, (quase) todo software estatístico usa estimativa de probabilidade máxima para esses modelos; portanto, na prática, os itens 1 e 2 estão sempre sempre presentes e o item 3 geralmente está presente, exceto em casos especiais.
Alguns detalhes
Na estrutura típica de regressão logística, observamos o resultado de ensaios binomiais independentes com probabilidade . Deixeipi ser as respostas observadas. Então a probabilidade total é
L = n ∏ i = 1 p y i i ( 1 - p i ) 1 - y i = n ∏ i = 1 exp ( y i log ( p i / ( 1 - p iyi
e , portanto, a probabilidade do log é
ℓ = n ∑ i = 1 y i log ( p i / ( 1 - p i ) ) + n ∑ i = 1 log ( 1 - p i )
Agora, temos um vetor de preditores para cada observação e, a partir do Fato 1 acima, o modelo de regressão logística postula que para algum vetor desconhecido de parâmetros . Nota : Ao reorganizar isso, obtemos que . log p ixEu
Usar a probabilidade máxima de ajustar-se ao modelo (Fato 2) produz um conjunto de equações a serem resolvidas considerando . Observe que usando a relação linear assumida entre as probabilidades de log e os preditores. Isso significa que o MLE satisfaz uma vez que os MLEs são invariantes em transformações, portanto neste caso.∂ l de∂ℓ / ∂β= 0
Usando o Fato 3, se tem um componente que é sempre 1 para cada , então e, portanto, a proporção empírica de respostas positivas corresponde à média das probabilidades ajustadas.xEu j Eu ∑EuyEuxeu j= ∑EuyEu= ∑Eup^Eu
Uma simulação
A inclusão de um intercepto é importante. Aqui está um exemplo em para demonstrar que o comportamento observado pode não ocorrer quando nenhuma interceptação estiver presente no modelo.R
Caso geral : Como mencionado acima, a propriedade de que a resposta média é igual à média média prevista possui uma generalidade muito maior para a classe de modelos lineares generalizados, ajustada pela máxima verossimilhança, usando a função de link canônico e incluindo uma interceptação no modelo.
Referências
Algumas boas referências para a teoria associada são as seguintes.
fonte