Minha pergunta é: Qual é a relação matemática entre a distribuição Beta e os coeficientes do modelo de regressão logística ?
Para ilustrar: a função logística (sigmóide) é dada por
e é usado para modelar probabilidades no modelo de regressão logística. Seja um resultado pontuado dicotômico e uma matriz de projeto. O modelo de regressão logística é dado por
Nota tem uma primeira coluna da constante (interceptação) e é um vetor de coluna de coeficientes de regressão. Por exemplo, quando temos um regressor (normal-normal) e escolhemos (interceptação) e , podemos simular a 'distribuição de probabilidades' resultante.
Esse gráfico lembra a distribuição Beta (assim como os gráficos para outras opções de ) cuja densidade é dada por
Usando a máxima verossimilhança ou métodos de momentos , é possível estimar e q a partir da distribuição de P ( A = 1 | X ) . Assim, minha pergunta se resume a: qual é a relação entre as escolhas de β e p e q ? Para começar, trata-se do caso bivariado indicado acima.
Respostas:
Beta é uma distribuição de valores no intervalo que é muito flexível em sua forma; portanto, para quase qualquer distribuição empírica unimodal de valores em ( 0 , 1 ), é possível encontrar facilmente parâmetros dessa distribuição beta que "se assemelham" à forma da distribuição.(0,1) (0,1)
Observe que a regressão logística fornece probabilidades condicionais , enquanto em seu gráfico você está nos apresentando a distribuição marginal das probabilidades previstas. Essas são duas coisas diferentes para se falar.Pr(Y=1∣X)
Não há relação direta entre os parâmetros de regressão logística e os parâmetros de distribuição beta quando analisamos a distribuição de previsões do modelo de regressão logística. Abaixo, você pode ver os dados simulados usando distribuições normais, exponenciais e uniformes transformadas usando a função logística. Além de usar exatamente os mesmos parâmetros de regressão logística (ou seja, ), as distribuições das probabilidades previstas são muito diferentes. Portanto, a distribuição das probabilidades previstas depende não apenas dos parâmetros da regressão logística, mas também das distribuições de Xβ0=0,β1=1 X 's e não há uma relação simples entre elas.
Como beta é uma distribuição de valores em , não pode ser usado para modelar dados binários como a regressão logística. Pode ser usado para modelar probabilidades , de tal maneira que usamos regressão beta (veja também aqui e aqui ). Portanto, se você estiver interessado no comportamento das probabilidades (entendidas como variáveis aleatórias), poderá usar a regressão beta para esse fim.(0,1)
fonte
A regressão logística é um caso especial de um Modelo Linear Generalizado (GLM). Nesse caso particular de dados binários, a função logística é a função de link canônico que transforma o problema de regressão não linear em questão em um problema linear. Os GLMs são um tanto especiais, no sentido de que se aplicam apenas a distribuições na família exponencial (como a distribuição Binomial).
Na estimativa bayesiana, a distribuição Beta é o conjugado anterior à distribuição binomial, o que significa que uma atualização bayesiana para um Beta anterior, com observações binomiais, resultará em um posterior Beta. Portanto, se você tiver contagens para observações de dados binários, poderá obter uma estimativa bayesiana analítica dos parâmetros da distribuição binomial usando um Beta anterior.
Portanto, de acordo com o que foi dito por outros, não acho que exista uma relação direta, mas a distribuição Beta e a regressão logística têm relações estreitas com a estimativa dos parâmetros de algo que segue uma distribuição binomial.
fonte
Maybe there is no direct connection? The distribution ofP(A=1|X) largely depends on your simulation of X . If you simulated X with N(0,1) , exp(−Xβ) will have log-normal distribution with μ=−1 given β0=β1=1 . The distribution of P(A=1|X) can then be found explicitly: with c.d.f.
You can verify the results given above in R:
fonte