A regressão beta (ou seja, GLM com distribuição beta e geralmente a função de link de logit) é frequentemente recomendada para lidar com a resposta, também conhecida como variável dependente, recebendo valores entre 0 e 1, como frações, proporções ou probabilidades: Regressão para um resultado (proporção ou fração) entre 0 e 1 .
No entanto, sempre se afirma que a regressão beta não pode ser usada assim que a variável de resposta for igual a 0 ou 1 pelo menos uma vez. Nesse caso, é necessário usar o modelo beta com zero / um inflado ou fazer alguma transformação na resposta, etc .: regressão beta dos dados de proporção, incluindo 1 e 0 .
Minha pergunta é: qual propriedade da distribuição beta impede a regressão beta de lidar com 0s e 1s exatos, e por quê?
Suponho que e 1 não apóiam a distribuição beta. Mas, para todos os parâmetros de forma α > 1 e β > 1 , zero e um são compatíveis com a distribuição beta, é apenas para parâmetros de forma menores que a distribuição chega ao infinito em um ou nos dois lados. E talvez os dados da amostra sejam tais que α e β que ofereçam melhor ajuste acabem acima de 1 .
Isso significa que, em alguns casos, é possível usar de fato a regressão beta, mesmo com zeros / uns?
É claro que mesmo quando 0 e 1 apóiam a distribuição beta, a probabilidade de observar exatamente 0 ou 1 é zero. Mas também é a probabilidade de observar qualquer outro conjunto de valores contáveis, portanto isso não pode ser um problema, pode? (Cf. este comentário de @Glen_b).
No contexto da regressão beta, a distribuição beta é parametrizada de maneira diferente, mas com , ainda deve estar bem definido em [ 0 , 1 ] para todos os μ .
fonte
Respostas:
Como a probabilidade de contém log ( x ) e log ( 1 - x )log(x) log(1−x) x=0 x=1
fonte
Como resultado, no meu entendimento da regressão beta, 0s e 1s corresponderiam intuitivamente a resultados (infinitos) seguros.
fonte