Por que exatamente a regressão beta não pode lidar com 0s e 1s na variável de resposta?

17

A regressão beta (ou seja, GLM com distribuição beta e geralmente a função de link de logit) é frequentemente recomendada para lidar com a resposta, também conhecida como variável dependente, recebendo valores entre 0 e 1, como frações, proporções ou probabilidades: Regressão para um resultado (proporção ou fração) entre 0 e 1 .

No entanto, sempre se afirma que a regressão beta não pode ser usada assim que a variável de resposta for igual a 0 ou 1 pelo menos uma vez. Nesse caso, é necessário usar o modelo beta com zero / um inflado ou fazer alguma transformação na resposta, etc .: regressão beta dos dados de proporção, incluindo 1 e 0 .

Minha pergunta é: qual propriedade da distribuição beta impede a regressão beta de lidar com 0s e 1s exatos, e por quê?

Suponho que e 1 não apóiam a distribuição beta. Mas, para todos os parâmetros de forma α > 1 e β > 1 , zero e um são compatíveis com a distribuição beta, é apenas para parâmetros de forma menores que a distribuição chega ao infinito em um ou nos dois lados. E talvez os dados da amostra sejam tais que α e β que ofereçam melhor ajuste acabem acima de 1 .01α>1β>1αβ1

Isso significa que, em alguns casos, é possível usar de fato a regressão beta, mesmo com zeros / uns?

É claro que mesmo quando 0 e 1 apóiam a distribuição beta, a probabilidade de observar exatamente 0 ou 1 é zero. Mas também é a probabilidade de observar qualquer outro conjunto de valores contáveis, portanto isso não pode ser um problema, pode? (Cf. este comentário de @Glen_b).

distribuição beta

No contexto da regressão beta, a distribuição beta é parametrizada de maneira diferente, mas com , ainda deve estar bem definido em [ 0 , 1 ] para todos os μ .ϕ=α+β>2[0,1]μ

insira a descrição da imagem aqui

ameba diz Restabelecer Monica
fonte
2
Pergunta interessante! Não tenho resposta além dos argumentos já apresentados por Kevin Wright. Eu acho que zeros exatos e outros com probabilidades são casos patológicos (como na regressão logística), portanto, não são tão interessantes, pois não deveriam acontecer.
Tim
1
@ Tim Bem, eu não sei se eles devem ou não acontecer, mas eles não acontecem com bastante frequência, caso contrário as pessoas não fazem perguntas sobre como lidar com 0s e 1s em regressão beta, faria papéis não escrever sobre 0- e-1 modelos beta inflados, etc. De qualquer forma, ainda estou esperando uma resposta mais detalhada do que a de Kevin. Deve-se pelo menos explicar como esses termos na probabilidade logarítmica surgem.
ameba diz Restabelecer Monica
1
Atualização: provavelmente porque se 0 e 1 estão no suporte, o PDF nesses pontos é igual a zero, o que significa que a probabilidade de observar esses valores é zero. Eu ainda gostaria de ver uma resposta explicando isso com cuidado.
Ameba diz Reinstate Monica
Então, que distribuição se deve usar quando a variável resposta assume valores em, digamos, ? [0,)
Confundido

Respostas:

16

Como a probabilidade de contém log ( x ) e log ( 1 - x )log(x)log(1x)x=0x=1

Kevin Wright
fonte
3
Obrigado. Aqui está o link direto em PDF para o artigo . Eu posso ver que a Eq. (4) quebrará assim que ou y i = 1 , mas ainda não entendo por que isso acontece no esquema geral das coisas.yi=0yi=1
Ameba diz Reinstate Monica
3
010+01 resposta , todos os valores da probabilidade podem ser apenas zero, infinito ou indeterminado e haverá um conjunto não trivial de parâmetros Beta para o qual o valor mínimo da probabilidade é realizado. Assim, o cálculo prático é impedido e o modelo não é identificável (em sentido severo).
whuber
1
01
1
00.5α=β=20.500.50
3
@amoeba A probabilidade depende da densidade de probabilidade , não da probabilidade em si. Às vezes, pode-se evitar esse problema, considerando que cada observação inclui a probabilidade de um intervalo minúsculo, mas finito (não infinitesimal) (determinado, por exemplo , pela precisão da medição) ou convolvendo as distribuições Beta com um Gaussiano muito estreito ( que elimina as densidades zero e infinitas).
whuber
2

log(x)log(1x)

pN

Como resultado, no meu entendimento da regressão beta, 0s e 1s corresponderiam intuitivamente a resultados (infinitos) seguros.

meduz
fonte