Eu tenho alguns dados em [0,1] que gostaria de analisar com uma regressão beta. Obviamente, algo precisa ser feito para acomodar os valores 0,1. Não gosto de modificar dados para ajustar-se a um modelo. Também não acredito que a inflação zero e 1 seja uma boa ideia, porque acredito que, neste caso, deve-se considerar os 0 como valores positivos muito pequenos (mas não quero dizer exatamente qual valor é apropriado.) Eu acredito que seria escolher valores pequenos como .001 e .999 e ajustar o modelo usando o dist cumulativo para o beta.Portanto, para observações y_i, a probabilidade de log LL_iwould
if y_i < .001 LL+=log(cumd_beta(.001))
else if y_i>.999 LL+=log(1.0-cum_beta(.999))
else LL+=log(beta_density(y_i))
O que eu mais gosto nesse modelo é que, se o modelo de regressão beta é válido, ele também é válido, mas remove um pouco da sensibilidade aos valores extremos. No entanto, essa parece ser uma abordagem tão natural que me pergunto por que não encontro referências óbvias na literatura. Então, minha pergunta é, em vez de modificar os dados, por que não modificar o modelo. A modificação dos dados influencia os resultados (com base na suposição de que o modelo original é válido), enquanto a modificação do modelo iniciando os valores extremos não influencia os resultados.
Talvez haja um problema que estou ignorando?
fonte
Respostas:
De acordo com este artigo , uma transformação apropriada é
Isso comprime os dados que estão em para estarem em ( 0 , 1 ) . A citação acima e um motivo matemático da transformação estão disponíveis nas notas complementares do artigo .[ 0 , 1 ] ( 0 , 1 )
fonte
Dave,
Uma abordagem comum para esse problema é ajustar 2 modelos de regressão logística para prever se um caso é 0 ou 1. Em seguida, uma regressão beta é usada para aqueles no intervalo (0,1).
fonte
Acredito que ambos são facilmente estimados de maneira bayesiana, pois são famílias exponenciais. Esta é uma modificação do modelo como você esperava.
fonte
Eu acho que a resposta "correta" real para essa pergunta é regressão beta inflada zero-um. Isso é projetado para manipular dados que variam continuamente no intervalo [0,1] e permite que muitos 0 e 1 reais estejam nos dados. Essa abordagem se encaixa em três modelos separados em um contexto bayesiano, semelhante ao que o @B_Miner propôs.
Modelo 1: Um valor é um 0/1 discreto ou é o valor em (0,1)? Ajuste com uma distribuição de bernoulli.
Modelo 2: ajuste subconjunto discreto com uma distribuição de bernoulli.
Modelo 3: ajuste (0,1) do subconjunto com regressão beta.
Para previsão, os primeiros resultados do modelo podem ser usados para ponderar as previsões dos modelos 2 e 3. Isso pode ser implementado no
zoib
pacote R ou fabricado em casa em BUGS / JAGS / STAN / etc.fonte