Lidando com valores 0,1 em uma regressão beta

20

Eu tenho alguns dados em [0,1] que gostaria de analisar com uma regressão beta. Obviamente, algo precisa ser feito para acomodar os valores 0,1. Não gosto de modificar dados para ajustar-se a um modelo. Também não acredito que a inflação zero e 1 seja uma boa ideia, porque acredito que, neste caso, deve-se considerar os 0 como valores positivos muito pequenos (mas não quero dizer exatamente qual valor é apropriado.) Eu acredito que seria escolher valores pequenos como .001 e .999 e ajustar o modelo usando o dist cumulativo para o beta.Portanto, para observações y_i, a probabilidade de log LL_iwould

 if  y_i < .001   LL+=log(cumd_beta(.001))
 else if y_i>.999  LL+=log(1.0-cum_beta(.999))
 else LL+=log(beta_density(y_i))

O que eu mais gosto nesse modelo é que, se o modelo de regressão beta é válido, ele também é válido, mas remove um pouco da sensibilidade aos valores extremos. No entanto, essa parece ser uma abordagem tão natural que me pergunto por que não encontro referências óbvias na literatura. Então, minha pergunta é, em vez de modificar os dados, por que não modificar o modelo. A modificação dos dados influencia os resultados (com base na suposição de que o modelo original é válido), enquanto a modificação do modelo iniciando os valores extremos não influencia os resultados.

Talvez haja um problema que estou ignorando?

Dave Fournier
fonte
1
Não é realmente possível dar uma boa resposta a esta pergunta sem saber mais sobre o problema específico. A questão principal é se os zeros e os exatos são gerados por um processo diferente daquele que gera os dados em (0,1). Um exemplo clássico é a precipitação, onde há zeros exatos refletindo os dias em que não chove. Na sua aplicação, zeros e uns são "especiais" de alguma forma?
Dikran Marsupial 10/10/12
Relacionado / duplicado: stats.stackexchange.com/questions/48028 .
Ameba diz Reinstate Monica

Respostas:

16

De acordo com este artigo , uma transformação apropriada é

x=x(N-1)+sN

"onde N é o tamanho da amostra e s é uma constante entre 0 e 1. Do ponto de vista bayesiano, s age como se estivéssemos levando em consideração o anterior. Uma escolha razoável para s seria 0,5."

Isso comprime os dados que estão em para estarem em ( 0 , 1 ) . A citação acima e um motivo matemático da transformação estão disponíveis nas notas complementares do artigo .[0 0,1](0 0,1)

Cam.Davidson.Pilon
fonte
1
+1 .. Mas você poderia consertar o primeiro link ou pelo menos citar o artigo para que possamos encontrá-lo de forma independente?
whuber
1
Mas isso não responde à minha pergunta. Estou ciente de que é possível transformar os dados. Minhas perguntas é por que não transformar o modelo?
Dave fournier
1
Dave, edite sua pergunta para refletir isso: atualmente, parece que você está procurando uma maneira de transformar os dados . No processo, ajudaria você a indicar qual é a diferença entre uma transformação de dados e uma mudança de modelo, porque, se houver, é sutil.
whuber
@davefournier, Se você ler o site da Cam, ele parte da sua pergunta. Eles também fornecem recomendações de modelos alternativos (na página 69) e parte das recomendações depende da natureza dos dados. Sua probabilidade ajustada se parece com o "processo discreto-contínuo misto" (mencionado no final da página 69). Também pode ser que o modelo Tobit seja satisfatório, dados seus dados, embora seja melhor ver outras referências para a adequação do modelo Tobit, como o livro de Scott Long sobre regressão categórica.
Andy W
1
Mas eles não adotam essa abordagem. Eles propõem um modelo diferente, um processo contínuo discreto misto. Isso é muito diferente de excluir os valores extremos. Como eu disse antes, se o modelo beta é válido, então o modelo de binning é válido. Se o modelo contínuo discreto for válido, o modelo beta será inválido. Suspeito que eles tenham sido principalmente motivados em suas análises pelos tipos de modelos mistos que poderiam se encaixar em seus softwares. O modelo misto beta binned é um pouco mais difícil de ajustar.
Dave fournier
3

Dave,

Uma abordagem comum para esse problema é ajustar 2 modelos de regressão logística para prever se um caso é 0 ou 1. Em seguida, uma regressão beta é usada para aqueles no intervalo (0,1).

B_Miner
fonte
você poderia dar um exemplo? ou um artigo discutindo isso com mais detalhes?
user1607 25/05
2

(registro(x),registro(1-x))

x(x,x2)

Acredito que ambos são facilmente estimados de maneira bayesiana, pois são famílias exponenciais. Esta é uma modificação do modelo como você esperava.

Neil G
fonte
1

Eu acho que a resposta "correta" real para essa pergunta é regressão beta inflada zero-um. Isso é projetado para manipular dados que variam continuamente no intervalo [0,1] e permite que muitos 0 e 1 reais estejam nos dados. Essa abordagem se encaixa em três modelos separados em um contexto bayesiano, semelhante ao que o @B_Miner propôs.

Modelo 1: Um valor é um 0/1 discreto ou é o valor em (0,1)? Ajuste com uma distribuição de bernoulli.

Modelo 2: ajuste subconjunto discreto com uma distribuição de bernoulli.

Modelo 3: ajuste (0,1) do subconjunto com regressão beta.

Para previsão, os primeiros resultados do modelo podem ser usados ​​para ponderar as previsões dos modelos 2 e 3. Isso pode ser implementado no zoibpacote R ou fabricado em casa em BUGS / JAGS / STAN / etc.

colin
fonte