Estendendo a regressão logística para resultados no intervalo entre 0 e 1

9

Eu tenho um problema de regressão em que os resultados não são estritamente 0, 1, mas sim na faixa de todos os números reais 0-1 incluído .Y=[0,0.12,0.31,...,1]

Esse problema já foi discutido neste tópico , embora minha pergunta seja um pouco diferente.

Não posso usar regressão linear pelas mesmas razões pelas quais a regressão logística é normalmente usada. Na regressão linear A) valores IVs muito altos inclinam o resultado previsto para 1 e B) o resultado da regressão linear não está limitado aos limites de 0,1.

Olhando para esta função de custo logístico do meu livro Eu deduzo que a equação foi projetada para calcular um custo maior que 0 apenas quando y e x não tem o mesmo valor 0 ou 1.

Cost=ylog(h(x))(1y)log(1h(x))
yx

Seria possível usar a regressão logística modificando a função de custo para medir todos os erros de hipótese?

Robert Kubrick
fonte

Respostas:

9

Você tem várias opções. Dois deles podem ser:

  1. Ylog(y1y)
  2. Y

Y

Peter Ellis
fonte
2
(+1) Opção 2: Normalmente, você estimaria a super dispersão e usaria isso para calcular erros padrão - um modelo "quase binomial" no qual a relação entre a variação e a média de Y é proporcional e não a mesma que a de uma variável binomial.
Scortchi - Restabelecer Monica
@ Scortchi: É isso que a glm()função R faz quando é alimentada com resposta contínua e family=quasibinomial? Ou seja, ele estimará os coeficientes family=binomiale, em uma etapa extra, computará os erros padrão levando em consideração a dispersão excessiva? Se sim, é o mesmo que calcular "erros padrão robustos"? Eu tenho alguns dados apropriados e tentei ambas as famílias glm; Eu recebo coeficientes idênticos, mas com erros padrão diferentes. Obrigado.
Ameba
11
@amoeba: Sim, é isso. Mas "erros padrão robustos" geralmente significa usar um estimador sanduíche ou algo semelhante.
Scortchi - Restabelece Monica
8

Quando Y é delimitado, a regressão beta geralmente faz sentido; veja o artigo "Um espremedor de limão melhor"

Isso permite efeitos de piso e teto; também permite modelar a variação e a média.

Peter Flom - Restabelece Monica
fonte
0

Como y não é estritamente zero ou um (como você disse), o custo deve ser sempre maior que zero. Portanto, não acho que você precise da modificação no modelo.

Métricas
fonte
0

Sugiro dois modelos alternativos:

Se seus resultados (variáveis ​​y) forem ordenados, tente um modelo de Probabilidade Ordenada.

Se seus resultados (variáveis ​​y) não forem ordenados, tente um modelo Logit Multinomial.

poder
fonte