Estendendo a regressão logística para resultados no intervalo entre 0 e 1

9

Eu tenho um problema de regressão em que os resultados não são estritamente 0, 1, mas sim na faixa de todos os números reais 0-1 incluído . $Y = [ 0, 0.12, 0.31, ..., 1 ]$

Esse problema já foi discutido neste tópico , embora minha pergunta seja um pouco diferente.

Não posso usar regressão linear pelas mesmas razões pelas quais a regressão logística é normalmente usada. Na regressão linear A) valores IVs muito altos inclinam o resultado previsto para 1 e B) o resultado da regressão linear não está limitado aos limites de 0,1.

Olhando para esta função de custo logístico do meu livro Eu deduzo que a equação foi projetada para calcular um custo maior que 0 apenas quando e não tem o mesmo valor 0 ou 1.

Cost = - y \log (h (x)) - (1 - y) \log (1 - h (x))

$\text{Cost} = -y \log(h(x)) - (1 - y) \log(1-h(x))$

y

$y$

x

$x$

Seria possível usar a regressão logística modificando a função de custo para medir todos os erros de hipótese?

regression logistic Robert Kubrick
fonte

9

Você tem várias opções. Dois deles podem ser:

$Y$ $\log(\frac{y}{1-y})$
$Y$

$Y$

Peter Ellis
fonte

2

(+1) Opção 2: Normalmente, você estimaria a super dispersão e usaria isso para calcular erros padrão - um modelo "quase binomial" no qual a relação entre a variação e a média de Y é proporcional e não a mesma que a de uma variável binomial.

Scortchi - Restabelecer Monica

@ Scortchi: É isso que a glm()função R faz quando é alimentada com resposta contínua e family=quasibinomial? Ou seja, ele estimará os coeficientes family=binomiale, em uma etapa extra, computará os erros padrão levando em consideração a dispersão excessiva? Se sim, é o mesmo que calcular "erros padrão robustos"? Eu tenho alguns dados apropriados e tentei ambas as famílias glm; Eu recebo coeficientes idênticos, mas com erros padrão diferentes. Obrigado.

Ameba

11

@amoeba: Sim, é isso. Mas "erros padrão robustos" geralmente significa usar um estimador sanduíche ou algo semelhante.

Scortchi - Restabelece Monica

8

Quando Y é delimitado, a regressão beta geralmente faz sentido; veja o artigo "Um espremedor de limão melhor"

Isso permite efeitos de piso e teto; também permite modelar a variação e a média.

Peter Flom - Restabelece Monica
fonte

0

Como y não é estritamente zero ou um (como você disse), o custo deve ser sempre maior que zero. Portanto, não acho que você precise da modificação no modelo.

Métricas
fonte

0

Sugiro dois modelos alternativos:

Se seus resultados (variáveis y) forem ordenados, tente um modelo de Probabilidade Ordenada.

Se seus resultados (variáveis y) não forem ordenados, tente um modelo Logit Multinomial.

poder
fonte

Estendendo a regressão logística para resultados no intervalo entre 0 e 1

Respostas: