Se existe um termo de erro na regressão logística (e sua distribuição assumida), li em vários locais que:
- nenhum termo de erro existe
- o termo de erro tem uma distribuição binomial (de acordo com a distribuição da variável de resposta)
- o termo de erro tem uma distribuição logística
Alguém pode esclarecer?
Respostas:
Na regressão linear, supõe-se que as observações sigam uma distribuição gaussiana com um parâmetro médio condicional aos valores do preditor. Se você subtrair a média das observações, obtém o erro : uma distribuição gaussiana com média zero e independente dos valores preditores - ou seja, erros em qualquer conjunto de valores preditivos seguem a mesma distribuição.
Em observações de regressão logística são assumidos para seguir uma distribuição de Bernoulli † com um parâmetro significativo (probabilidade) condicional sobre os valores de previsão. Portanto, para qualquer valor preditivo determinado que determina uma média π, existem apenas dois erros possíveis: 1 - π ocorrendo com probabilidade π , e 0 - π ocorrendo com probabilidade 1 - π . Para outros valores preditores, os erros serão de 1 - π ′ ocorrendo com probabilidade π ′y∈{0,1} π 1−π π 0−π 1−π 1−π′ π′ , & ocorrendo com probabilidade 1 - π ′ . Portanto, não há distribuição de erro comum independente dos valores do preditor, e é por isso que as pessoas dizem que "não existe termo de erro" (1).0−π′ 1−π′
"O termo do erro tem uma distribuição binomial" (2) é apenas negligência - "os modelos gaussianos têm erros gaussianos, os modelos binomiais antigos têm erros binomiais". (Ou, como @whuber aponta, pode ser entendido como "a diferença entre uma observação e sua expectativa tem uma distribuição binomial traduzida pela expectativa".)
"O termo de erro tem uma distribuição logística" (3) surge da derivação da regressão logística do modelo em que você observa se uma variável latente com erros após uma distribuição logística excede algum limite. Portanto, não é o mesmo erro definido acima. (Seria estranho dizer IMO fora desse contexto ou sem referência explícita à variável latente.)
† Se tiver observações com os mesmos valores de previsão, que dá a mesma probabilidade π para cada um, em seguida, a sua soma Σ y segue uma distribuição binomial com probabilidade π e não. ensaios k . Considerando ∑ y - k π como o erro leva às mesmas conclusões.k π ∑y π k ∑y−kπ
fonte
Isso já foi coberto antes. Um modelo restrito a ter valores previstos em não pode ter um termo de erro aditivo que faria com que as previsões fossem fora de [ 0 , 1 ] . Pense no exemplo mais simples de um modelo logístico binário - um modelo que contém apenas uma interceptação. Isso é equivalente ao problema de uma amostra de Bernoulli, geralmente chamado (neste caso simples) de problema binomial porque (1) todas as informações estão contidas no tamanho da amostra e no número de eventos ou (2) a distribuição de Bernoulli é um caso especial da distribuição binomial com n = 1[0,1] [0,1] n=1 . Os dados brutos nessa situação são uma série de valores binários e cada um possui uma distribuição de Bernoulli com parâmetro desconhecido representando a probabilidade do evento. Não existe um termo de erro na distribuição de Bernoulli, existe apenas uma probabilidade desconhecida. O modelo logístico é um modelo de probabilidade.θ
fonte
Para mim, a unificação da regressão logística, linear, de Poisson, etc ... sempre foi em termos de especificação da média e variância na estrutura do Modelo Linear Generalizado. Começamos especificando uma distribuição de probabilidade para nossos dados, normal para dados contínuos, Bernoulli para dicotômica, Poisson para contagens, etc ... Em seguida, especificamos uma função de link que descreve como a média está relacionada ao preditor linear:
Para regressão linear, .g(μi)=μi
A única coisa que se pode considerar em termos de escrita de um termo de erro seria declarar:
fonte
fonte