Regressão logística - Termo de erro e sua distribuição

31

Se existe um termo de erro na regressão logística (e sua distribuição assumida), li em vários locais que:

  1. nenhum termo de erro existe
  2. o termo de erro tem uma distribuição binomial (de acordo com a distribuição da variável de resposta)
  3. o termo de erro tem uma distribuição logística

Alguém pode esclarecer?

user61124
fonte
6
Com regressão logística - ou até mesmo MLG forma mais geral - é normalmente não é útil pensar em termos de observação yi|x como "média + erro". Melhor pensar em termos de distribuição condicional. Eu não chegaria ao ponto de dizer 'não existe um termo de erro', pois 'não é útil pensar nesses termos'. Portanto, eu não diria que é uma escolha entre 1. ou 2., como eu diria que geralmente é melhor dizer "nenhuma das opções acima". No entanto, independentemente do grau em que se possa argumentar em "1". ou "2.", no entanto, "3." está definitivamente errado. Onde você viu isso?
Glen_b -Reinstate Monica
11
@Glen_b: Alguém poderia argumentar a favor (2)? Conheço pessoas que dizem isso, mas nunca o defendem quando é questionado.
Scortchi - Restabelece Monica
3
@Glen_b Todas as três declarações têm interpretações construtivas nas quais são verdadeiras. (3) é abordado em en.wikipedia.org/wiki/Logistic_distribution#Applications e en.wikipedia.org/wiki/Discrete_choice#Binary_Choice .
whuber
@ whuber: Corrigi minha resposta wrt (3), que não foi bem pensada; mas ainda perplexo em que sentido (2) pode estar certo.
Scortchi - Restabelece Monica
2
@ Scortchi Embora você esteja certo de que (2) está incorreto, se interpretarmos como dizendo que a diferença entre uma observação e sua expectativa tem uma distribuição binomial traduzida pela expectativa , ela estará (trivialmente) correta. A observação entre parênteses em (2) sugere fortemente que esta é a interpretação pretendida. Observe que outros "termos de erro" úteis também podem ser definidos, como os termos de erro de e desvio descritos em Hosmer & Lemeshow (e, sujeito a advertências adequadas discutidas lá, seus quadrados têm distribuições aproximadas de χ 2 ). χ2χ2
whuber

Respostas:

25

Na regressão linear, supõe-se que as observações sigam uma distribuição gaussiana com um parâmetro médio condicional aos valores do preditor. Se você subtrair a média das observações, obtém o erro : uma distribuição gaussiana com média zero e independente dos valores preditores - ou seja, erros em qualquer conjunto de valores preditivos seguem a mesma distribuição.

Em observações de regressão logística são assumidos para seguir uma distribuição de Bernoulli com um parâmetro significativo (probabilidade) condicional sobre os valores de previsão. Portanto, para qualquer valor preditivo determinado que determina uma média π, existem apenas dois erros possíveis: 1 - π ocorrendo com probabilidade π , e 0 - π ocorrendo com probabilidade 1 - π . Para outros valores preditores, os erros serão de 1 - π ocorrendo com probabilidade π y{0,1}π1ππ0π1π1ππ, & ocorrendo com probabilidade 1 - π . Portanto, não há distribuição de erro comum independente dos valores do preditor, e é por isso que as pessoas dizem que "não existe termo de erro" (1).0π1π

"O termo do erro tem uma distribuição binomial" (2) é apenas negligência - "os modelos gaussianos têm erros gaussianos, os modelos binomiais antigos têm erros binomiais". (Ou, como @whuber aponta, pode ser entendido como "a diferença entre uma observação e sua expectativa tem uma distribuição binomial traduzida pela expectativa".)

"O termo de erro tem uma distribuição logística" (3) surge da derivação da regressão logística do modelo em que você observa se uma variável latente com erros após uma distribuição logística excede algum limite. Portanto, não é o mesmo erro definido acima. (Seria estranho dizer IMO fora desse contexto ou sem referência explícita à variável latente.)

† Se tiver observações com os mesmos valores de previsão, que dá a mesma probabilidade π para cada um, em seguida, a sua soma Σ y segue uma distribuição binomial com probabilidade π e não. ensaios k . Considerando y - k π como o erro leva às mesmas conclusões.kπyπkykπ

Scortchi - Restabelecer Monica
fonte
11
Você poderia fornecer um exemplo simples em relação à parte 'nenhum termo de erro existe'. Estou tendo problemas para entender do jeito que está escrito.
quirik
@ Scortchi Estou tendo problemas para acompanhar o caso, quando na prática o modelo é usado com algum limite, digamos 0,5. Então o erro é 1 ou 0. Isso pode ser considerado uma variável aleatória de Bernoulli com o parâmetro 1- quando o rótulo verdadeiro é 1? π
wabbit 4/06
17

Isso já foi coberto antes. Um modelo restrito a ter valores previstos em não pode ter um termo de erro aditivo que faria com que as previsões fossem fora de [ 0 , 1 ] . Pense no exemplo mais simples de um modelo logístico binário - um modelo que contém apenas uma interceptação. Isso é equivalente ao problema de uma amostra de Bernoulli, geralmente chamado (neste caso simples) de problema binomial porque (1) todas as informações estão contidas no tamanho da amostra e no número de eventos ou (2) a distribuição de Bernoulli é um caso especial da distribuição binomial com n = 1[0,1][0,1]n=1. Os dados brutos nessa situação são uma série de valores binários e cada um possui uma distribuição de Bernoulli com parâmetro desconhecido representando a probabilidade do evento. Não existe um termo de erro na distribuição de Bernoulli, existe apenas uma probabilidade desconhecida. O modelo logístico é um modelo de probabilidade.θ

Frank Harrell
fonte
9

Para mim, a unificação da regressão logística, linear, de Poisson, etc ... sempre foi em termos de especificação da média e variância na estrutura do Modelo Linear Generalizado. Começamos especificando uma distribuição de probabilidade para nossos dados, normal para dados contínuos, Bernoulli para dicotômica, Poisson para contagens, etc ... Em seguida, especificamos uma função de link que descreve como a média está relacionada ao preditor linear:

g(μi)=α+xiTβ

Para regressão linear, .g(μi)=μi

g(μi)=log(μi1μi)

g(μi)=log(μi)

A única coisa que se pode considerar em termos de escrita de um termo de erro seria declarar:

yi=g1(α+xiTβ)+eiE(ei)=0Var(ei)=σ2(μi)σ2(μi)=μi(1μi)=g1(α+xiTβ)(1g1(α+xiTβ))ei

ei

hard2fathom
fonte
0
  1. Não existem erros. Estamos modelando a média! A média é apenas um número verdadeiro.
  2. Isso não faz sentido para mim.
Liu Jim
fonte
2
Não vejo como isso ajuda a entender um modelo de probabilidade. Modelos de probabilidade são mais simples do que isso parece.
Frank Harrell