Existe alguma suposição sobre regressão logística?

18

Existe alguma suposição sobre a variável resposta da regressão logística?

Por exemplo, suponha que tenhamos pontos de dados. Parece que a resposta vem de uma distribuição de Bernoulli com . Portanto, devemos ter distribuições de Bernoulli, com diferentes parâmetros .1000Yipi=logit(β0+β1xi)1000p

Portanto, eles são "independentes", mas não são "idênticos".

Estou certo?


PS. Aprendi a regressão logística na literatura de "aprendizado de máquina", onde otimizamos a função objetivo e verificamos se ela é boa no teste de dados, sem falar muito sobre suposições.

Minha pergunta começou neste post: Entenda a função de link no modelo linear generalizado Onde tento aprender mais sobre suposições estatísticas.

Haitao Du
fonte
1
Uma "suposição" é algo que um teorema pode ter. A regressão linear tem uma "suposição" de erros de IDI (não são os que são "assumidos" como sendo iid na regressão linear! São os erros) no sentido de que o teorema de Gauss-Markov tem essa suposição. Agora, existe algum teorema que se pense em regressão logística? Caso contrário, não há "suposições". y
ameba diz Restabelecer Monica
7
@ Ammoeba, hxd está correto ao observar que as distribuições não são idênticas: "iid" não se aplica. Se alguém estiver usando regressão logística apenas para seu ajuste, então (como você escreve) talvez sejam necessárias poucas suposições; mas assim que alguém fizer uso da matriz de covariância estimada dos coeficientes ou desejar construir intervalos de previsão (ou, nesse caso, validar cruzadamente os valores previstos), isso exige pressupostos probabilísticos. O habitual é que as respostas sejam independentes.
whuber
4
@amoeba, uma vez que você deseja realizar inferência (testes de hipóteses, intervalos de confiança etc.) em vez de simplesmente calcular estimativas de parâmetros, você fará uma série de suposições (algumas mais críticas que outras) para poder derivar a distribuição nula relevante do estatística de teste ou os cálculos necessários para um intervalo com a cobertura desejada. Mesmo procedimentos com pressupostos relativamente baixos ainda têm suposições e, se nos preocupamos com nossas inferências, nos preocuparemos se é provável que eles tenham algo próximo de suas propriedades nominais.
Glen_b -Reinstala Monica
1
@amoeba, eu gosto de um teorema que mostra a normalidade assintótica do MLE. Eu também gosto do teste da razão de verossimilhança.
gammer
2
Suas distribuições marginais não são idênticas, a menos que todas tenham o mesmo valor preditivo; nesse caso, você apenas tem testes de identificação de bernoulli. Suas distribuições condicionais (dado o preditor) são todos o mesmo, mas eu não acho que você normalmente dizem que o neste caso são IID. Yi
gammer

Respostas:

11

Da sua pergunta anterior você aprendeu que GLM é descrito em termos de distribuição de probabilidade, linear preditor função de ligação e g e é descrito comoηg

η=XβE(Y|X)=μ=g1(η)

onde é uma função de link de logit e supõe-se que Y segue uma distribuição de BernoulligY

YiB(μi)

cada seguinte distribuição de Bernoulli com ele próprio significativo μ i que está condicionada em X . Estamos não assumindo que cada Y i vem da mesma distribuição, com a mesma média (isto seria a única intercepto-modelar Y i = g - 1 ( μ ) ), mas que todos eles têm diferentes meios. Assumimos que Y i 's são independentes , ou seja, não temos que se preocupar com coisas como auto-correlação entre posterior Y i valores etc.Yi μiXYiYi=g1(μ)YiYi

A suposição iid está relacionada a erros na regressão linear (isto é, GLM Gaussiano), onde o modelo é

yi=β0+β1xi+εi=μi+εi

onde , então temos ruído de iid em torno de μ i . É por isso que está interessado no diagnóstico de resíduos e preste atenção nos resíduos versus plotagem ajustadaεiN(0,σ2)μi . Agora, no caso de regressão logística do GLM, não é tão simples, pois não há termo de ruído aditivo como no modelo gaussiano (veja aqui , aqui e aqui) Ainda queremos que os resíduos sejam "aleatórios" em torno de zero e não queremos ver nenhuma tendência neles, porque eles sugerem que existem alguns efeitos que não são contabilizados no modelo, mas não assumimos que sejam normal e / ou iid . Veja também o tópico Sobre a importância da suposição iid no aprendizado estatístico .

Como nota, aviso que pode soltar mesmo no pressuposto de que cada vem a partir do mesmo tipo de distribuição. Há (não-GLM) modelos que assumem que diferente Y i 's podem ter diferentes distribuições com diferentes parâmetros, isto é, que os seus dados vem de uma mistura de diferentes distribuições . Nesse caso também se supor que os Y i valores são independentes , uma vez que os valores dependentes, vindo de diferentes distribuições com parâmetros diferentes (isto é típico de dados do mundo real) é algo que na maioria dos casos seria muito complicado para o modelo de (muitas vezes impossível) .YiYiYi

Tim
fonte
6

Como foi afirmado, embora consideremos frequentemente o caso de iid erros na regressão linear, isso não tem um equivalente direto na maioria dos modelos lineares generalizados (incluindo a regressão logística). Na regressão logística, normalmente empregamos a suposição de independência dos resultados, todos com uma relação muito estrita (isto é, efeitos lineares nas probabilidades logarítmicas). Mas eles resultam em variáveis ​​aleatórias que não são idênticas, nem são decomponíveis em um termo constante mais um erro de identificação, como é o caso da regressão linear.

Se vocês realmente quer mostrar que as respostas têm algum tipo de relação de identificação, siga-me no próximo parágrafo. Apenas saiba que esta ideia está um pouco fora do caminho batido; você pode não receber o crédito total por essa resposta em uma final se seu professor não tiver paciência.

Você talvez esteja familiarizado com o método inverso-cdf para gerar variáveis ​​aleatórias. Se não, aqui está uma atualização: se tem a função de distribuição cumulativa F X , então eu posso produzir empates aleatórios a partir de X fazendo primeiro empates aleatórios q uniforme (0,1) e calculando X = F - 1 X ( qXFXXquniform(0,1)X=FX1(q)p=expit(βo+β1x)FY(y|p)pYi

pi=expit(βo+β1xi)

qiuniform(0,1)

Yi=F1(qi|pi)

qi

Cliff AB
fonte
1
qiYiB(pi)Yipiqi
@ Tim: sim, a segunda parte da resposta é mais uma nota lateral interessante do que uma resposta concisa. Mas pode ser uma maneira útil de ver isso; afinal, é basicamente assim que seu computador simula dados desses modelos!
Cliff AB