Existe alguma suposição sobre a variável resposta da regressão logística?
Por exemplo, suponha que tenhamos pontos de dados. Parece que a resposta vem de uma distribuição de Bernoulli com . Portanto, devemos ter distribuições de Bernoulli, com diferentes parâmetros .
Portanto, eles são "independentes", mas não são "idênticos".
Estou certo?
PS. Aprendi a regressão logística na literatura de "aprendizado de máquina", onde otimizamos a função objetivo e verificamos se ela é boa no teste de dados, sem falar muito sobre suposições.
Minha pergunta começou neste post: Entenda a função de link no modelo linear generalizado Onde tento aprender mais sobre suposições estatísticas.
regression
logistic
assumptions
iid
Haitao Du
fonte
fonte
Respostas:
Da sua pergunta anterior você aprendeu que GLM é descrito em termos de distribuição de probabilidade, linear preditor função de ligação e g e é descrito comoη g
onde é uma função de link de logit e supõe-se que Y segue uma distribuição de Bernoullig Y
cada seguinte distribuição de Bernoulli com ele próprio significativo μ i que está condicionada em X . Estamos não assumindo que cada Y i vem da mesma distribuição, com a mesma média (isto seria a única intercepto-modelar Y i = g - 1 ( μ ) ), mas que todos eles têm diferentes meios. Assumimos que Y i 's são independentes , ou seja, não temos que se preocupar com coisas como auto-correlação entre posterior Y i valores etc.Yi μi X Yi Yi=g−1(μ) Yi Yi
A suposição iid está relacionada a erros na regressão linear (isto é, GLM Gaussiano), onde o modelo é
onde , então temos ruído de iid em torno de μ i . É por isso que está interessado no diagnóstico de resíduos e preste atenção nos resíduos versus plotagem ajustadaεi∼N(0,σ2) μi . Agora, no caso de regressão logística do GLM, não é tão simples, pois não há termo de ruído aditivo como no modelo gaussiano (veja aqui , aqui e aqui) Ainda queremos que os resíduos sejam "aleatórios" em torno de zero e não queremos ver nenhuma tendência neles, porque eles sugerem que existem alguns efeitos que não são contabilizados no modelo, mas não assumimos que sejam normal e / ou iid . Veja também o tópico Sobre a importância da suposição iid no aprendizado estatístico .
Como nota, aviso que pode soltar mesmo no pressuposto de que cada vem a partir do mesmo tipo de distribuição. Há (não-GLM) modelos que assumem que diferente Y i 's podem ter diferentes distribuições com diferentes parâmetros, isto é, que os seus dados vem de uma mistura de diferentes distribuições . Nesse caso também se supor que os Y i valores são independentes , uma vez que os valores dependentes, vindo de diferentes distribuições com parâmetros diferentes (isto é típico de dados do mundo real) é algo que na maioria dos casos seria muito complicado para o modelo de (muitas vezes impossível) .Yi Yi Yi
fonte
Como foi afirmado, embora consideremos frequentemente o caso de iid erros na regressão linear, isso não tem um equivalente direto na maioria dos modelos lineares generalizados (incluindo a regressão logística). Na regressão logística, normalmente empregamos a suposição de independência dos resultados, todos com uma relação muito estrita (isto é, efeitos lineares nas probabilidades logarítmicas). Mas eles resultam em variáveis aleatórias que não são idênticas, nem são decomponíveis em um termo constante mais um erro de identificação, como é o caso da regressão linear.
Se vocês realmente quer mostrar que as respostas têm algum tipo de relação de identificação, siga-me no próximo parágrafo. Apenas saiba que esta ideia está um pouco fora do caminho batido; você pode não receber o crédito total por essa resposta em uma final se seu professor não tiver paciência.
Você talvez esteja familiarizado com o método inverso-cdf para gerar variáveis aleatórias. Se não, aqui está uma atualização: se tem a função de distribuição cumulativa F X , então eu posso produzir empates aleatórios a partir de X fazendo primeiro empates aleatórios q ∼ uniforme (0,1) e calculando X = F - 1 X ( qX FX X q∼uniform(0,1) X=F−1X(q) p=expit(βo+β1x) FY(y|p) p Yi
fonte