Com a regressão OLS aplicada à resposta contínua, pode-se construir a equação de regressão múltipla executando sequencialmente as regressões dos resíduos em cada covariável. Minha pergunta é: existe uma maneira de fazer isso com regressão logística via resíduos de regressão logística ?
Ou seja, se eu quiser estimar usando a abordagem de modelagem linear generalizada padrão, existe uma maneira de executar a regressão logística em relação a x e obter pseudo-resíduos R_1 , depois regrote R_1 em z para obter um estimador imparcial dos coeficientes de regressão logística. Serão apreciadas referências a livros ou literatura.
regression
logistic
residuals
Ben Ogorek
fonte
fonte
Respostas:
Na regressão linear múltipla padrão, a capacidade de ajustar as estimativas dos mínimos quadrados ordinários (OLS) em duas etapas vem do teorema de Frisch-Waugh-Lovell . Este teorema mostra que a estimativa de um coeficiente para um determinado preditor em um modelo linear múltiplo é igual à estimativa obtida pela regressão dos resíduos da resposta (resíduos de uma regressão da variável resposta em relação às outras variáveis explicativas) em relação aos resíduos do preditor (resíduos) de uma regressão da variável preditora contra as outras variáveis explicativas). Evidentemente, você está buscando uma analogia com esse teorema que pode ser usada em um modelo de regressão logística.
Para esta pergunta, é útil recordar a caracterização de variável latente da regressão logística :
Nesta caracterização do modelo, a variável de resposta latente é inobservável e, em vez disso, observamos o indicador que nos diz se a resposta latente é positiva ou não. Essa forma do modelo é semelhante à regressão linear múltipla, exceto que usamos uma distribuição de erro ligeiramente diferente (a distribuição logística em vez da distribuição normal) e, mais importante, apenas observamos um indicador mostrando se a resposta latente é positiva ou não .Y∗i Yi
Isso cria um problema para qualquer tentativa de criar um ajuste em duas etapas do modelo. Esse teorema de Frisch-Waugh-Lovell depende da capacidade de obter resíduos intermediários para a resposta e o preditor de interesse, tomados contra as outras variáveis explicativas. No presente caso, só podemos obter resíduos de uma variável de resposta "categorizada". A criação de um processo de ajuste em duas etapas para regressão logística exigiria o uso de resíduos de resposta dessa variável de resposta categorizada, sem acesso à resposta latente subjacente. Isso me parece um grande obstáculo e, embora não seja impossível, parece improvável que seja possível ajustar o modelo em duas etapas.
Abaixo, apresentarei um relato do que seria necessário para encontrar um processo de duas etapas para ajustar uma regressão logística. Não tenho certeza se existe uma solução para esse problema ou se há uma prova de impossibilidade, mas o material aqui deve ajudá-lo a entender o que é necessário.
Como seria uma regressão logística em duas etapas? Suponha que desejemos construir um ajuste em duas etapas para um modelo de regressão logística em que os parâmetros sejam estimados por meio da estimativa de probabilidade máxima em cada etapa. Queremos que o processo envolva uma etapa intermediária que se ajuste aos dois modelos a seguir:
Estimamos os coeficientes desses modelos (via MLEs) e isso produz valores ajustados intermediários . Na segunda etapa, ajustamos o modelo:α^0,α^X,γ^0,γ^X
Conforme especificado, o procedimento possui muitos elementos fixos, mas as funções de densidade e nessas etapas são deixadas não especificadas (embora elas devam ser distribuições com média zero que não dependem dos dados). Para obter um método de ajuste em duas etapas sob essas restrições, precisamos escolher e para garantir que o MLE para neste algoritmo de ajuste de modelo em duas etapas seja o mesmo que o MLE obtido no modelo de regressão logística em uma etapa acima.g f g f βZ
Para ver se isso é possível, primeiro escrevemos todos os parâmetros estimados desde o primeiro passo:
Seja para que a função de probabilidade de log para a segunda etapa seja:ϵi=yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)
Exigimos que o valor máximo dessa função seja o MLE do modelo de regressão logística múltipla. Em outras palavras, exigimos:
Deixo para outras pessoas determinar se existe uma solução para esse problema ou uma prova de que não há solução. Suspeito que a "categorização" da variável de resposta latente em uma regressão logística torne impossível encontrar um processo de duas etapas.
fonte
Eu posso estar interpretando mal a pergunta. Duvido que você possa construir a equação de regressão linear por regressão de resíduos da maneira OP especificada . O método do OP só funcionaria se os preditores fossem independentes um do outro.
Para fazê-lo funcionar, assuma que é o vetor de resultado, é a matriz do modelo para os preditores já existentes no modelo e você deseja incluir . Você precisa regredir o residual da regressão de em contra o residual da regressão de em para obter o coeficiente OLS para .y X x1 y X x1 X x1
Aqui está um exemplo simples:
Ajuste o modelo com o OLS:
Regressão em resíduos:
Isso está errado, você precisa ajustar:
Que retorna o coeficiente certo para x2, isso se alinha às diferenças esperadas em y, dadas as diferenças em x2, mantendo x1 constante (removendo-o de y e x1).
Além disso, na regressão logística, seria ainda mais problemático, porque os coeficientes de regressão logística sofrem com o viés variável omitido, mesmo na ausência de relações confusas, veja aqui e aqui , portanto, a menos que todos os preditores do resultado estejam no modelo, não é possível obter estimativas imparciais dos parâmetros reais da população. Além disso, não conheço nenhum resíduo do modelo que possa ser utilizado para uma segunda regressão logística com todos os valores entre 0 e 1.
Algumas referências sobre regressão em resíduos:
fonte
Espero não estar interpretando mal sua pergunta, pois minha resposta vai mudar um pouco a redação de como você formulou seu assunto.
Eu acho que o que você está tentando fazer é criar seu modelo de regressão adicionando uma variável independente por vez. E você faz isso observando qual variável em potencial tem a maior correlação com o residual de sua primeira regressão entre Y e X1. Portanto, a variável com maior correlação com esse primeiro resíduo será X2. Então, agora você tem um modelo com duas variáveis independentes X1 e X2. E você continua esse processo exato para selecionar X3, X4, etc. Esse é um processo avançado.
Você pode fazer exatamente a mesma coisa com a regressão logística pela simples razão de que a regressão logística é praticamente uma regressão OLS em que a variável dependente é o log do ímpar (ou logit). Mas, se Y é um logit ou não, não afeta o processo progressivo mencionado acima.
O OLS minimiza a soma dos erros quadrados para ajustar os dados reais. A regressão do Logit usa um processo de probabilidade máxima que gera um ajuste que não é tão diferente do OLS. E isso também (o mecanismo de ajuste) não deve afetar o processo passo a passo que permite criar seu modelo de regressão múltipla, seja uma Regressão OLS ou uma Regressão Logit.
fonte