OLS vs. regressão logística para análise exploratória com resultado binário

8

No modelo logístico idealizado, obtemos uma curva em forma de S ligando cada IV contínuo ao DV. Mas, na prática, esse formato em S ocorre com pouca frequência, fazendo com que a abordagem logística pareça um pouco menos superior para esses tipos de dados. É claro que as probabilidades previstas de que cada observação será "1" no DV são utilizáveis ​​na logística e não na regressão do OLS, pois, no último, essas probabilidades podem exceder os limites de [0,1]. Mas, para fins exploratórios, e se não precisamos de probabilidades previstas, como é bom usar o OLS para ver quais IV têm relações fortes versus moderadas versus fracas com o DV? Isso não seria uma espécie de versão multivariada da correlação ponto-biserial? (Coeficientes de regressão padronizados, para não mencionar estatísticas de colinearidade e parcelas parciais,

rolando2
fonte

Respostas:

7

Se as variáveis ​​explicativas tiverem valores em toda a linha real, faz pouco sentido expressar uma expectativa proporcional em como uma função linear da variável definida em toda a linha real. Se a forma sigmóide da transformação do logit não descrever a forma, talvez seja melhor procurar uma transformação diferente que mapeie em .[0 0,1][0 0,1](-,)

Michael R. Chernick
fonte
4
+1. Para adicionar à última coisa que Michael disse, log de log probit e complementar são outras duas funções que mapeiam para implementadas em muitos pacotes de software. (0 0,1)(-,)
Macro
3
Observe também que praticamente qualquer função que corresponde a um CDF para alguma variável aleatória de valor real é uma candidata. Logística, Probit e C-log-log são três dessas funções (secante hiperbólica, variáveis ​​aleatórias de valor normal e extremo). Assim, você também pode "em princípio" usar uma função de link normal de inclinação, ou exponencial duplo, ou t, etc. etc. A distribuição T é útil quando graus de liberdade são tratados como desconhecidos, pois você pode equilibrar aproximadamente entre probit e um link de logit função.
probabilityislogic
@probabilityislogic, você fez um ponto importante, mas nitpick: acho que a função logística é o CDF (inverso) da distribuição logística, não a distribuição secante hiperbólica.
Macro
Obrigado a todos vocês. A partir de suas respostas, você praticamente nunca usaria correlação ponto-biserial?
Rolando2
Ocorreu o seguinte: "Regressão OLS. Quando usado com uma variável de resposta binária, esse modelo é conhecido como modelo de probabilidade linear e pode ser usado como uma maneira de descrever probabilidades condicionais. [...] Para uma discussão mais aprofundada de [ ...] problemas com o modelo de probabilidade linear, ver Long (1997, p. 38-40). Long, J. Scott (1997). Modelos de regressão para variáveis ​​dependentes categóricas e limitadas. Thousand Oaks, CA: Sage Publications. " Ats.ucla.edu/stat/stata/dae/logit.htm
rolando2