Qual é o significado dos coeficientes de regressão logística?

42

Atualmente, estou lendo um artigo sobre o local e a preferência de voto nas eleições de 2000 e 2004. Nele, há um gráfico que exibe os coeficientes de regressão logística. De cursos anos atrás e um pouco de leitura, Entendo a regressão logística como uma maneira de descrever a relação entre várias variáveis ​​independentes e uma variável de resposta binária. O que me deixa confuso é que, dada a tabela abaixo, porque o Sul tem um coeficiente de regressão logística de 0,903, isso significa que 90,3% dos sulistas votam republicanos? Devido à natureza logística da métrica, essa correlação direta não existe. Em vez disso, suponho que você só pode dizer que o sul, com 0,903, vota mais republicano do que as montanhas / planícies, com a regressão de 0,506. Dado que este último é o caso, como sei o que é significativo e o que não é e é possível extrapolar uma porcentagem de votos republicanos dado esse coeficiente de regressão logística. Tabela mostrando os coeficientes de regressão logística

Como observação, edite minha postagem se algo estiver incorreto

amccormack
fonte
Esta é mais uma pergunta de seguimento (e provavelmente não devo publicá-la), mas você descobriu uma boa maneira de "é possível extrapolar uma porcentagem" porque é exatamente isso que estou procurando.
Stefan Andersson
2
Eu acho que seria melhor para você formular isso como uma pergunta autônoma e publicá-la separadamente, e não como uma resposta aqui.
cardeal
Se alguém está se perguntando sobre o jornal, é SC McKee e JM Teigen's Probing the red and blues: seccionalismo e localização dos eleitores nas eleições presidenciais de 2000 e 2004 nos EUA (2009) Geografia Política
Alex Nelson

Respostas:

36

Que o autor tem forçado alguém tão atencioso como você ter uma pergunta como esta é a ilustração convincente de por que a prática - ainda maneira muito comum - de limitar a apresentação dos resultados do modelo de regressão a uma tabela como esta é tão inaceitável.

  1. Você pode, como apontado, tentar transformar o coeficiente de logit em alguma indicação significativa do efeito estimado para o preditor em questão, mas isso é complicado e não transmite informações sobre a precisão da previsão, o que geralmente é bastante importante em um modelo de regressão logística (em particular na votação).

  2. Além disso, o uso de vários asteriscos para relatar "níveis" de significância reforça o equívoco de que os valores de p são algum índice significativo do tamanho do efeito ("uau - esse tem 3 asteriscos !!"); pelo amor de Deus, entre 10.000 e 20.000, diferenças completamente triviais serão "significativas" a p <0,001 blá blá.

  3. Não há absolutamente nenhuma necessidade de se mistificar dessa maneira. O modelo de regressão logística é uma equação que pode ser usada (por meio de cálculo determinado ou simulação ainda melhor) para prever a probabilidade de um resultado condicional aos valores especificados para os preditores, sujeitos a erro de medição. Então o pesquisador deve relatarqual é o impacto dos preditores de interesse na probabilidade da variável resultado de interesse e no IC associado, medidos em unidades cuja importância prática pode ser facilmente compreendida. Para garantir uma apreensão pronta, os resultados devem ser exibidos graficamente. Aqui, por exemplo, o pesquisador poderia relatar que ser um rural em oposição a um eleitor urbano aumenta a probabilidade de votar no republicano, tudo igual, em X pontos pct (suponho que 17 em 2000; "dividir por 4" seja uma heurística razoável) +/- x% no nível 0,95 de confiança - se isso é algo que é útil saber.

  4. O relato de pseudo R ^ 2 também é um sinal de que o modelador está envolvido em ritual estatístico, em vez de qualquer tentativa de esclarecimento. Existem várias maneiras de calcular "pseudo R ^ 2"; alguém pode reclamar que o usado aqui não está especificado, mas por que se preocupar? Todos estão quase sem sentido. A única razão pela qual alguém usa o pseudo R ^ 2 é que eles ou o revisor que os está torturando aprenderam (provavelmente há 25 ou mais anos atrás) que a regressão linear OLS é o santo graal das estatísticas e acha que a única coisa que alguém está tentando descobrir é "variação explicada". Existem várias maneiras defensáveis ​​de avaliar a adequação do ajuste geral do modelo à análise logística, e a razão de probabilidade transmite informações significativas para comparar modelos que refletem hipóteses alternativas. King, G. Como não mentir com estatísticas. Sou. J. Pol. Sci. 30, 666-687 (1986).

  5. Se você ler um artigo no qual os relatórios estão mais ou menos confinados a uma tabela como essa, não se confunda, não se deixe intimidar e, definitivamente, não fique impressionado; em vez disso, fique com raiva e diga ao pesquisador que ele está fazendo um péssimo trabalho (especialmente se ele ou ela está poluindo seu ambiente intelectual local com misticismo e admiração - incrível quantos pensadores completamente medíocres induzem as pessoas inteligentes a pensarem que sabem algo apenas b / c eles podem produzir uma tabela que este último não consegue entender). Para exposições inteligentes e moderadas dessas idéias, consulte King, G., Tomz, M. e Wittenberg., J. Aproveitando ao máximo as análises estatísticas: aprimorando a interpretação e a apresentação . Sou. J. Pol. Sci. 44, 347-361 (2000); e Gelman, A., Pasarica, C. e Dodhia, R.Vamos praticar o que pregamos: transformando tabelas em gráficos . Sou. Stat. 56, 121-130 (2002).

dmk38
fonte
19

plogp/(1p)

x=1/(1+ez)z=logx1xf1(x)=logx1xx0.3log0.3/0.70.85β00.9030.85+0.904=0.05plogp/(1p)f(0.05)1/(1+e0.05)0.510.4311.0511.05/0.43e0.903

0.85+0.37+0.68=+0.20f(0.20)=1/(1+e0.20)=0.55

Michael Lugo
fonte
2
heurística: divida por 4 - logit coeff / 4 é aproximadamente pct-pt diff no prob. de 1 unidade de mudança. Isso não é o mesmo que dizer "a pessoa com βsubn charcteristic = z é x% provável." Não apenas (como observado) é necessário adicionar βsub0 e subtrair a probabilidade associada à classe ref. Também é necessário levar em consideração a colinearidade dos preditores. B / c sendo sul correlaciona-se com outros preditores, não será verdade que prob. O repub de votação sulista é βsub0 - chances de log transformadas para NE mais chances de log transformadas para sul. Melhor dizer, "tudo o resto igual, sendo do sul prevê x pct mudança ponto no prov de"
dmk38
1
'As probabilidades reais passaram de 0,43 para 1'. De 0,43 vieram em primeiro lugar?
Monica Heddneck 12/06
0.30.3/(10.3)0.43
6

Os coeficientes na regressão logística representam a tendência de uma determinada região / demografia votar no republicano, em comparação com uma categoria de referência. Um coeficiente positivo significa que é mais provável que a região vote no republicano e vice-versa por um coeficiente negativo; um valor absoluto maior significa uma tendência mais forte que um valor menor.

As categorias de referência são "Nordeste" e "eleitor urbano", portanto todos os coeficientes representam contrastes com esse tipo de eleitor em particular.

Em geral, também não há restrição quanto aos coeficientes em uma regressão logística em [0, 1], mesmo em valor absoluto. Observe que o próprio artigo da Wikipedia tem um exemplo de regressão logística com coeficientes de -5 e 2.

Hong Ooi
fonte
5

Você também perguntou "como sei o que é significativo e o que não é". (Suponho que você queira dizer estatisticamente significativo, já que a importância prática ou substantiva é outra questão.) Os asteriscos na tabela se referem à nota de rodapé: alguns efeitos são observados como tendo pequenos valores de p . Estes são obtidos usando um teste de Wald da significância de cada coeficiente. Supondo amostragem aleatória, p <0,05 significa que, se não houvesse esse efeito na população maior, a probabilidade de ver uma conexão tão forte quanto a observada, ou mais forte, em uma amostra desse tamanho seria menor que 0,05 . Você verá muitos tópicos neste site discutindo o ponto sutil, mas importante, relacionado ao fato de que p <0,05 não significa que há uma probabilidade de 0,05 de não haver conexão na população maior.

rolando2
fonte
5

Permitam-me apenas enfatizar a importância do que rolando2 e dmk38 observaram: o significado geralmente é mal interpretado e existe um alto risco de que isso aconteça com a apresentação tabular dos resultados.

Paul Schrodt ofereceu recentemente uma boa descrição do problema:

Os pesquisadores acham quase impossível aderir à interpretação correta do teste de significância. O valor p indica apenas a probabilidade de obter um resultado nas condições [geralmente] completamente irrealistas da hipótese nula. O que não é o que você deseja saber - geralmente você quer saber a magnitude do efeito de uma variável independente, dados os dados. Essa é uma questão bayesiana, não uma questão freqüentista. Em vez disso, vemos - constantemente - o valor-p interpretado como se desse força à associação: este é o onipresente culto místico das estrelas e dos valores-p que permeia nossas revistas. (Fn) Não é isso que o valor-p diz , nem nunca será.

Na minha experiência, é quase impossível evitar esse erro: mesmo analistas muito cuidadosos, que estão plenamente conscientes do problema, geralmente trocam de modo quando discutem verbalmente seus resultados, mesmo que tenham evitado o problema em uma exposição escrita. E não vamos nem especular sobre as milhares de horas e galões de tinta que gastamos corrigindo isso em trabalhos de pós-graduação.

(fn) A nota de rodapé também informa sobre outra questão, mencionada por dmk38: “[o onipresente culto místico das estrelas e valores P] substituiu o culto anterior - e igualmente difundido - do mais alto R2, demolido por King (1986) . ”

Pe.
fonte
oh-- Acabei de adicionar King cite à minha resposta editada. O artigo realmente destrói a mania R ^ 2 (ainda endêmica da econometria) mesmo onde a estatística tem um significado - para a regressão OLS. King observa também que esse pseudo R ^ 2 é sem sentido fabricado para estender a falta de consideração associada à "variação explicada".
dmk38