Atualmente, estou lendo um artigo sobre o local e a preferência de voto nas eleições de 2000 e 2004. Nele, há um gráfico que exibe os coeficientes de regressão logística. De cursos anos atrás e um pouco de leitura, Entendo a regressão logística como uma maneira de descrever a relação entre várias variáveis independentes e uma variável de resposta binária. O que me deixa confuso é que, dada a tabela abaixo, porque o Sul tem um coeficiente de regressão logística de 0,903, isso significa que 90,3% dos sulistas votam republicanos? Devido à natureza logística da métrica, essa correlação direta não existe. Em vez disso, suponho que você só pode dizer que o sul, com 0,903, vota mais republicano do que as montanhas / planícies, com a regressão de 0,506. Dado que este último é o caso, como sei o que é significativo e o que não é e é possível extrapolar uma porcentagem de votos republicanos dado esse coeficiente de regressão logística.
Como observação, edite minha postagem se algo estiver incorreto
fonte
Respostas:
Que o autor tem forçado alguém tão atencioso como você ter uma pergunta como esta é a ilustração convincente de por que a prática - ainda maneira muito comum - de limitar a apresentação dos resultados do modelo de regressão a uma tabela como esta é tão inaceitável.
Você pode, como apontado, tentar transformar o coeficiente de logit em alguma indicação significativa do efeito estimado para o preditor em questão, mas isso é complicado e não transmite informações sobre a precisão da previsão, o que geralmente é bastante importante em um modelo de regressão logística (em particular na votação).
Além disso, o uso de vários asteriscos para relatar "níveis" de significância reforça o equívoco de que os valores de p são algum índice significativo do tamanho do efeito ("uau - esse tem 3 asteriscos !!"); pelo amor de Deus, entre 10.000 e 20.000, diferenças completamente triviais serão "significativas" a p <0,001 blá blá.
Não há absolutamente nenhuma necessidade de se mistificar dessa maneira. O modelo de regressão logística é uma equação que pode ser usada (por meio de cálculo determinado ou simulação ainda melhor) para prever a probabilidade de um resultado condicional aos valores especificados para os preditores, sujeitos a erro de medição. Então o pesquisador deve relatarqual é o impacto dos preditores de interesse na probabilidade da variável resultado de interesse e no IC associado, medidos em unidades cuja importância prática pode ser facilmente compreendida. Para garantir uma apreensão pronta, os resultados devem ser exibidos graficamente. Aqui, por exemplo, o pesquisador poderia relatar que ser um rural em oposição a um eleitor urbano aumenta a probabilidade de votar no republicano, tudo igual, em X pontos pct (suponho que 17 em 2000; "dividir por 4" seja uma heurística razoável) +/- x% no nível 0,95 de confiança - se isso é algo que é útil saber.
O relato de pseudo R ^ 2 também é um sinal de que o modelador está envolvido em ritual estatístico, em vez de qualquer tentativa de esclarecimento. Existem várias maneiras de calcular "pseudo R ^ 2"; alguém pode reclamar que o usado aqui não está especificado, mas por que se preocupar? Todos estão quase sem sentido. A única razão pela qual alguém usa o pseudo R ^ 2 é que eles ou o revisor que os está torturando aprenderam (provavelmente há 25 ou mais anos atrás) que a regressão linear OLS é o santo graal das estatísticas e acha que a única coisa que alguém está tentando descobrir é "variação explicada". Existem várias maneiras defensáveis de avaliar a adequação do ajuste geral do modelo à análise logística, e a razão de probabilidade transmite informações significativas para comparar modelos que refletem hipóteses alternativas. King, G. Como não mentir com estatísticas. Sou. J. Pol. Sci. 30, 666-687 (1986).
Se você ler um artigo no qual os relatórios estão mais ou menos confinados a uma tabela como essa, não se confunda, não se deixe intimidar e, definitivamente, não fique impressionado; em vez disso, fique com raiva e diga ao pesquisador que ele está fazendo um péssimo trabalho (especialmente se ele ou ela está poluindo seu ambiente intelectual local com misticismo e admiração - incrível quantos pensadores completamente medíocres induzem as pessoas inteligentes a pensarem que sabem algo apenas b / c eles podem produzir uma tabela que este último não consegue entender). Para exposições inteligentes e moderadas dessas idéias, consulte King, G., Tomz, M. e Wittenberg., J. Aproveitando ao máximo as análises estatísticas: aprimorando a interpretação e a apresentação . Sou. J. Pol. Sci. 44, 347-361 (2000); e Gelman, A., Pasarica, C. e Dodhia, R.Vamos praticar o que pregamos: transformando tabelas em gráficos . Sou. Stat. 56, 121-130 (2002).
fonte
fonte
Os coeficientes na regressão logística representam a tendência de uma determinada região / demografia votar no republicano, em comparação com uma categoria de referência. Um coeficiente positivo significa que é mais provável que a região vote no republicano e vice-versa por um coeficiente negativo; um valor absoluto maior significa uma tendência mais forte que um valor menor.
As categorias de referência são "Nordeste" e "eleitor urbano", portanto todos os coeficientes representam contrastes com esse tipo de eleitor em particular.
Em geral, também não há restrição quanto aos coeficientes em uma regressão logística em [0, 1], mesmo em valor absoluto. Observe que o próprio artigo da Wikipedia tem um exemplo de regressão logística com coeficientes de -5 e 2.
fonte
Você também perguntou "como sei o que é significativo e o que não é". (Suponho que você queira dizer estatisticamente significativo, já que a importância prática ou substantiva é outra questão.) Os asteriscos na tabela se referem à nota de rodapé: alguns efeitos são observados como tendo pequenos valores de p . Estes são obtidos usando um teste de Wald da significância de cada coeficiente. Supondo amostragem aleatória, p <0,05 significa que, se não houvesse esse efeito na população maior, a probabilidade de ver uma conexão tão forte quanto a observada, ou mais forte, em uma amostra desse tamanho seria menor que 0,05 . Você verá muitos tópicos neste site discutindo o ponto sutil, mas importante, relacionado ao fato de que p <0,05 não significa que há uma probabilidade de 0,05 de não haver conexão na população maior.
fonte
Permitam-me apenas enfatizar a importância do que rolando2 e dmk38 observaram: o significado geralmente é mal interpretado e existe um alto risco de que isso aconteça com a apresentação tabular dos resultados.
Paul Schrodt ofereceu recentemente uma boa descrição do problema:
(fn) A nota de rodapé também informa sobre outra questão, mencionada por dmk38: “[o onipresente culto místico das estrelas e valores P] substituiu o culto anterior - e igualmente difundido - do mais alto R2, demolido por King (1986) . ”
fonte