Preciso apresentar informações sobre os principais preditores de votação de um candidato usando dados de uma pesquisa de opinião pública. Fiz uma regressão logística usando todas as variáveis importantes, mas não consigo encontrar uma boa maneira de apresentar essas informações.
Meu cliente não se importa apenas com o tamanho do efeito, mas com a interação entre o tamanho do efeito e o tamanho da população com esse atributo.
Como posso lidar com isso em um gráfico? Alguma sugestão?
Aqui está um exemplo:
O da variável SEXO (Masculino = 1) quando a variável dependente é Voto / Não em um candidato é 2,3, que é um grande número depois de ter sido exponenciada e tratada como odds ratio ou probabilidade. No entanto, a sociedade em que essa pesquisa foi realizada tinha apenas 30% de homens. Portanto, embora o homem tenha apoiado bastante esse candidato, seus números são insignificantes para um candidato que tenta vencer uma eleição majoritária.
fonte
Respostas:
Concordo com @PeterFlom que o exemplo é estranho, mas, deixando de lado, percebo que a variável explicativa é categórica. Se isso é consistentemente verdadeiro, simplifica bastante isso. Eu usaria gráficos em mosaico para apresentar esses efeitos. Um gráfico de mosaico exibe proporções condicionais verticalmente, mas a largura de cada categoria é escalada em relação à sua proporção marginal (ou seja, incondicional) na amostra.
Aqui está um exemplo com os dados do desastre do Titanic, criados usando R:
À esquerda, vemos que as mulheres eram muito mais propensas a sobreviver, mas os homens representavam talvez cerca de 80% das pessoas a bordo. Portanto, aumentar a porcentagem de sobreviventes do sexo masculino significaria muito mais vidas salvas do que um aumento maior na porcentagem de sobreviventes do sexo feminino. Isso é um pouco análogo ao seu exemplo. Há outro exemplo à direita, onde a tripulação e a direção constituíam a maior proporção de pessoas, mas tinham a menor probabilidade de sobreviver. (Pelo que vale a pena, essa não é uma análise completa desses dados, porque classe e sexo também não eram independentes no Titanic, mas é o suficiente para ilustrar as idéias para essa pergunta.)
fonte
Estou um pouco curioso sobre o que a sociedade tinha apenas 10% de homens ... mas ...
Uma coisa que você pode fazer é traçar os índices de chances e rotular cada um com o tamanho da amostra.
Se você deseja que ambas as variáveis sejam representadas graficamente, é possível fazer um gráfico de bolhas, com a posição de cada bolha no eixo y correspondendo ao tamanho da razão de chances e a área da bolha proporcional ao tamanho da amostra.
fonte