Estou tentando entender o conceito de super-dispersão na regressão logística. Eu li que a super-dispersão ocorre quando a variação observada de uma variável de resposta é maior do que seria esperado da distribuição binomial.
Mas se uma variável binomial pode ter apenas dois valores (1/0), como pode ter uma média e uma variação?
Estou bem em calcular a média e a variação dos sucessos do número x dos ensaios de Bernoulli. Mas não consigo entender o conceito de média e variância de uma variável que pode ter apenas dois valores.
Alguém pode fornecer uma visão geral intuitiva de:
- O conceito de média e variância em uma variável que pode ter apenas dois valores
- O conceito de superdispersão em uma variável que pode ter apenas dois valores
Respostas:
No contexto de uma curva de regressão logística, você pode considerar uma "fatia pequena", ou agrupamento, através de um intervalo estreito de valor do preditor como a realização de um experimento binomial (talvez tenhamos 10 pontos na fatia com um certo número de sucessos e fracassos). Mesmo que não tenhamos verdadeiramente várias tentativas em cada valor preditivo e estamos observando proporções em vez de contagens brutas, ainda esperamos que a proporção de cada uma dessas "fatias" esteja próxima da curva. Se essas "fatias" tendem a ficar longe da curva, há muita variabilidade na distribuição. Portanto, agrupando as observações, você cria realizações de variáveis aleatórias binomiais em vez de examinar os dados 0/1 individualmente.
O exemplo abaixo é de outra pergunta neste site. Digamos que as linhas azuis representem a proporção esperada no intervalo de variáveis preditivas. As células azuis indicam instâncias observadas (neste caso, escolas). Isso fornece uma representação gráfica de como a sobredispersão pode parecer. Observe que existem falhas na interpretação das células do gráfico abaixo, mas fornece uma idéia de como a super-dispersão pode se manifestar.
fonte
Como já observado por outros, a super-dispersão não se aplica no caso de uma variável de Bernoulli (0/1), pois nesse caso, a média determina necessariamente a variância. No contexto da regressão logística, isso significa que, se seu resultado for binário, você não poderá estimar um parâmetro de dispersão. (NB: isso não significa que você pode ignorar a correlação potencial entre as observações apenas porque seu resultado é binário!)
Se, por outro lado, seu resultado for um conjunto de proporções, é possível estimar um parâmetro de dispersão (que, embora muitas vezes maior que um, também pode ser menor que um), divida a estatística qui-quadrado de Pearson (ou o desvio) ) pelos graus residuais de liberdade.
Lembre-se, a regressão logística com um resultado puramente binário é apenas um caso especial do modelo de regressão logística mais geral, no qual o índice binomial pode exceder um (e pode variar entre as observações). Portanto, a questão de saber se você está ajustando ou não um modelo de regressão logística não está relacionada à questão de saber se seus dados estão super-dispersos.
fonte