Sobredispersão em regressão logística

14

Estou tentando entender o conceito de super-dispersão na regressão logística. Eu li que a super-dispersão ocorre quando a variação observada de uma variável de resposta é maior do que seria esperado da distribuição binomial.

Mas se uma variável binomial pode ter apenas dois valores (1/0), como pode ter uma média e uma variação?

Estou bem em calcular a média e a variação dos sucessos do número x dos ensaios de Bernoulli. Mas não consigo entender o conceito de média e variância de uma variável que pode ter apenas dois valores.

Alguém pode fornecer uma visão geral intuitiva de:

  1. O conceito de média e variância em uma variável que pode ter apenas dois valores
  2. O conceito de superdispersão em uma variável que pode ter apenas dois valores
luciano
fonte
1
y01y
Bem colocado, então eu acredito que isso é médio = 0,5, desvio padrão = 0,11.
luciano 27/03
Digamos que minha variável de resposta tenha 100 sucessos e 5 falhas. É provável que este seja superdisperso?
luciano 27/03
luciano, você precisa de mais de uma realização do experimento para determinar se está superdisperso.
quer

Respostas:

10

NpNN+10,1,2,3,...,N

N=1

No contexto de uma curva de regressão logística, você pode considerar uma "fatia pequena", ou agrupamento, através de um intervalo estreito de valor do preditor como a realização de um experimento binomial (talvez tenhamos 10 pontos na fatia com um certo número de sucessos e fracassos). Mesmo que não tenhamos verdadeiramente várias tentativas em cada valor preditivo e estamos observando proporções em vez de contagens brutas, ainda esperamos que a proporção de cada uma dessas "fatias" esteja próxima da curva. Se essas "fatias" tendem a ficar longe da curva, há muita variabilidade na distribuição. Portanto, agrupando as observações, você cria realizações de variáveis ​​aleatórias binomiais em vez de examinar os dados 0/1 individualmente.

O exemplo abaixo é de outra pergunta neste site. Digamos que as linhas azuis representem a proporção esperada no intervalo de variáveis ​​preditivas. As células azuis indicam instâncias observadas (neste caso, escolas). Isso fornece uma representação gráfica de como a sobredispersão pode parecer. Observe que existem falhas na interpretação das células do gráfico abaixo, mas fornece uma idéia de como a super-dispersão pode se manifestar.

Exemplo de sobre dispersão

Minador
fonte
1
Mas estou interessado em super-dispersão no contexto de regressão logística. Para cada valor de uma variável preditora na regressão logística, não há n ensaios, há apenas um ensaio. E o resultado desse teste é um sucesso ou falha
luciano 27/03
Acabei de adicionar um parágrafo para abordar a intuição por trás da super-dispersão no contexto da regressão linear.
Minador 27/03
1
Minador, estou tentando imaginar o que você quer dizer com esta frase: "Se essas" fatias "tendem a ficar longe da curva, há muita variabilidade na distribuição". Aqui está o que eu acho que você quer dizer: na fatia na curva onde há uma probabilidade de 0,1-0,3 de sucesso, há muitos sucessos e na fatia na curva onde há uma probabilidade de sucesso de 0,7-0,9, há muitas de falhas. É isso o que você quer dizer e isso representa super-dispersão?
luciano 28/03
1
@luciano Essa é a ideia certa. Mas lembre-se de que deve haver um equilíbrio de "fatias" muito acima e muito abaixo da curva para que o ajuste ocorra em primeiro lugar. Portanto, pode ser mais realista dizer que uma fatia em torno de 0,7 tem muitos sucessos (talvez 100%) e a próxima fatia em torno de 0,75 tem muito poucos (50%), em seguida, 0,80 tem muitos (100%), etc. mais variação observada do que seria esperado.
precisa
Eu tenho você, bem explicado
luciano 28/03
7

Como já observado por outros, a super-dispersão não se aplica no caso de uma variável de Bernoulli (0/1), pois nesse caso, a média determina necessariamente a variância. No contexto da regressão logística, isso significa que, se seu resultado for binário, você não poderá estimar um parâmetro de dispersão. (NB: isso não significa que você pode ignorar a correlação potencial entre as observações apenas porque seu resultado é binário!)

Se, por outro lado, seu resultado for um conjunto de proporções, é possível estimar um parâmetro de dispersão (que, embora muitas vezes maior que um, também pode ser menor que um), divida a estatística qui-quadrado de Pearson (ou o desvio) ) pelos graus residuais de liberdade.

Lembre-se, a regressão logística com um resultado puramente binário é apenas um caso especial do modelo de regressão logística mais geral, no qual o índice binomial pode exceder um (e pode variar entre as observações). Portanto, a questão de saber se você está ajustando ou não um modelo de regressão logística não está relacionada à questão de saber se seus dados estão super-dispersos.

Phil Schumm
fonte