Você pode explicar o paradoxo de Simpson com equações, em vez de tabelas de contingência?

14

Provavelmente não tenho uma compreensão clara do paradoxo dos Simpson . Informalmente, sei que a média da resposta Y1, agrupada em todos os níveis possíveis do fator A, pode ser maior que a média da resposta Y2 em todos os níveis de A, mesmo que a média de Y1 para cada nível de A (cada grupo) seja sempre menor que a média correspondente de Y2. Li exemplos, mas ainda me surpreendo cada vez que o vejo, talvez porque não aprendo bem com exemplos específicos: tenho problemas para generalizá-los. Aprendo melhor e prefiro ver uma explicação em fórmulas. Você pode, por favor, explicar o paradoxo que depende de equações, em vez de contar tabelas?

Além disso, acho que o motivo da minha surpresa é que eu poderia inconscientemente fazer algumas suposições sobre as médias envolvidas no paradoxo, o que pode não ser verdade em geral. Talvez eu esqueça do peso pelo número de amostras em cada grupo? Mas então, eu gostaria de ver uma equação que me mostra que a estimativa da média total é mais precisa se eu ponderar cada média de grupo pelo número de amostras em cada grupo, porque (se isso for verdade) não é óbvio para mim em geral. Ingenuamente, eu pensaria que a estimativa de E[Y1] tem um erro padrão mais baixo quando eu tenho mais amostras, independentemente da ponderação.

DeltaIV
fonte
1
Eu tenho um post relacionado aqui com simulações. A simulação pode ser útil para você entender o paradoxo de Simpson
Haitao Du
aqui está uma máquina que produz paradoxos de Simpson sob demanda!
precisa saber é o seguinte

Respostas:

11

Aqui está uma abordagem geral para entender o Paradoxo de Simpson algebricamente para dados de contagem.

Suponha que tenhamos dados de sobrevivência para uma exposição e criemos uma tabela de contingência 2x2. Para simplificar, teremos as mesmas contagens em cada célula. Poderíamos relaxar isso, mas isso tornaria a álgebra bastante confusa.

MorreuSobreviveuÍndice de mortalidadeExpostoXX0,5Não expostoXX0,5

Nesse caso, a taxa de mortalidade é a mesma nos grupos Exposto e Não Exposto.

Agora, se dividirmos os dados, digamos em um grupo para mulheres e outro grupo para homens, obteremos 2 tabelas, com as seguintes contagens:

Homens:

DiedSurvivedÍndice de mortalidadeExposedXumaXbumauma+bNão expostoXcXdcc+d

e para mulheres:

DiedSurvivedDeath RateExposedX(a1)X(b1)a1a+b2UnexposedX(c1)X(d-1)c-1c+d-2

Onde uma,b,c,d[0 0,1] são as proporções de cada célula na tabela de dados agregados que são do sexo masculino.

O Paradoxo de Simpson ocorrerá quando a taxa de mortalidade para homens expostos for maior que a taxa de mortalidade para homens não expostos E a taxa de mortalidade para mulheres expostas for maior que a taxa de mortalidade para mulheres não expostas. Como alternativa, também ocorrerá quando a taxa de mortalidade para homens expostos for menor que a taxa de mortalidade para homens não expostos E a taxa de mortalidade para mulheres expostas for menor que a taxa de mortalidade para mulheres não expostas . Ou seja, quando

(aa+b<cc+d) and (a1a+b2<c1c+d2)

Or 

(aa+b>cc+d) and (a1a+b2>c1c+d2)

Como um exemplo concreto, deixe X=100 e a=0.5,b=0.8,c=0.9 . Então teremos o paradoxo de Simpson quando:

(0.50.8+0.9<0.90.9+d) and (0.510.5+0.82<0.910.9+d2)

(-9<d<1,44) e (0,96<d<1.1)

A partir do qual concluímos que d deve estar (0,96,1]

O segundo conjunto de desigualdades fornece:

(0.50.8+0.9>0.90.9+d) and (0.510.5+0.82>0.910.9+d2)

(d<0.9 or d>1.44) and (0.96<d or d>1.44)

que não tem solução para d[0,1]

Assim, para os três valores que escolhemos para a,b, e c , para invocar o paradoxo de Simpson, d deve ser maior do que 0,96. No caso em que o valor era 0.99 , obteríamos uma taxa de mortalidade para homens de

0.5/(0.5+0.8)=38% in the exposed group
0.9/(0.9+0.99)=48% in the unexposed group

e para mulheres:

(0.51)/(0.5+0.82)=71% in the exposed group
(0.91)/(0.9+0.992)=91% in the unexposed group

Portanto, os homens têm uma taxa de mortalidade mais alta no grupo não exposto do que no grupo exposto, e as mulheres também têm uma taxa de mortalidade mais alta no grupo não exposto do que no grupo exposto, mas as taxas de mortalidade nos dados agregados são as mesmas para os expostos e não expostos. .

Robert Long
fonte
16

Suponha que temos dados sobre 2 variáveis, e yxy , para 2 grupos, A e B.

Os dados do grupo A são tais que a linha de regressão ajustada é

y=11-x

29xy

Os dados do grupo B são tais que a linha de regressão ajustada é

y=25-x

1114xy

x-1 nos dois grupos.

(2,9)(11,14)(14-9)/(11-2)=0,55xxy

rm(list=ls())
Xa <- c(1,2,3)
Ya <- c(10,9,8)
m0 <- lm(Ya~Xa)
plot(Xa,Ya, xlim=c(0,20), ylim=c(5,20), col="red")
abline(m0, col="red")

Xb <- c(10,11,12)
Yb <- c(15,14,13)
m1 <- lm(Yb~Xb)
points(Xb,Yb, col="blue")
abline(m1, col="blue")

X <- c(Xa,Xb)
Y <- c(Ya,Yb)
m2 <- lm(Y~X)
abline(m2, col="black")

insira a descrição da imagem aqui

Os pontos vermelhos e a linha de regressão são o grupo A, os pontos azuis e a linha de regressão são o grupo B e a linha preta é a linha de regressão geral.

Robert Long
fonte
Olá, obrigado pela resposta, mas este é mais um exemplo específico do paradoxo dos Simpson. Pedi especificamente algo na forma de um teorema ou de um conjunto de equações, uma abordagem mais abstrata e geral. De qualquer forma, como não há outras respostas, estudarei seu exemplo e, se achar que isso me ajuda a generalizar o conceito, aceito a resposta.
DeltaIV
3
@ DeltaIV Eu escrevi uma nova resposta usando argumentos puramente algébricos.
Robert Long