O Paradox de Simpson cobre todas as instâncias de reversão de uma variável oculta?

A seguir, é apresentada uma pergunta sobre as muitas visualizações oferecidas como 'prova por imagem' da existência do paradoxo de Simpson e, possivelmente, uma pergunta sobre terminologia.

O Paradoxo de Simpson é um fenômeno bastante simples para descrever e fornecer exemplos numéricos (a razão pela qual isso pode acontecer é profunda e interessante). O paradoxo é que existem tabelas de contingência 2x2x2 (Agresti, análise de dados categóricos) em que a associação marginal tem uma direção diferente de cada associação condicional.

Ou seja, a comparação de proporções em duas subpopulações pode ir em uma direção, mas a comparação na população combinada vai na outra direção. Em símbolos:

Existem tal que $a,b,c,d,e,f,g,h$

\frac{a + b}{c + d} > \frac{e + f}{g + h}

$\frac{a+b}{c+d} > \frac{e+f}{g+h}$

mas e

\frac{a}{c} < \frac{e}{g}

$\frac{a}{c} < \frac{e}{g}$

\frac{b}{d} < \frac{f}{h}

$\frac{b}{d} < \frac{f}{h}$

Isso é representado com precisão na seguinte visualização (da Wikipedia ):

Uma fração é simplesmente a inclinação dos vetores correspondentes, e é fácil ver no exemplo que os vetores B mais curtos têm uma inclinação maior que os vetores L correspondentes, mas o vetor B combinado tem uma inclinação menor que o vetor L combinado.

Existe uma visualização muito comum em várias formas, uma em particular na frente da referência da Wikipedia na de Simpson:

Este é um ótimo exemplo de confusão, como uma variável oculta (que separa duas subpopulações) pode mostrar um padrão diferente.

No entanto, matematicamente, essa imagem não corresponde de modo algum a uma exibição das tabelas de contingência que estão na base do fenômeno conhecido como paradoxo de Simpson . Primeiro, as linhas de regressão são sobre dados do conjunto de pontos com valor real, não contam dados de uma tabela de contingência.

Além disso, pode-se criar conjuntos de dados com relação arbitrária de declives nas linhas de regressão, mas em tabelas de contingência, há uma restrição de quão diferentes os declives podem ser. Ou seja, a linha de regressão de uma população pode ser ortogonal a todas as regressões das subpopulações especificadas. Porém, no Paradoxo de Simpson, as proporções das subpopulações, embora não sejam uma inclinação de regressão, não podem se afastar muito da população amalgamada, mesmo que na outra direção (novamente, veja a imagem de comparação de proporções da Wikipedia).

Para mim, isso é suficiente para se surpreender toda vez que vejo a última imagem como uma visualização do paradoxo de Simpson. Mas como vejo os exemplos (o que chamo de errado) em todos os lugares, estou curioso para saber:

Estou perdendo uma transformação sutil dos exemplos originais de Simpson / Yule de tabelas de contingência em valores reais que justificam a visualização da linha de regressão?
Certamente o de Simpson é um exemplo particular de erro confuso. O termo 'Paradoxo de Simpson' agora se equipara a erro confuso, de modo que, independentemente da matemática, qualquer mudança de direção por meio de uma variável oculta pode ser chamada de Paradoxo de Simpson?

Adendo: Aqui está um exemplo de generalização para uma tabela 2xmxn (ou 2 por m por contínuo):

Se amalgamado sobre o tipo de chute, parece que um jogador faz mais chutes quando os defensores estão mais próximos. Agrupados por tipo de chute (distância da cesta de verdade), a situação mais intuitivamente esperada ocorre, mais chutes são feitos quanto mais afastados os zagueiros.

Essa imagem é o que considero uma generalização de Simpson para uma situação mais contínua (distância dos defensores). Mas ainda não vejo como o exemplo da linha de regressão é um exemplo do de Simpson.

mathematical-statistics data-visualization causality contingency-tables simpsons-paradox Mitch
fonte

O Paradox de Simpson não se aplica apenas aos dados de destino categóricos. Dados de destino contínuos com um fator categórico que os afeta, como em seu gráfico final, podem estar sujeitos ao paradoxo. A chave é esse "fator categórico", não se a variável de interesse é categórica ou se algum ou todos os outros fatores que afetam a variável de interesse são categóricos.

jbowman

@jbowman OK, posso ver que o SP pode ser generalizável além dos dados categóricos para contínuo (não vi essa generalização; o SP parece sempre ser apresentado com tabelas de contingência), mas não vejo como o segundo gráfico corresponde. Quero dizer, vejo a metáfora óbvia, mas vaga, "uma variável oculta pode mudar a direção", mas simplesmente não vejo como a generalização funciona matematicamente / com precisão.

Mitch

Você tem um fator categórico oculto que faz com que os dados "reais" sigam as duas linhas coloridas, mas sem o conhecimento deles, os dados parecem seguir a linha pontilhada. Considere acidentes de trânsito por idade como suas variáveis alvo e do eixo x - não categóricas. Eles parecem diminuir com a idade, certo? Agora adicione o "fator oculto" de "dirigir embriagado". A linha azul seria "dirigindo bêbado", a vermelha "dirigindo enquanto não bêbado". Dado esse fator oculto, correlacionado com a juventude, os acidentes aumentam com a idade! (Não é o exemplo mais realista, eu tenho que admitir, mas é a ideia de que a contagem ...)

jbowman

@jbowman Isso soa como uma explicação para erros de confusão e não para SP. Talvez você esteja dizendo que SP e confusão são os mesmos. Mas isso soa na direção de uma resposta; talvez você possa formalizá-lo um pouco mais e tornar a conexão com o SP mais explícita (explique matematicamente como as linhas de regressão são de algum modo semelhantes às comparações de razão no caso da tabela de contingência).

Mitch

Concordo que a versão de contingência é diferente em alguns aspectos do exemplo de regressão em sua pergunta. (1) A variável de confusão não é um covariável que descreve uma amostra individual, é uma proporção que difere entre tratamento e grupo controle. No exemplo da pedra nos rins, a proporção de pacientes com pedras grandes é diferente entre os dois grupos e isso causa o paradoxo. (2) No exemplo do rim, o tratamento não se correlaciona com uma alteração na variável de confusão, é um efeito separado.

x

$x$

p

$p$

Paul

Respostas:

O paradoxo é que existem tabelas de contingência 2x2x2 (Agresti, análise de dados categóricos) em que a associação marginal tem uma direção diferente de cada associação condicional. [...] Estou perdendo uma transformação sutil dos exemplos originais de tabelas de contingência Simpson / Yule em valores reais que justificam a visualização da linha de regressão?

A questão principal é que você está equiparando uma maneira simples de mostrar o paradoxo como o próprio paradoxo. O exemplo simples da tabela de contingência não é o paradoxo em si. O paradoxo de Simpson é sobre intuições causais conflitantes ao comparar associações marginais e condicionais, geralmente devido a reversões de sinais (ou atenuações extremas como independência, como no exemplo original dado pelo próprio Simpson , em que não há reversão de sinais). O paradoxo surge quando você interpreta as duas estimativas causalmente, o que pode levar a conclusões diferentes - o tratamento ajuda ou prejudica o paciente? E qual estimativa você deve usar?

Se o padrão paradoxal aparece em uma tabela de contingência ou em uma regressão, não importa. Todas as variáveis podem ser contínuas e o paradoxo ainda pode acontecer --- por exemplo, você pode ter um caso em que ainda . $\frac{\partial E(Y|X)}{\partial X} > 0$ $\frac{\partial E(Y|X, C = c)}{\partial X} < 0, \forall c$

Certamente o de Simpson é um exemplo particular de erro confuso.

Isso está incorreto! O paradoxo de Simpson não é um exemplo particular de erro confuso - se fosse exatamente isso, então não haveria paradoxo. Afinal, se você tem certeza de que algum relacionamento está confuso, não ficaria surpreso ao ver reversões de sinais ou atenuações em tabelas de contingência ou coeficientes de regressão - talvez você até esperasse isso.

Portanto, embora o paradoxo de Simpson se refira a uma reversão (ou extrema atenuação) de "efeitos" ao comparar associações marginais e condicionais, isso pode não ser devido a confusão e, a priori, você não pode saber se a tabela marginal ou condicional é a "correta" "uma consulta para responder à sua pergunta causal. Para fazer isso, você precisa saber mais sobre a estrutura causal do problema.

Considere estes exemplos dados em Pearl :

Imagine que você está interessado no efeito causal totais de em . A reversão de associações pode ocorrer em todos esses gráficos. Em (a) e (d) temos de confusão, e você ajustar para . Em (b) não há nenhuma confusão, é um mediador, e você não deve ajustar a . Em (c) é um colisor e não há confusão, então você não deve ajustar a quer. Ou seja, em dois desses exemplos (bec) você pode observar o paradoxo de Simpson, mas não há confusão alguma e a resposta correta para sua pergunta causal seria dada pela estimativa não ajustada. $X$ $Y$ $Z$ $Z$ $Z$ $Z$ $Z$

A explicação de Pearl sobre por que isso foi considerado um "paradoxo" e por que ainda confunde as pessoas é muito plausível. Tomemos o caso simples descrito em (a), por exemplo: efeitos causais não podem simplesmente se reverter dessa maneira. Portanto, se estivermos assumindo erroneamente que ambas as estimativas são causais (a marginal e a condicional), ficaríamos surpresos ao ver isso acontecer - e os humanos parecem estar conectados para ver a causa na maioria das associações.

Então, de volta à sua pergunta principal (título):

O Paradox de Simpson cobre todas as instâncias de reversão de uma variável oculta?

Em certo sentido, esta é a definição atual do paradoxo de Simpson. Mas, obviamente, a variável de condicionamento não está oculta, ela deve ser observada, caso contrário, você não veria o paradoxo acontecendo. A maior parte da intrigante parte do paradoxo deriva de considerações causais e essa variável "oculta" não é necessariamente um fator de confusão.

Tabelas de contingência e regressão

Conforme discutido nos comentários, a identidade algébrica de executar uma regressão com dados binários e calcular as diferenças de proporções das tabelas de contingência pode ajudar a entender por que o paradoxo que aparece nas regressões é de natureza semelhante. Imagine que seu resultado é , seu tratamento e seus grupos , todas as variáveis binárias. $y$ $x$ $z$

Então a diferença geral na proporção é simplesmente o coeficiente de regressão de em . Usando sua notação: $y$ $x$

\frac{a + b}{c + d} - \frac{e + f}{g + h} = \frac{c o v (y, x)}{v a r (x)}

$\frac{a+b}{c+d} - \frac{e+f}{g+h} = \frac{cov(y,x)}{var(x)}$

E o mesmo vale para cada subgrupo de se você executar regressões separadas, uma para : $z$ $z=1$

\frac{a}{c} - \frac{e}{g} = \frac{c o v (y, x | z = 1)}{v a r (x | z = 1)}

$\frac{a}{c} - \frac{e}{g} = \frac{cov(y,x|z =1)}{var(x|z=1)}$

E outro para : $z =0$

\frac{b}{d} - \frac{f}{h} = \frac{c o v (y, x | z = 0)}{v a r (x | z = 0)}

$\frac{b}{d} - \frac{f}{h} = \frac{cov(y,x|z=0)}{var(x|z=0)}$

Portanto, em termos de regressão, o paradoxo corresponde à estimativa do primeiro coeficiente em uma direção e os dois coeficientes dos subgrupos em uma direção diferente do coeficiente para toda a população . $\left(\frac{cov(y,x)}{var(x)}\right)$ $\left(\frac{cov(y,x|z)}{var(x|z)}\right)$ $\left(\frac{cov(y,x)}{var(x)}\right)$

Carlos Cinelli
fonte

Parece que, na sua opinião, o paradoxo de Simpson se refere não apenas à possibilidade de uma diferença nas associações marginais e condicionais, mas também à confusão sobre qual é o "direito" de usar ao interpretar os dados? E Pearl mostra que a estrutura causal é o que devemos usar para decidir isso?

Paul

"O paradoxo de Simpson é sobre intuições conflitantes ao comparar associações marginais e condicionais". Não concordo aqui, o paradoxo de Simpson refere-se especificamente a um sinal de alerta ao comparar resultados brutos a estratificados.

21417 AdamO:

@AdamO Enquanto a maioria das pessoas usa o caso extremo de reversão de sinal como a definição "estrita" do paradoxo de Simpson, o exemplo original de Simpson na verdade não teve reversão de sinal.

Carlos Cinelli 12/12

@ Paul, exatamente isso.

Carlos Cinelli 12/12

@AdamO Acho que a explicação de Pearl sobre por que isso foi considerado um "paradoxo" e por que ainda confunde as pessoas é plausível. No caso simples de (a), por exemplo, os efeitos causais não podem simplesmente se reverter dessa maneira. Portanto, se estivermos pensando causalmente nos dois casos, ficaríamos surpresos ao ver uma coisa dessas acontecendo - e os humanos parecem estar ligados à causa na maioria das associações.

Carlos Cinelli 12/12

Estou perdendo uma transformação sutil dos exemplos originais de Simpson / Yule de tabelas de contingência em valores reais que justificam a visualização da linha de regressão?

Sim. Uma representação semelhante das análises categóricas é possível visualizando as chances de logaritmo da resposta no eixo Y. O paradoxo de Simpson aparece da mesma maneira com uma linha "bruta" que corre contra as tendências específicas do estrato, ponderadas à distância, de acordo com as probabilidades de log referentes ao resultado do estrato.

Aqui está um exemplo com os dados de admissão de Berkeley

Aqui, gênero é um código masculino / feminino, no eixo X são as probabilidades brutas de registro de admissões entre homens e mulheres, a linha preta tracejada mostra a preferência de gênero: a inclinação positiva sugere um viés em relação às admissões masculinas. As cores representam a admissão em departamentos específicos. Em todos os casos, exceto dois, a inclinação da linha de preferência de gênero específica do departamento é negativa. Se esses resultados são calculados em conjunto em um modelo logístico que não considera a interação, o efeito geral é uma reversão a favor das admissões femininas. Eles se aplicavam a departamentos mais difíceis com mais frequência do que os homens.

Certamente o de Simpson é um exemplo particular de erro confuso. O termo 'Paradoxo de Simpson' agora se equipara a erro confuso, de modo que, independentemente da matemática, qualquer mudança de direção por meio de uma variável oculta pode ser chamada de Paradoxo de Simpson?

Resumidamente, não. O paradoxo de Simpson é apenas o "quê", enquanto que o confuso é o "porquê". A discussão dominante se concentrou em onde eles concordam. A confusão pode ter um efeito mínimo ou desprezível nas estimativas e, alternativamente, o paradoxo de Simpson, embora dramático, pode ser causado por não-confusão. Como observação, os termos variável "oculto" ou "oculto" são imprecisos. Do ponto de vista do epidemiologista, o controle cuidadoso e o desenho do estudo devem permitir a medição ou o controle de possíveis contribuintes ao viés de confusão. Eles não precisam estar "ocultos" para serem um problema.

Há momentos em que as estimativas pontuais podem variar drasticamente, até o ponto de reversão, que não resultam de confusão. Colliders e mediadores também são efeitos de mudança, possivelmente revertendo-os. O raciocínio causal alerta que, para estudar os efeitos, o efeito principal deve ser estudado isoladamente, em vez de se ajustar a eles, pois a estimativa estratificada está errada. (É semelhante a inferir, incorretamente, que ver o médico o deixa doente ou que armas matam pessoas, portanto as pessoas não matam pessoas).

AdamO
fonte

Então você diria que o exemplo original de Simpson não é um caso de "paradoxo de Simpson"?

Carlos Cinelli 12/12

@CarlosCinelli a que exemplo você estaria se referindo? Não tenho acesso ao artigo de Simpson, de 1951, mas, dado que é publicado no JRSS e não faz referência a um exemplo aplicado em resumo, parece um trabalho puramente teórico.

Adamo

É o exemplo numérico dos parágrafos 9 e 10, onde ele fornece as mesmas tabelas de contingência com duas histórias diferentes que levariam a duas interpretações causais diferentes. Nesse exemplo, não há reversão de sinal, apenas independência marginal.

Carlos Cinelli 12/12

Para ver por que a reversão do sinal é irrelevante aqui, imagine uma situação em que um tratamento mostre uma associação extremamente forte para homens e mulheres, mas mostre apenas uma pequena associação na população como um todo. Isso ainda seria paradoxal para a maioria das pessoas, se interpretado causalmente.

Carlos Cinelli 12/12

@CarlosCinelli Eu diria que isso foi um exemplo de confusão, mas não o paradoxo de Simpson em si, mas não vou discutir o assunto, acho que você fez um bom argumento e talvez eu estivesse segurando algumas suposições incorretas sobre o que era e o que não era. o fenômeno indescritível do Paradoxo de Simpson.

Adamo