A seguir, é apresentada uma pergunta sobre as muitas visualizações oferecidas como 'prova por imagem' da existência do paradoxo de Simpson e, possivelmente, uma pergunta sobre terminologia.
O Paradoxo de Simpson é um fenômeno bastante simples para descrever e fornecer exemplos numéricos (a razão pela qual isso pode acontecer é profunda e interessante). O paradoxo é que existem tabelas de contingência 2x2x2 (Agresti, análise de dados categóricos) em que a associação marginal tem uma direção diferente de cada associação condicional.
Ou seja, a comparação de proporções em duas subpopulações pode ir em uma direção, mas a comparação na população combinada vai na outra direção. Em símbolos:
Existem tal que a + b
mas e
Isso é representado com precisão na seguinte visualização (da Wikipedia ):
Uma fração é simplesmente a inclinação dos vetores correspondentes, e é fácil ver no exemplo que os vetores B mais curtos têm uma inclinação maior que os vetores L correspondentes, mas o vetor B combinado tem uma inclinação menor que o vetor L combinado.
Existe uma visualização muito comum em várias formas, uma em particular na frente da referência da Wikipedia na de Simpson:
Este é um ótimo exemplo de confusão, como uma variável oculta (que separa duas subpopulações) pode mostrar um padrão diferente.
No entanto, matematicamente, essa imagem não corresponde de modo algum a uma exibição das tabelas de contingência que estão na base do fenômeno conhecido como paradoxo de Simpson . Primeiro, as linhas de regressão são sobre dados do conjunto de pontos com valor real, não contam dados de uma tabela de contingência.
Além disso, pode-se criar conjuntos de dados com relação arbitrária de declives nas linhas de regressão, mas em tabelas de contingência, há uma restrição de quão diferentes os declives podem ser. Ou seja, a linha de regressão de uma população pode ser ortogonal a todas as regressões das subpopulações especificadas. Porém, no Paradoxo de Simpson, as proporções das subpopulações, embora não sejam uma inclinação de regressão, não podem se afastar muito da população amalgamada, mesmo que na outra direção (novamente, veja a imagem de comparação de proporções da Wikipedia).
Para mim, isso é suficiente para se surpreender toda vez que vejo a última imagem como uma visualização do paradoxo de Simpson. Mas como vejo os exemplos (o que chamo de errado) em todos os lugares, estou curioso para saber:
- Estou perdendo uma transformação sutil dos exemplos originais de Simpson / Yule de tabelas de contingência em valores reais que justificam a visualização da linha de regressão?
- Certamente o de Simpson é um exemplo particular de erro confuso. O termo 'Paradoxo de Simpson' agora se equipara a erro confuso, de modo que, independentemente da matemática, qualquer mudança de direção por meio de uma variável oculta pode ser chamada de Paradoxo de Simpson?
Adendo: Aqui está um exemplo de generalização para uma tabela 2xmxn (ou 2 por m por contínuo):
Se amalgamado sobre o tipo de chute, parece que um jogador faz mais chutes quando os defensores estão mais próximos. Agrupados por tipo de chute (distância da cesta de verdade), a situação mais intuitivamente esperada ocorre, mais chutes são feitos quanto mais afastados os zagueiros.
Essa imagem é o que considero uma generalização de Simpson para uma situação mais contínua (distância dos defensores). Mas ainda não vejo como o exemplo da linha de regressão é um exemplo do de Simpson.
fonte
Respostas:
A questão principal é que você está equiparando uma maneira simples de mostrar o paradoxo como o próprio paradoxo. O exemplo simples da tabela de contingência não é o paradoxo em si. O paradoxo de Simpson é sobre intuições causais conflitantes ao comparar associações marginais e condicionais, geralmente devido a reversões de sinais (ou atenuações extremas como independência, como no exemplo original dado pelo próprio Simpson , em que não há reversão de sinais). O paradoxo surge quando você interpreta as duas estimativas causalmente, o que pode levar a conclusões diferentes - o tratamento ajuda ou prejudica o paciente? E qual estimativa você deve usar?
Se o padrão paradoxal aparece em uma tabela de contingência ou em uma regressão, não importa. Todas as variáveis podem ser contínuas e o paradoxo ainda pode acontecer --- por exemplo, você pode ter um caso em que ainda .∂E(Y|X,C=c)∂E( Y| X)∂X> 0 ∂E( Y| X, C= c )∂X< 0 , ∀ c
Isso está incorreto! O paradoxo de Simpson não é um exemplo particular de erro confuso - se fosse exatamente isso, então não haveria paradoxo. Afinal, se você tem certeza de que algum relacionamento está confuso, não ficaria surpreso ao ver reversões de sinais ou atenuações em tabelas de contingência ou coeficientes de regressão - talvez você até esperasse isso.
Portanto, embora o paradoxo de Simpson se refira a uma reversão (ou extrema atenuação) de "efeitos" ao comparar associações marginais e condicionais, isso pode não ser devido a confusão e, a priori, você não pode saber se a tabela marginal ou condicional é a "correta" "uma consulta para responder à sua pergunta causal. Para fazer isso, você precisa saber mais sobre a estrutura causal do problema.
Considere estes exemplos dados em Pearl :
Imagine que você está interessado no efeito causal totais de em . A reversão de associações pode ocorrer em todos esses gráficos. Em (a) e (d) temos de confusão, e você ajustar para . Em (b) não há nenhuma confusão, é um mediador, e você não deve ajustar a . Em (c) é um colisor e não há confusão, então você não deve ajustar a quer. Ou seja, em dois desses exemplos (bec) você pode observar o paradoxo de Simpson, mas não há confusão alguma e a resposta correta para sua pergunta causal seria dada pela estimativa não ajustada.Y ZX Y Z Z Z Z Z
A explicação de Pearl sobre por que isso foi considerado um "paradoxo" e por que ainda confunde as pessoas é muito plausível. Tomemos o caso simples descrito em (a), por exemplo: efeitos causais não podem simplesmente se reverter dessa maneira. Portanto, se estivermos assumindo erroneamente que ambas as estimativas são causais (a marginal e a condicional), ficaríamos surpresos ao ver isso acontecer - e os humanos parecem estar conectados para ver a causa na maioria das associações.
Então, de volta à sua pergunta principal (título):
Em certo sentido, esta é a definição atual do paradoxo de Simpson. Mas, obviamente, a variável de condicionamento não está oculta, ela deve ser observada, caso contrário, você não veria o paradoxo acontecendo. A maior parte da intrigante parte do paradoxo deriva de considerações causais e essa variável "oculta" não é necessariamente um fator de confusão.
Tabelas de contingência e regressão
Conforme discutido nos comentários, a identidade algébrica de executar uma regressão com dados binários e calcular as diferenças de proporções das tabelas de contingência pode ajudar a entender por que o paradoxo que aparece nas regressões é de natureza semelhante. Imagine que seu resultado é , seu tratamento e seus grupos , todas as variáveis binárias.y x z
Então a diferença geral na proporção é simplesmente o coeficiente de regressão de em . Usando sua notação:y x
E o mesmo vale para cada subgrupo de se você executar regressões separadas, uma para :z z=1
E outro para :z=0
Portanto, em termos de regressão, o paradoxo corresponde à estimativa do primeiro coeficiente em uma direção e os dois coeficientes dos subgrupos em uma direção diferente do coeficiente para toda a população .(cov(y,x)var(x)) (cov(y,x)(cov(y,x|z)var(x|z)) (cov(y,x)var(x))
fonte
Sim. Uma representação semelhante das análises categóricas é possível visualizando as chances de logaritmo da resposta no eixo Y. O paradoxo de Simpson aparece da mesma maneira com uma linha "bruta" que corre contra as tendências específicas do estrato, ponderadas à distância, de acordo com as probabilidades de log referentes ao resultado do estrato.
Aqui está um exemplo com os dados de admissão de Berkeley
Aqui, gênero é um código masculino / feminino, no eixo X são as probabilidades brutas de registro de admissões entre homens e mulheres, a linha preta tracejada mostra a preferência de gênero: a inclinação positiva sugere um viés em relação às admissões masculinas. As cores representam a admissão em departamentos específicos. Em todos os casos, exceto dois, a inclinação da linha de preferência de gênero específica do departamento é negativa. Se esses resultados são calculados em conjunto em um modelo logístico que não considera a interação, o efeito geral é uma reversão a favor das admissões femininas. Eles se aplicavam a departamentos mais difíceis com mais frequência do que os homens.
Resumidamente, não. O paradoxo de Simpson é apenas o "quê", enquanto que o confuso é o "porquê". A discussão dominante se concentrou em onde eles concordam. A confusão pode ter um efeito mínimo ou desprezível nas estimativas e, alternativamente, o paradoxo de Simpson, embora dramático, pode ser causado por não-confusão. Como observação, os termos variável "oculto" ou "oculto" são imprecisos. Do ponto de vista do epidemiologista, o controle cuidadoso e o desenho do estudo devem permitir a medição ou o controle de possíveis contribuintes ao viés de confusão. Eles não precisam estar "ocultos" para serem um problema.
Há momentos em que as estimativas pontuais podem variar drasticamente, até o ponto de reversão, que não resultam de confusão. Colliders e mediadores também são efeitos de mudança, possivelmente revertendo-os. O raciocínio causal alerta que, para estudar os efeitos, o efeito principal deve ser estudado isoladamente, em vez de se ajustar a eles, pois a estimativa estratificada está errada. (É semelhante a inferir, incorretamente, que ver o médico o deixa doente ou que armas matam pessoas, portanto as pessoas não matam pessoas).
fonte