Entendendo o paradoxo de Simpson: o exemplo de Andrew Gelman com a regressão da renda em sexo e altura

22

Andrew Gelman, em uma de suas postagens recentes, diz:

  1. Não creio que contrafactuais ou resultados potenciais sejam necessários para o paradoxo de Simpson. Digo isso porque é possível configurar o paradoxo de Simpson com variáveis ​​que não podem ser manipuladas ou para as quais manipulações não são diretamente de interesse.

  2. O paradoxo de Simpson faz parte de uma questão mais geral de que os coeficientes de regressão mudam se você adicionar mais preditores, o inverso do sinal não é realmente necessário.

Aqui está um exemplo que eu uso no meu ensino que ilustra os dois pontos:

Eu posso executar uma regressão prevendo renda de sexo e altura. Acho que o coeficiente de sexo é de US $ 10.000 (ou seja, comparando um homem e uma mulher da mesma altura, em média, o homem ganha US $ 10.000 a mais) e o coeficiente de altura é de US $ 500 (ou seja, comparando dois homens ou duas mulheres de diferentes alturas, em média, a pessoa mais alta ganha US $ 500 a mais por polegada de altura).

Como posso interpretar esses coefs? Eu sinto que o coeficiente de altura é fácil de interpretar (é fácil imaginar comparar duas pessoas do mesmo sexo com diferentes alturas); de fato, de alguma forma, seria "errado" regredir na altura sem controlar o sexo, tanto quanto a matéria-prima a diferença entre pessoas baixas e altas pode ser "explicada" por haver diferenças entre homens e mulheres. Mas o coeficiente de sexo no modelo acima parece muito difícil de interpretar: por que comparar um homem e uma mulher com 66 polegadas de altura, por exemplo? Seria uma comparação entre um homem baixo e uma mulher alta. Todo esse raciocínio parece vagamente causal, mas não acho que faça sentido pensar nisso usando possíveis resultados.

Pensei sobre isso (e até comentei no post) e acho que há algo que implora para ser entendido com maior clareza aqui.

Até a parte sobre interpretação de gênero, está tudo bem. Mas não vejo qual é o problema por trás da comparação de um homem baixo e uma mulher alta. Aqui está o meu argumento: de fato, faz ainda mais sentido (dada a suposição de que os homens são mais altos, em média). Você não pode comparar um "homem baixo" e uma mulher "baixa" pelo mesmo motivo, porque a diferença de renda é explicada em parte pela diferença de altura. O mesmo vale para homens altos e mulheres altas e, mais ainda, para mulheres baixas e homens altos (o que está mais fora de questão, por assim dizer). Então, basicamente, o efeito da altura é eliminado apenas no caso de homens baixos e mulheres altas serem comparados (e isso ajuda na interpretação do coeficiente de gênero). Não soa um sino em conceitos subjacentes semelhantes por trás dos populares modelos correspondentes?

A idéia por trás do paradoxo de Simpson é que o efeito da população possa ser diferente do (s) efeito (s) do subgrupo. Em certo sentido, isso está relacionado ao seu ponto 2 e ao fato de ele reconhecer que a altura não deve ser controlada sozinha (o que dizemos omitiu o viés variável). Mas não pude relacionar isso com a controvérsia sobre o coeficiente de gênero.

Talvez você consiga expressá-lo mais claramente? Ou comentar sobre meu entendimento?

Abhimanyu Arora
fonte
A validação cruzada analisa subconjuntos aleatórios da população, tentando ter um excesso de ajuste mínimo e a melhor generalização.
EngrStudent - Restabelece Monica 13/03
1
Se eu entendo suas preocupações corretamente, acho que você pode se beneficiar também de olhar para o paradoxo do Senhor. @article {lord67, author = {Lord, FM}, title = {Um paradoxo na interpretação das comparações de grupo}, revista = {Boletim Psicológico}, ano = {1967}, volume = {68}, páginas = {304- -305}, keywords = {change scores}} @ artigo {lord69, author = {Lord, FM}, title = {Ajustes estatísticos ao comparar grupos pré-existentes}, revista = {Boletim Psicológico}, ano = {1969}, volume = {72}, páginas = {336--337}, palavras-chave = {alterar pontuações}}
mdewey 13/03
1
Judea Pearl fez mais um post sobre o paradoxo de Simpson recentemente . Tenho certeza que ele não concorda com a apresentação de Gelman. Pela primeira vez, o segundo ponto não é o "paradoxo". A reversão das estimativas como consequência do que você condiciona é um fato matemático. O que o torna potencialmente paradoxal é quando você faz interpretações causais de ambas as estimativas. Segundo, por que essa restrição apenas às causas manipuláveis?
NRH 15/09/16

Respostas:

9

Não tenho muita certeza da sua pergunta, mas posso comentar sobre as alegações dele e sua confusão no modelo de exemplo.

Andrew não está claro se o interesse científico está na associação de renda e sexo ajustada em altura ou na associação de renda e altura ajustada por sexo . Em uma estrutura de modelo causal, o sexo causa altura, mas a altura não causa sexo. Portanto, se queremos o impacto do sexo, ajustar a altura introduziria um viés de mediador (possivelmente um viés de colisor também, já que as pessoas ricas são mais altas!). Acho confuso e engraçado quando vejo pesquisa aplicada que interpreta o outro"covariáveis" (fatores de confusão e variáveis ​​de precisão) incluídas em um modelo. Eles são bobagens, mas simplesmente fornecem estratificação adequada para fazer a comparação necessária. Ajustar a altura, se você estiver interessado em deduzir diferenças de renda com base no sexo, é a coisa errada a fazer.

Concordo que contrafatuais não são necessários para explicar o paradoxo de Simpson. Eles podem ser simplesmente uma característica intrínseca aos dados. Eu acho que os RRs brutos e ajustados são, em certo sentido, corretos sem serem causais. É mais problemático, é claro, quando o objetivo é a análise causal, e o excesso de ajuste revela problemas de não colapsibilidade (que infla uma sala de cirurgia) e tamanho insuficiente da amostra.

Como um lembrete para os leitores: o paradoxo de Simpson é um fenômeno muito específico que se refere a um caso em que uma associação muda de direção depois de controlar uma variável confusa. Os dados das admissões de Berkeley foram o exemplo motivador. Lá, os RRs brutos mostraram que as mulheres eram menos propensas a serem aceitas em Berkeley. No entanto, uma vez estratificado por departamentos , os RRs mostraram que as mulheres eram mais propensas a serem aceitas em todos os departamentos . É mais provável que eles se apliquem aos departamentos difíceis que rejeitaram muitas pessoas.

Agora, na teoria da inferência causal, ficaríamos confusos ao conceber que o departamento aplicado aplicou causa gênero. Gênero é intrínseco, certo? Bem, sim e não. Miettenen defende uma abordagem de "base de estudos" para esses problemas: quem é a população? Nem todos os estudantes são elegíveis, são os que se candidatam especificamente a Berkeley. Os departamentos mais competitivos atraíram as mulheres para se candidatarem a Berkeley quando elas não teriam se candidatado de outra forma. Para expandir: uma mulher que é profundamente inteligente quer entrar no melhor, digamos, programa de engenharia. Se Berkeley não tivesse um ótimo programa de engenharia, ela não teria se inscrito em Berkeley de qualquer maneira, teria se candidatado ao MIT ou CalPoly. Portanto, nessa perspectiva, a população de "estudantes candidatos" causa um gênero e é um fator de confusão. (ressalva: eu sou um estudante universitário de primeira geração, então não sei muito sobre quais programas são conhecidos pelo quê).

Então, como resumimos esses dados? É verdade que Berkeley tinha maior probabilidade de admitir um homem que se candidatou do que uma mulher. E é verdade que os departamentos de Berkeley eram mais propensos a admitir mulheres do que homens. RRs brutos e estratificados são medidas sensatas, mesmo que não sejam causais. Isso ressalta o quanto é importante ser preciso com nossa redação como estatístico (o humilde autor não se supõe remotamente preciso).

Confundir é um fenômeno distinto da não-colapsibilidade, outra forma de viés variável omitido, mas que é conhecido por produzir efeitos mais brandos nas estimativas. Diferentemente da regressão logística, a não colapsibilidade não causa viés na regressão linear e na consideração de uma contínuo no exemplo de Gelman deveria ter sido descrita mais minuciosamente.

A interpretação de Andrew do coeficiente de sexo em seu modelo de renda ajustada por sexo / altura revela a natureza das suposições do modelo: a suposição de linearidade. De fato, no modelo linear, essas comparações entre homens e mulheres são permitidas porque, para uma mulher específica, podemos preverque altura um macho semelhante pode ter ganho, mesmo que não tenha sido observado. Este também é o caso, se for possível modificar os efeitos, de modo que a inclinação da tendência nas mulheres seja diferente da dos homens. Por outro lado, não acho que seja tão louco conceber homens e mulheres da mesma altura; 66 polegadas seriam de fato uma mulher alta e um homem baixo. Parece uma projeção suave para mim, em vez de extrapolação grosseira. Além disso, uma vez que as suposições do modelo podem ser declaradas claramente, ajuda os leitores a entender que a associação estratificada por sexo / altura da renda traz informações que são amostras de homens e mulheres. Se tal associação fosse objeto de inferência, o estatístico sério consideraria obviamente a possibilidade de modificação de efeito. emprestadas ou calculadas

AdamO
fonte
2
Ótima discussão. Como estatístico, isso me irrita sem parar quando as pessoas falam sobre os resultados de um estudo, mas não têm certeza se estão falando sobre efeitos marginais ou condicionais.
Cliff AB
1

"por que comparar um homem e uma mulher com 66 polegadas de altura, por exemplo? Isso seria uma comparação de um homem baixo com uma mulher alta "

O modelo pressupõe que a renda depende do sexo e da altura. No entanto, a maneira pela qual a altura gera renda mais alta pode não ser a mesma para homens e mulheres. As mulheres podem ser consideradas altas "o suficiente" a uma altura para a qual um homem ainda pode ser considerado baixo.

Simplificar o modelo da seguinte maneira pode ser útil.

Suponha que você queira regredir a probabilidade de ser empregado como assistente de loja em grandes lojas de roupas e considere a seguinte estratégia de identificação.

Você observa que é mais provável que os empregadores contratem trabalhadores que cumpram uma certa altura mínima, onde o "mínimo" é relativo ao sexo.

Em vez de medir a altura em cm, vamos supor que existam dois valores limite que definem em qual altura, respectivamente, um homem e uma mulher são "altos":> = 180 cm para homens e> = 170 cm para mulheres.

Supondo que os limiares existam na realidade (ou seja, os empregadores fazem uma diferença acentuada entre ser do sexo feminino e 169 cm ou 171 cm de altura) e que eles são os corretos, você pode construir um boneco que define homens e mulheres altos / baixos. Homens e mulheres de diferentes alturas ainda podem estar na mesma categoria do seu manequim e, ao mesmo tempo, sua medida é consistente com a dinâmica real desse mercado de trabalho específico.

Caserio
fonte
-1

Você diria (em palavras mais simples) que a típica luta de gênero dizendo que os homens têm mais chances do que as mulheres, pois sua renda é p% maior seria paradoxalmente tendenciosa?

Talvez isso seja um ponto. Nós tendemos a ver as coisas como elas se parecem e a não analisar as implicações subjacentes.

Para ultrapassar o paradoxo de Simpson, teríamos que responder à pergunta "quanto mais dinheiro faz uma mulher fazer a mesma quantidade de trabalho imparcial em comparação com um homem?" então alguém poderia dizer que precisa engravidar e criar mais filhos do que seus colegas, o que é verdade, mas a questão importante é que é um suspiro apenas dizer: "as mulheres pelo fato de serem mulheres têm menos oportunidades" e uma profunda a análise com estatísticas condicionais nos levaria a ver que, em essência, tendem a existir oportunidades iguais e são outros fatores não relacionados ao sexo, o que faz as estatísticas parecerem estar relacionadas à discriminação relacionada a questões sexuais.

Javier Bañez
fonte
Pode ser útil entender que essa análise pode não ser necessariamente causal nem explicativa, mas descritiva do fenômeno existente.
AdamO