Como resolver o paradoxo de Simpson?

35

O paradoxo de Simpson é um quebra-cabeça clássico discutido em cursos introdutórios de estatística em todo o mundo. No entanto, meu curso se contentou em simplesmente observar que existia um problema e não fornecia uma solução. Eu gostaria de saber como resolver o paradoxo. Ou seja, quando confrontado com o paradoxo de Simpson, onde duas escolhas diferentes parecem competir por ser a melhor escolha, dependendo de como os dados são particionados, qual opção deve-se escolher?

Para tornar o problema concreto, vamos considerar o primeiro exemplo dado no artigo relevante da Wikipedia . É baseado em um estudo real sobre um tratamento para pedras nos rins.

insira a descrição da imagem aqui

Suponha que eu seja médico e um teste revele que um paciente tem pedras nos rins. Usando apenas as informações fornecidas na tabela, gostaria de determinar se devo adotar o tratamento A ou o tratamento B. Parece que, se eu souber o tamanho da pedra, devemos preferir o tratamento A. Mas, se não, devemos preferir o tratamento B.

Mas considere outra maneira plausível de chegar a uma resposta. Se a pedra é grande, devemos escolher A, e se for pequena, devemos escolher novamente A. Portanto, mesmo se não soubermos o tamanho da pedra, pelo método dos casos, veremos que devemos preferir A. Isso contradiz o nosso raciocínio anterior.

Então: um paciente entra no meu consultório. Um teste revela que eles têm cálculos renais, mas não me fornece informações sobre seu tamanho. Qual tratamento eu recomendo? Existe alguma resolução aceita para esse problema?

A Wikipedia sugere uma resolução usando "redes bayesianas causais" e um teste de "porta dos fundos", mas não tenho idéia do que sejam.

Batata
fonte
2
O link Paradox do Basic Simpson mencionado acima é um exemplo de dados observacionais. Não podemos decidir inequivocamente entre os hospitais, porque os pacientes provavelmente não foram designados aleatoriamente para os hospitais e a pergunta apresentada não nos dá uma maneira de saber se, por exemplo, um hospital tendia a receber pacientes de maior risco. Dividir os resultados em operações AE não resolve esse problema.
Emil Friedman
@EmilFriedman Concordo que é verdade que podemos decidir inequivocamente entre hospitais. Mas certamente os dados suportam um sobre o outro. (Não é verdade que os dados nos ensinou nada sobre a qualidade dos hospitais.)
Batata

Respostas:

14

Na sua pergunta, você afirma que não sabe o que são "redes bayesianas causais" e "testes de porta traseira".

Suponha que você tenha uma rede bayesiana causal. Ou seja, um gráfico acíclico direcionado cujos nós representam proposições e cujas arestas direcionadas representam possíveis relacionamentos causais. Você pode ter muitas redes desse tipo para cada uma de suas hipóteses. Existem três maneiras de argumentar convincentemente sobre a força ou a existência de uma vantagem .A?B

A maneira mais fácil é uma intervenção. É o que as outras respostas estão sugerindo quando dizem que a "randomização adequada" resolverá o problema. Você forçar aleatoriamente ter valores diferentes e você medir . Se você pode fazer isso, está feito, mas nem sempre pode fazer isso. No seu exemplo, pode ser antiético dar às pessoas tratamentos ineficazes para doenças mortais, ou eles podem ter alguma influência no tratamento, por exemplo, eles podem escolher o menos severo (tratamento B) quando suas pedras nos rins são pequenas e menos dolorosas.AB

A segunda maneira é o método da porta da frente. Você quer mostrar que age sobre B via C , ou seja, A C B . Se você assumir que C é potencialmente causada por A , mas não tem outras causas, e você pode medir isso C está correlacionada com A e B está correlacionada com C , então você pode concluir provas devem ser fluindo via C . O exemplo original: é fumar,é câncer,ABCACBCACABCCABCé acumulação de alcatrão. O alcatrão só pode vir do tabagismo, e isso se correlaciona com o tabagismo e o câncer. Portanto, fumar causa câncer via alcatrão (embora possa haver outros caminhos causais que atenuam esse efeito).

A terceira maneira é o método da porta dos fundos. Você quer mostrar que e não são correlacionados por causa de uma "porta dos fundos", por exemplo, causa comum, ou seja, . Desde que você tenha assumido um modelo causal, você só precisa bloquear a todos os caminhos (observando-se variáveis e condicionado sobre eles) que a evidência pode fluir a partir e para baixo para . É um pouco complicado bloquear esses caminhos, mas o Pearl fornece um algoritmo claro que permite saber quais variáveis ​​você deve observar para bloquear esses caminhos.ABADBAB

É certo que, com boa aleatorização, os fatores de confusão não importam. Como supomos que não é permitida a intervenção na causa hipotética (tratamento), qualquer causa comum entre a causa hipotética (tratamento) e o efeito (sobrevivência), como idade ou tamanho da pedra nos rins, será um fator de confusão. A solução é tomar as medidas corretas para bloquear todas as portas traseiras. Para uma leitura mais detalhada, consulte:

Pearl, Judéia. "Diagramas causais para pesquisa empírica". Biometrika 82,4 (1995): 669-688.


Para aplicar isso ao seu problema, primeiro desenhemos o gráfico causal. (Tratamento-anterior) de tamanho de pedra nos rins e do tipo de tratamento são ambos causas de sucesso . pode ser uma causa de se outros médicos estiverem atribuindo tratamento com base no tamanho da pedra nos rins. É evidente que não há outras relações causais entre , , e . vem depois de portanto não pode ser sua causa. Da mesma forma vem depois de e .XYZXYXYZYXZXY

Como é uma causa comum, ele deve ser medido. Cabe ao pesquisador determinar o universo de variáveis ​​e possíveis relacionamentos causais . Para cada experimento, o pesquisador mede as "variáveis ​​da porta traseira" necessárias e calcula a distribuição de probabilidade marginal do sucesso do tratamento para cada configuração de variáveis. Para um novo paciente, você mede as variáveis ​​e segue o tratamento indicado pela distribuição marginal. Se você não pode medir tudo ou não possui muitos dados, mas conhece alguma coisa sobre a arquitetura dos relacionamentos, pode fazer a "propagação de crenças" (inferência bayesiana) na rede.X

Neil G
fonte
2
Resposta muito boa. Você poderia dizer brevemente como aplicar essa estrutura ao exemplo que dou na pergunta? Dá a resposta esperada (A)?
Potato
Obrigado! Você conhece uma boa e curta introdução à "propagação de crenças"? Estou interessado em aprender mais.
Batata
@ Potato: Eu aprendi com seu livro "Raciocínio probabilístico em sistemas inteligentes". Existem muitos tutoriais online, mas é difícil encontrar um que crie intuição em vez de apenas apresentar o algoritmo.
Neil G #
22

Eu tenho uma resposta prévia que discute o paradoxo de Simpson aqui: paradoxo básico de Simpson . Pode ajudar você a ler isso para entender melhor o fenômeno.

Em suma, o paradoxo de Simpson ocorre por causa de confusão. No seu exemplo, o tratamento é confundido* com o tipo de cálculos renais que cada paciente possuía. Sabemos da tabela completa de resultados apresentados que o tratamento A é sempre melhor. Assim, o médico deve escolher o tratamento A. A única razão pela qual o tratamento B parece melhor no conjunto é que ele foi administrado com mais frequência a pacientes com a condição menos grave, enquanto o tratamento A foi administrado a pacientes com a condição mais grave. No entanto, o tratamento A teve melhor desempenho em ambas as condições. Como médico, você não se importa com o fato de que, no passado, o pior tratamento tenha sido dado aos pacientes com menor condição, você só se preocupa com o paciente antes de você e, se quiser que ele melhore, fornecerá com o melhor tratamento disponível.

* Observe que o objetivo de executar experimentos e randomizar tratamentos é criar uma situação na qual os tratamentos não sejam confundidos. Se o estudo em questão fosse um experimento, eu diria que o processo de randomização falhou em criar grupos equitativos, embora possa ter sido um estudo observacional - não sei.

- Reinstate Monica
fonte
Você opta pela abordagem de normalização também sugerida pela outra resposta. Eu acho isso problemático. É possível exibir duas partições do mesmo conjunto de dados que dão conclusões diferentes quando normalizadas. Veja meu link e citação em resposta à outra resposta.
Batata
2
Eu não li o artigo de Stanford. No entanto, não acho o raciocínio convincente na citação. Pode ser que, em algumas populações, o tratamento B seja melhor que o tratamento A. Isso não importa. Se isso é verdade para alguma população, é apenas porque as características da população estão confusas. Você se depara com um paciente (não uma população) e é mais provável que esse paciente melhore com o tratamento. Você deve escolher o tratamento A.
gung - Restabelecer Monica
2
A partição jovem / velha está confusa? Caso contrário, isso não será um problema. Nesse caso, usaríamos todas as informações para tomar a melhor decisão. Com base no que sabemos atualmente, o "tratamento B parece melhor no agregado" é um arenque vermelho. Parece apenas ser o caso por causa da confusão, mas é uma ilusão (estatística).
gung - Restabelece Monica
2
Você teria uma tabela mais complicada que levasse em consideração o tamanho e a idade da pedra nos rins. Você pode ver o exemplo de caso de preconceito de gênero em Berkeley na página da Wikipedia.
gung - Restabelece Monica
11
Odeio estender comentários por tanto tempo, mas ... eu não diria que o paradoxo é sempre sempre devido a confusão. É devido a uma relação entre variáveis ​​que uma variável de confusão terá, mas eu não chamaria todas as variáveis ​​que levam a um paradoxo de Simpson (por exemplo, peso de 30 anos e 90 anos x quantidade de batatas fritas consumidas por ano - porque os jovens de 90 anos são muito mais leves para começar com o efeito principal dos chips, podendo ser negativo sem a interação incluída. Porém, eu não chamaria a idade de confusa (veja a primeira figura na página da Wikipedia).
John
4

Deseja a solução para um exemplo ou para o paradoxo em geral? Não existe nenhum para o último porque o paradoxo pode surgir por mais de um motivo e precisa ser avaliado caso a caso.

O paradoxo é principalmente problemático ao relatar dados resumidos e é fundamental para treinar indivíduos como analisar e relatar dados. Não queremos que os pesquisadores relatem estatísticas resumidas que ocultam ou ofuscam padrões nos dados ou que os analistas de dados falhem em reconhecer qual é o padrão real nos dados. Nenhuma solução foi dada porque não existe uma solução.

Nesse caso em particular, o médico com a tabela sempre escolheria claramente A e ignoraria a linha de resumo. Não faz diferença se eles sabem o tamanho da pedra ou não. Se alguém analisando os dados tivesse relatado apenas as linhas de resumo apresentadas para A e B, haveria um problema porque os dados que o médico recebeu não refletiam a realidade. Nesse caso, eles provavelmente também deveriam ter deixado a última linha fora da tabela, pois ela está correta apenas sob uma interpretação do que a estatística de resumo deve ser (existem duas possíveis). Deixar o leitor interpretar as células individuais geralmente produziria o resultado correto.

(Seus copiosos comentários parecem sugerir que você está mais preocupado com questões desiguais de N e Simpson é mais amplo do que isso, por isso estou relutante em me aprofundar mais na questão desigual de N. Talvez faça uma pergunta mais direcionada. Além disso, você parece pensar que eu estou defendendo uma conclusão de normalização. Não estou. Estou argumentando que você precisa considerar que a estatística sumária é relativamente arbitrariamente selecionada e que a seleção de alguns analistas deu origem ao paradoxo. Estou argumentando ainda mais que você olha para as células que ter.)

John
fonte
Você alega que devemos ignorar a linha de resumo. Por que isso é "claro"?
Batata
Está claro porque o tratamento A é melhor com pedras grandes ou pequenas e B só sai por causa de N desiguais. Além disso, a linha final é uma interpretação, não um evangelho. Há pelo menos duas maneiras de calcular essa linha. Você só calcularia dessa maneira se quiser dizer algo sobre a amostra em particular.
John
Sinto muito, não entendo por que a linha de resumo é um relatório incorreto. Acho que estou perdendo o seu ponto central. Você poderia explicar?
Potato
11
Você poderia normalizar e depois calcular a média, o que dá o resultado "correto" (A). Mas isso é ilícito. A citação a seguir é do artigo relevante na Enciclopédia Stanford de Filosofia, disponível aqui: plato.stanford.edu/entries/paradox-simpson
Potato
2
"As reversões de Simpson mostram que existem inúmeras maneiras de particionar uma população que são consistentes com associações na população total. Uma partição por gênero pode indicar que homens e mulheres se saíram pior quando receberam um novo tratamento, enquanto uma partição da mesma população pela idade indicou que pacientes com menos de cinquenta anos e pacientes com cinquenta anos ou mais se saíram melhor com o novo tratamento. A normalização de dados de diferentes maneiras de particionar a mesma população fornecerá conclusões incompatíveis sobre as associações existentes na população total ".
Batata
4

Uma importante "retirada" é que, se as atribuições de tratamento são desproporcionais entre subgrupos, é necessário levar em consideração os subgrupos ao analisar os dados.

Uma segunda "retirada" importante é que os estudos observacionais são especialmente propensos a fornecer respostas erradas devido à presença desconhecida do paradoxo de Simpson. Isso ocorre porque não podemos corrigir o fato de que o Tratamento A tendia a ser administrado aos casos mais difíceis, se não sabemos que foi.

Em um estudo randomizado adequadamente, podemos (1) alocar o tratamento aleatoriamente para que seja altamente improvável dar uma "vantagem injusta" a um tratamento e ser tratado automaticamente na análise dos dados ou (2) se houver um motivo importante para fazer isso, aloque os tratamentos aleatoriamente, mas desproporcionalmente, com base em algum problema conhecido e leve esse problema em consideração durante a análise.

Emil Friedman
fonte
+1, no entanto, "cuidar automaticamente" não é bem verdade (pelo menos na situação imediata, que é a sua principal preocupação). É verdade a longo prazo, mas você ainda pode ter erros de tipo I e tipo II devido a erro de amostragem (ou seja, pacientes em uma condição de tratamento tendem a ter doenças mais graves por acaso).
gung - Restabelece Monica
Mas o efeito do erro de amostragem será levado em consideração quando analisarmos a tabela de contingência e calcularmos e interpretarmos adequadamente o valor-p.
Emil Friedman