Provavelmente não tenho uma compreensão clara do paradoxo dos Simpson . Informalmente, sei que a média da resposta Y1, agrupada em todos os níveis possíveis do fator A, pode ser maior que a média da resposta Y2 em todos os níveis de A, mesmo que a média de Y1 para cada nível de A (cada grupo) seja sempre menor que a média correspondente de Y2. Li exemplos, mas ainda me surpreendo cada vez que o vejo, talvez porque não aprendo bem com exemplos específicos: tenho problemas para generalizá-los. Aprendo melhor e prefiro ver uma explicação em fórmulas. Você pode, por favor, explicar o paradoxo que depende de equações, em vez de contar tabelas?
Além disso, acho que o motivo da minha surpresa é que eu poderia inconscientemente fazer algumas suposições sobre as médias envolvidas no paradoxo, o que pode não ser verdade em geral. Talvez eu esqueça do peso pelo número de amostras em cada grupo? Mas então, eu gostaria de ver uma equação que me mostra que a estimativa da média total é mais precisa se eu ponderar cada média de grupo pelo número de amostras em cada grupo, porque (se isso for verdade) não é óbvio para mim em geral. Ingenuamente, eu pensaria que a estimativa de tem um erro padrão mais baixo quando eu tenho mais amostras, independentemente da ponderação.
Respostas:
Aqui está uma abordagem geral para entender o Paradoxo de Simpson algebricamente para dados de contagem.
Suponha que tenhamos dados de sobrevivência para uma exposição e criemos uma tabela de contingência 2x2. Para simplificar, teremos as mesmas contagens em cada célula. Poderíamos relaxar isso, mas isso tornaria a álgebra bastante confusa.
Nesse caso, a taxa de mortalidade é a mesma nos grupos Exposto e Não Exposto.
Agora, se dividirmos os dados, digamos em um grupo para mulheres e outro grupo para homens, obteremos 2 tabelas, com as seguintes contagens:
Homens:ExpostoNão expostoMorreuXumaXcSobreviveuXbXdÍndice de mortalidadeumaa + bcc + d
e para mulheres:ExpostoNão expostoMorreuX( a - 1 )X(c−1)SurvivedX(b−1)X(d−1)Death Ratea−1a+b−2c−1c+d−2
Ondea , b , c , d∈ [ 0 , 1 ] são as proporções de cada célula na tabela de dados agregados que são do sexo masculino.
O Paradoxo de Simpson ocorrerá quando a taxa de mortalidade para homens expostos for maior que a taxa de mortalidade para homens não expostos E a taxa de mortalidade para mulheres expostas for maior que a taxa de mortalidade para mulheres não expostas. Como alternativa, também ocorrerá quando a taxa de mortalidade para homens expostos for menor que a taxa de mortalidade para homens não expostos E a taxa de mortalidade para mulheres expostas for menor que a taxa de mortalidade para mulheres não expostas . Ou seja, quando
Como um exemplo concreto, deixeX=100 e a=0.5,b=0.8,c=0.9 . Então teremos o paradoxo de Simpson quando:
A partir do qual concluímos que d deve estar( 0,96 , 1 ]
O segundo conjunto de desigualdades fornece:
que não tem solução parad∈[0,1]
Assim, para os três valores que escolhemos paraa,b, e c , para invocar o paradoxo de Simpson, d deve ser maior do que 0,96. No caso em que o valor era 0.99 , obteríamos uma taxa de mortalidade para homens de
e para mulheres:
Portanto, os homens têm uma taxa de mortalidade mais alta no grupo não exposto do que no grupo exposto, e as mulheres também têm uma taxa de mortalidade mais alta no grupo não exposto do que no grupo exposto, mas as taxas de mortalidade nos dados agregados são as mesmas para os expostos e não expostos. .
fonte
Suponha que temos dados sobre 2 variáveis, e yx y , para 2 grupos, A e B.
Os dados do grupo A são tais que a linha de regressão ajustada é
Os dados do grupo B são tais que a linha de regressão ajustada é
Os pontos vermelhos e a linha de regressão são o grupo A, os pontos azuis e a linha de regressão são o grupo B e a linha preta é a linha de regressão geral.
fonte