Viés na seleção do júri?

14

Um amigo representa um cliente em apelação, após um julgamento criminal no qual parece que a seleção do júri foi racialmente tendenciosa.

O júri consistia de 30 pessoas, em 4 grupos raciais. A acusação usou desafios peremptórios para eliminar 10 dessas pessoas da piscina. O número de pessoas e o número de desafios reais em cada grupo racial foram, respectivamente:

A: 10, 1
B: 10, 4
C:  6, 4
D:  4, 1
total: 30 in pool, 10 challenges

O réu era do grupo racial C e as vítimas dos grupos raciais A e D; portanto, a preocupação a priori é se o grupo C é superestimado e os grupos A e D subestimado. Legalmente (IIUC; IANAL), a defesa não precisa provar o viés racial, mas apenas mostrar que os dados parecem indicar viés, o que sobrecarrega a acusação para explicar cada desafio de forma não racial.

A análise a seguir está correta em sua abordagem? (Eu acho que os cálculos estão bem.):

Existem nCr (30,10) = 30.045.015 conjuntos distintos de 10 membros do pool. Desses conjuntos distintos, conto que 433.377 conjuntos incluem ambos (não mais que 2 membros do grupo A e D combinados) e (nada menos que 4 membros do grupo C).

Assim, a chance de atingir o nível observado de parcialidade aparente favorecendo os grupos A e D sobre o grupo C (onde favorecer significa não incluir no conjunto de 10 desafios) seria a razão entre eles, 433/30045 = 1,44%.

Assim, a hipótese nula (sem esse viés) é rejeitada no nível de significância de 5%.

Se essa análise for metodologicamente correta, qual seria a maneira mais sucinta de descrevê-la em um tribunal, incluindo uma referência acadêmica / profissional (isto é, não a Wikipedia)? Embora o argumento pareça simples, como alguém pode demonstrar de maneira mais clara e sucinta ao tribunal que está correto, não travessuras?


Atualização: Esta questão estava sob consideração como argumento terciário em um escrito de apelação. Dada a complexidade técnica (do ponto de vista do advogado) da discussão aqui e a aparente falta de precedentes legais, o advogado optou por não levantá-la, portanto, neste ponto, a questão é principalmente teórica / educacional.

Para responder a um detalhe: acredito que o número de desafios, 10, foi estabelecido com antecedência.

Depois de estudar as respostas e os comentários pensativos e desafiadores (obrigado, todos!), Parece que existem quatro questões separadas aqui. Para mim, pelo menos, seria mais útil considerá-los separadamente (ou ouvir argumentos por que eles não são separáveis).

1) A consideração das corridas de réus e vítimas, nos desafios do júri, é de interesse legal a priori ? O objetivo do argumento do recurso seria meramente suscitar uma preocupação razoável, o que poderia levar a uma ordem judicial de que a acusação declarasse a razão de cada contestação individual. Isso não me parece uma questão estatística, mas social / legal, que fica ao critério do advogado de levantar ou não.

2) Supondo (1), minha escolha de uma hipótese alternativa (qualitativamente: preconceito contra jurados que compartilham a raça do réu, em favor daqueles que compartilham as raças das vítimas) é plausível, ou é inadmissivelmente post hoc ? Do meu ponto de vista leigo, essa é a pergunta mais desconcertante - sim, é claro que ninguém a levantaria se não a observasse! O problema, pelo que entendi, é o viés de seleção: os testes de uma pessoa devem considerar não apenas esse grupo de jurados, mas o universo de todos esses grupos de jurados, incluindo todos aqueles onde a defesa não observou discrepância e, portanto, não foi tentada a levantar a questão. . Como alguém resolve isso? (Por exemplo, como o teste de Andy lida com isso?) Parece que, embora eu esteja errado sobre isso, a maioria dos entrevistados não se preocupa com possíveis post-hocs.Testes unicaudais de viés exclusivamente contra o grupo do réu. Como seria metodologicamente diferente testar simultaneamente o viés para os grupos de vítimas, assumindo (1)?

3) Se alguém estipula minha escolha de uma hipótese alternativa qualitativa, conforme declarado em (2), então qual é uma estatística apropriada para testá-la? É aqui que fico mais intrigado com as respostas, porque a proporção que proponho parece ser um análogo um pouco mais conservador do teste de Andy para a hipótese alternativa mais simples de "viés contra C" (mais conservadora porque meu teste também conta todos os casos mais adiante) na cauda, ​​não apenas a contagem exata observada.)

Ambos os testes são testes simples de contagem, com o mesmo denominador (mesmo universo de amostras) e numeradores correspondentes precisamente à frequência das amostras que correspondem às respectivas hipóteses alternativas. Então, @whuber, por que não é tão idêntico ao meu teste de contagem quanto ao de Andy que "pode ​​ser baseado em hipóteses nulas [mesmas] e alternativas [conforme descritas] estipuladas e justificadas usando o lema de Neyman-Pearson"?

4) Se alguém estipular (2) e (3), existem referências na jurisprudência que convencessem um tribunal de apelação cético? Das evidências até o momento, provavelmente não. Além disso, nesta fase de apelação, não há oportunidade para nenhuma "testemunha especialista", portanto as referências são tudo.

JD March
fonte
Pergunta atualizada (anexada a) após estudar respostas e comentários.
JD
Obrigado por um excelente resumo! Para responder ao ponto (3), minha preocupação é que o seu teste (se bem entendi) adote uma hipótese alternativa motivada pelos próprios dados. Parece, portanto, ter sido construído a posteriori para fazer com que os resultados pareçam o mais forte possível. Um teste que é baseado na classe mais ampla possível previsível e relevante de alternativas a priori e realizado com uma região de rejeição de Neyman-Pearson, tem uma base lógica mais forte e está menos sujeito a críticas de que, mesmo assim, foi proposto depois de ver os dados.
whuber
Obrigado, @whuber, é uma crítica plausível e útil - muito sobre o que eu estava perguntando desde o início. Mas isso não faria com que meu (2) falhasse, mesmo antes de (3)? Se sim, então o meu (3) ainda parece não ter resposta - ou seja, seria uma boa estatística se estipulado (2)?
JD março

Respostas:

7

Veja como eu poderia abordar a resposta à sua pergunta usando ferramentas estatísticas padrão.

Abaixo estão os resultados de uma análise probit sobre a probabilidade de rejeição, dada a participação no grupo do jurado.

Primeiro, veja como são os dados. Eu tenho 30 observações de grupo e um indicador binário rejeitado:

. tab group rejected 

           |       rejected
     group |         0          1 |     Total
-----------+----------------------+----------
         A |         9          1 |        10 
         B |         6          4 |        10 
         C |         2          4 |         6 
         D |         3          1 |         4 
-----------+----------------------+----------
     Total |        20         10 |        30 

Aqui estão os efeitos marginais individuais, bem como o teste conjunto:

. qui probit rejected ib2.group

. margins rb2.group

Contrasts of adjusted predictions
Model VCE    : OIM

Expression   : Pr(rejected), predict()

------------------------------------------------
             |         df        chi2     P>chi2
-------------+----------------------------------
       group |
   (A vs B)  |          1        2.73     0.0986
   (C vs B)  |          1        1.17     0.2804
   (D vs B)  |          1        0.32     0.5731
      Joint  |          3        8.12     0.0436
------------------------------------------------

--------------------------------------------------------------
             |            Delta-method
             |   Contrast   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
       group |
   (A vs B)  |        -.3    .181659     -.6560451    .0560451
   (C vs B)  |   .2666667   .2470567     -.2175557     .750889
   (D vs B)  |       -.15   .2662236     -.6717886    .3717886
--------------------------------------------------------------

Aqui estamos testando as hipóteses individuais de que as diferenças na probabilidade de serem rejeitadas nos grupos A, C e D em comparação ao grupo B são zero. Se todo mundo tivesse a probabilidade de ser rejeitado como o grupo B, eles seriam zero. A última parte da produção nos diz que os jurados do grupo A e D são menos propensos a serem rejeitados, enquanto que os jurados do grupo C têm mais probabilidade de serem rejeitados. Essas diferenças não são estatisticamente significativas individualmente, embora os sinais estejam de acordo com a sua conjectura tendenciosa.

No entanto, podemos rejeitar a hipótese conjunta de que as três diferenças são todas nulas em .p=0.0436


Termo aditivo:

Se eu combinar os grupos A e D em um, uma vez que compartilham as raças das vítimas, os resultados probit ficam mais fortes e têm uma boa simetria:

Contrasts of adjusted predictions
Model VCE    : OIM

Expression   : Pr(rejected), predict()

------------------------------------------------
             |         df        chi2     P>chi2
-------------+----------------------------------
      group2 |
 (A+D vs B)  |          1        2.02     0.1553
   (C vs B)  |          1        1.17     0.2804
      Joint  |          2        6.79     0.0336
------------------------------------------------

--------------------------------------------------------------
             |            Delta-method
             |   Contrast   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
      group2 |
 (A+D vs B)  |  -.2571429   .1809595      -.611817    .0975313
   (C vs B)  |   .2666667   .2470568     -.2175557     .750889
--------------------------------------------------------------

Isso também permite que Fisher exiba resultados congruentes (embora ainda não em 5%):

 RECODE of |       rejected
     group |         0          1 |     Total
-----------+----------------------+----------
       A+D |        12          2 |        14 
         B |         6          4 |        10 
         C |         2          4 |         6 
-----------+----------------------+----------
     Total |        20         10 |        30 

          Pearson chi2(2) =   5.4857   Pr = 0.064
           Fisher's exact =                 0.060
Dimitriy V. Masterov
fonte
Obrigado, muito apreciado! Você poderia me ajudar a entender as questões metodológicas aqui? Em particular, (1) os testes de comparação não direcionada (IIUC), apesar das particularidades da preocupação a priori , e (2) as razões para usar um teste que faz suposições de distribuição em vez de apenas argumentos combinatórios?
JD
Não sei se entendi (1). Para (2), obtenho resultados muito semelhantes com um modelo de logit, que faz diferentes suposições distributivas, portanto, há alguma robustez. Não há dados suficientes para fazer algo menos paramétrico, embora isso possa ser minha própria ignorância nessa área.
Dimitriy V. Masterov
1
Re (1). O que quero dizer é - parece que o seu teste é bicaudal, enquanto a preocupação a priori permitiria a bicaudal?
JD março
1
Um aspecto dessa análise que me deixa desconfortável é que seu significado aparente (no nível de 5%, de qualquer maneira) se deve não apenas aos desafios que ocorrem no grupo C, mas também à relativa escassez de desafios no grupo A. Este último parece ser irrelevante: seria suspeito a priori ? O papel favorecido do grupo C é evidente (em comparação com o grupo do réu), mas um papel favorecido para qualquer outro grupo - ou mesmo de (hipoteticamente) desigualdades óbvias entre os outros grupos - parece não ter influência na reivindicação do réu de discriminação contra eles com base em seu grupo .
whuber
BTW, parece que você realizou uma análise do grupo B em vez do grupo C.
whuber
3

Penso que a introdução de um método estatístico ad hoc será um impedimento para o tribunal. É melhor usar métodos que são "prática padrão". Caso contrário, você provavelmente terá que provar suas qualificações para desenvolver novos métodos.

Para ser mais explícito, não acho que seu método atenda ao padrão de Daubert. Também duvido muito que seu método tenha alguma referência acadêmica por si só. Você provavelmente teria que seguir o caminho de contratar uma testemunha especialista em estatística para apresentá-la. Seria facilmente combatido, eu acho.

A pergunta básica aqui é provável: "O desafio do júri foi independente do agrupamento racial?"

χ2

> M <- as.table(cbind(c(9, 6, 2, 3), c(1, 4, 4, 1)))
> dimnames(M) <- list(Group=c("A", "B", "C", "D"), Challenged=c("No", "Yes"))
> M
     Challenged
Group No Yes
    A  9   1
    B  6   4
    C  2   4
    D  3   1

> chisq.test(M)

        Pearson's Chi-squared test

data:  M
X-squared = 5.775, df = 3, p-value = 0.1231

Warning message:
In chisq.test(M) : Chi-squared approximation may be incorrect

O uso do teste exato de Fisher fornece resultados semelhantes:

> fisher.test(M)

        Fisher's Exact Test for Count Data

data:  M
p-value = 0.1167
alternative hypothesis: two.sided

2×2

Minha interpretação é que não há muita evidência para argumentar o viés racial.

jvbraun
fonte
1
χ2
whuber
Obrigado, @jvbraun, o seu ponto de vista sobre métodos ad hoc sendo proibidos parece persuasivo; embora contar e dividir não me pareça particularmente excêntrico, claramente outros não o acham convincente!
JD março
Este é realmente um dos casos em que os marginais são fixos; portanto, o teste exato de Fisher deve ser mais agradável para muitos. Na sua discussão sobre Daubert, você o retrocede um pouco, uma vez que você chama um especialista, eles estão sujeitos a uma moção de Daubert. (Ironicamente, alguns argumentaram que leigos que apresentam estatísticas não estão sujeitos a tais avaliações ditadas pela Regra 702.) IMO todos os argumentos apresentados aqui são bem articulados e dificilmente serão considerados inadmissíveis. Duvido que qualquer uma dessas técnicas estatísticas tenha jurisprudência nessas circunstâncias particulares.
Andy W
χ2 é muito comumente aplicado a esse tipo de pergunta. Para mim, alguns métodos estatísticos são mais aplicáveis ​​à jurisprudência do que outros, mas vi algumas coisas legais do "outro lado".
Jvbraun # 19/14
χ22/24/6 . Em todos os estados com os quais estou familiarizado, o número total de desafios peremptórios é fixado para cada lado e depende da gravidade do caso (ou seja, casos criminais que cada lado recebe mais do que em casos de contravenção).
Andy W
3

Eu fiz uma pergunta semelhante anteriormente (para referência aqui é o caso particular que discuto). A defesa precisa simplesmente mostrar um caso prima facia de discriminação nos desafios de Batson (assumindo a lei criminal dos EUA) - portanto, os testes de hipóteses são provavelmente um fardo maior do que o necessário.

Então para:

  • n=30
  • p=6
  • k=4
  • d=10

A resposta anterior de Whuber fornece a probabilidade desse resultado específico ser determinado pela distribuição hipergeométrica :

(pk)(n-pd-k)(nd)

Qual Wolfram-Alpha diz igual neste caso:

(64)(306104)(3010)=7611310,07

Infelizmente, não tenho uma referência além dos links que forneci - imagino que você possa encontrar uma referência adequada para a distribuição hipergeométrica na página da Wikipedia.

Isso ignora a questão sobre se os grupos raciais A e D estão "sub-desafiados". Estou cético de que você possa argumentar legalmente sobre isso - seria uma reviravolta estranha na cláusula de proteção igualitária. Esse grupo em particular é muito protegido! , que eu não acho que voaria. (Mas eu não sou advogado - então leve com um pouco de sal.)

(3010)χ2


Atualizei alguns dos meus pensamentos em uma postagem no blog . Minha postagem é específica para Batson Challenges, portanto, não está claro se você procura outra situação (suas atualizações para 1 e 2 não fazem sentido no contexto dos Batson Challenges.)

Consegui encontrar um artigo relacionado (disponível na íntegra no link):

Gastwirth, JL (2005). Comentário do caso: testes estatísticos para a análise de dados sobre desafios peremptórios: esclarecendo o padrão de prova necessário para estabelecer um caso prima facie de discriminação em Johnson v. California. Law, Probability and Risk , 4 (3), 179-185.

Isso deu a mesma sugestão para o uso da distribuição hipergeométrica. No meu blog, mostro como se você recolher as categorias em dois grupos, isso será equivalente ao teste exato de Fisher.

kk=5k=6nnd (para uma caixa diferente) para se obter as gamas de percentagens possíveis.

Se alguém tomar conhecimento da jurisprudência que realmente usa isso (ou qualquer coisa além de frações), eu estaria interessado.

Andy W
fonte
1
Obrigado Andy. (1) Meu amigo advogado acha perfeitamente aceitável / útil afirmar que C foi superestimado e A subestimado. (2) Você diz "que estatística de teste". Acho isso confuso - que estatística de teste você usa quando calcula 0,07 usando hipergeométrica? O que isso faz é calcular a probabilidade como a proporção de casos suspeitos para o total de casos. Da mesma forma, é exatamente isso que minha análise faz, exceto a definição de casos suspeitos de maneira mais restritiva do que você.
JD
@ JonathanMarch - Eu não uso uma estatística de teste. Essa é a probabilidade de 4 de 6 classes C serem escolhidas (dadas as outras condições) aleatoriamente, de acordo com a distribuição hipergeométrica. Entendo a motivação para os testes direcionais, mas este não é o caso usual do teste t. Nesse caso, você tem uma distribuição nula contínua; portanto, para fornecer um valor-p, você precisa definir a alternativa como uma área. Não há necessidade implícita de fazer isso com uma distribuição PMF como aqui.
Andy W
1
k=5k=60.07
1
86/11317.6%
1
Jonathan, para seu benefício, eu vou lhe dar um tempo difícil (como faria um especialista em oposição). Acredito que sua abordagem é inválida porque você usa uma estatística ad hoc sem justificativa teórica; parece construído exclusivamente para produzir um pequeno valor p. A estatística de Andy pode ser baseada em hipóteses nulas e alternativas estipuladas e justificada usando o lema de Neyman-Pearson. Sua estatística parece basear-se em um exame post hoc dos resultados e não parece corresponder a nenhuma hipótese alternativa que teria sido afirmada antes (ou seja, independentemente) da voir dire .
whuber
0

Não vamos esquecer a questão dos vários testes. Imagine 100 advogados de defesa, cada um procurando motivos para recorrer. Todas as rejeições do jurado foram realizadas lançando moedas ou lançando dados para cada jurado em potencial. Portanto, nenhuma das rejeições foi racialmente tendenciosa.

Agora, cada um dos 100 advogados faz o teste estatístico em que todos concordam. Aproximadamente cinco desses 100 rejeitarão a hipótese nula de "imparcial" e terão motivos de apelação.

Emil Friedman
fonte
IIUC, eles procurariam motivos para o juiz ordenar um exame das razões de cada rejeição individual. Seria realmente um problema se tal exame ocorresse em 5 desses 100 casos?
JD março