Como testar formalmente uma "interrupção" em uma distribuição normal (ou outra)

10

Frequentemente, nas ciências sociais, aparece que variáveis ​​que deveriam ser distribuídas de alguma forma, digamos normalmente, acabam tendo uma descontinuidade em sua distribuição em torno de certos pontos.

Por exemplo, se houver pontos de corte específicos, como "aprovação / reprovação" e se essas medidas estiverem sujeitas a distorção, pode haver uma descontinuidade nesse ponto.

Um exemplo proeminente (citado abaixo) é que as notas dos testes padronizados dos alunos são normalmente distribuídas basicamente em todos os lugares, exceto em 60%, onde há muito pouca massa de 50 a 60% e excesso de massa em torno de 60 a 65%. Isso ocorre nos casos em que os professores avaliam os exames de seus próprios alunos. Os autores investigam se os professores estão realmente ajudando os alunos a passar nos exames.

A evidência mais convincente, sem dúvida, vem de mostrar os gráficos de uma curva de sino com uma grande descontinuidade em torno de diferentes pontos de corte para diferentes testes. No entanto, como você desenvolveria um teste estatístico? Eles tentaram interpolação e depois compararam a fração acima ou abaixo e também um teste t na fração 5 pontos acima e abaixo do ponto de corte. Embora sensatos, eles são ad-hoc. Alguém pode pensar em algo melhor?

Link: Regras e discrição na avaliação de alunos e escolas: o caso dos exames de regentes de Nova York http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf

A distribuição das pontuações dos testes, as manipuláveis ​​em preto, observa a queda acentuada da densidade abaixo do ponto de corte e o aumento correspondente acima

d_a_c321
fonte
Apenas para esclarecer - você está testando uma falta genérica de, por exemplo, Normalidade, ou a presença de uma descontinuidade em um ponto pré-especificado? Seu exemplo é do último, mas é claro que qualquer teste de adequação, por exemplo, Anderson-Darling ou Shapiro-Wilk for Normality servirá, embora com uma alternativa altamente específica você possa construir testes mais poderosos. Além disso, em seu gráfico acima, você evidentemente tem uma amostra de milhares; isso também seria típico?
jbowman

Respostas:

6

É importante enquadrar a questão adequadamente e adotar um modelo conceitual útil das pontuações.

A questão

Os limites potenciais de trapaça, como 55, 65 e 85, são conhecidos a priori independentemente dos dados: eles não precisam ser determinados a partir dos dados. (Portanto, esse não é um problema de detecção discrepante nem um problema de ajuste de distribuição.) O teste deve avaliar a evidência de que algumas (nem todas) pontuações apenas inferiores a esses limites foram movidas para esses limites (ou, talvez, apenas acima desses limites).

Modelo conceitual

Para o modelo conceitual, é crucial entender que é improvável que os escores tenham uma distribuição normal (nem qualquer outra distribuição facilmente parametrizada). Isso é bastante claro no exemplo postado e em todos os outros exemplos do relatório original. Essas pontuações representam uma mistura de escolas; mesmo se as distribuições dentro de qualquer escola fossem normais (não são), a mistura provavelmente não será normal.

Uma abordagem simples aceita que exista uma verdadeira distribuição de pontuação: a que seria relatada, exceto por essa forma específica de trapaça. Portanto, é uma configuração não paramétrica. Isso parece muito amplo, mas há algumas características da distribuição de pontuação que podem ser antecipadas ou observadas nos dados reais:

  1. As contagens de pontuação , i , e i + 1 será estreitamente correlacionadas, 1 i 99 .i1ii+11i99

  2. Haverá variações nessas contagens em torno de uma versão suave idealizada da distribuição de pontuação. Essas variações geralmente têm um tamanho igual à raiz quadrada da contagem.

  3. Trapacear em relação a um limite não afetará as contagens para qualquer pontuação i t . Seu efeito é proporcional à contagem de cada pontuação (o número de estudantes "em risco" por serem afetados por trapaça). Para as pontuações i abaixo desse limite, a contagem c ( i ) será reduzida em alguma fração δ ( t - i ) c ( i ) e esse valor será adicionado a t ( i ) .titic(i)δ(ti)c(i)t(i)

  4. A quantidade de mudança diminui com a distância entre uma pontuação e o limiar: é uma função decrescente de i = 1 , 2 , .δ(i)i=1,2,

Dado um limiar , a hipótese nula (sem trapaça) é que δ ( 1 ) = 0 , implicando que δ seja identicamente 0 . A alternativa é que δ ( 1 ) > 0 .tδ(1)=0δ0δ(1)>0

Construindo um teste

Qual estatística de teste usar? De acordo com essas premissas, (a) o efeito é aditivo nas contagens e (b) o maior efeito ocorrerá em torno do limiar. Isso indica observar as primeiras diferenças das contagens, . Considerações adicionais sugerem ir um passo adiante: sob a hipótese alternativa, esperamos ver uma sequência de contagens gradualmente deprimidas à medida que a pontuação i se aproxima do limiar t de baixo e, em seguida, (i) uma grande mudança positiva em t seguida por (ii) a grande variação negativa emc(i)=c(i+1)c(i)itt . Para maximizar o poder do teste, vejamos assegundas diferenças,t+1

c(i)=c(i+1)c(i)=c(i+2)2c(i+1)+c(i),

porque em isso combinará um grande declínio negativo c ( t + 1 ) - c ( t ) com o negativo de um grande aumento positivo c ( t ) - c ( t - 1 ) , aumentando assim o efeito de trapaça .i=t1c(t+1)c(t)c(t)c(t1)

Vou supor - e isso pode ser verificado - que a correlação serial das contagens próximas ao limite é bastante pequena. (A correlação serial em outros lugares é irrelevante.) Isso implica que a variação de é aproximadamentec(t1)=c(t+1)2c(t)+c(t1)

var(c(t1))var(c(t+1))+(2)2var(c(t))+var(c(t1)).

Eu sugeri anteriormente que para todos os i (algo que também pode ser verificado). De ondevar(c(i))c(i)i

z=c(t-1 1)/c(t+1 1)+4c(t)+c(t-1 1)

deve ter aproximadamente variação de unidade. Para grandes populações de escores (o publicado parece estar em torno de 20.000), também podemos esperar uma distribuição aproximadamente normal de . Como esperamos que um valor altamente negativo indique um padrão de trapaça, obtemos facilmente um teste do tamanho α : escrevendo Φ para o cdf da distribuição normal padrão, rejeitamos a hipótese de não trapaça no limiar t quando Φ ( z ) < α .c(t-1 1)αΦtΦ(z)<α

Exemplo

Por exemplo, considere este conjunto de pontuações de teste verdadeiras , extraídas de uma mistura de três distribuições normais:

Histograma das pontuações verdadeiras

t=65δ(Eu)=exp(-2Eu)

Histograma das pontuações após trapaça

zt

Lote de Z

z

z=-4.19Φ(z)=0,0000136

z

Ao aplicar esse teste a vários limites, um ajuste de Bonferroni do tamanho do teste seria sábio. Um ajuste adicional quando aplicado a vários testes ao mesmo tempo também seria uma boa ideia.

Avaliação

zz é tão simples que simulações serão praticáveis ​​e rápidas de executar.

whuber
fonte
z
1

Sugiro que se ajuste um modelo que preveja explicitamente as quedas e depois mostre que ele se encaixa significativamente melhor nos dados do que um ingênuo.

Você precisa de dois componentes:

  • distribuição inicial de pontuações,
  • procedimento de verificação (honesta ou não) das pontuações quando alguém se encaixa abaixo de um limite.

t

pfEunumaeu(s)=pEunEutEuumaeu(s)-pEunEutEuumaeu(s)m(st)+δ(s=t)s=0 0t-1 1pEunEutEuumaeu(s)m(st),
  • pfEunumaeu(s)
  • pEunEutEuumaeu(s)
  • m(st)st
  • δ(s=t)s=t

m(st)umaqt-suma

Como distribuição inicial, você pode tentar usar a distribuição Poisson ou Gaussiana. Obviamente, seria ideal fazer o mesmo teste, mas para um grupo de professores forneça limites e para o outro - sem limites.

tEuumaEu

Notas:

  • Às vezes, existem procedimentos para verificar novamente os testes, se houver um pouco abaixo da nota de aprovação. Então é mais difícil dizer quais instâncias foram honestas e quais - não.
  • m(st)s
  • tδ(s=t)
Piotr Migdal
fonte
Não tenho certeza de que responda minha pergunta exata. Nesse caso, não temos a capacidade de verificar novamente os exames. Tudo o que se observa é uma distribuição das pontuações finais. A distribuição é principalmente normal. Exceto que, em torno de um certo ponto de corte em que suspeitamos de manipulação, há uma quebra na curva normal. Se a hipótese nula é que a curva seria "suavizar" nesse ponto, como podemos testá-lo contra uma hipótese alternativa onde é "acidentado"
d_a_c321
X2pfEunumaeuX2s=0 099|p(s+1 1)-p(s)|2) pode ser interessante, mas é importante verificar as premissas subjacentes e etc. (por exemplo, para testes com muita dúvida de 2 pontos, pode haver uma irregularidade "inicial" bastante alta). Se alguém tem acesso aos dados brutos (ou seja, todas as respostas, não só pontuação total), então há ainda mais espaço para testar ...
Piotr Migdal
1

Eu dividiria esse problema em dois subproblemas:

  • Estimar os parâmetros de uma distribuição para ajustar os dados
  • Realize a detecção de outlier usando a distribuição ajustada

Existem várias maneiras de lidar com qualquer um dos subproblemas.

Parece-me que uma distribuição de Poisson se ajustaria aos dados, se fossem independentes e identicamente distribuídos (iid) , o que é claro que achamos que não é. Se tentarmos ingenuamente estimar os parâmetros da distribuição, seremos distorcidos pelos discrepantes. Duas maneiras possíveis de superar isso são usar técnicas de regressão robusta ou um método heurístico, como validação cruzada.

Para a detecção de outlier, há novamente inúmeras abordagens. O mais simples é usar os intervalos de confiança da distribuição que ajustamos no estágio 1. Outros métodos incluem métodos de autoinicialização e abordagens de Monte-Carlo.

Embora isso não indique que há um "salto" na distribuição, ele informa se há mais discrepâncias do que o esperado para o tamanho da amostra.

Uma abordagem mais complexa seria construir vários modelos para os dados, como distribuições compostas, e usar algum tipo de método de comparação de modelos (AIC / BIC) para determinar qual dos modelos é o mais adequado para os dados. No entanto, se você está simplesmente procurando por "desvio de uma distribuição esperada", isso parece exagero.

tdc
fonte