Frequentemente, nas ciências sociais, aparece que variáveis que deveriam ser distribuídas de alguma forma, digamos normalmente, acabam tendo uma descontinuidade em sua distribuição em torno de certos pontos.
Por exemplo, se houver pontos de corte específicos, como "aprovação / reprovação" e se essas medidas estiverem sujeitas a distorção, pode haver uma descontinuidade nesse ponto.
Um exemplo proeminente (citado abaixo) é que as notas dos testes padronizados dos alunos são normalmente distribuídas basicamente em todos os lugares, exceto em 60%, onde há muito pouca massa de 50 a 60% e excesso de massa em torno de 60 a 65%. Isso ocorre nos casos em que os professores avaliam os exames de seus próprios alunos. Os autores investigam se os professores estão realmente ajudando os alunos a passar nos exames.
A evidência mais convincente, sem dúvida, vem de mostrar os gráficos de uma curva de sino com uma grande descontinuidade em torno de diferentes pontos de corte para diferentes testes. No entanto, como você desenvolveria um teste estatístico? Eles tentaram interpolação e depois compararam a fração acima ou abaixo e também um teste t na fração 5 pontos acima e abaixo do ponto de corte. Embora sensatos, eles são ad-hoc. Alguém pode pensar em algo melhor?
Link: Regras e discrição na avaliação de alunos e escolas: o caso dos exames de regentes de Nova York http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf
fonte
Respostas:
É importante enquadrar a questão adequadamente e adotar um modelo conceitual útil das pontuações.
A questão
Os limites potenciais de trapaça, como 55, 65 e 85, são conhecidos a priori independentemente dos dados: eles não precisam ser determinados a partir dos dados. (Portanto, esse não é um problema de detecção discrepante nem um problema de ajuste de distribuição.) O teste deve avaliar a evidência de que algumas (nem todas) pontuações apenas inferiores a esses limites foram movidas para esses limites (ou, talvez, apenas acima desses limites).
Modelo conceitual
Para o modelo conceitual, é crucial entender que é improvável que os escores tenham uma distribuição normal (nem qualquer outra distribuição facilmente parametrizada). Isso é bastante claro no exemplo postado e em todos os outros exemplos do relatório original. Essas pontuações representam uma mistura de escolas; mesmo se as distribuições dentro de qualquer escola fossem normais (não são), a mistura provavelmente não será normal.
Uma abordagem simples aceita que exista uma verdadeira distribuição de pontuação: a que seria relatada, exceto por essa forma específica de trapaça. Portanto, é uma configuração não paramétrica. Isso parece muito amplo, mas há algumas características da distribuição de pontuação que podem ser antecipadas ou observadas nos dados reais:
As contagens de pontuação , i , e i + 1 será estreitamente correlacionadas, 1 ≤ i ≤ 99 .i - 1 Eu i + 1 1 ≤ i ≤ 99
Haverá variações nessas contagens em torno de uma versão suave idealizada da distribuição de pontuação. Essas variações geralmente têm um tamanho igual à raiz quadrada da contagem.
Trapacear em relação a um limite não afetará as contagens para qualquer pontuação i ≥ t . Seu efeito é proporcional à contagem de cada pontuação (o número de estudantes "em risco" por serem afetados por trapaça). Para as pontuações i abaixo desse limite, a contagem c ( i ) será reduzida em alguma fração δ ( t - i ) c ( i ) e esse valor será adicionado a t ( i ) .t i ≥ t Eu c ( i ) δ( t - i ) c ( i ) t ( i )
A quantidade de mudança diminui com a distância entre uma pontuação e o limiar: é uma função decrescente de i = 1 , 2 , … .δ( I ) i = 1 , 2 , …
Dado um limiar , a hipótese nula (sem trapaça) é que δ ( 1 ) = 0 , implicando que δ seja identicamente 0 . A alternativa é que δ ( 1 ) > 0 .t δ( 1 ) = 0 δ 0 0 δ( 1 ) > 0
Construindo um teste
Qual estatística de teste usar? De acordo com essas premissas, (a) o efeito é aditivo nas contagens e (b) o maior efeito ocorrerá em torno do limiar. Isso indica observar as primeiras diferenças das contagens, . Considerações adicionais sugerem ir um passo adiante: sob a hipótese alternativa, esperamos ver uma sequência de contagens gradualmente deprimidas à medida que a pontuação i se aproxima do limiar t de baixo e, em seguida, (i) uma grande mudança positiva em t seguida por (ii) a grande variação negativa emc′( i ) = c ( i + 1 ) - c ( i ) Eu t t . Para maximizar o poder do teste, vejamos assegundas diferenças,t + 1
porque em isso combinará um grande declínio negativo c ( t + 1 ) - c ( t ) com o negativo de um grande aumento positivo c ( t ) - c ( t - 1 ) , aumentando assim o efeito de trapaça .i = t - 1 c ( t + 1 ) - c ( t ) c ( t ) - c ( t - 1 )
Vou supor - e isso pode ser verificado - que a correlação serial das contagens próximas ao limite é bastante pequena. (A correlação serial em outros lugares é irrelevante.) Isso implica que a variação de é aproximadamentec′ ′( t - 1 ) = c ( t + 1 ) - 2 c ( t ) + c ( t - 1 )
Eu sugeri anteriormente que para todos os i (algo que também pode ser verificado). De ondevar ( c ( i ) ) ≈ c ( i ) Eu
deve ter aproximadamente variação de unidade. Para grandes populações de escores (o publicado parece estar em torno de 20.000), também podemos esperar uma distribuição aproximadamente normal de . Como esperamos que um valor altamente negativo indique um padrão de trapaça, obtemos facilmente um teste do tamanho α : escrevendo Φ para o cdf da distribuição normal padrão, rejeitamos a hipótese de não trapaça no limiar t quando Φ ( z ) < α .c′ ′( t - 1 ) α Φ t Φ ( z) < α
Exemplo
Por exemplo, considere este conjunto de pontuações de teste verdadeiras , extraídas de uma mistura de três distribuições normais:
Ao aplicar esse teste a vários limites, um ajuste de Bonferroni do tamanho do teste seria sábio. Um ajuste adicional quando aplicado a vários testes ao mesmo tempo também seria uma boa ideia.
Avaliação
fonte
Sugiro que se ajuste um modelo que preveja explicitamente as quedas e depois mostre que ele se encaixa significativamente melhor nos dados do que um ingênuo.
Você precisa de dois componentes:
Como distribuição inicial, você pode tentar usar a distribuição Poisson ou Gaussiana. Obviamente, seria ideal fazer o mesmo teste, mas para um grupo de professores forneça limites e para o outro - sem limites.
Notas:
fonte
Eu dividiria esse problema em dois subproblemas:
Existem várias maneiras de lidar com qualquer um dos subproblemas.
Parece-me que uma distribuição de Poisson se ajustaria aos dados, se fossem independentes e identicamente distribuídos (iid) , o que é claro que achamos que não é. Se tentarmos ingenuamente estimar os parâmetros da distribuição, seremos distorcidos pelos discrepantes. Duas maneiras possíveis de superar isso são usar técnicas de regressão robusta ou um método heurístico, como validação cruzada.
Para a detecção de outlier, há novamente inúmeras abordagens. O mais simples é usar os intervalos de confiança da distribuição que ajustamos no estágio 1. Outros métodos incluem métodos de autoinicialização e abordagens de Monte-Carlo.
Embora isso não indique que há um "salto" na distribuição, ele informa se há mais discrepâncias do que o esperado para o tamanho da amostra.
Uma abordagem mais complexa seria construir vários modelos para os dados, como distribuições compostas, e usar algum tipo de método de comparação de modelos (AIC / BIC) para determinar qual dos modelos é o mais adequado para os dados. No entanto, se você está simplesmente procurando por "desvio de uma distribuição esperada", isso parece exagero.
fonte