Detectando padrões de trapaça em um exame com várias perguntas

25

QUESTÃO:

Eu tenho dados binários nas perguntas do exame (correto / incorreto). Algumas pessoas podem ter tido acesso prévio a um subconjunto de perguntas e suas respostas corretas. Não sei quem, quantos ou quais. Se não houve trapaça, suponha que eu modele a probabilidade de uma resposta correta para o item como , em que representa a dificuldade da pergunta e é a capacidade latente do indivíduo. Este é um modelo de resposta a itens muito simples que pode ser estimado com funções como rasch () de ltm em R. Além das estimativas (onde indexa indivíduos) da variável latente, tenho acesso a estimativas separadasl o g i t ( ( p i = 1 | z ) ) = β i + z β i z z j j q jilogit((pi=1|z))=βi+zβizz^jjq^j da mesma variável latente que foi derivada de outro conjunto de dados em que a trapaça não era possível.

O objetivo é identificar os indivíduos que provavelmente trapacearam e os itens em que eles trapacearam. Quais são algumas das abordagens que você pode adotar? Além dos dados brutos, β^i , z^j e q^j estão todos disponíveis, embora os dois primeiros tenham algum viés devido a trapaça. Idealmente, a solução viria na forma de agrupamento / classificação probabilística, embora isso não seja necessário. As idéias práticas são muito bem-vindas, assim como as abordagens formais.

Até agora, comparei a correlação das pontuações das perguntas para pares de indivíduos com pontuações mais altas ou mais baixas q^jz^j (onde q^jz^j está um índice aproximado da probabilidade de que eles trapacearam). Por exemplo, classifiquei os indivíduos por q^jz^j e depois plotei a correlação de pares sucessivos de pontuações de perguntas dos indivíduos. Também tentei traçar a correlação média de pontuações para indivíduos cujos valores q^jz^j eram maiores que o nth quantil de q^jz^j , em função de n . Não há padrões óbvios para nenhuma das abordagens.


ATUALIZAR:

Acabei combinando idéias de @SheldonCooper e o útil artigo Freakonomics que @whuber me apontou. Outras idéias / comentários / críticas são bem-vindas.

Seja X_ {ij} a pontuação binária da Xijpessoa j na pergunta i . Estime o logit do modelo de resposta ao item (Pr (X_ {ij} = 1 | z_j) = \ beta_i + z_j, em

logit(Pr(Xij=1|zj)=βi+zj,
que βi é o parâmetro de facilidade do item e zj é uma variável de capacidade latente. (Um modelo mais complicado pode ser substituído; I estou usando um 2PL no meu aplicativo). Como mencionei na postagem original, tenho estimativas qj^ da variável de capacidade de um conjunto de dados separado {yEuj} (itens diferentes, mesmas pessoas) em qual trapaça não era possível. Especificamente, qj^ são estimativas empíricas de Bayes do mesmo modelo de resposta ao item acima.

A probabilidade da pontuação observada , condicionada à facilidade do item e à capacidade da pessoa, pode ser escrita que é a probabilidade prevista de uma resposta correta e é o logit inverso. Então, condicional às características do item e da pessoa, a probabilidade conjunta de que a pessoa tenha as observações é e, similarmente, a probabilidade conjunta do item tem as observações p i j = P r ( X i j = x i j | ^ β i , ^ q j ) = P i j ( ^ β i , ^ q j ) x i j ( 1 - P i j ( ^ β i , ^ q J ) ) 1 - xxEuj

pij=Pr(Xij=xij|βi^,qj^)=Pij(βi^,qj^)xij(1Pij(βi^,qj^))1xij,
Pij(βi^,qj^)=ilogit(βi^+qj^)ilogitjxj
pj=ipij,
ixi éAs pessoas com os valores mais baixos de são aquelas cujas pontuações observadas são condicionalmente menos prováveis ​​- elas são possivelmente trapaceiras. Os itens com os valores mais baixos de são aqueles com menor probabilidade condicional - são os possíveis itens vazados / compartilhados. Essa abordagem baseia-se nas suposições de que os modelos estão corretos e que as pontuações dessa pessoa não estão correlacionadas, dependendo das características da pessoa e do item. Uma violação da segunda suposição não é problemática, desde que o grau de correlação não varie entre as pessoas e o modelo para possa ser facilmente aprimorado (por exemplo, adicionando características adicionais de pessoa ou item).
pi=jpij.
pjpjjpij

Uma etapa adicional que tentei é obter r% das pessoas menos prováveis ​​(ou seja, pessoas com o menor r% dos valores de p_j classificados), calcular a distância média entre as pontuações observadas x_j (que devem ser correlacionadas para pessoas com r baixo, que são possíveis trapaceiros) e plote-o para r = 0,001, 0,002, ..., 1.000. A distância média aumenta para r = 0,001 para r = 0,025, atinge o máximo e depois diminui lentamente para o mínimo em r = 1. Não é exatamente o que eu estava esperando.

bloqueado
fonte
4
Este é um problema difícil, porque você tem muito pouca informação sobre a natureza da trapaça. Como você diferencia um trapaceiro de um aluno que estudou muito duro? Sem mais informações, você não pode. Uma possibilidade é se os alunos conseguirem trapacear copiando uns aos outros ou se subconjuntos de alunos tiverem acesso às mesmas respostas. Se for esse o caso, você pode criar uma função de distância entre os alunos (distância menor significa que eles se saíram bem nas mesmas perguntas) e procurar padrões aqui. Isso seria uma OMI mais conclusiva.
Rm999
2
Levitt e Dubner descrevem sua abordagem em Freakonomics ( freakonomicsmedia.com ).
whuber
@ rm999 Para esclarecer, os trapaceiros tiveram acesso ao mesmo subconjunto de perguntas (por exemplo, uma chave de resposta parcial vazou antes da administração do exame). Não estou interessado em trapacear que possa ter acontecido com a cópia. Vou revisar minha pergunta no fim de semana, se isso não estiver claro.
Bloqueado # 5/11
@whuber Obrigado, vou procurar o artigo (supondo que seja publicado). Ouvi o audiolivro, mas não consigo me lembrar dos detalhes de como eles identificaram trapaceiros (que eram professores que estavam enganando as respostas dos alunos, acredito).
Bloqueado # 5/11
Se bem me lembro do caso Freakonomics, ele envolveu identificar crianças na mesma escola / classe que tiveram (a) grandes saltos de desempenho em comparação com um ano antes, (b) respostas diferentes para as perguntas mais fáceis anteriores e (c) sequências idênticas de respostas para perguntas mais difíceis, sugerindo que o professor preencha as respostas que as crianças deixaram em branco.
Henry

Respostas:

4

Abordagem ad hoc

Eu diria que é razoavelmente confiável porque foi estimado em muitos estudantes, a maioria dos quais não trapaceou na pergunta . Para cada aluno , classifique as perguntas em ordem crescente de dificuldade, calcule (observe queβiijβi+qjqjé apenas um deslocamento constante) e limpe-o em algum local razoável (por exemplo, p (correto) <0,6). Isso fornece um conjunto de perguntas que o aluno provavelmente não responderá corretamente. Agora você pode usar o teste de hipóteses para verificar se isso é violado; nesse caso, o aluno provavelmente trapaceou (supondo que seu modelo esteja correto). Uma ressalva é que, se houver poucas perguntas, talvez você não tenha dados suficientes para que o teste seja confiável. Além disso, acho que não é possível determinar em qual pergunta ele traiu, porque ele sempre tem 50% de chance de adivinhar. Mas se você supõe, além disso, que muitos alunos tiveram acesso (e traiu) o mesmo conjunto de perguntas, você pode compará-las entre os alunos e ver quais perguntas foram respondidas com mais frequência do que o acaso.

Você pode fazer um truque semelhante com perguntas. seja, para cada pergunta, classifique os alunos por , adicione (agora é um deslocamento constante) e limiar com probabilidade de 0,6. Isso fornece uma lista de alunos que não devem responder a essa pergunta corretamente. Então eles têm 60% de chance de adivinhar. Mais uma vez, faça o teste de hipóteses e veja se isso é violado. Isso só funciona se a maioria dos alunos trapaceou no mesmo conjunto de perguntas (por exemplo, se um subconjunto de perguntas 'vazou' antes do exame).qjβi

Abordagem baseada em princípios

Para cada aluno, existe uma variável binária com um Bernoulli anterior, com alguma probabilidade adequada, indicando se o aluno é um trapaceiro. Para cada pergunta, existe uma variável binária , novamente com algum Bernoulli adequado anterior, indicando se a pergunta vazou. Depois, há um conjunto de variáveis ​​binárias , indicando se o aluno respondeu à pergunta corretamente. Se e , a distribuição de é Bernoulli com probabilidade 0,99. Caso contrário, a distribuição será . Essas são as variáveis ​​observadas.cjliaijjicj=1li=1aijlogit(βi+qj)aijcj e estão ocultos e devem ser inferidos. Você provavelmente pode fazer isso por amostragem de Gibbs. Mas outras abordagens também podem ser viáveis, talvez algo relacionado ao bicluster.li

SheldonCooper
fonte
Li a primeira parte da sua resposta e acho que é promissor. Duas notas rápidas - essa foi uma escolha múltipla, portanto as probabilidades de adivinhar corretamente são de 25% ou 20%. Você está certo, pois podemos assumir que um subconjunto de perguntas vazou antes do exame. Voltará a isso no domingo ou segunda-feira.
Bloqueado #
3

Se você quiser abordar algumas abordagens mais complexas, consulte os modelos da teoria de resposta ao item. Você pode então modelar a dificuldade de cada pergunta. Os alunos que corrigissem os itens difíceis, perdendo os mais fáceis, creio, teriam mais chances de trapacear do que aqueles que fizeram o contrário.

Faz mais de uma década que fiz esse tipo de coisa, mas acho que pode ser promissor. Para mais detalhes, consulte os livros de psicometria

Peter Flom - Restabelece Monica
fonte
Normalmente, trapaça ou suposição podem ser incorporadas diretamente a um IRM. Em essência, é isso que um modelo de 3-PL pretende fazer, pois inclui um parâmetro para dificuldade , discriminação e suposição, que atua como uma menor assíntota para a probabilidade de endossar um item. No entanto, provou-se que não é realista na maioria das situações, e outras estatísticas dedicadas ao ajuste da pessoa foram desenvolvidas ao lado (em testes educacionais ou em avaliações psicológicas). Meijer, pesquisa Person-Fit: uma introdução. APM (1996), 9: 3-8, tem uma boa revisão sobre padrões de resposta aberrantes.
chl
@chl Obrigado! Eu estudei essas coisas na pós-graduação, mas isso foi há muito tempo - minha última aula foi em 1996, mais ou menos.
Peter Flom - Restabelece Monica
@chl Obrigado por suas sugestões. O modelo na minha pergunta é de fato um modelo de resposta ao item (um modelo Rasch ou 1PL com parâmetro de discriminação fixo). Acho que a sugestão de olhar para indivíduos com desempenho aberrante é um bom começo, mas estou procurando uma abordagem que aproveite as informações adicionais fornecidas pela correlação nas respostas dos trapaceiros para itens nos quais houve trapaça. Você pode imaginar que, se usássemos seu procedimento para identificar trapaceiros, por exemplo, eles teriam bom desempenho em itens difíceis semelhantes.
Bloqueado7