Como posso lidar melhor com os efeitos de marcadores com diferentes níveis de generosidade na classificação dos trabalhos dos alunos?

13

Cerca de 600 alunos têm uma pontuação em uma extensa avaliação, que pode ser assumida como tendo boa confiabilidade / validade. A avaliação é pontuada em 100 e é um teste de múltipla escolha marcado por computador.

Esses 600 alunos também têm notas em uma segunda, menor parte da avaliação. Nesta segunda parte da avaliação, eles são separados em 11 coortes com 11 graduadores diferentes, e há um grau indesejável de variação entre os graduadores em termos de sua 'generosidade' na marcação ou na falta dela. Essa segunda avaliação também é pontuada em 100.

Os alunos não foram designados para coortes aleatoriamente e há boas razões para esperar diferenças nos níveis de habilidade entre as coortes.

Recebi a tarefa de garantir que as diferenças entre os marcadores de coorte na segunda tarefa não vantajem / prejudiquem materialmente os alunos individualmente.

Minha idéia é fazer com que as pontuações da coorte na segunda avaliação sejam coerentes com as pontuações da coorte na primeira, mantendo as diferenças individuais entre as coortes. Devemos assumir que tenho boas razões para acreditar que o desempenho nas duas tarefas será altamente correlacionado, mas que os marcadores diferem consideravelmente em sua generosidade.

Essa é a melhor abordagem? Se não, o que é?

Seria muito apreciado se o respondente pudesse dar algumas dicas práticas sobre como implementar uma boa solução, digamos em R ou SPSS ou Excel.

user1205901 - Restabelecer Monica
fonte
3
Ótima pergunta! As pontuações finais para a múltipla escolha e as partes do ensaio devem ser comparáveis ​​(ou seja, os mesmos intervalos numéricos)?
gung - Restabelece Monica
2
Enquanto escrevia essa pergunta, pensei que poderia ser o seu beco! As pontuações finais são amplamente comparáveis, mas um pouco diferentes. A média na seção de múltipla escolha é ~ 70 com um SD em torno de 15. A média na outra seção é ~ 85 com um SD em torno de 6. #
user1205901 - Restabelece Monica
7
Eu suspeitaria de qualquer esforço para resolver esse problema com base apenas nos dados que você descreveu, porque ele teria que se basear na forte (e não testável) suposição de que não há interação entre coorte e desempenho nos dois instrumentos de teste separados. Se possível, considere a opção de realizar um pequeno experimento separado para calibrar as niveladoras.
whuber
9
Para entender melhor onde está o problema, suponha (hipoteticamente) que (1) as duas formas de avaliação sejam de múltipla escolha e redação e (2) seus alunos mais velhos tendem a se sair relativamente melhor em questões de redação. Quando você usa seus dados para tornar as pontuações "coerentes", confunde os efeitos da série com os efeitos da idade e, ao fazer ajustes, prejudica sistematicamente os alunos mais velhos em comparação aos mais jovens. Não importa o quão sofisticado seja o algoritmo que você escolher, ele só poderá encobrir esse problema básico. Você precisa de alguns dados adicionais para resolver essa confusão.
whuber
3
Uma coisa a considerar é o quão confortável você explicaria o procedimento de ajuste para estudantes ou outras partes interessadas: muitos podem achar que, devido a um problema em potencial com a marcação, colocar algum esforço em uma calibração adequada de marcadores não seria muito esperado se o exame é importante.
Scortchi - Reinstate Monica

Respostas:

8

Saber como niveladoras diferem é bom, mas ainda não lhe diz o que para compensar os graus de . Para simplificar, imagine apenas duas motoniveladoras. Mesmo se concluirmos que a série 1 é consistentemente 5 notas mais generosa que a série 2, isso não diz o que você deve fazer com dois alunos que foram classificados como 70, um pela série 1 e outro pela série 2. Dizemos que a série 2 foi um marcador severo e elevou esses 70 para 75, mantendo inalterados os 70 marcados pelo aluno da primeira série? Ou presumimos que o aluno da primeira série tenha sido indevidamente indulgente, reduza seu aluno para 65 pontos e mantenha inalterado o 70º da segunda série? Comprometemo-nos a meio caminho - estendendo-se ao seu caso, com base em uma média das 11 séries? São as notas absolutas que importam; portanto, conhecer a generosidade relativa não é suficiente.

Sua conclusão pode depender de quão "objetivo" você sente que a marca absoluta final deve ser. Um modelo mental seria propor a cada aluno uma nota "correta" - aquela que seria atribuída pelo Avaliador Líder se eles tivessem tempo para marcar cada trabalho individualmente - ao qual as notas observadas são aproximações. Nesse modelo, as notas observadas precisam ser compensadas pela nota, a fim de aproximá-las o máximo possível da nota "verdadeira" não observada. Outro modelo pode ser o de que toda a classificação é subjetiva e procuramos transformar cada nota observada em direção à nota que previmos que seria atribuída se todos os avaliadores tivessem considerado o mesmo artigo e atingido algum tipo de compromisso ou nota média para ele. Acho o segundo modelo menos convincente como solução, mesmo que a admissão de subjetividade seja mais realista. Em um ambiente educacional, geralmente existe alguém que assume a responsabilidade final pela avaliação, para garantir que os alunos recebam "a nota que merecem", mas esse papel de liderança basicamente absolveu a responsabilidade dos alunos que já sabemos que discordam bastante. A partir daqui, eu assumo láé uma nota "correta" que pretendemos estimar, mas essa é uma proposta contestável e pode não se adequar às suas circunstâncias.

Suponha que os alunos A, B, C e D, todos da mesma coorte, "devam" ser classificados como 75, 80, 85 e 90, respectivamente, mas seu aluno generoso sempre marca 5 notas muito altas. Observamos 80, 85, 90 e 95 e devemos subtrair 5, mas encontrar o número a ser subtraído é problemático. Isso não pode ser feito comparando os resultados entre as coortes, pois esperamos que as coortes variem na capacidade média. Uma possibilidade é usar os resultados do teste de múltipla escolha para prever as pontuações corretas na segunda tarefa; depois, use-o para avaliar a variação entre cada aluno e as notas corretas. Mas fazer essa previsão não é trivial - se você espera média e desvio padrão diferentes entre as duas avaliações, não pode simplesmente assumir que as segundas notas de avaliação devem corresponder à primeira.

Além disso, os alunos diferem quanto à aptidão relativa nas avaliações de múltipla escolha e por escrito. Você pode tratar isso como algum tipo de efeito aleatório, formando um componente das notas "observadas" e "verdadeiras" do aluno, mas não capturadas pela nota "prevista". Se as coortes diferem sistematicamente e os alunos de uma coorte tendem a ser semelhantes, não devemos esperar que esse efeito seja medido em zero em cada coorte. Se as notas observadas de uma coorte são em média +5 em relação às previstas, é impossíveldeterminar se isso se deve a uma série generosa, a uma coorte particularmente mais adequada à avaliação escrita do que à múltipla escolha ou a alguma combinação das duas. Em um caso extremo, a coorte pode até ter uma aptidão menor na segunda avaliação, mas teve isso mais do que compensado por um aluno muito generoso - ou vice-versa. Você não pode separar isso. Está confuso.

Também duvido da adequação de um modelo aditivo tão simples para seus dados. As graduadoras podem diferir do Avaliador Líder, não apenas pela mudança de local, mas também pela disseminação - embora, como as coortes provavelmente variem em homogeneidade, você não pode apenas verificar a distribuição das notas observadas em cada coorte para detectar isso. Além disso, a maior parte da distribuição tem pontuações altas, razoavelmente próximas do máximo teórico de 100. Eu anteciparia isso introduzindo a não linearidade devido à compressão próxima do máximo - uma motoniveladora muito generosa pode dar notas A, B, C e D como 85, 90, 94, 97. É mais difícil reverter do que apenas subtrair uma constante. Pior, você pode ver "recorte" - um classificador extremamente generoso pode classificá-los como 90, 95, 100, 100. Isso é o impossívelreverter, e informações sobre o desempenho relativo de C e D são irrecuperavelmente perdidas.

Seus alunos se comportam de maneira muito diferente. Você tem certeza de que eles diferem apenas em sua generosidade geral, em vez de em vários componentes da avaliação? Isso pode valer a pena checar, pois pode introduzir várias complicações - por exemplo, a nota observada para B pode ser pior que a de A, apesar de B ser 5 pontos "melhor", mesmo que as notas atribuídas ao aluno para cada componente sejam uma função monotonicamente crescente dos Avaliadores Líderes! Suponha que a avaliação seja dividida entre Q1 (A deve pontuar 30/50, B 45/50) e Q2 (A deve pontuar 45/50, B 35/50). Imagine que a motoniveladora é muito branda no Q1 (notas observadas: A 40/50, B 50/50), mas dura no Q2 (observada: A 42/50, 30/50), então observamos totais de 82 para A e 80 para B. Se você precisar considerar as pontuações dos componentes,

Indiscutivelmente, este é um comentário estendido e não uma resposta, no sentido de que não propõe uma solução específica dentro dos limites originais do seu problema. Mas se as suas niveladoras já estão manuseando cerca de 55 papéis cada uma, então é tão ruim que elas tenham que olhar cinco ou dez mais para fins de calibração? Você já tem uma boa idéia das habilidades dos alunos e, por isso, pode escolher uma amostra de trabalhos da mesma série. Você pode avaliar se precisa compensar a generosidade da motoniveladora em todo o teste ou em cada componente e se deve fazê-lo apenas adicionando / subtraindo uma constante ou algo mais sofisticado como a interpolação (por exemplo, se você está preocupado com linearidade próxima a 100). Mas uma palavra de aviso sobre interpolação: suponha que o Avaliador Líder marque cinco documentos de amostra como 70, 75, 80, 85 e 90, enquanto um aluno as classifica como 80, 88, 84, 93 e 96, há divergências quanto à ordem. Você provavelmente deseja mapear as notas observadas de 96 a 100 no intervalo de 90 a 100 e as notas observadas de 93 a 96 no intervalo de 85 a 90. Mas um pouco de reflexão é necessário para as marcas abaixo disso. Talvez as notas observadas de 84 a 93 devam ser mapeadas para o intervalo de 75 a 85? Uma alternativa seria uma regressão (possivelmente polinomial) para obter uma fórmula para "nota verdadeira prevista" a partir de "nota observada". Talvez as notas observadas de 84 a 93 devam ser mapeadas para o intervalo de 75 a 85? Uma alternativa seria uma regressão (possivelmente polinomial) para obter uma fórmula para "nota verdadeira prevista" a partir de "nota observada". Talvez as notas observadas de 84 a 93 devam ser mapeadas para o intervalo de 75 a 85? Uma alternativa seria uma regressão (possivelmente polinomial) para obter uma fórmula para "nota verdadeira prevista" a partir de "nota observada".

Silverfish
fonte
1
Infelizmente, a natureza da avaliação 2 impossibilita que as niveladoras olhem mais para fins de calibração. Você pode pensar nisso como uma recitação de poesia oral que foi feita uma vez sem gravação e que foi avaliada imediatamente depois. Seria impraticável agendar novas recitações apenas para fins de calibração. Para responder sua outra pergunta, a Avaliação 2 realmente não tinha subcomponentes claros e não precisamos considerar as pontuações dos componentes.
user1205901 - Reintegrar Monica
1
Isso "não é uma resposta", mas em um mundo ideal, eu teria sugerido mudar as coisas e usar um exemplo de exemplo (possivelmente de tarefas artificiais projetadas deliberadamente para estar na linha de fronteira da classe, e não por alunos reais) como forma de treinamento os alunos têm a mesma generosidade, em vez de deduzir e compensar suas generosidades. Se as avaliações forem feitas, isso claramente não é uma solução para você.
Silverfish
1
(+1) Muito completo "não é uma resposta". A consistência em testes bastante subjetivos pode ser bastante aprimorada dividindo-se a tarefa de classificação em componentes - caso contrário, um avaliador pode dar mais peso ao ritmo, outro à projeção, etc.
Scortchi - Restabelece Monica
É claro que, além de enviar um possível ajuste à pessoa que finalmente decidirá o problema, também precisarei enviar algumas explicações sobre os prós e os contras do ajuste. Sua resposta fornece muito material útil sobre isso. No entanto, pergunto-me que critérios posso usar para avaliar se é mais benéfico deixar tudo em paz ou fazer uma alteração. Eu olho para as notas da coorte e minha intuição diz que as diferenças entre os marcadores têm um grande impacto. A intuição não é confiável, mas não tenho certeza do que mais posso fazer nesse caso.
user1205901 - Reintegrar Monica
2
Uma pergunta é se você tem motivos razoáveis ​​para acreditar que o efeito "aptidão diferencial da tarefa" seja pequeno, principalmente quando a média é de uma coorte, em comparação com o efeito "generosidade da motoniveladora". Nesse caso, você pode tentar estimar o efeito de generosidade de cada coorte - mas corre o risco de ser confundido. Além disso, existe uma captura 22. Eu seria mais cauteloso ao aplicar grandes "correções" às notas observadas. Porém, se as correções sugeridas são pequenas, é plausível que elas se devam a diferenças sistemáticas na capacidade diferencial de tarefas entre as coortes, e não na generosidade das graduadoras.
quer
2

Um modelo muito simples:

s1,iis2,iA1,,Ap

Cada grupo é influenciado pela força de seus alunos e pela facilidade do aluno. Supondo que este seja um efeito aditivo, recuamos da seguinte maneira: subtrairemos a pontuação média da coorte no primeiro teste e adicionaremos a pontuação média da coorte no segundo teste.

s1

jp,iAj,s1,i=s1,i1|Aj|iAj(s1,is2,i)

s

i,si=αs1,i+(1α)s2,Eu

A desvantagem é que um aluno individualmente pode ser penalizado se as pessoas de sua coorte tiverem azar no segundo teste. Mas qualquer técnica estatística levará essa desvantagem potencialmente injusta.

Arthur B.
fonte
3
α
1
Não - as coortes não são selecionadas aleatoriamente.
Scortchi - Restabelece Monica
1
... que, como @whuber continua dizendo, é confundido com qualquer tendência inerente da coorte (devido à idade ou o que seja) a se sair relativamente melhor em um tipo de teste que em outro.
Scortchi - Restabelecer Monica
2
Você não pode eliminar confusões com grupos maiores! Na melhor das hipóteses, você pode obter estimativas cada vez mais precisas de valores não interpretáveis.
whuber
3
Razoável, talvez: mas não pode ser testado, dada a informação disponível para o OP. A validade da sua resposta depende da verdade dessa suposição implícita. Pior ainda, sua negação (que obviamente também não pode ser testada) também é eminentemente razoável: como as coortes são auto-selecionadas, elas podem consistir em pessoas que atuam de maneira comum em diferentes instrumentos de avaliação, sugerindo que é provável que haja sucesso diferencial deve-se em parte à coorte e apenas parcialmente à variabilidade entre as graduadoras.
whuber
1

Você não pode. Pelo menos, não sem coletar dados adicionais. Para saber por que, leia os inúmeros comentários votados pelo @ whuber ao longo deste tópico.

Jake Westfall
fonte
0

Editar

O problema resolvido nesta resposta é o de encontrar alunos que dão menos pontos aos alunos de quem não gostam.

Postagem original

Minha abordagem, que acho fácil de implementar, seria a seguinte:

Deixei μk,Eu denotar o aluno da série k, pertencente à coorte Eu assumiu a tarefa 1. Vamos yk,Eu denotar a nota para a segunda tarefa.

1

Assuma o modelo

yk,Eu=μk,Eu+α+τek,Eu e estimar αsobre todos os alunos. Isso é,α é estimado sem levar em conta Eu. É possível queα é zero, mas os alunos podem alterar seu desempenho no exame final, proporcionando um aumento / diminuição geral.

2

Deixei GEu denotar a generosidade do aluno no número de coorte Eu. Então formay~k,Eu e assuma o modelo

yk,Eu-μk,Eu-α=y~k,Eu=GEu+σEue~k,Eu

E faça 11 estimativas individuais de G e σ

3

Agora, uma observação incomum é aquela em que a quantidade

T=|y~-GEuσEu|é grande. Selecione a maior dessas quantidades para cada coorte e investigue-as.

Nota

Todos eSupõe-se que seja gaussiano. As notas normalmente não são distribuídas, portanto, orientações sobre o tamanho daT são difíceis de dar.

Código R

Abaixo está o código em R. Observe que, no seu caso, mu e y serão fornecidos para que as linhas geradoras quando receberem números rnorm devam ser ignoradas. Eu os incluo para poder avaliar o script sem dados.

mu_0 <- 50; 
alpha <- 5;
tau<- 10; 
# 0 Generate data for first assignment
mu <- matrix(rnorm(605, mu_0, tau), 11) 

# 1 Generate data for second assignment and estimate alpha
G <- rnorm(11, 0)*10;
for(i in 1:11){
    y[i,] <- rnorm(55, 0, sigma) + mu[i,] + alpha + G[i];
}

alpha_hat <- mean(y-mu)
alpha_hat

# 2 Form \tilde{y} and find unsual observations
ytilde <- y - mu - alpha_hat
T <- matrix(0, 11, 55);
for(i in 1:11){
    G_hat <- mean(ytilde[i,]);
    sigma_hat <- sd(ytilde[i,]);
    T[i,] <- order(abs(ytilde[i,] - G_hat)/sigma_hat)
}
# 3 Look at grader number 2 by
T[2,]
Hunaphu
fonte
4
Parece que você não respondeu à pergunta: termina apenas com uma recomendação para investigar quaisquer "observações incomuns". Como isso resolve o problema?
whuber
Lendo a pergunta novamente, talvez eu tenha me concentrado demais na parte "individual". O problema resolvido nesta resposta é o de encontrar alunos que dão menos pontos aos alunos de quem não gostam. A questão original é impossível (!) De resolver. Como já sugerido, é muito provável que os alunos colaborem ou se correlacionem fortemente dentro de cada coorte.
Hunaphu
0

Reformulando o problema: Qual a melhor maneira de abordar a definição de uma nota de duas partes em um exame com as condições exigindo que a segunda parte seja exposta a uma maior incerteza devido à variedade de avaliações qualitativas dos Marcadores Delegados.

Onde: Master Tester = pessoa responsável pelo exame Testador Delegado = pessoa (1 de 11) designada para marcar o par 2 do exame Aluno = o cara que se diverte ao fazer um exame

Os objetivos incluem: A) Os alunos recebem uma nota que reflete seu trabalho. B) Gerenciam a incerteza da segunda parte para se alinhar com a intenção do Master Tester

Abordagem sugerida (resposta): 1. O Master Tester seleciona aleatoriamente um conjunto de exames representativo, marca a parte 2 e desenvolve correlação com a parte 1. 2. Utilize a correlação para avaliar todos os dados dos Marcadores Delegados (Parte 1) vs pontuação nº 2) 3. Onde a correlação for significativamente diferente do Master Tester - significância aceitável para o Master Tester - examine o exame como Master Tester para atribuir novamente o resultado.

Essa abordagem garante que o Master Tester seja responsável pela correlação e pelo significado aceitável. A correlação pode ser tão simples quanto a pontuação da parte 1 ou 2 ou a pontuação relativa das questões do teste 1 ou 2.

O Master Tester também poderá definir uma qualidade de resultado para a Parte # 2 com base no "emborrachamento" da correlação.

MarkR
fonte