Cerca de 600 alunos têm uma pontuação em uma extensa avaliação, que pode ser assumida como tendo boa confiabilidade / validade. A avaliação é pontuada em 100 e é um teste de múltipla escolha marcado por computador.
Esses 600 alunos também têm notas em uma segunda, menor parte da avaliação. Nesta segunda parte da avaliação, eles são separados em 11 coortes com 11 graduadores diferentes, e há um grau indesejável de variação entre os graduadores em termos de sua 'generosidade' na marcação ou na falta dela. Essa segunda avaliação também é pontuada em 100.
Os alunos não foram designados para coortes aleatoriamente e há boas razões para esperar diferenças nos níveis de habilidade entre as coortes.
Recebi a tarefa de garantir que as diferenças entre os marcadores de coorte na segunda tarefa não vantajem / prejudiquem materialmente os alunos individualmente.
Minha idéia é fazer com que as pontuações da coorte na segunda avaliação sejam coerentes com as pontuações da coorte na primeira, mantendo as diferenças individuais entre as coortes. Devemos assumir que tenho boas razões para acreditar que o desempenho nas duas tarefas será altamente correlacionado, mas que os marcadores diferem consideravelmente em sua generosidade.
Essa é a melhor abordagem? Se não, o que é?
Seria muito apreciado se o respondente pudesse dar algumas dicas práticas sobre como implementar uma boa solução, digamos em R ou SPSS ou Excel.
fonte
Respostas:
Saber como niveladoras diferem é bom, mas ainda não lhe diz o que para compensar os graus de . Para simplificar, imagine apenas duas motoniveladoras. Mesmo se concluirmos que a série 1 é consistentemente 5 notas mais generosa que a série 2, isso não diz o que você deve fazer com dois alunos que foram classificados como 70, um pela série 1 e outro pela série 2. Dizemos que a série 2 foi um marcador severo e elevou esses 70 para 75, mantendo inalterados os 70 marcados pelo aluno da primeira série? Ou presumimos que o aluno da primeira série tenha sido indevidamente indulgente, reduza seu aluno para 65 pontos e mantenha inalterado o 70º da segunda série? Comprometemo-nos a meio caminho - estendendo-se ao seu caso, com base em uma média das 11 séries? São as notas absolutas que importam; portanto, conhecer a generosidade relativa não é suficiente.
Sua conclusão pode depender de quão "objetivo" você sente que a marca absoluta final deve ser. Um modelo mental seria propor a cada aluno uma nota "correta" - aquela que seria atribuída pelo Avaliador Líder se eles tivessem tempo para marcar cada trabalho individualmente - ao qual as notas observadas são aproximações. Nesse modelo, as notas observadas precisam ser compensadas pela nota, a fim de aproximá-las o máximo possível da nota "verdadeira" não observada. Outro modelo pode ser o de que toda a classificação é subjetiva e procuramos transformar cada nota observada em direção à nota que previmos que seria atribuída se todos os avaliadores tivessem considerado o mesmo artigo e atingido algum tipo de compromisso ou nota média para ele. Acho o segundo modelo menos convincente como solução, mesmo que a admissão de subjetividade seja mais realista. Em um ambiente educacional, geralmente existe alguém que assume a responsabilidade final pela avaliação, para garantir que os alunos recebam "a nota que merecem", mas esse papel de liderança basicamente absolveu a responsabilidade dos alunos que já sabemos que discordam bastante. A partir daqui, eu assumo láé uma nota "correta" que pretendemos estimar, mas essa é uma proposta contestável e pode não se adequar às suas circunstâncias.
Suponha que os alunos A, B, C e D, todos da mesma coorte, "devam" ser classificados como 75, 80, 85 e 90, respectivamente, mas seu aluno generoso sempre marca 5 notas muito altas. Observamos 80, 85, 90 e 95 e devemos subtrair 5, mas encontrar o número a ser subtraído é problemático. Isso não pode ser feito comparando os resultados entre as coortes, pois esperamos que as coortes variem na capacidade média. Uma possibilidade é usar os resultados do teste de múltipla escolha para prever as pontuações corretas na segunda tarefa; depois, use-o para avaliar a variação entre cada aluno e as notas corretas. Mas fazer essa previsão não é trivial - se você espera média e desvio padrão diferentes entre as duas avaliações, não pode simplesmente assumir que as segundas notas de avaliação devem corresponder à primeira.
Além disso, os alunos diferem quanto à aptidão relativa nas avaliações de múltipla escolha e por escrito. Você pode tratar isso como algum tipo de efeito aleatório, formando um componente das notas "observadas" e "verdadeiras" do aluno, mas não capturadas pela nota "prevista". Se as coortes diferem sistematicamente e os alunos de uma coorte tendem a ser semelhantes, não devemos esperar que esse efeito seja medido em zero em cada coorte. Se as notas observadas de uma coorte são em média +5 em relação às previstas, é impossíveldeterminar se isso se deve a uma série generosa, a uma coorte particularmente mais adequada à avaliação escrita do que à múltipla escolha ou a alguma combinação das duas. Em um caso extremo, a coorte pode até ter uma aptidão menor na segunda avaliação, mas teve isso mais do que compensado por um aluno muito generoso - ou vice-versa. Você não pode separar isso. Está confuso.
Também duvido da adequação de um modelo aditivo tão simples para seus dados. As graduadoras podem diferir do Avaliador Líder, não apenas pela mudança de local, mas também pela disseminação - embora, como as coortes provavelmente variem em homogeneidade, você não pode apenas verificar a distribuição das notas observadas em cada coorte para detectar isso. Além disso, a maior parte da distribuição tem pontuações altas, razoavelmente próximas do máximo teórico de 100. Eu anteciparia isso introduzindo a não linearidade devido à compressão próxima do máximo - uma motoniveladora muito generosa pode dar notas A, B, C e D como 85, 90, 94, 97. É mais difícil reverter do que apenas subtrair uma constante. Pior, você pode ver "recorte" - um classificador extremamente generoso pode classificá-los como 90, 95, 100, 100. Isso é o impossívelreverter, e informações sobre o desempenho relativo de C e D são irrecuperavelmente perdidas.
Seus alunos se comportam de maneira muito diferente. Você tem certeza de que eles diferem apenas em sua generosidade geral, em vez de em vários componentes da avaliação? Isso pode valer a pena checar, pois pode introduzir várias complicações - por exemplo, a nota observada para B pode ser pior que a de A, apesar de B ser 5 pontos "melhor", mesmo que as notas atribuídas ao aluno para cada componente sejam uma função monotonicamente crescente dos Avaliadores Líderes! Suponha que a avaliação seja dividida entre Q1 (A deve pontuar 30/50, B 45/50) e Q2 (A deve pontuar 45/50, B 35/50). Imagine que a motoniveladora é muito branda no Q1 (notas observadas: A 40/50, B 50/50), mas dura no Q2 (observada: A 42/50, 30/50), então observamos totais de 82 para A e 80 para B. Se você precisar considerar as pontuações dos componentes,
Indiscutivelmente, este é um comentário estendido e não uma resposta, no sentido de que não propõe uma solução específica dentro dos limites originais do seu problema. Mas se as suas niveladoras já estão manuseando cerca de 55 papéis cada uma, então é tão ruim que elas tenham que olhar cinco ou dez mais para fins de calibração? Você já tem uma boa idéia das habilidades dos alunos e, por isso, pode escolher uma amostra de trabalhos da mesma série. Você pode avaliar se precisa compensar a generosidade da motoniveladora em todo o teste ou em cada componente e se deve fazê-lo apenas adicionando / subtraindo uma constante ou algo mais sofisticado como a interpolação (por exemplo, se você está preocupado com linearidade próxima a 100). Mas uma palavra de aviso sobre interpolação: suponha que o Avaliador Líder marque cinco documentos de amostra como 70, 75, 80, 85 e 90, enquanto um aluno as classifica como 80, 88, 84, 93 e 96, há divergências quanto à ordem. Você provavelmente deseja mapear as notas observadas de 96 a 100 no intervalo de 90 a 100 e as notas observadas de 93 a 96 no intervalo de 85 a 90. Mas um pouco de reflexão é necessário para as marcas abaixo disso. Talvez as notas observadas de 84 a 93 devam ser mapeadas para o intervalo de 75 a 85? Uma alternativa seria uma regressão (possivelmente polinomial) para obter uma fórmula para "nota verdadeira prevista" a partir de "nota observada". Talvez as notas observadas de 84 a 93 devam ser mapeadas para o intervalo de 75 a 85? Uma alternativa seria uma regressão (possivelmente polinomial) para obter uma fórmula para "nota verdadeira prevista" a partir de "nota observada". Talvez as notas observadas de 84 a 93 devam ser mapeadas para o intervalo de 75 a 85? Uma alternativa seria uma regressão (possivelmente polinomial) para obter uma fórmula para "nota verdadeira prevista" a partir de "nota observada".
fonte
Um modelo muito simples:
Cada grupo é influenciado pela força de seus alunos e pela facilidade do aluno. Supondo que este seja um efeito aditivo, recuamos da seguinte maneira: subtrairemos a pontuação média da coorte no primeiro teste e adicionaremos a pontuação média da coorte no segundo teste.
A desvantagem é que um aluno individualmente pode ser penalizado se as pessoas de sua coorte tiverem azar no segundo teste. Mas qualquer técnica estatística levará essa desvantagem potencialmente injusta.
fonte
Você não pode. Pelo menos, não sem coletar dados adicionais. Para saber por que, leia os inúmeros comentários votados pelo @ whuber ao longo deste tópico.
fonte
Editar
O problema resolvido nesta resposta é o de encontrar alunos que dão menos pontos aos alunos de quem não gostam.
Postagem original
Minha abordagem, que acho fácil de implementar, seria a seguinte:
Deixeiμk , i denotar o aluno da série k , pertencente à coorte Eu assumiu a tarefa 1. Vamos yk , i denotar a nota para a segunda tarefa.
1
Assuma o modelo
2
DeixeiGEu denotar a generosidade do aluno no número de coorte Eu . Então formay~k , i e assuma o modelo
E faça 11 estimativas individuais deG e σ
3
Agora, uma observação incomum é aquela em que a quantidade
Nota
Todose Supõe-se que seja gaussiano. As notas normalmente não são distribuídas, portanto, orientações sobre o tamanho daT são difíceis de dar.
Código R
Abaixo está o código em R. Observe que, no seu caso, mu e y serão fornecidos para que as linhas geradoras quando receberem números rnorm devam ser ignoradas. Eu os incluo para poder avaliar o script sem dados.
fonte
Reformulando o problema: Qual a melhor maneira de abordar a definição de uma nota de duas partes em um exame com as condições exigindo que a segunda parte seja exposta a uma maior incerteza devido à variedade de avaliações qualitativas dos Marcadores Delegados.
Onde: Master Tester = pessoa responsável pelo exame Testador Delegado = pessoa (1 de 11) designada para marcar o par 2 do exame Aluno = o cara que se diverte ao fazer um exame
Os objetivos incluem: A) Os alunos recebem uma nota que reflete seu trabalho. B) Gerenciam a incerteza da segunda parte para se alinhar com a intenção do Master Tester
Abordagem sugerida (resposta): 1. O Master Tester seleciona aleatoriamente um conjunto de exames representativo, marca a parte 2 e desenvolve correlação com a parte 1. 2. Utilize a correlação para avaliar todos os dados dos Marcadores Delegados (Parte 1) vs pontuação nº 2) 3. Onde a correlação for significativamente diferente do Master Tester - significância aceitável para o Master Tester - examine o exame como Master Tester para atribuir novamente o resultado.
Essa abordagem garante que o Master Tester seja responsável pela correlação e pelo significado aceitável. A correlação pode ser tão simples quanto a pontuação da parte 1 ou 2 ou a pontuação relativa das questões do teste 1 ou 2.
O Master Tester também poderá definir uma qualidade de resultado para a Parte # 2 com base no "emborrachamento" da correlação.
fonte