Como posso usar esses dados para calibrar marcadores com diferentes níveis de generosidade na classificação dos trabalhos dos alunos?

9

12 professores estão ensinando 600 alunos. As 12 coortes ensinadas por esses professores variam em tamanho de 40 a 90 alunos, e esperamos diferenças sistemáticas entre as coortes, já que os alunos de pós-graduação foram desproporcionalmente alocados a coortes particulares, e experiências anteriores mostraram que os alunos de pós-graduação, em média, obtêm uma pontuação consideravelmente superior a os estudantes de graduação.

Os professores classificaram todos os trabalhos de sua coorte e atribuíram a eles uma nota de 100.

Cada professor também examinou um trabalho selecionado aleatoriamente de três outros professores e atribuiu uma nota a 100. Cada professor teve três de seus trabalhos marcados por outro professor. Assim, 36 documentos diferentes foram cruzados dessa maneira, e eu os chamo de dados de calibração.

Também posso ver quantos estudantes de pós-graduação estavam em cada coorte.

Minhas perguntas são:

A) Como posso usar esses dados de calibração para ajustar as marcas originais, a fim de torná-las mais justas? Em particular, eu gostaria de lavar o máximo possível os efeitos de fabricantes excessivamente generosos / não generosos.

B) Quão apropriados são meus dados de calibração? Não tive escolha nos 36 pontos de dados de calibração que eu obtive neste curso, e não tenho mais opção de coletar mais durante o semestre atual. No entanto, se essa situação persistir, talvez eu consiga coletar mais dados de calibração ou coletar diferentes tipos de dados de calibração.

Esta pergunta é um parente de uma pergunta popular que eu fiz: Como posso lidar melhor com os efeitos de marcadores com diferentes níveis de generosidade na classificação dos trabalhos dos alunos? . No entanto, é um curso diferente e não tenho certeza de quão útil seria a leitura dessa pergunta como pano de fundo para a atual, já que o principal problema era que eu não tinha dados de calibração.

teaching agreement-statistics user1205901 - Restabelecer Monica
fonte

6

Parece uma ótima oportunidade para usar um sistema de recomendação de fatoração matricial . Resumidamente, isso funciona da seguinte maneira:

Coloque suas observações em uma matriz parcialmente observada , onde é o professor de pontuação dei ao aluno . $M$ $M_{ij}$ $i$ $j$
Assume-se que esta matriz é o produto exterior de alguns vectores característicos latentes, e --que é, . $\vec t$ $\vec s$ $M_{ij} = t_i s_j$
Resolva os vetores de recurso latentes que minimizam o erro de reconstrução ao quadrado (onde a soma varia sobre todas as células observadas de ). $\sum_{i,j} (t_is_j - M_{ij})^2$ $M$
Você pode fazer esse estilo de maximização de expectativa fixando uma suposição para resolvendo por por mínimos quadrados, depois fixando essa suposição para resolvendo por iterando até a convergência. $\vec t$ $\vec s$ $\vec s$ $\vec t$

Observe que isso faz uma suposição bastante forte na forma do viés de um professor - em particular, se você considerar os recursos latentes dos alunos como sua "pontuação verdadeira", o viés de um professor multiplica cada pontuação verdadeira por uma quantidade constante (para torne-o aditivo. Você exponentaria as pontuações inseridas na matriz e aprenderia os exponenciais das "pontuações verdadeiras"). Com tão poucos dados de calibração, você provavelmente não pode ir muito longe sem fazer uma forte suposição deste formulário, mas se você tiver mais dados, poderá adicionar uma segunda dimensão de recursos latentes etc. (por exemplo, suponha e tente novamente minimizar o erro de reconstrução ao quadrado). $M_{ij} = \sum_{k=1}^n s_{ik} t_{kj}$

EDIT: para ter um problema bem definido, você precisa ter mais operações matriciais que parâmetros latentes (ou pode usar algum tipo de regularização). Você apenas tem isso aqui (você tem 636 observações e 612 parâmetros latentes), então a fatoração da matriz pode não funcionar muito bem - eu não trabalhei com eles em amostras tão pequenas, então realmente não sei.

Se a calibração for insuficiente para usar um bom modelo de recomendação, tente uma regressão multinível Score ~ IsGradStudent + <whatever other student covariates you have> + (1|Teacher)(ignorando os dados de calibração) para extrair estimativas de um viés aditivo do professor e verifique se esse viés é consistente com os dados de calibração que você tomou. (Você deve permitir heterocedasticidade pelo professor, se possível.) Isso é mais ad-hoc, mas pode causar problemas menos graves de coleta de dados.

Ben Kuhn
fonte

Para expandir isso, eu provavelmente começaria com um modelo simples com efeitos fixos do professor e erros padrão robustos potencialmente agrupados (consulte esta postagem do blog para uma discussão sobre isso em R) e depois compararia os efeitos fixos de qualquer discrepância. Em R, algo como lm(score ~ gradStudent + ... + teacherIDdeveria fazê-lo.

Iacobus

2

Aqui estão algumas abordagens relacionadas.

Pegue o conjunto de trabalhos marcados por mais de um professor, pois esses contêm mais informações sobre os efeitos do professor e, fora deles, os efeitos do professor e da coorte são confundidos (se houver alguma maneira de obter o efeito da coorte - talvez via GPA ou algum outro preditor, por exemplo, você poderá usar todos os dados, mas isso complicará bastante os modelos).

Rotule os alunos e os marcadores . Seja o conjunto de marcas . $i=1,2, ... n$ $j=1, 2, ...,m$ $y_{ij}, i=1,2, ... m$

Primeiro, você deve considerar seu modelo para saber como o efeito do marcador se aplica. É aditivo? É multiplicativo? Você precisa se preocupar com os efeitos de contorno (por exemplo, seria melhor um efeito aditivo ou multiplicativo em uma escala de logit)?

Imagine dois marcadores em dois papéis e imagine que o segundo marcador seja mais generoso. Digamos que o primeiro marcador daria os papéis 30 e 60. O segundo marcador tenderá a adicionar um número constante de marcas (digamos 6 marcas) a ambas? Eles tendem a adicionar porcentagens constantes (digamos 10% para ambos, ou 3 pontos versus 6 pontos)? E se o primeiro marcador der 99? - o que aconteceria então? E quanto a 0? E se o segundo marcador fosse menos generoso? o que aconteceria em 99 ou 0? (é por isso que mencionei um modelo de logit - é possível tratar as marcas como uma proporção das possíveis marcas ( ), e o efeito do marcador pode ser adicionar uma constante (por exemplo) para o logit de - ie ). $p_{ij}=m_{ij}/100$ $p$ $\log(p_{ij}/(1-p_{ij})$

(Você não terá dados suficientes aqui para estimar a forma de generosidade e seu tamanho. Você deve escolher um modelo a partir da sua compreensão da situação. Você também precisará ignorar qualquer possibilidade de interação; você não tem os dados para isso)

Possibilidade 1 - modelo aditivo simples. Isso pode ser adequado se nenhuma marca for realmente próxima de 0 ou 100:

Considere um modelo como $E(y_{ij}) = \mu_{i}+\tau_j$

Esta é essencialmente uma ANOVA de duas vias. Você precisa de restrições quanto a isso, portanto, você pode configurar uma codificação de desvio / configurar o modelo para que os efeitos do marcador sejam 0 ou configurar um modelo em que um marcador é a linha de base (cujo efeito é 0 e cujas marcas você deseja). tentará ajustar todos os outros marcadores para).

Depois, pegue os valores e ajuste a população maior de marcas . $\hat{\tau}_j$ $y_{kj}^\text{adj}=y_{kj}-\hat{\tau}_j$

Possibilidade 2: Com efeito, um tipo de idéia semelhante, mas . Aqui você pode ajustar um modelo de mínimos quadrados não-lineares ou um GLM com um link de log (eu provavelmente me inclinaria para o segundo desses dois). Novamente, você precisa de uma restrição nos s. $E(y_{ij}) = \mu_{i}\tau_j$ $\tau$

Então, um ajuste adequado seria dividir por . $\hat{\tau_j}$

Possibilidade 3: aditivo na escala logit. Isso pode ser mais adequado se algumas marcas chegarem perto de 0 ou 100. Aparecerá aproximadamente multiplicativo para marcas muito pequenas, aditivo para marcas intermediárias e aproximadamente multiplicativo em para marcas muito altas. Você pode usar uma regressão beta ou um GLM quase binomial com link logit para ajustar-se a este modelo. $1-p=(100-m)/100$

Glen_b -Reinstate Monica
fonte

Como posso usar esses dados para calibrar marcadores com diferentes níveis de generosidade na classificação dos trabalhos dos alunos?

Respostas: