Como determinar de forma justa os vencedores de uma feira de ciências regional?

Preciso de ajuda para descobrir a maneira correta de calcular os vencedores em nossa feira de ciências. Não quero que minha ignorância sobre estatística e matemática atrapalhe as chances de uma criança vencer. (muitos benefícios de bolsas e avanços em jogo). Agradeço antecipadamente por sua ajuda.

Primeiro, um pequeno histórico de como configuramos as coisas:

Nossa feira normalmente tem cerca de 600 projetos de estudantes. Esses projetos são concluídos e apresentados por alunos individuais ou por uma equipe de estudantes. Uma equipe pode consistir em 2 ou 3 crianças.

Os alunos são divididos em duas divisões: Elementar (séries 6-8) e Secundária (séries 9-12). Cada divisão possui categorias diferentes: 9 categorias para projetos elementares e 17 categorias para os projetos de divisão secundária.

Os prêmios são concedidos pelo primeiro, segundo e terceiro lugar para cada categoria em cada divisão. Também são concedidos prêmios de menção honrosa por estágios além do terceiro lugar.

Para cada projeto, designamos entre 4 a 6 juízes. Realizamos nossas designações com base nas qualificações dos juízes, na preferência de categoria e na experiência anterior de julgamento. (mais experientes são designados para os projetos da divisão sênior).

Como os juízes classificam um projeto:

Para cada projeto, existem 5 critérios aos quais são atribuídos pontos. Cada critério pode ser concedido entre 1 e 20 pontos. Os critérios gerais são:

Objetivo geral + hipótese + uso de recursos ( 1..20 )
Projeto + procedimentos ( 1..20 )
Coleta de dados + resultados ( 1..20 )
Discussão + conclusão ( 1..20 )
Entrevista ( 1..20 )

Para projetos de equipe, é avaliado um sexto critério chamado "dedução de equipe", em que um juiz pode deduzir pontos ( até 15 ) para colegas de equipe que não participaram ou não compareceram.

Dedução da equipe ( 0 ..- 15 )

Assim, um juiz pode pontuar todos os projetos entre 5 e 100 pontos. Se o projeto for um projeto de equipe, a pontuação poderá ser reduzida em 15 pontos.

Dados não tratados:

Durante algumas horas, coletamos até 3.600 notas dos juízes. Essas pontuações são inseridas em um banco de dados onde eu posso fazer todos os tipos de classificação, média, cálculos de desvio padrão etc. Apenas não sei exatamente o que devo fazer com essas pontuações brutas. No momento, estou fazendo uma média simples para cada projeto, mas me preocupo com o fato de não estar me ajustando a vieses de juízes, deduções de equipe ou qualquer outra coisa que não estou considerando.

Resultado desejado:

No final, eu gostaria de processar as pontuações para poder premiar o primeiro, o segundo e o terceiro lugar em projetos para cada categoria e, em seguida, menção honrosa aos prêmios nos lugares subseqüentes. Gostaria de ter certeza de que as posições foram calculadas corretamente e que as crianças vencedoras merecem o reconhecimento (e os prêmios).

Muito obrigado por ler minha longa pergunta e por sua ajuda para descobrir isso. Ficarei feliz em responder a quaisquer perguntas de acompanhamento que você possa ter.

data-transformation standard-deviation rating Mike Davie
fonte

Pergunta interessante e difícil e você apontou alguns dos principais problemas. Quantos juízes no total, quantos projetos cada juiz julgaria? (alguma idéia do intervalo e da média seria boa). Além disso, as 26 categorias são mutuamente exclusivas? Tenho um palpite de que a melhor resposta pode ser apenas a média de cada projeto, mas pode ser possível ajustar os juízes. Vou ler as respostas com interesse!

Peter Ellis

Obrigado pelo seu interesse inicial. Adicionei mais informações à resposta abaixo. Se você tiver alguma ideia, agradeceria sua ajuda.

Mike Davie

Eu acho que "resposta" é possivelmente um rótulo generoso demais para meus pensamentos aqui. Adoro a análise exploratória de dados e sou um grande fã de boxplot, de modo que isso será refletido nos meus comentários.

Olá, são muitas pontuações. :) Parece que você tem pelo menos 78 projetos dentre os 600 que estão entre os 3 primeiros ( [9+17]x3) mais as menções honrosas. Normalmente, eu diria que é necessário amostrar do topo e do meio de cada categoria para realizar uma auditoria de pontuação, mas isso seria muito oneroso no seu caso por causa dos números que você tem - e é só você finalizando a pontuação. :)

Espero que você tenha um pacote de estatísticas disponível para você, pois tenho algumas sugestões que você pode usar abaixo.

Você já observou a distribuição de pontuações em cada categoria? Os 3, 5 ou 8 melhores projetos estão muito próximos das pontuações? Isso sugere que a qualidade dos projetos é muito semelhante e não importa o que você faça, provavelmente haverá pelo menos uma percepção de arbitrariedade em torno das pontuações finais.

Não tenho certeza de quantos projetos cada juiz pontua. Supondo que eles tenham um número razoável (digamos> 10, embora quanto maior, melhor aqui), para cada juiz você pode calcular a mediana e o intervalo interquartil para a pontuação total atribuída a cada projeto que eles avaliam (você tem tantos atributos, provavelmente não é vale a pena olhar para cada um deles individualmente). Parece que alguns juízes estão dando notas particularmente altas ou notas particularmente baixas? Se algum juiz parece estar pontuando consistentemente no meio, de modo que possivelmente está dando 10s, isso pode ser demonstrado por um intervalo interquartil comparativamente pequeno e uma mediana da pontuação total em torno do meio do intervalo de valores possíveis.

Para os projetos de equipe, você pode comparar a colocação deles com base na pontuação total, com a colocação deles depois que a dedução da equipe for aplicada. As deduções das equipes estão afetando as equipes que, de outra forma, estariam entre as 3 principais?

Estas são apenas sugestões para você começar. Acho que visualizar os dados nesse sentido forneceria bons indicadores sobre se as veiculações parecem justas.

Atualização: este é um problema curiosamente difícil que você possui. Parece que cada juiz individual não avalia projetos suficientes para que possamos criar um fator de ponderação para cada juiz (para levar em consideração o viés do juiz), porque não temos dados suficientes para medir inter - confiabilidade dos avaliadores entre os juízes, simplesmente não há sobreposição suficiente para os juízes que pontuam nos mesmos projetos para fazer isso. Você olhou para a faixa de pontuação dos poucos projetos principais - havia diferenças claras entre eles e os projetos de pontuação mais baixa (limites naturais?), Qual a pontuação dos projetos principais?

Por curiosidade, os juízes receberam critérios de pontuação, portanto, eles tiveram pouca flexibilidade em como dar notas em cada critério (por exemplo, dê 1 ponto por fornecer uma hipótese nula, 1 ponto por fornecer uma ou mais hipóteses alternativas ...) ou eles sabiam o número total de pontos que poderiam conceder e o resto ficou por conta deles? Se eles tivessem um guia de pontuação, eu ficaria mais confiante de que as pontuações eram razoavelmente precisas.

Michelle
fonte

Eu também ficaria curioso quanto à disseminação das pontuações - há claramente algumas "pontuações mais altas" ou há um grupo e quem sai por cima disso é um pouco ... opaco em termos de processo. Como as admissões da faculdade processar essas crianças irão experimentar mais tarde :)

fomite

Obrigado Michelle por seus pensamentos. Eu realmente aprecio você tomar o seu tempo. Para responder às suas perguntas, os juízes julgam apenas um pequeno número de projetos. Temos mínimos para cada divisão: 4 vezes para o ensino fundamental e 5 ou 6 para o ensino médio (5 vezes para o ensino médio e 6 vezes para o ensino médio).

Mike Davie

Eu preciso esclarecer o acima. As pontuações mínimas são por projeto, não quantas vezes os juízes pontuarão projetos durante a feira. Um juiz típico julgará entre 8 e 15 projetos durante a feira. Esse número depende da disponibilidade dos juízes, suas qualificações, disposição para ajudar etc.

Mike Davie

Boa resposta, Michelle. Algumas idéias minhas: 1) Definitivamente, dê aos juízes algum tipo de rubrica para tentar incentivar padrões comuns; 2) tente ter o mesmo número de juízes por projeto, se possível (caso contrário, os projetos com menos juízes terão uma variação maior e, portanto, mais chances de chegar ao topo - ou ao fundo) e 3) Acho que você terá que basta usar uma média, mas se você tivesse a experiência e o software, poderia ajustar um modelo de efeitos mistos com juiz como efeito aleatório e verificar se isso altera o resultado. E se acontecer? Provavelmente ainda usam a média ....

Peter Ellis

Mais uma vez obrigado pela contribuição de todos. Depois de deixar isso passar na minha cabeça por um tempo, decidi ver como os projetos são classificados no nível internacional (uma etapa da competição acima da nossa feira). A feira internacional é chamada ISEF. Enviamos nossos 5 melhores alunos para o ISEF a cada ano.

precisa

Como determinar de forma justa os vencedores de uma feira de ciências regional?

Respostas: