Preciso de ajuda para descobrir a maneira correta de calcular os vencedores em nossa feira de ciências. Não quero que minha ignorância sobre estatística e matemática atrapalhe as chances de uma criança vencer. (muitos benefícios de bolsas e avanços em jogo). Agradeço antecipadamente por sua ajuda.
Primeiro, um pequeno histórico de como configuramos as coisas:
Nossa feira normalmente tem cerca de 600 projetos de estudantes. Esses projetos são concluídos e apresentados por alunos individuais ou por uma equipe de estudantes. Uma equipe pode consistir em 2 ou 3 crianças.
Os alunos são divididos em duas divisões: Elementar (séries 6-8) e Secundária (séries 9-12). Cada divisão possui categorias diferentes: 9 categorias para projetos elementares e 17 categorias para os projetos de divisão secundária.
Os prêmios são concedidos pelo primeiro, segundo e terceiro lugar para cada categoria em cada divisão. Também são concedidos prêmios de menção honrosa por estágios além do terceiro lugar.
Para cada projeto, designamos entre 4 a 6 juízes. Realizamos nossas designações com base nas qualificações dos juízes, na preferência de categoria e na experiência anterior de julgamento. (mais experientes são designados para os projetos da divisão sênior).
Como os juízes classificam um projeto:
Para cada projeto, existem 5 critérios aos quais são atribuídos pontos. Cada critério pode ser concedido entre 1 e 20 pontos. Os critérios gerais são:
- Objetivo geral + hipótese + uso de recursos ( 1..20 )
- Projeto + procedimentos ( 1..20 )
- Coleta de dados + resultados ( 1..20 )
- Discussão + conclusão ( 1..20 )
- Entrevista ( 1..20 )
Para projetos de equipe, é avaliado um sexto critério chamado "dedução de equipe", em que um juiz pode deduzir pontos ( até 15 ) para colegas de equipe que não participaram ou não compareceram.
- Dedução da equipe ( 0 ..- 15 )
Assim, um juiz pode pontuar todos os projetos entre 5 e 100 pontos. Se o projeto for um projeto de equipe, a pontuação poderá ser reduzida em 15 pontos.
Dados não tratados:
Durante algumas horas, coletamos até 3.600 notas dos juízes. Essas pontuações são inseridas em um banco de dados onde eu posso fazer todos os tipos de classificação, média, cálculos de desvio padrão etc. Apenas não sei exatamente o que devo fazer com essas pontuações brutas. No momento, estou fazendo uma média simples para cada projeto, mas me preocupo com o fato de não estar me ajustando a vieses de juízes, deduções de equipe ou qualquer outra coisa que não estou considerando.
Resultado desejado:
No final, eu gostaria de processar as pontuações para poder premiar o primeiro, o segundo e o terceiro lugar em projetos para cada categoria e, em seguida, menção honrosa aos prêmios nos lugares subseqüentes. Gostaria de ter certeza de que as posições foram calculadas corretamente e que as crianças vencedoras merecem o reconhecimento (e os prêmios).
Muito obrigado por ler minha longa pergunta e por sua ajuda para descobrir isso. Ficarei feliz em responder a quaisquer perguntas de acompanhamento que você possa ter.
fonte
Respostas:
Eu acho que "resposta" é possivelmente um rótulo generoso demais para meus pensamentos aqui. Adoro a análise exploratória de dados e sou um grande fã de boxplot, de modo que isso será refletido nos meus comentários.
Olá, são muitas pontuações. :) Parece que você tem pelo menos 78 projetos dentre os 600 que estão entre os 3 primeiros (
[9+17]x3
) mais as menções honrosas. Normalmente, eu diria que é necessário amostrar do topo e do meio de cada categoria para realizar uma auditoria de pontuação, mas isso seria muito oneroso no seu caso por causa dos números que você tem - e é só você finalizando a pontuação. :)Espero que você tenha um pacote de estatísticas disponível para você, pois tenho algumas sugestões que você pode usar abaixo.
Você já observou a distribuição de pontuações em cada categoria? Os 3, 5 ou 8 melhores projetos estão muito próximos das pontuações? Isso sugere que a qualidade dos projetos é muito semelhante e não importa o que você faça, provavelmente haverá pelo menos uma percepção de arbitrariedade em torno das pontuações finais.
Não tenho certeza de quantos projetos cada juiz pontua. Supondo que eles tenham um número razoável (digamos> 10, embora quanto maior, melhor aqui), para cada juiz você pode calcular a mediana e o intervalo interquartil para a pontuação total atribuída a cada projeto que eles avaliam (você tem tantos atributos, provavelmente não é vale a pena olhar para cada um deles individualmente). Parece que alguns juízes estão dando notas particularmente altas ou notas particularmente baixas? Se algum juiz parece estar pontuando consistentemente no meio, de modo que possivelmente está dando 10s, isso pode ser demonstrado por um intervalo interquartil comparativamente pequeno e uma mediana da pontuação total em torno do meio do intervalo de valores possíveis.
Para os projetos de equipe, você pode comparar a colocação deles com base na pontuação total, com a colocação deles depois que a dedução da equipe for aplicada. As deduções das equipes estão afetando as equipes que, de outra forma, estariam entre as 3 principais?
Estas são apenas sugestões para você começar. Acho que visualizar os dados nesse sentido forneceria bons indicadores sobre se as veiculações parecem justas.
Atualização: este é um problema curiosamente difícil que você possui. Parece que cada juiz individual não avalia projetos suficientes para que possamos criar um fator de ponderação para cada juiz (para levar em consideração o viés do juiz), porque não temos dados suficientes para medir inter - confiabilidade dos avaliadores entre os juízes, simplesmente não há sobreposição suficiente para os juízes que pontuam nos mesmos projetos para fazer isso. Você olhou para a faixa de pontuação dos poucos projetos principais - havia diferenças claras entre eles e os projetos de pontuação mais baixa (limites naturais?), Qual a pontuação dos projetos principais?
Por curiosidade, os juízes receberam critérios de pontuação, portanto, eles tiveram pouca flexibilidade em como dar notas em cada critério (por exemplo, dê 1 ponto por fornecer uma hipótese nula, 1 ponto por fornecer uma ou mais hipóteses alternativas ...) ou eles sabiam o número total de pontos que poderiam conceder e o resto ficou por conta deles? Se eles tivessem um guia de pontuação, eu ficaria mais confiante de que as pontuações eram razoavelmente precisas.
fonte