Eu trabalho para uma organização que supervisiona cerca de 180 escolas em todo o país. Coletamos regularmente dados de resultados dessas escolas e os classificamos. Foi-me pedido que fizesse uma pesquisa no escritório nacional (cerca de 100 pessoas) para determinar quais são as melhores e as piores escolas percebidas , com base na impressão da qualidade da escola, não baseada em dados, dos funcionários.
Algumas informações adicionais:
- Nem todos os funcionários estão familiarizados com todas as escolas. Quando solicitado a classificar uma escola "Eu não sei nada sobre esta escola" precisa ser uma opção.
- Alguns funcionários trabalham com um subconjunto específico de escolas, portanto, o conhecimento desses funcionários é ótimo para essas escolas específicas.
Minha primeira abordagem seria gerar aleatoriamente conjuntos de 10 escolas, com cada escola em 6 ou mais. Em seguida, peça a cada membro da equipe para classificar cada conjunto, indicando quais escolas são desconhecidas. Eu poderia, então, calcular a média da classificação de cada escola em seus conjuntos e usá-la como classificação global.
O método descrito acima é viável? Existe uma maneira melhor? Se dessa maneira funcionar, quantos pontos de dados eu preciso para cada escola para que a classificação agregada seja representativa?
fonte
Respostas:
Você pode usar um modelo do tipo Bradley-Terry-Luce com base em comparações aos pares. Gere aleatoriamente (ou não) um monte de pares de escolas e peça a cada membro da equipe que olhe para vários pares e diga qual é o par melhor (ou um "eu não sei" se eles não têm familiaridade com uma ou ambas as escolas) ) Em seguida, conecte esses dados ao modelo para obter a classificação.
Existe um pacote BradleyTerry2 para R que se encaixa nesses modelos.
fonte