Existe uma razão estatística para a análise da item / teoria da resposta não ser mais amplamente aplicada? Por exemplo, se um professor faz um teste de múltipla escolha de 25 perguntas e descobre que 10 perguntas foram respondidas corretamente por todos, 10 perguntas foram respondidas por uma fração muito baixa (digamos 10%) e as 5 restantes foram respondidas por aproximadamente 50% das pessoas . Não faz sentido reponderar as pontuações para que questões difíceis ganhem mais peso?
E, no entanto, no mundo real, os testes quase sempre têm todas as questões igualmente ponderadas. Por quê?
O link abaixo discute os índices de discriminação e outras medidas de dificuldade para escolher quais perguntas são as melhores: http://fcit.usf.edu/assessment/selected/responsec.html
Parece, porém, que o método de descobrir o índice de discriminação de perguntas é usado apenas de forma prospectiva (por exemplo, se uma pergunta não discriminar bem, jogue-a). Por que os testes não são ponderados novamente para a população atual?
fonte
Um primeiro argumento tem a ver com transparência. @ rolando2 já fez este ponto. Os alunos querem saber ex ante quanto vale cada item.
Um segundo argumento é que os pesos não refletem apenas o grau de dificuldade de uma pergunta, mas também o grau de importância que o instrutor atribui a uma pergunta. De fato, o objetivo de um exame é testar e certificar conhecimentos e competências. Como tal, os pesos atribuídos a diferentes perguntas e itens devem ser definidos previamente pelo professor. Você não deve esquecer que "todos os modelos estão errados e apenas alguns são úteis". Nesse caso, pode-se ter algumas dúvidas sobre a utilidade.
Dito isto, acho que a análise estatística (mais ou menos sofisticada) poderia ocorrer ex-post, para a análise dos resultados. Lá, pode render algumas idéias interessantes. Agora, se isso é feito e em que grau é feito, certamente depende das habilidades estatísticas do professor.
fonte
Eu queria esclarecer a questão original. Na teoria da resposta ao item, a discriminação (ou seja, inclinação do item ou carga fatorial) não é indicativa de dificuldade. O uso de um modelo que permita variar a discriminação de cada item está efetivamente ponderando-os de acordo com a correlação estimada com a variável latente, não pela dificuldade.
Em outras palavras, um item mais difícil pode ser ponderado se for estimado como não correlacionado com a dimensão do interesse e vice-versa, um item mais fácil poderá ser ponderado se for estimado como altamente correlacionado.
Eu concordo com as respostas anteriores que apontam para (a) a falta de conhecimento dos métodos de resposta ao item entre os praticantes, (b) o fato de que o uso desses modelos requer algum conhecimento técnico, mesmo que alguém esteja ciente de suas vantagens (especialmente a capacidade de avaliar o ajuste do modelo de medição), (c) as expectativas do aluno, conforme apontado por @ rolando2, e por último mas não menos importante (d) as considerações teóricas que os instrutores podem ter para ponderar diferentes itens de maneira diferente. No entanto, eu queria mencionar que:
Nem todos os modelos de teoria de resposta a itens permitem variação do parâmetro de discriminação, onde o modelo Rasch é provavelmente o exemplo mais conhecido de um modelo em que as discriminações entre itens são mantidas constantes. Sob a família de modelos Rasch, a pontuação da soma é uma estatística suficiente para a pontuação da resposta ao item; portanto, não haverá diferença na ordem dos entrevistados e as únicas diferenças práticas serão apreciadas se as 'distâncias' entre a pontuação grupos são considerados.
Existem pesquisadores que defendem o uso da teoria clássica dos testes (que se baseia no uso tradicional das pontuações da soma ou da média correta) por razões teóricas e empíricas. Talvez o argumento mais utilizado seja o fato de que as pontuações geradas na teoria de resposta ao item são efetivamente muito semelhantes às produzidas na teoria clássica dos testes. Veja, por exemplo, o trabalho de Xu & Stone (2011), Utilizando estimativas de características da TRI versus escores somados na previsão de resultados , medição educacional e psicológica , onde eles relatam correlações acima de 0,97 sob uma ampla variedade de condições.
fonte
A pontuação de um aluno não deve se basear no que ele sabe e responde no teste, e não no que os demais alunos fazem?
Se você fez o mesmo teste em 2 anos diferentes e teve 2 alunos (1 em cada) que responderam exatamente às mesmas perguntas corretamente (sem trapaça), faz realmente sentido que eles recebessem notas diferentes com base no quanto os outros alunos a classe deles estudou?
E, pessoalmente, não quero motivar nenhum aluno a sabatoge seus colegas de classe no lugar de aprender o material.
O IRT pode fornecer algumas dicas sobre o teste, mas eu não o usaria para pesar ativamente as pontuações.
Quando penso em pesos, acho que alguém deve obter mais pontos por corrigir uma pergunta difícil, mas deve perder mais pontos por ter uma pergunta fácil errada. Combine-os e você ainda terá o mesmo peso. Ou, na verdade, tento ponderar com base no tempo ou esforço necessário para responder à pergunta, para que alguém que responda às perguntas em uma ordem diferente não tenha vantagem em um teste cronometrado.
fonte