Como a fórmula da profecia de Spearman-Brown é afetada por questões de diferentes dificuldades?

10

Como os resultados da fórmula de profecia de Spearman-Brown são afetados por ter perguntas de teste de diferentes dificuldades ou avaliadores que são graduadores fáceis ou difíceis. Um texto respeitado diz que o SB é afetado, mas não fornece detalhes. (Veja a citação abaixo.)

Guion, R.M (2011). Avaliação, Medição e Previsão para Decisões de Pessoal, 2ª edição. Pág. 477

"A confiabilidade pode ser aumentada através da associação de avaliadores, usando a equação de Spearman-Brown. ... Se a confiabilidade de uma única classificação for 0,50, a confiabilidade de duas, quatro ou seis classificações paralelas será de aproximadamente 0,67, 0,80 e .86, respectivamente "(Houston, Raymond, & Svec, 1991, p. 409). Gosto dessa citação porque a palavra reconhece aproximadamente que as estimativas estatísticas são declarações "na média" do que seria de esperar se tudo correr como assumido. Além disso, a palavra operativa é paralela. A média das classificações (ou o uso de Spearman-Brown) se um avaliador é, por exemplo, sistematicamente indulgente, simplesmente não se encaixa na suposição. Se os ensaios são classificados por dois avaliadores, um mais tolerante que o outro, o problema é como o de usar dois testes de múltipla escolha de dificuldade desigual (formas não paralelas). Pontuações com base em formulários de teste diferentes (não equivalentes) não são comparáveis. O mesmo acontece com a mistura de avaliadores indulgentes e difíceis; a confiabilidade das classificações agrupadas é incorretamente estimada pela equação de Spearman-Brown da teoria clássica dos testes. As questões são piores se cada juiz definir um construto de maneira um pouco diferente. "

Joel W.
fonte
11
Acho que o problema de procurar uma fonte confiável é que a resposta vem da teoria dos testes, e é meio óbvio se você entender a teoria subjacente e, em particular, as limitações de nossa capacidade de avaliar a confiabilidade. É por isso que Guion não se importa em explicar. Mas, de qualquer forma, boa sorte na sua pesquisa - talvez alguém, em algum lugar, saiba uma explicação melhor.
Jeremy Miles

Respostas:

10

Embora eu me sinta um pouco envergonhado por contradizer um "texto respeitado" e outro usuário de currículo, parece-me que a fórmula de Spearman-Brown não é afetada por ter itens de dificuldade diferente. Certamente, a fórmula de Spearman-Brown é geralmente derivada sob a suposição de que temos itens paralelos , o que implica (entre outras coisas) que os itens têm a mesma dificuldade. Mas acontece que essa suposição não é necessária; pode ser relaxado para permitir dificuldades desiguais, e a fórmula de Spearman-Brown ainda se mantém. Eu demonstro isso abaixo.


Lembre-se de que na teoria clássica de teste, uma medição é assumida como a soma de um componente "pontuação verdadeira" e um componente de erro , ou seja, com e não correlacionados. A suposição de itens paralelos é que todos os itens têm as mesmas pontuações verdadeiras, diferindo apenas em seus componentes de erro, embora se presuma que tenham variância igual. Em símbolos, para qualquer par de itens e , XTE

X=T+E,
TEXX
T=Tvar(E)=var(E).
Vamos ver o que acontece quando relaxamos a primeira suposição, para que os itens possam diferir em suas dificuldades e, em seguida, derivar a confiabilidade de uma pontuação total do teste sob essas novas suposições. Especificamente, suponha que as pontuações verdadeiras possam diferir por uma constante aditiva, mas os erros ainda têm a mesma variação. Nos símbolos, Quaisquer diferenças de dificuldade são capturadas pela constante aditiva. Por exemplo, se , as pontuações em tendem a ser mais altas que as pontuações em , de modo que é "mais fácil" que . Podemos chamar isso de essencialmente paralelo
T=T+cvar(E)=var(E).
c>0XXXXitens, em analogia à suposição de "equivalência tau essencial" que relaxa o modelo equivalente tau de maneira semelhante.

Agora, para derivar a confiabilidade de uma forma de teste desses itens. Considere um teste que consiste em itens essencialmente paralelos, cuja soma dá a pontuação do teste. Confiabilidade é, por definição, a razão entre a variação verdadeira da pontuação e a variação observada da pontuação. Para a confiabilidade dos itens individuais, decorre da definição de paralelismo essencial que eles têm a mesma confiabilidade, que denotamos com , com sendo a variação verdadeira da pontuação e a variação do erro. Para a confiabilidade da pontuação total do teste, examinamos primeiro a variação da pontuação total do teste, que é kρ=σT2/(σT2+σE2)σT2σE2

var(i=1kTi+Ei)=var(i=1kT+ci+Ei)=k2σT2+kσE2,
onde (sem subscrito) é qualquer pontuação verdadeira arbitrária na qual todas as pontuações verdadeiras dos itens podem ser alteradas através de seus termos constantes, é a variação verdadeira da pontuação e é a variação do erro. Observe que os termos constantes desaparecem! Isso é fundamental. Portanto, a confiabilidade da pontuação total do teste é TσT2σE2
k2σT2k2σT2+kσE2=kσT2kσT2+σX2σT2=kρ1+(k1)ρ,
que é apenas a fórmula clássica de Spearman-Brown, inalterada. O que isso mostra é que, mesmo ao variar a "dificuldade" dos itens, definidos como suas pontuações médias, a fórmula de Spearman-Brown ainda é válida.

O @JeremyMiles levanta alguns pontos interessantes e importantes sobre o que pode acontecer quando aumentamos a duração do teste "no mundo real", mas pelo menos de acordo com as premissas idealizadas da teoria clássica dos testes, variações na dificuldade do item não importam para a confiabilidade de um formulário de teste (em forte contraste com as suposições da moderna teoria de resposta ao item!). Essa mesma linha básica de raciocínio também é o motivo pelo qual geralmente falamos de equivalência tau essencial em vez de equivalência tau, porque a maioria dos resultados importantes se aplica ao caso mais brando em que as dificuldades dos itens (ou seja, meios) podem diferir.

Jake Westfall
fonte
2
Sim, bom argumento. O que escrevi não é necessariamente válido.
Jeremy Miles
5

Não é fácil dizer.

Primeiro, o Spearman-Brown assume que os itens de teste (ou avaliadores) são amostrados aleatoriamente em uma população de itens de teste (ou avaliadores). Isso nunca é realmente verdade, principalmente nos testes, porque criar mais itens é difícil, e é provável que você use os melhores itens para começar - então você descobrirá que o teste precisa ser mais longo, então você 'raspe o barril' para itens.

Segundo, os itens variam em termos de confiabilidade e a confiabilidade não está necessariamente relacionada à dificuldade (se ajudar, pense na inclinação e na interceptação da curva característica do item na teoria da resposta ao item). No entanto, o cálculo da confiabilidade (digamos, o alfa de Cronbach, que é uma forma de correlação intra-classe) assume que as confiabilidade são todas iguais (elas assumem um modelo essencial de medição equivalente a tau - ou seja, que as confiabilidade não padronizadas de cada item são todas igual). Isso quase certamente está errado. A adição de itens pode aumentar ou diminuir. Isso depende dos itens

Aqui está outra maneira de pensar sobre isso. Seleciono aleatoriamente uma amostra de uma população e calculo a média e o erro padrão da média. Essa média será um estimador imparcial da média da população. Aumentei o tamanho da minha amostra - o valor esperado da média é o mesmo, mas é improvável que realmente seja o mesmo - quase certamente aumentará ou diminuirá. Assim como eu espero que o erro padrão fique menor, mas a quantidade diminuída não será consistente (e não é impossível que o erro padrão fique maior).

Jeremy Miles
fonte
A fórmula SB fornece o valor mínimo, máximo ou algum valor intermediário para a confiabilidade esperada? Além disso, como as confiabilidade são calculadas em termos de correlações, por que itens fáceis / difíceis ou avaliadores têm algum efeito?
Joel W.
A fórmula SB fornece a confiabilidade esperada. Pode ser maior ou menor que isso. Um problema é que há mais de uma maneira de calcular a confiabilidade, e as suposições que eles fazem raramente são satisfeitas. A coisa toda está meio enraizada na teoria clássica de teste - a teoria da resposta ao item é uma maneira mais moderna de pensar em medição, e faz mais sentido a maior parte do tempo, por exemplo, a confiabilidade de um teste não é a mesma para cada pessoa na TRI.
Jeremy Miles
Se uma pergunta for muito difícil ou muito fácil, ela poderá afetar a correlação. Por exemplo, "7 * 11" pode ser uma pergunta confiável para a 3ª série, mas para os estudantes de matemática, não é.
Jeremy Miles
11
<o teste precisa ser mais longo, então você vai "raspar o barril" em busca de itens. Claramente, você teve experiência no mundo real montando testes.
Joel W.