Como os resultados da fórmula de profecia de Spearman-Brown são afetados por ter perguntas de teste de diferentes dificuldades ou avaliadores que são graduadores fáceis ou difíceis. Um texto respeitado diz que o SB é afetado, mas não fornece detalhes. (Veja a citação abaixo.)
Guion, R.M (2011). Avaliação, Medição e Previsão para Decisões de Pessoal, 2ª edição. Pág. 477
"A confiabilidade pode ser aumentada através da associação de avaliadores, usando a equação de Spearman-Brown. ... Se a confiabilidade de uma única classificação for 0,50, a confiabilidade de duas, quatro ou seis classificações paralelas será de aproximadamente 0,67, 0,80 e .86, respectivamente "(Houston, Raymond, & Svec, 1991, p. 409). Gosto dessa citação porque a palavra reconhece aproximadamente que as estimativas estatísticas são declarações "na média" do que seria de esperar se tudo correr como assumido. Além disso, a palavra operativa é paralela. A média das classificações (ou o uso de Spearman-Brown) se um avaliador é, por exemplo, sistematicamente indulgente, simplesmente não se encaixa na suposição. Se os ensaios são classificados por dois avaliadores, um mais tolerante que o outro, o problema é como o de usar dois testes de múltipla escolha de dificuldade desigual (formas não paralelas). Pontuações com base em formulários de teste diferentes (não equivalentes) não são comparáveis. O mesmo acontece com a mistura de avaliadores indulgentes e difíceis; a confiabilidade das classificações agrupadas é incorretamente estimada pela equação de Spearman-Brown da teoria clássica dos testes. As questões são piores se cada juiz definir um construto de maneira um pouco diferente. "
fonte
Respostas:
Embora eu me sinta um pouco envergonhado por contradizer um "texto respeitado" e outro usuário de currículo, parece-me que a fórmula de Spearman-Brown não é afetada por ter itens de dificuldade diferente. Certamente, a fórmula de Spearman-Brown é geralmente derivada sob a suposição de que temos itens paralelos , o que implica (entre outras coisas) que os itens têm a mesma dificuldade. Mas acontece que essa suposição não é necessária; pode ser relaxado para permitir dificuldades desiguais, e a fórmula de Spearman-Brown ainda se mantém. Eu demonstro isso abaixo.
Lembre-se de que na teoria clássica de teste, uma medição é assumida como a soma de um componente "pontuação verdadeira" e um componente de erro , ou seja, com e não correlacionados. A suposição de itens paralelos é que todos os itens têm as mesmas pontuações verdadeiras, diferindo apenas em seus componentes de erro, embora se presuma que tenham variância igual. Em símbolos, para qualquer par de itens e ,X T E
Agora, para derivar a confiabilidade de uma forma de teste desses itens. Considere um teste que consiste em itens essencialmente paralelos, cuja soma dá a pontuação do teste. Confiabilidade é, por definição, a razão entre a variação verdadeira da pontuação e a variação observada da pontuação. Para a confiabilidade dos itens individuais, decorre da definição de paralelismo essencial que eles têm a mesma confiabilidade, que denotamos com , com sendo a variação verdadeira da pontuação e a variação do erro. Para a confiabilidade da pontuação total do teste, examinamos primeiro a variação da pontuação total do teste, que ék ρ=σ2T/(σ2T+σ2E) σ2T σ2E
O @JeremyMiles levanta alguns pontos interessantes e importantes sobre o que pode acontecer quando aumentamos a duração do teste "no mundo real", mas pelo menos de acordo com as premissas idealizadas da teoria clássica dos testes, variações na dificuldade do item não importam para a confiabilidade de um formulário de teste (em forte contraste com as suposições da moderna teoria de resposta ao item!). Essa mesma linha básica de raciocínio também é o motivo pelo qual geralmente falamos de equivalência tau essencial em vez de equivalência tau, porque a maioria dos resultados importantes se aplica ao caso mais brando em que as dificuldades dos itens (ou seja, meios) podem diferir.
fonte
Não é fácil dizer.
Primeiro, o Spearman-Brown assume que os itens de teste (ou avaliadores) são amostrados aleatoriamente em uma população de itens de teste (ou avaliadores). Isso nunca é realmente verdade, principalmente nos testes, porque criar mais itens é difícil, e é provável que você use os melhores itens para começar - então você descobrirá que o teste precisa ser mais longo, então você 'raspe o barril' para itens.
Segundo, os itens variam em termos de confiabilidade e a confiabilidade não está necessariamente relacionada à dificuldade (se ajudar, pense na inclinação e na interceptação da curva característica do item na teoria da resposta ao item). No entanto, o cálculo da confiabilidade (digamos, o alfa de Cronbach, que é uma forma de correlação intra-classe) assume que as confiabilidade são todas iguais (elas assumem um modelo essencial de medição equivalente a tau - ou seja, que as confiabilidade não padronizadas de cada item são todas igual). Isso quase certamente está errado. A adição de itens pode aumentar ou diminuir. Isso depende dos itens
Aqui está outra maneira de pensar sobre isso. Seleciono aleatoriamente uma amostra de uma população e calculo a média e o erro padrão da média. Essa média será um estimador imparcial da média da população. Aumentei o tamanho da minha amostra - o valor esperado da média é o mesmo, mas é improvável que realmente seja o mesmo - quase certamente aumentará ou diminuirá. Assim como eu espero que o erro padrão fique menor, mas a quantidade diminuída não será consistente (e não é impossível que o erro padrão fique maior).
fonte