Eu criei um teste de usuário para comparar dois métodos: M1 e M2. Gero 40 casos de teste e mostro o resultado de cada método no caso de teste para 20 indivíduos, lado a lado, os indivíduos não sabem qual resultado veio de qual método. Para cada caso de teste, cada pessoa deve dizer se o resultado calculado por M1 é melhor ou M2 é melhor ou eles são igualmente bons.
Eu quero saber se M1 é melhor que M2. Acrescento todos os resultados e giro o histograma 3D, votos no M1, votos no empate e votos no M2.
Se eu olhasse M1 e M2 apenas como histograma 2D. Eu sei que se M1 e M2 fossem igualmente bons, esse histograma seria uniforme. Depois, executarei o .
O que eu não sei como modelar são os votos para o empate. Aqui estão duas opções que eu pensei:
- A base do teste qui-quadrado é que os histogramas são mutuamente exclusivos e somam um. Parece que os votos para o empate podem ser divididos em dois e adicionados a cada M1 e M2 (e empates removidos), mas isso não parece muito baseado em princípios.
- Outra opção é que eu poderia simplesmente ignorar os laços, o que parece defeituoso porque quebra a propriedade "adicionar um". Por exemplo, se eu tivesse (M1: 2, empates: 98 M2: 0), a diferença entre os dois métodos não seria estatisticamente significativa.
O que mais eu posso fazer? Estou vendo isso incorretamente? Parece um problema comum que as pessoas enfrentariam ao modelar votos dos usuários. Qual é a maneira correta de modelar os laços?
fonte
Respostas:
Um modelo psicologicamente significativo pode nos guiar.
Derivação de um teste útil
Qualquer variação nas observações pode ser atribuída a variações entre os sujeitos. Podemos imaginar que cada sujeito, em algum nível, tenha um valor numérico para o resultado do método 1 e um valor numérico para o resultado do método 2. Eles então comparam esses resultados. Se os dois forem suficientemente diferentes, o sujeito fará uma escolha definitiva, mas, caso contrário, o sujeito declara empate. (Isso está relacionado à existência de um limiar de discriminação .)
A variação entre os sujeitos causa variação nas observações experimentais. Haverá uma certa chance de favorecer o método 1, uma certa chance de favorecer o método 2 e uma certa chance de um empate.π 2 π 0π1 π2 π0
É justo supor que o sujeito responda independentemente um do outro. Por conseguinte, a probabilidade de observar indivíduos a favor do método 1, indivíduos a favor do método 2 e indivíduos a dar laços é multinomial . Além de uma constante normalizadora (irrelevante), o logaritmo da probabilidade é igual an 2 n 0n1 n2 n0
Dado que , isso é maximizado quando que é o número de sujeitos.π i = n i / n n = n 0 + n 1 + n 2π0+π1+π2=0 πi=ni/n n=n0+n1+n2
Para testar a hipótese nula de que os dois métodos são considerados igualmente bons, maximizamos a probabilidade sujeita às restrições implícitas nessa hipótese. Tendo em mente o modelo psicológico e sua invocação de um limiar hipotético, teremos que conviver com a possibilidade de (a chance de laços) ser diferente de zero. A única maneira de detectar uma tendência a favorecer um modelo em detrimento do outro é como e são afetados: se o modelo 1 é favorecido, então deve aumentar e diminuir e vice-versa . Supondo que a variação seja simétrica , a situação de não preferência ocorre quandoπ 1 π 2 π 1 π 2 π 1 = π 2 π 0π0 π1 π2 π1 π2 π1=π2 . (O tamanho de nos dirá algo sobre o limite - sobre capacidade discriminatória - mas, caso contrário, não fornece informações sobre preferências.)π0
Quando não há modelo favorito, a probabilidade máxima ocorre quando e, mais uma vez, . Conectando as duas soluções anteriores, calculamos a alteração nas probabilidades máximas, :π0=n0/nGπ1=π2=n1+n22/n π0=n0/n G
O tamanho desse valor - que não pode ser negativo - nos diz o quão credível é a hipótese nula: quando é pequeno, os dados são "explicados" quase tão bem com a hipótese nula (restritiva) quanto em geral; quando o valor é grande, a hipótese nula é menos credível.G
A teoria da estimativa de máxima verossimilhança (assintótica) diz que um limiar razoável para essa alteração é metade do quantil de uma distribuição qui-quadrado com um grau de liberdade (devido à restrição única imposta por a hipótese nula). Como sempre, é o tamanho desse teste, geralmente considerado 5% ( ) ou 1% ( ). Os quantis correspondentes são e .π 1 = π 2 α 0,05 0,01 3,841459 6,6348971−α π1=π2 α 0.05 0.01 3.841459 6.634897
Exemplo
Suponha que de sujeitos, apóie o método 1 e método 2. Isso implica que existem vínculos. A probabilidade é maximizada, então, para e , onde tem um valor de . Sob a hipótese nula, a probabilidade é maximizada para , onde seu valor é apenas . A diferença de é menor que a metade do 5% do limite de . Portanto, fazemosn=20 n1=3 n2=9 n0=20−3−9=8 π1=3/20=0.15 π2=9/20=0.45 −20.208… π1=π2=6/20=0.30 −21.778 G=−20.208−(−21.778)=1.57 α= 3.84 não rejeitar a hipótese nula.
Sobre laços e testes alternativos
Olhando para a fórmula de , observe que o número de gravatas ( ) não aparece . No exemplo, se tivéssemos observado indivíduos e, entre eles, favoreceram o método 1, favoreceram o método 2 e os demais estavam empatados, o resultado seria o mesmo.G n0 n=100 3 9 100−3−9=88
Dividir os laços e atribuir metade ao método 1 e metade ao método 2 é intuitivamente razoável, mas resulta em um teste menos poderoso . Por exemplo, vamos e . Considere dois casos:n1=5 n2=15
Finalmente, vamos considerar a abordagem da tabela de contingência3×1 sugerida em outra resposta. Considere indivíduos com favor do método 1, favor do método 2 e com vínculos. A "tabela" é apenas o vetor . Sua estatística qui-quadrado é de com dois graus de liberdade. O valor de p é , o que levaria a maioria das pessoas a concluir que não há diferença entre os métodos. O resultado da máxima probabilidade, em vez disso, fornece um valor-p de , que rejeitaria essa conclusão no nível 5%.n=20 n1=3 n2=10 n0=7 (n0,n1,n2)=(7,3,10) 3.7 0.1572 0.04614 α=
Com indivíduos, suponha que apenas favorecesse o método 1, apenas favorecesse o método 2 e houvesse vínculos. Intuitivamente, há muito pouca evidência de que um desses métodos tende a ser favorecido. Mas desta vez a estatística do qui-quadrado de claramente, de forma incontroversa (mas bastante errada) mostra que há uma diferença (o valor de p é menor que ).n=100 1 2 97 182.42 10−15
Nas duas situações, a abordagem do qui-quadrado equivale totalmente à resposta: no primeiro caso, falta poder para detectar uma diferença substancial, enquanto no segundo caso (com muitos vínculos), é extremamente confiante em relação a uma diferença inconseqüente. O problema não é que o teste do qui-quadrado seja ruim; o problema é que ele testa uma hipótese diferente: a saber, se . De acordo com nosso modelo conceitual, essa hipótese é um absurdo psicológico, porque confunde informações sobre preferências (ou seja, e ) com informações sobre limites de discriminação (ou seja, ).π1=π2=π0 π1 π2 π0 Esta é uma boa demonstração da necessidade de usar um contexto de pesquisa e conhecimento do assunto (embora simplificado) na seleção de um teste estatístico.
fonte
Suspeito que a resposta do whuber seja (como sempre) mais repleta do que estou prestes a digitar. Admito que posso não entender completamente a resposta do whuber ... então o que estou dizendo pode não ser único ou útil. No entanto, eu não notei onde, na resposta da whuber, o aninhamento de preferências em indivíduos, bem como o aninhamento de preferências em casos de teste foi considerado. Eu acho que, dado o esclarecimento do autor da pergunta, que:
... estas são considerações importantes. Portanto, talvez o mais apropriado não seja mas um modelo logístico de vários níveis. Especificamente no RI, pode ser algo como:χ2
PreferenceForM1 seria codificado como 1 (sim) e 0 (não). Aqui, uma interceptação acima de 0 indica a preferência de um avaliador médio pelo método 1 em um caso de teste médio. Com amostras próximas aos limites inferiores de utilidade para essas técnicas, eu provavelmente também usaria pvals.fnc e influência.ME para investigar minhas suposições e os efeitos de valores discrepantes.
A questão básica sobre laços aqui parece bem respondida pelo whuber. No entanto, (re) afirmo que parece que os laços reduzem sua capacidade de observar uma diferença estatisticamente significativa entre os métodos. Além disso, afirmo que eliminá-los pode fazer com que você superestime a preferência que os indivíduos têm por um método versus o outro. Pelo motivo posterior, eu os deixaria lá.
fonte
R
notação, mas sua sugestão não tem mais parâmetros do que dados? Essa confusão não é sua: eu entendi que havia assuntos e apenas um resultado por assunto (M1, M2 ou empate), mas a interpretação implícita na sua resposta é que pode haver observações. Carlosdc, você poderia esclarecer isso para nós? 800 = 20 ∗ 40