teste nas preferências do usuário

8

Eu criei um teste de usuário para comparar dois métodos: M1 e M2. Gero 40 casos de teste e mostro o resultado de cada método no caso de teste para 20 indivíduos, lado a lado, os indivíduos não sabem qual resultado veio de qual método. Para cada caso de teste, cada pessoa deve dizer se o resultado calculado por M1 é melhor ou M2 é melhor ou eles são igualmente bons.

Eu quero saber se M1 é melhor que M2. Acrescento todos os resultados e giro o histograma 3D, votos no M1, votos no empate e votos no M2.

Se eu olhasse M1 e M2 apenas como histograma 2D. Eu sei que se M1 e M2 fossem igualmente bons, esse histograma seria uniforme. Depois, executarei o .χ2

O que eu não sei como modelar são os votos para o empate. Aqui estão duas opções que eu pensei:

  • A base do teste qui-quadrado é que os histogramas são mutuamente exclusivos e somam um. Parece que os votos para o empate podem ser divididos em dois e adicionados a cada M1 e M2 (e empates removidos), mas isso não parece muito baseado em princípios.
  • Outra opção é que eu poderia simplesmente ignorar os laços, o que parece defeituoso porque quebra a propriedade "adicionar um". Por exemplo, se eu tivesse (M1: 2, empates: 98 M2: 0), a diferença entre os dois métodos não seria estatisticamente significativa.

O que mais eu posso fazer? Estou vendo isso incorretamente? Parece um problema comum que as pessoas enfrentariam ao modelar votos dos usuários. Qual é a maneira correta de modelar os laços?

carlosdc
fonte
Parece muito que você está lidando com um modelo de preferência emparelhado (comparação), certo?
chl
Não entendo por que é problemático que M1: 2 Gravatas: 98 M2: 0 não sejam estatisticamente significativas. Em essência, você teria uma amostra de 2 pessoas que tinham uma preferência e nenhuma tabela com apenas 2 pessoas seria stat. sig.
Peter Flom
2
Não, os dois estão respondendo perguntas diferentes, então eles obtêm respostas diferentes. Perder os laços parece-me responder à pergunta que você deseja fazer
Peter Flom
1
Como observação lateral, re: "Se eu olhasse M1 e M2 apenas como histograma 2D. Sei que se M1 e M2 fossem igualmente bons, esse histograma seria uniforme", esse é um equívoco comum. O verifica apenas se as linhas e colunas são independentes, ou seja, cada linha é semelhante às outras linhas; eles não precisam ser uniformes. χ2
gung - Restabelece Monica
2
Certamente é verdade que a distribuição de um dado justo é um uniforme discreto e que um dado específico pode ser testado em relação a essa "distribuição teórica específica" por justiça. Mas bondade de ajuste testes também podem ser realizados contra outros (não-uniformes) distribuições teóricas, e a teste de independência (que você estaria usando) certamente não exige isso. χ 2χ2 χ2
gung - Restabelece Monica

Respostas:

6

Um modelo psicologicamente significativo pode nos guiar.

Derivação de um teste útil

Qualquer variação nas observações pode ser atribuída a variações entre os sujeitos. Podemos imaginar que cada sujeito, em algum nível, tenha um valor numérico para o resultado do método 1 e um valor numérico para o resultado do método 2. Eles então comparam esses resultados. Se os dois forem suficientemente diferentes, o sujeito fará uma escolha definitiva, mas, caso contrário, o sujeito declara empate. (Isso está relacionado à existência de um limiar de discriminação .)

A variação entre os sujeitos causa variação nas observações experimentais. Haverá uma certa chance de favorecer o método 1, uma certa chance de favorecer o método 2 e uma certa chance de um empate.π 2 π 0π1π2π0

É justo supor que o sujeito responda independentemente um do outro. Por conseguinte, a probabilidade de observar indivíduos a favor do método 1, indivíduos a favor do método 2 e indivíduos a dar laços é multinomial . Além de uma constante normalizadora (irrelevante), o logaritmo da probabilidade é igual an 2 n 0n1n2n0

n1log(π1)+n2log(π2)+n0log(π0).

Dado que , isso é maximizado quando que é o número de sujeitos.π i = n i / n n = n 0 + n 1 + n 2π0+π1+π2=0πi=ni/nn=n0+n1+n2

Para testar a hipótese nula de que os dois métodos são considerados igualmente bons, maximizamos a probabilidade sujeita às restrições implícitas nessa hipótese. Tendo em mente o modelo psicológico e sua invocação de um limiar hipotético, teremos que conviver com a possibilidade de (a chance de laços) ser diferente de zero. A única maneira de detectar uma tendência a favorecer um modelo em detrimento do outro é como e são afetados: se o modelo 1 é favorecido, então deve aumentar e diminuir e vice-versa . Supondo que a variação seja simétrica , a situação de não preferência ocorre quandoπ 1 π 2 π 1 π 2 π 1 = π 2 π 0π0π1π2π1π2π1=π2 . (O tamanho de nos dirá algo sobre o limite - sobre capacidade discriminatória - mas, caso contrário, não fornece informações sobre preferências.)π0

Quando não há modelo favorito, a probabilidade máxima ocorre quando e, mais uma vez, . Conectando as duas soluções anteriores, calculamos a alteração nas probabilidades máximas, :π0=n0/nGπ1=π2=n1+n22/nπ0=n0/nG

G=(n1logn1n+n2logn2n+n0logn0n)(n1log(n1+n2)/2n+n2log(n1+n2)/2n+n0logn0n)=n1log2n1n1+n2+n2log2n2n1+n2.

O tamanho desse valor - que não pode ser negativo - nos diz o quão credível é a hipótese nula: quando é pequeno, os dados são "explicados" quase tão bem com a hipótese nula (restritiva) quanto em geral; quando o valor é grande, a hipótese nula é menos credível.G

A teoria da estimativa de máxima verossimilhança (assintótica) diz que um limiar razoável para essa alteração é metade do quantil de uma distribuição qui-quadrado com um grau de liberdade (devido à restrição única imposta por a hipótese nula). Como sempre, é o tamanho desse teste, geralmente considerado 5% ( ) ou 1% ( ). Os quantis correspondentes são e .π 1 = π 2 α 0,05 0,01 3,841459 6,6348971απ1=π2α0.050.013.8414596.634897


Exemplo

Suponha que de sujeitos, apóie o método 1 e método 2. Isso implica que existem vínculos. A probabilidade é maximizada, então, para e , onde tem um valor de . Sob a hipótese nula, a probabilidade é maximizada para , onde seu valor é apenas . A diferença de é menor que a metade do 5% do limite de . Portanto, fazemosn=20n1=3n2=9n0=2039=8π1=3/20=0.15π2=9/20=0.4520.208π1=π2=6/20=0.3021.778G=20.208(21.778)=1.57α=3.84não rejeitar a hipótese nula.


Sobre laços e testes alternativos

Olhando para a fórmula de , observe que o número de gravatas ( ) não aparece . No exemplo, se tivéssemos observado indivíduos e, entre eles, favoreceram o método 1, favoreceram o método 2 e os demais estavam empatados, o resultado seria o mesmo.Gn0n=1003910039=88

Dividir os laços e atribuir metade ao método 1 e metade ao método 2 é intuitivamente razoável, mas resulta em um teste menos poderoso . Por exemplo, vamos e . Considere dois casos:n1=5n2=15

  1. n=20 sujeitos, então houve empate. O teste de máxima verossimilhança rejeitaria o nulo para qualquer valor de maior que . Outro teste frequentemente usado nessa situação (porque não há laços) é um teste binomial; rejeitaria o nulo por qualquer valor de maior que . Os dois testes, portanto, normalmente produzem os mesmos resultados, porque esses valores críticos são razoavelmente próximos.n0=0α0.02217α0.02660

  2. n=100 sujeitos, então havia laços. O teste de máxima verossimilhança ainda rejeitaria o nulo para qualquer valor de maior que . O teste binomial rejeitaria o nulo apenas para qualquer valor de maior que . Os dois testes dão resultados totalmente diferentes. Em particular, os vínculos enfraqueceram a capacidade do teste binomial de distinguir uma diferença que a teoria da probabilidade máxima sugere ser real.n0=80α0.02217α0.319780

Finalmente, vamos considerar a abordagem da tabela de contingência3×1 sugerida em outra resposta. Considere indivíduos com favor do método 1, favor do método 2 e com vínculos. A "tabela" é apenas o vetor . Sua estatística qui-quadrado é de com dois graus de liberdade. O valor de p é , o que levaria a maioria das pessoas a concluir que não há diferença entre os métodos. O resultado da máxima probabilidade, em vez disso, fornece um valor-p de , que rejeitaria essa conclusão no nível 5%.n=20n1=3n2=10n0=7(n0,n1,n2)=(7,3,10)3.70.15720.04614α=

Com indivíduos, suponha que apenas favorecesse o método 1, apenas favorecesse o método 2 e houvesse vínculos. Intuitivamente, há muito pouca evidência de que um desses métodos tende a ser favorecido. Mas desta vez a estatística do qui-quadrado de claramente, de forma incontroversa (mas bastante errada) mostra que há uma diferença (o valor de p é menor que ).n=1001297182.421015

Nas duas situações, a abordagem do qui-quadrado equivale totalmente à resposta: no primeiro caso, falta poder para detectar uma diferença substancial, enquanto no segundo caso (com muitos vínculos), é extremamente confiante em relação a uma diferença inconseqüente. O problema não é que o teste do qui-quadrado seja ruim; o problema é que ele testa uma hipótese diferente: a saber, se . De acordo com nosso modelo conceitual, essa hipótese é um absurdo psicológico, porque confunde informações sobre preferências (ou seja, e ) com informações sobre limites de discriminação (ou seja, ). π1=π2=π0π1π2π0Esta é uma boa demonstração da necessidade de usar um contexto de pesquisa e conhecimento do assunto (embora simplificado) na seleção de um teste estatístico.

whuber
fonte
Você diz "Olhando para a fórmula de G, observe que o número de gravatas (n0) não aparece" ... mas vejo n0 como um termo na fórmula para alterar o log-lik. Isso não é G?
russellpierce
1
@dr Veja a expressão final para : é a diferença nas probabilidades de log. Embora ambas as probabilidades dependam de , o cancelamento remove completamente essa dependência. n 0Gn0
whuber
Ah, eu vejo agora. Perdi o sinal de igual que indicava a redução da equação.
russellpierce
Como sua solução se compara a uma abordagem de tabela de contingência 2x2, excluindo empates?
russellpierce
1
@dr Deve ser idêntico. O objetivo dessa derivação era justificar essa abordagem usando princípios básicos de inferência estatística e psicologia, porque parece que o cerne da questão diz respeito à maneira correta de lidar com os laços.
whuber
1

Suspeito que a resposta do whuber seja (como sempre) mais repleta do que estou prestes a digitar. Admito que posso não entender completamente a resposta do whuber ... então o que estou dizendo pode não ser único ou útil. No entanto, eu não notei onde, na resposta da whuber, o aninhamento de preferências em indivíduos, bem como o aninhamento de preferências em casos de teste foi considerado. Eu acho que, dado o esclarecimento do autor da pergunta, que:

Os casos são de fato uma amostra aleatória de todos os casos possíveis. Penso que uma analogia é a seguinte: a eleição é determinada pelo que acontece nas pesquisas, mas tenho para cada eleitor a afiliação partidária. Portanto, seria quase esperado que um candidato de um partido apelasse aos eleitores afiliados a esse partido, mas isso não é necessariamente um dado, um grande candidato pode vencer em seu partido e conquistar as pessoas do outro partido.

... estas são considerações importantes. Portanto, talvez o mais apropriado não seja mas um modelo logístico de vários níveis. Especificamente no RI, pode ser algo como:χ2

lmer(PreferenceForM1~1+(1|RaterID)+(1|TestCaseID),family=binomial)

PreferenceForM1 seria codificado como 1 (sim) e 0 (não). Aqui, uma interceptação acima de 0 indica a preferência de um avaliador médio pelo método 1 em um caso de teste médio. Com amostras próximas aos limites inferiores de utilidade para essas técnicas, eu provavelmente também usaria pvals.fnc e influência.ME para investigar minhas suposições e os efeitos de valores discrepantes.

A questão básica sobre laços aqui parece bem respondida pelo whuber. No entanto, (re) afirmo que parece que os laços reduzem sua capacidade de observar uma diferença estatisticamente significativa entre os métodos. Além disso, afirmo que eliminá-los pode fazer com que você superestime a preferência que os indivíduos têm por um método versus o outro. Pelo motivo posterior, eu os deixaria lá.

russellpierce
fonte
Provavelmente estou confuso com a Rnotação, mas sua sugestão não tem mais parâmetros do que dados? Essa confusão não é sua: eu entendi que havia assuntos e apenas um resultado por assunto (M1, M2 ou empate), mas a interpretação implícita na sua resposta é que pode haver observações. Carlosdc, você poderia esclarecer isso para nós? 800 = 20 4020800=2040
whuber
O OP afirmou que "eu gero 40 casos de teste e mostro o resultado de cada método no caso de teste para 20 indivíduos"; "Para cada caso de teste, cada pessoa deve dizer se o resultado calculado por M1 é melhor ou M2 é melhor ou eles são igualmente Boa." Então, eu estava interpretando o OP como dizendo que havia 20 * 40 observações.
russellpierce
Você está certo, haveria muitos parâmetros estimados nesses dados. O número exato em que estou confuso (um local em que o pacote de estatísticas me permitiu ficar complacente com minha compreensão das equações subjacentes).
russellpierce