d prime com 100% de probabilidade de taxa de acerto e 0% de probabilidade de falso alarme

10

Gostaria de calcular d prime para uma tarefa de memória que envolve a detecção de itens antigos e novos. O problema que tenho é que alguns dos sujeitos têm taxa de acerto de 1 e / ou taxa de alarme falso de 0, o que torna as probabilidades 100% e 0%, respectivamente.

A fórmula para d prime é d' = z(H) - z(F), onde z(H)e z(F)são as transformações z de taxa de acerto e alarme falso, respectivamente.

Para calcular a transformação z, uso a função Excel NORMSINV (ou seja, z(H)=NORMSINV(hit rate)). No entanto, se a taxa de acertos ou a taxa de alarmes falsos for 1 ou 0, respectivamente, a função retornará um erro. Isso ocorre porque a transformação z, como eu entendo, indica a área sob a curva ROC, que não permite matematicamente 100% ou 0% de probabilidade. Nesse caso, não sei como calcular d 'para os sujeitos com desempenho no teto.

Um site sugere a substituição das taxas 1 e 0 por 1 - 1 / (2N) e 1 / 2N com N sendo o número máximo de ocorrências e alarmes falsos. Outro site diz que "nem H nem F podem ser 0 ou 1 (se houver, ajuste levemente para cima ou para baixo)". Isso parece arbitrário. Alguém tem uma opinião sobre isso ou gostaria de me indicar os recursos certos?

A.Rainer
fonte

Respostas:

13

Stanislaw e Todorov (1999) discutem bem o assunto sob o título Taxas de acerto e alarme falso de zero ou um .

Eles discutem os prós e contras de vários métodos para lidar com esses valores extremos, incluindo:

  • Use uma estatística não paramétrica como vez de d ' (Craig, 1979)UMAd

  • Agregar dados de vários sujeitos antes de calcular a estatística (Macmillan & Kaplan, 1985)

  • adicione 0,5 ao número de ocorrências e ao número de alarmes falsos e adicione 1 ao número de tentativas de sinal e ao número de tentativas de ruído; apelidada de abordagem loglinear (Hautus, 1995)

  • Ajuste apenas os valores extremos substituindo taxas de 0 por taxas de 1 por ( n - 0,5 ) / n em que n é o número de tentativas de sinal ou ruído (Macmillan & Kaplan, 1985)0,5/n(n-0,5)/nn

Em última análise, a escolha é sua. Pessoalmente, prefiro a terceira abordagem. A primeira abordagem tem a desvantagem de que é menos interpretável para seus leitores que estão muito mais familiarizados com d ' . A segunda abordagem pode não ser adequada se você estiver interessado em comportamento individual. A quarta abordagem é tendenciosa porque você não está tratando seus pontos de dados igualmente.UMAd

Jeff
fonte
MacMillan & Kaplan é uma referência popular, mas acredito que há um autor grego ou russo que os antecede pelo mesmo conselho ... o nome é muito longo para que eu lembre. Meu rápido olhar para C&T é que não é muito abrangente, mas me lembra que eu provavelmente estava enganado ao não mencionar A '. Obviamente, depois de fazer isso, você precisa explicar o que realmente significa mudar para não-paramétrico.
John John
6

Ambos os sites estão sugerindo a mesma coisa, mas um está propondo uma maneira de selecionar consistentemente a quantidade de ajuste. Isso foi atribuído a várias pessoas, mas acho que ninguém sabe quem realmente inventou isso primeiro. Campos diferentes têm um livro ou autor seminal diferente na detecção de sinal. O importante é que o método que você selecionar seja razoável.

O único método que você postou geralmente é o de sugerir que se você tivesse um conjunto muito maior de itens (2N), seria capaz de detectar pelo menos um erro. Se essa é uma maneira razoável de pensar sobre o problema, está pronto. Duvido que seja para um teste de memória. No futuro, você pode aumentar N para garantir que isso seja muito menos provável. No entanto, o método é recuperável se você o considerar de uma maneira diferente. Você está ajustando uma média hipotética de duas execuções do mesmo número de itens de memória. Nesse caso, você está dizendo que em outra execução do experimento (assumindo novos itens ou eles esqueceram todos os antigos), haveria um erro. Ou, mais simplesmente, você está apenas selecionando o meio caminho entre a maior pontuação imperfeita que você pode medir e uma pontuação perfeita.

Este é um problema sem uma solução universal simples. A primeira pergunta que você precisa fazer é se você acredita que, no seu caso, possui uma classificação perfeita genuína. Nesse caso, seus dados são seus. Caso contrário, você acredita que é apenas variabilidade na amostra, fazendo com que os hits sejam 100%. Depois de concluir que é esse o caso, é necessário considerar maneiras razoáveis ​​de gerar uma estimativa do que você acredita que seja. E então você deve se perguntar o que realmente é.

A maneira mais fácil de determinar o que d 'deveria ser é olhar para os outros dados nessa mesma condição. Talvez você possa estimar que a precisão desse participante está a meio caminho entre o próximo melhor valor que você possui e 100% (o que pode resultar exatamente igual ao valor encontrado). Ou, pode ser uma quantidade muito pequena maior. Ou pode ser apenas igual aos melhores valores. Você precisa selecionar qual é a melhor resposta com base nos seus dados. Uma pergunta mais específica publicada pode ajudá-lo aqui.

Você deve tentar garantir que isso cause o menor impacto possível sobre o critério. No seu caso, um ajuste nos acertos e FAs fará com que o critério não seja alterado. No entanto, se você ajustar acertos quando, por exemplo, FAs = 0,2, será preciso ter cuidado com o impacto desse ajuste na interpretação do critério. Você é meio que obrigado nesse caso a garantir que os hits sejam muito altos.

John
fonte
Obrigado pela sua perspectiva e justificativa, John. Isso realmente ajuda. Devo acrescentar que um número crescente de N é uma boa solução, mas nossa tarefa é realizada dentro do scanner de ressonância magnética e estamos limitados ao número de tentativas que podemos fazer aos sujeitos antes que fiquem inquietos e arruinem nossos dados com movimento.
A.Rainer
"Talvez você possa estimar que a precisão desse participante está a meio caminho entre o próximo melhor valor que você tem e 100% (o que pode resultar exatamente igual ao valor encontrado)" é um bom conselho. Isso preservará a ordem do ranking de desempenho do sujeito.
A.Rainer