Uma regra de pontuação é um meio de avaliar o palpite de um agente sobre as probabilidades associadas a um evento categórico, considerando um resultado (categórico) do evento. Dependendo do palpite e do resultado observado, a regra de pontuação atribui ao agente uma pontuação (um número real). Uma regra de pontuação deve atribuir pontuações de modo que, em média, o agente com a menor pontuação faça suposições mais precisas. (As convenções diferem quanto ao fato de as regras de pontuação serem estruturadas em termos de minimização ou maximização. Aqui estou adotando a visão de minimização.)
Uma propriedade importante das regras de pontuação é se elas são uma regra de pontuação adequada; isto é, se eles dão a menor pontuação média quando um agente adivinha as verdadeiras probabilidades (ou, em uma estrutura bayesiana subjetiva, eles dão a menor pontuação média posterior, dados os priores do próprio agente, quando um agente usa seus próprios graus de crença como suas suposições). No caso de um evento binário, o erro ao quadrado de 0 ou 1 (a pontuação de Brier) é uma regra de pontuação adequada, enquanto o erro absoluto não é. Por quê? Bem, o critério de propensão é baseado na média, e a média é a medida da tendência central que minimiza a soma das diferenças quadráticas, mas não precisa minimizar o erro absoluto.
Essa linha de pensamento sugere que, se substituirmos a média na definição de uma regra de pontuação adequada por outra funcional estatística, como a mediana, obteremos um tipo análogo de família rica de regras de pontuação adequadas. Não é irracional imaginar uma situação em que um agente queira minimizar sua pontuação média em vez de sua pontuação média. Na verdade, parece que não há regras de pontuação apropriadas para mediana e não triviais. Considerando o caso de um evento binário novamente, se a probabilidade verdadeira for menor que 1/2, a pontuação mediana de um agente será igual à pontuação atribuída ao agente quando o evento não ocorrer, independentemente da ocorrência do evento. probabilidade exata. Aparecem travessuras análogas se substituirmos a média por, digamos, a média geométrica.
Então, existe uma sensação de que, para que a teoria das regras de pontuação apropriadas funcione como pretendido, o funcional estatístico deve ser a média?
Sei que essa é uma pergunta vaga, e a melhor resposta provavelmente será uma explicação de por que a pergunta realmente não faz sentido; então, aqui está o contexto em que me pergunto, para ajudá-lo a não me confundir. Sou psicólogo da tomada de decisões e, muitas vezes, estou querendo quantificar o desempenho (desempenho preditivo, com validação cruzada ou ajuste de modelo post-hoc) de um modelo que mostra as probabilidades do que as pessoas escolherão. um cenário de decisão binária. A discussão acima sugere que eu deveria usar uma regra de pontuação adequada. Irritantemente, as regras de pontuação adequadas não estão na mesma escala das probabilidades. Eu me pego querendo, por exemplo, pegar a raiz quadrada do erro quadrado médio em vez de apenas olhar para o erro quadrado médio (ou seja, a pontuação média de Brier), mas no caso de uma tentativa, o RMSE é equivalente a erro absoluto, o que não é adequado, então eu não pensaria que modelos menos precisos são melhores? Evidentemente, não posso simplesmente mudar meu método de avaliar as regras de pontuação de uma em termos de meios para outra em termos de, por exemplo, medianas. Devo simplesmente me familiarizar com a escala de uma das regras de pontuação apropriadas usuais ou usar uma estatística de detecção de sinal como uma área sob a curva ROC ou d '?
Uma complicação adicional é que, para um estudo, estou analisando ajustes de modelo parametricamente inicializados, de acordo com Wagenmakers, Ratcliff, Gomez e Iverson (2004), o que significa que estou analisando gráficos de densidade de pontuações em vez de pontuações individuais. Então fica ainda menos claro se devo me preocupar com propensão ou com algum critério análogo.
Editar: veja este tópico de comentários no Reddit para mais algumas discussões.
Wagenmakers, E.J., Ratcliff, R., Gomez, P., & Iverson, GJ (2004). Avaliando a imitação de modelo usando a inicialização paramétrica. Jornal de Psicologia Matemática, 48 , 28–50. doi: 10.1016 / j.jmp.2003.11.004
fonte
Respostas:
Ao contrário do que você disse sobre travessuras da média geométrica, existem realmente regras de pontuação adequadas para a média geométrica.
A média geométrica de uma variável aleatória é igual a . Por isso minimizando a média geométrica de uma pontuação aleatório corresponde a minimizar a média aritmética de um resultado aleatório . Portanto, se é uma regra de pontuação adequada padrão (onde é a pontuação que você obtém se você prever uma probabilidade o evento acontecer), então é uma regra de pontuação adequada para a média geométrica.e E ( log XX eE( logX) S registroS f( p^) f( p^) p^ g( p^) = logf( p^)
Da mesma forma, a média harmônica de é , então é uma regra de pontuação apropriada para harmônicos . (O sinal negativo está lá e, portanto, a transformação de coordenadas é monótona.)X E( X- 1)- 1 g( p^) = - f( p^)- 1
Isso funciona para qualquer tendência central que seja a média aritmética em um espaço monotonicamente transformado. O problema é que a mediana não funciona assim. De maneira mais geral, qualquer tendência central com um ponto de ruptura diferente de zero não funcionará, porque será insensível a mudanças de probabilidade quando for pequeno. Por exemplo, o intervalo interquartil não funcionará, porque se , o intervalo interquartil das pontuações não depende de (portanto, o mesmo deve minimizar o IQR para todos os valores de inferiores a , o que é ruim).p p < 0,25 p p^ p 0,25
De cabeça para baixo, não consigo pensar em nenhuma tendência central com 0 ponto de ruptura que não possa ser reescrita como uma transformação monótona da média aritmética, mas é provavelmente porque não conheço cálculo variacional suficiente (certamente não o suficiente). para provar que estou certo). Se eu estiver correto, no entanto, seria "essencialmente" verdade que
Outra observação: você sugere usar o RMSE como regra de pontuação, mas não deve fazê-lo porque coincide com o erro absoluto quando há um ponto de dados. Parece que isso pode refletir alguma confusão. Você sempre avalia uma regra de pontuação em cada previsão individual. Então, se você quiser resumir as pontuações, poderá seguir a tendência central das pontuações posteriormente. Portanto, prever a otimização do RMSE é sempre idêntico a otimizar o erro absoluto.
Por outro lado, você pode tomar como raiz a raiz quadrada da pontuação média de Brier, se quiser ter um resumo de pontuação que esteja em "unidades de probabilidade". Mas acho que seria mais produtivo simplesmente se familiarizar com os benchmarks da escala de pontuação Brier, pois é o que você normalmente vê:
Você também pode construir outros benchmarks usando modelos muito simples - por exemplo, se você ignorar todas as informações sobre os eventos e simplesmente prever a taxa básica , sua pontuação Brier é . Ou, se você está prevendo séries temporais, pode ver o desempenho de uma média ponderada dos últimos eventos, etc.p p ( 1 - p )
fonte
Você precisa voltar à motivação para obter uma regra de pontuação adequada, que você afirma livremente como "o agente com a menor pontuação faz as estimativas mais precisas". Para ser preciso, a origem das regras de pontuação é obter probabilidades que refletem crenças verdadeiras - como você afirma, uma pessoa não pode fazer nada melhor do que oferecer uma probabilidade correspondente à sua crença quando oferece uma regra de pontuação como recompensa. As regras de pontuação foram usadas para definir o que significa uma probabilidade sem se referir ao limite de um grande número de repetições.
Essa regra de pontuação é derivada assumindo expectativas sobre a regra, daí a aparência da média sobre o conjunto de previsões. Então, quando você pergunta "o funcional estatístico deve ser a média?" você está realmente perguntando como podemos assumir a expectativa de um conjunto de pontuações por algum outro método que não seja o uso convencional da média?
Li a sua preocupação de que "as regras de pontuação adequadas não estão na mesma escala que as probabilidades" que talvez você esteja procurando expressar quão boa ou ruim é a pontuação calculada? Além da pontuação de Brier, o log da diferença absoluta entre a probabilidade oferecida e um resultado de 0,1 também é uma regra de pontuação adequada, mas que pode não fornecer resultados mais interpretáveis, principalmente porque pode divergir para valores extremos para grandes erros.
Enterrado na derivação das regras de pontuação está o fato de o tomador de decisão ter utilidade linear, portanto, a expectativa é assumida diretamente sobre a regra de pontuação, não sobre a utilidade do resultado da regra de pontuação. (Uma pessoa pode ser um risco adverso a grandes desvios da verdade e isso influenciaria suas probabilidades suscitadas.) Talvez você esteja pensando implicitamente em uma função de utilidade que expressa quão boas ou más são as "probabilidades do que as pessoas escolherão" em vez de apenas as probabilidades próprias?
fonte