Quando é apropriado usar uma regra de pontuação inadequada?

27

Merkle & Steyvers (2013) escrevem:

Para definir formalmente uma regra de pontuação adequada, seja uma previsão probabilística de um estudo de Bernoulli com verdadeira probabilidade de sucesso . Regras de pontuação adequadas são métricas cujos valores esperados são minimizados se .fdpf=p

Entendo que isso é bom, porque queremos incentivar os meteorologistas a gerar previsões que reflitam honestamente suas verdadeiras crenças, e não queremos lhes dar incentivos perversos para fazer o contrário.

Existem exemplos do mundo real nos quais é apropriado usar uma regra de pontuação inadequada?

Referência:
Merkle, EC, & Steyvers, M. (2013). Escolhendo uma regra de pontuação estritamente adequada. Análise de Decisão, 10 (4), 292-304

user1205901 - Restabelecer Monica
fonte
1
Penso que a primeira coluna da última página de Winkler & Jose "Regras de pontuação" (2010), que Merkle & Steyvers (2013) citam, oferece uma resposta. Nomeadamente, se a utilidade não é uma transformação afim do marcador (o que poderia ser justificado pela aversão ao risco e tal), a maximização da utilidade esperada seria em conflito com a maximização de pontuação esperado
Richard Hardy

Respostas:

25

É apropriado usar uma regra de pontuação inadequada quando o objetivo é realmente prever, mas não inferência. Eu realmente não me importo se outro previsor está trapaceando ou não quando sou eu quem fará a previsão.

Regras de pontuação adequadas garantem que, durante o processo de estimativa, o modelo se aproxime do verdadeiro processo de geração de dados (DGP). Isso parece promissor porque, ao nos aproximarmos do verdadeiro DGP, também faremos o bem em termos de previsão sob qualquer função de perda. O problema é que na maioria das vezes (na realidade, quase sempre), nosso espaço de pesquisa de modelos não contém o verdadeiro DGP. Acabamos aproximando o verdadeiro DGP com alguma forma funcional que propomos.

Nesse cenário mais realista, se nossa tarefa de previsão é mais fácil do que descobrir toda a densidade do verdadeiro DGP, podemos realmente fazer melhor. Isto é especialmente verdade para a classificação. Por exemplo, o verdadeiro DGP pode ser muito complexo, mas a tarefa de classificação pode ser muito fácil.

Yaroslav Bulatov forneceu o seguinte exemplo em seu blog:

http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html

Como você pode ver abaixo, a densidade real é instável, mas é muito fácil criar um classificador para separar os dados gerados por isso em duas classes. Simplesmente se classe 1 e se gera classe 2.x0 0x<0 0

insira a descrição da imagem aqui

Em vez de corresponder à densidade exata acima, propomos o modelo bruto abaixo, que está bem longe do verdadeiro DGP. No entanto, faz uma classificação perfeita. Isso é encontrado usando a perda de dobradiça, o que não é apropriado.

insira a descrição da imagem aqui

Por outro lado, se você decidir encontrar o verdadeiro DGP com perda de log (o que é apropriado), então você começa a ajustar alguns funcionais, pois não sabe qual a forma funcional exata de que precisa a priori. Mas, à medida que se esforça cada vez mais, você começa a classificar incorretamente as coisas.

insira a descrição da imagem aqui

Observe que nos dois casos usamos as mesmas formas funcionais. No caso de perda imprópria, degenerou em uma função de etapa que, por sua vez, aperfeiçoou a classificação. No caso apropriado, enlouqueceu tentando satisfazer todas as regiões da densidade.

Basicamente, nem sempre precisamos atingir o modelo verdadeiro para ter previsões precisas. Ou, às vezes, não precisamos realmente fazer o bem em todo o domínio da densidade, mas ser muito bom apenas em certas partes dele.

Cagdas Ozgenc
fonte
13
Esse é um exemplo fascinante, realmente um pouco de reflexão.
Matthew Drury
7

A precisão (ou seja, percentual classificado corretamente) é uma regra de pontuação inadequada; portanto, em certo sentido, as pessoas fazem isso o tempo todo.

De maneira mais geral, qualquer regra de pontuação que force previsões a uma categoria predefinida será inadequada. A classificação é um caso extremo disso (as únicas previsões permitidas são 0% e 100%), mas a previsão do tempo provavelmente também é um pouco inadequada - minhas estações locais parecem relatar a chance de chuva em intervalos de 10 ou 20%, embora eu Aposto que o modelo subjacente é muito mais preciso.

As regras de pontuação adequadas também pressupõem que o previsor é neutro ao risco. Geralmente, esse não é o caso de analistas humanos reais, que normalmente são adversos ao risco, e alguns aplicativos podem se beneficiar de uma regra de pontuação que reproduz esse viés. Por exemplo, você pode dar um pouco de peso extra a P (chuva), pois carregar um guarda-chuva, mas não precisar dele, é muito melhor do que ser pego em uma chuva.

Matt Krause
fonte
3
Acho que não entendo seu terceiro parágrafo. Eu estava escrevendo uma resposta semelhante ao longo das linhas que podemos querer concentrar mais em obter altos quantis de densidades preditivas corretas, mas não vejo como essa função de perda nos motivaria a usar uma regra de pontuação inadequada. Afinal, ainda estaríamos mais motivados a prever a distribuição futura correta. Você poderia elaborar?
S. Kolassa - Restabelece Monica
1
Se o previsor maximizar sua utilidade esperada (em vez de valor), as regras de pontuação adequadas podem não ser realmente adequadas (por exemplo, se o utilitário não for uma função linear da pontuação). No entanto, se você souber ou puder estimar a função de utilitário, acho que você poderia criar uma regra de pontuação adequada especialmente adaptada, aplicando sua inversa.
Matt Krause
3
Mas a adequação ou não da regra de pontuação não está relacionada ao utilitário, apenas à distribuição futura prevista e real, portanto ainda não estou entendendo a primeira frase do seu comentário, nem por que queremos usar uma regra de pontuação inadequada . No entanto, você me lembra um artigo de Ehm, para aparecer no JRSS-B , que eu escrevi por escrito minha resposta abortada, mas onde não encontrei nada útil para a presente pergunta - uma leitura mais atenta pode ser mais útil.
S. Kolassa - Restabelece Monica
@StephanKolassa, talvez a primeira coluna da última página de Winkler & Jose "Regras de pontuação" (2010) explica isso?
Richard Hardy
Comentários não são para discussão prolongada; esta conversa foi movida para o bate-papo .
gung - Restabelecer Monica