Merkle & Steyvers (2013) escrevem:
Para definir formalmente uma regra de pontuação adequada, seja uma previsão probabilística de um estudo de Bernoulli com verdadeira probabilidade de sucesso . Regras de pontuação adequadas são métricas cujos valores esperados são minimizados se .
Entendo que isso é bom, porque queremos incentivar os meteorologistas a gerar previsões que reflitam honestamente suas verdadeiras crenças, e não queremos lhes dar incentivos perversos para fazer o contrário.
Existem exemplos do mundo real nos quais é apropriado usar uma regra de pontuação inadequada?
classification
forecasting
scoring-rules
user1205901 - Restabelecer Monica
fonte
fonte
Respostas:
É apropriado usar uma regra de pontuação inadequada quando o objetivo é realmente prever, mas não inferência. Eu realmente não me importo se outro previsor está trapaceando ou não quando sou eu quem fará a previsão.
Regras de pontuação adequadas garantem que, durante o processo de estimativa, o modelo se aproxime do verdadeiro processo de geração de dados (DGP). Isso parece promissor porque, ao nos aproximarmos do verdadeiro DGP, também faremos o bem em termos de previsão sob qualquer função de perda. O problema é que na maioria das vezes (na realidade, quase sempre), nosso espaço de pesquisa de modelos não contém o verdadeiro DGP. Acabamos aproximando o verdadeiro DGP com alguma forma funcional que propomos.
Nesse cenário mais realista, se nossa tarefa de previsão é mais fácil do que descobrir toda a densidade do verdadeiro DGP, podemos realmente fazer melhor. Isto é especialmente verdade para a classificação. Por exemplo, o verdadeiro DGP pode ser muito complexo, mas a tarefa de classificação pode ser muito fácil.
Yaroslav Bulatov forneceu o seguinte exemplo em seu blog:
http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html
Como você pode ver abaixo, a densidade real é instável, mas é muito fácil criar um classificador para separar os dados gerados por isso em duas classes. Simplesmente se classe 1 e se gera classe 2.x ≥ 0 x < 0
Em vez de corresponder à densidade exata acima, propomos o modelo bruto abaixo, que está bem longe do verdadeiro DGP. No entanto, faz uma classificação perfeita. Isso é encontrado usando a perda de dobradiça, o que não é apropriado.
Por outro lado, se você decidir encontrar o verdadeiro DGP com perda de log (o que é apropriado), então você começa a ajustar alguns funcionais, pois não sabe qual a forma funcional exata de que precisa a priori. Mas, à medida que se esforça cada vez mais, você começa a classificar incorretamente as coisas.
Observe que nos dois casos usamos as mesmas formas funcionais. No caso de perda imprópria, degenerou em uma função de etapa que, por sua vez, aperfeiçoou a classificação. No caso apropriado, enlouqueceu tentando satisfazer todas as regiões da densidade.
Basicamente, nem sempre precisamos atingir o modelo verdadeiro para ter previsões precisas. Ou, às vezes, não precisamos realmente fazer o bem em todo o domínio da densidade, mas ser muito bom apenas em certas partes dele.
fonte
A precisão (ou seja, percentual classificado corretamente) é uma regra de pontuação inadequada; portanto, em certo sentido, as pessoas fazem isso o tempo todo.
De maneira mais geral, qualquer regra de pontuação que force previsões a uma categoria predefinida será inadequada. A classificação é um caso extremo disso (as únicas previsões permitidas são 0% e 100%), mas a previsão do tempo provavelmente também é um pouco inadequada - minhas estações locais parecem relatar a chance de chuva em intervalos de 10 ou 20%, embora eu Aposto que o modelo subjacente é muito mais preciso.
As regras de pontuação adequadas também pressupõem que o previsor é neutro ao risco. Geralmente, esse não é o caso de analistas humanos reais, que normalmente são adversos ao risco, e alguns aplicativos podem se beneficiar de uma regra de pontuação que reproduz esse viés. Por exemplo, você pode dar um pouco de peso extra a P (chuva), pois carregar um guarda-chuva, mas não precisar dele, é muito melhor do que ser pego em uma chuva.
fonte