Uma previsão de densidade agrega valor além de uma previsão pontual quando a função de perda é fornecida?

7

As previsões de densidade são mais universais do que as pontuais; eles fornecem informações sobre toda a distribuição prevista de uma variável aleatória, e não sobre uma função concreta da mesma (como média prevista, mediana, quantil etc.). A disponibilidade de uma previsão de densidade permite que diferentes usuários selecionem elementos relevantes - previsões pontuais - que são do seu interesse. Alguns usuários se concentrarão na média prevista, outros na mediana prevista etc., dependendo da função de perda pela qual a previsão é avaliada (e que pode diferir de usuário para usuário). Dada uma previsão de densidade, as necessidades de cada usuário serão atendidas independentemente da função de perda, porque a previsão de densidade contém todas as informações probabilísticas sobre a variável aleatória.

No entanto, se tivermos em mente um usuário concreto e conhecermos sua função de perda,

  • A previsão de densidade fornece algum valor agregado em relação a uma previsão pontual adaptada à função de perda?
  • Se a resposta for Não em geral, quais são as condições para torná-lo Sim ?

PS @hejseb traça um paralelo interessante entre uma previsão de pontos adaptada à função de perda e uma estatística suficiente; talvez isso possa inspirar uma resposta.

Richard Hardy
fonte
Graças à resposta de @ StephanKolassa, incluindo contra-exemplos aos meus pensamentos iniciais, ampliei a pergunta (adicionei a segunda parte).
Richard Hardy
Como você está gerando a previsão de densidade?
Glen_b -Reinstar Monica
@ Glen_b, eu não pensei nisso. Espero que a questão faça sentido para previsões genéricas de pontos e densidade. Caso contrário, você poderia sugerir alguma concretização?
Richard Hardy
Bem, por exemplo, se a previsão de densidade for obtida baseando-a na função de perda (digamos, onde para alguns , especificado até uma constante de escala), isso seria bem diferente do que se fosse derivado de alguma outra maneira. L=log(f)f
Glen_b -Reinstar Monica
11
@ Glen_b, vou pensar mais e tentar explicar melhor. Obrigado por sua contribuição até agora!
Richard Hardy

Respostas:

5

Posso pensar em situações mais ou menos realistas e meia em que uma densidade total é melhor do que uma previsão pontual, mesmo que a função de perda seja conhecida.

  • A situação detalhada é aquela em que a função de perda do usuário depende não apenas da previsão pontual, mas de um lado bilateral , ou mesmo toda a densidade, ou seja, a função de perda é uma .

    Sim, uma função de perda é normalmente definida para depender de uma previsão de ponto único, por isso estou livre da nomenclatura aqui. Não obstante, situações como essas ocorrem, por exemplo, nas previsões de volatilidade financeira. Ou onde eu trabalho, na previsão de reabastecimento de varejo: talvez desejemos atingir um nível de serviço de 95%; portanto, apenas podemos estar interessados ​​nessa previsão quantil (pontual). No entanto, uma previsão quantil de 95% pode ser 4, enquanto podemos ser obrigados a reabastecer em tamanhos de embalagem de 8. Em tal situação, pode ser valioso saber a que porcentagem 8 unidades corresponde.

  • A situação mais relevante é aquela em que estamos interessados ​​em funções de densidades preditivas. Mais uma vez, considere a previsão de varejo: devido ao cronograma de entrega, nosso pedido de reabastecimento pode precisar cobrir três dias, de terça a quinta-feira. No entanto, prevemos granularidade diária. Portanto, podemos estar interessados ​​na previsão quantil de 95% da soma das demandas e, para a convolução, precisamos de todas as densidades. (Também podemos tentar prever a granularidade do intervalo de três dias, mas isso se torna problemático se, por exemplo, uma promoção começar no meio do intervalo.)
Stephan Kolassa
fonte
Obrigado pela sua resposta. Estou pensando em termos teóricos da decisão da seguinte maneira. Um usuário escolhe uma ação para maximizar a utilidade esperada (perda esperada negativa). A escolha é baseada na previsão. Dada uma previsão de densidade, um usuário pode calcular a utilidade esperada de uma ação específica, integrando a utilidade dessa ação sobre a densidade prevista do resultado. Então ele / ela escolhe a ação (entre todas as possíveis) que maximiza essa utilidade esperada. Se a função de utilitário tiver um máximo exclusivo (a função de perda tiver um mínimo exclusivo), a ação ideal será única.
Richard Hardy
Fundamentalmente, existe um ponto na distribuição de resultados que produz exatamente a mesma utilidade esperada acima, e esse ponto define o objetivo da previsão de pontos "relevante". Portanto, o usuário obterá exatamente a mesma utilidade esperada maximizada (em todas as ações possíveis), independentemente de a previsão recebida ser uma previsão de densidade ou uma previsão pontual "relevante", desde que a qualidade das duas previsões seja "igualmente boa". Algum dos seus exemplos viola isso?
Richard Hardy
Talvez o seu exemplo de [uma ação baseada em] um intervalo de predição seja um contra-exemplo válido, embora eu duvide (com base no ponto de vista teórico da decisão acima) ... Gostaria de saber como poderia qualificar a declaração no OP (adicione alguns condição) para corrigir a resposta "uma previsão de densidade não tem valor agregado". Obviamente, isso não é para invalidar sua resposta, mas apenas para meu próprio bem entender a situação. Em relação às regras de pontuação, também seria interessante obter um exemplo em que uma regra de pontuação faz sentido intuitivo como uma função de perda para um usuário específico. (+1)
Richard Hardy
Na verdade, um argumento semelhante se aplica às previsões de intervalo e às previsões de densidade. A argumentação em minha resposta sugere que, para uma determinada função de perda, uma previsão de intervalo não terá um valor agregado além de uma previsão pontual relevante. Com relação às funções de perda dependendo das previsões, isso é possível quando um usuário adapta suas ações à previsão, mas uma previsão de intervalo ou densidade pode ser substituída por uma previsão de ponto relevante e a função de perda seria formulada na previsão de ponto.
Richard Hardy
Quero dizer que a perda depende inevitavelmente do resultado, mas não necessariamente de uma previsão de intervalo ou densidade, se a última puder ser substituída por uma previsão pontual. O resultado é um argumento fundamental para a função de perda, mas o tipo de previsão não é se o usuário tem permissão para escolher entre diferentes tipos de previsão (ponto x intervalo x densidade). Portanto, seu primeiro exemplo não é um contra-exemplo válido. Seu segundo exemplo também não parece ser válido, pois, como você diz, também podemos tentar prever a granularidade do intervalo de três dias.
Richard Hardy
4

Segundo plano (pode ser ignorado)

Estarei pensando em termos teóricos da decisão da seguinte maneira. Um usuário deve escolher uma açãoa entre um conjunto de possibilidades A. A ação trará a ele alguma "utilidade" (noção comumente usada em economia)u(a;s) dependendo do estado da natureza s que será realizado no futuro, onde sS, um conjunto de todos os estados possíveis. (A utilidade é basicamente o negativo da perda, e o que se segue pode ser reformulado de forma equivalente em termos de utilidade ou perda.) O usuário tem como objetivo maximizar a utilidade esperada (ou equivalente, minimizar a perda esperada) na ação,

maxaAESu(a;s).

A escolha da ação é baseada na previsão do estado da natureza a ser realizado. Dada uma previsão de densidade , um usuário pode calcular a utilidade esperada de uma ação específica, integrando o utilitário dessa ação sobre a distribuição prevista dos estados da natureza, Em seguida, ele escolhe a ação (entre todas as possíveis) que maximiza esse utilitário esperado, . O valor esperado da utilidade nesta ação, para esta previsão de densidade, é .f^S()

ES^u(a;s)=u(a;s)f^S(s)ds.
a^:=argmaxaAES^u(a;s)u^:=u(a^)

Se a função de utilitário tiver um máximo exclusivo (a função de perda tiver um mínimo exclusivo), a ação ideal será única. Se o estado da natureza é uma variável aleatória contínua , existe um ponto na distribuição (um estado da natureza) que produz exatamente . Esse ponto define o alvo da previsão de pontos "relevante". Portanto, o usuário obterá exatamente o mesmo utilitário esperado maximizado (sobre todas as ações possíveis), independentemente de a previsão que ele recebe seja uma previsão de densidade ou a previsão de ponto "relevante" (uma massa de probabilidade unitária em um determinado estado da natureza), desde a qualidade das duas previsões é "igualmente boa"u^

Parte principal (veja o plano de fundo para mais detalhes)

Eu acho que é razoável supor que a utilidade de uma previsão seja totalmente refletida pela perda que incorre a um determinado usuário. Então, o objetivo de um usuário é escolher uma previsão que minimize a perda esperada. Portanto, dada uma distribuição prevista, o usuário assumirá uma função concreta (por exemplo, média prevista) que minimiza a perda esperada. O restante da densidade prevista não terá nenhum valor agregado para o usuário.

Se a função de perda tiver um mínimo único, a função terá um valor único e esse valor será o ponto previsto para o usuário. Por exemplo, se a função de perda do usuário for quadrática (que tem um mínimo exclusivo na média da distribuição verdadeira), ele só se preocupará com a previsão da média. Se outro usuário estiver enfrentando perda absoluta (que tem um mínimo único na mediana da distribuição verdadeira), ele só se preocupará com a previsão da mediana. Fornecer uma previsão de densidade para qualquer um desses usuários, além de previsões de média e mediana, respectivamente, terá zero valor agregado para eles.

Elliott e Timmermann (2016a) escrevem na p. 423-424 (referente à avaliação das previsões de densidade):

Uma maneira de [avaliar uma previsão de densidade] seria converter a previsão de densidade em uma previsão pontual e usar os métodos para a avaliação da previsão pontual. Essa abordagem simples para avaliar previsões de densidade pode ser apropriada por vários motivos. As previsões de segurança podem ser justificadas com base no fato de que existem vários usuários com diferentes funções de perda. Qualquer um desses usuários pode examinar o desempenho de uma previsão de densidade com referência à função de perda específica considerada apropriada para o seu problema. A medida relevante do desempenho previsto é a perda média calculada a partir da função de perda específica de cada usuário.

Além disso, dada uma função de perda conhecida, uma previsão de densidade pode até ser inferior a uma previsão pontual relevante, pelos dois motivos a seguir. Primeiro, as previsões de densidade são normalmente mais difíceis de produzir do que as pontuais. Segundo, eles podem trocar precisão / exatidão em um ponto específico (digamos, média ou mediana) por precisão / exatidão em toda a distribuição que está sendo prevista. Ou seja, se alguém está prevendo toda a densidade, pode ser necessário sacrificar alguma precisão / exatidão para a previsão da média, a fim de obter maior precisão / exatidão em outro lugar. Como Elliott e Timmermann (2016b) escrevem,

[As] relações entre as regras de pontuação populares na literatura e as funções subjacentes de perda para usuários individuais não são claras. Assim, pode ser que a regra de pontuação usada forneça uma estimativa ruim do recurso da distribuição condicional que alguns usuários desejam construir.

Uma citação semelhante pode ser encontrada em Elliott e Timmermann (2016a) , p. 277-278:

Parece que o fornecimento de uma densidade preditiva é superior a relatar uma previsão pontual, pois ambos (a) podem ser combinados com uma função de perda para produzir qualquer previsão pontual; e (b) é independente da função de perda. Na estimativa clássica da densidade preditiva, nenhum desses pontos realmente se sustenta na prática. <...> [no] cenário clássico, as distribuições preditivas estimadas dependem da função de perda. Todos os parâmetros da densidade preditiva precisam ser estimados e essas estimativas requerem alguma função de perda; portanto, as funções de perda são lançadas de volta ao mix. O problema aqui é que as funções de perda que são frequentemente empregadas na estimativa de densidade não se alinham àquelas empregadas na previsão de pontos, o que pode levar a previsões de pontos inferiores. <...> Além disso,

Portanto, quando uma função de perda é fornecida, pode fazer sentido concentrar-se na previsão de um ponto específico, adaptado à função de perda, em vez de tentar prever toda a distribuição. Isso pode ser mais fácil de fazer e / ou mais preciso.

Uma pergunta crítica para mim mesmo: será que a previsão pontual "relevante" não pode ser expressa em função da densidade desconhecida, mas sim diferente (em função, não apenas do seu valor) para diferentes densidades? Em seguida, seria necessária uma previsão de densidade para descobrir em qual previsão de ponto está interessada, tornando a previsão de densidade um passo inevitável no processo de previsão de pontos.

Referências:

Richard Hardy
fonte