As previsões de densidade são mais universais do que as pontuais; eles fornecem informações sobre toda a distribuição prevista de uma variável aleatória, e não sobre uma função concreta da mesma (como média prevista, mediana, quantil etc.). A disponibilidade de uma previsão de densidade permite que diferentes usuários selecionem elementos relevantes - previsões pontuais - que são do seu interesse. Alguns usuários se concentrarão na média prevista, outros na mediana prevista etc., dependendo da função de perda pela qual a previsão é avaliada (e que pode diferir de usuário para usuário). Dada uma previsão de densidade, as necessidades de cada usuário serão atendidas independentemente da função de perda, porque a previsão de densidade contém todas as informações probabilísticas sobre a variável aleatória.
No entanto, se tivermos em mente um usuário concreto e conhecermos sua função de perda,
- A previsão de densidade fornece algum valor agregado em relação a uma previsão pontual adaptada à função de perda?
- Se a resposta for Não em geral, quais são as condições para torná-lo Sim ?
PS @hejseb traça um paralelo interessante entre uma previsão de pontos adaptada à função de perda e uma estatística suficiente; talvez isso possa inspirar uma resposta.
fonte
Respostas:
Posso pensar em situações mais ou menos realistas e meia em que uma densidade total é melhor do que uma previsão pontual, mesmo que a função de perda seja conhecida.
A situação detalhada é aquela em que a função de perda do usuário depende não apenas da previsão pontual, mas de um lado bilateral intervalo de previsão, ou mesmo toda a densidade, ou seja, a função de perda é uma regras de pontuação.
Sim, uma função de perda é normalmente definida para depender de uma previsão de ponto único, por isso estou livre da nomenclatura aqui. Não obstante, situações como essas ocorrem, por exemplo, nas previsões de volatilidade financeira. Ou onde eu trabalho, na previsão de reabastecimento de varejo: talvez desejemos atingir um nível de serviço de 95%; portanto, apenas podemos estar interessados nessa previsão quantil (pontual). No entanto, uma previsão quantil de 95% pode ser 4, enquanto podemos ser obrigados a reabastecer em tamanhos de embalagem de 8. Em tal situação, pode ser valioso saber a que porcentagem 8 unidades corresponde.
fonte
Segundo plano (pode ser ignorado)
Estarei pensando em termos teóricos da decisão da seguinte maneira. Um usuário deve escolher uma açãoa entre um conjunto de possibilidades A . A ação trará a ele alguma "utilidade" (noção comumente usada em economia)u(a;s) dependendo do estado da natureza s que será realizado no futuro, onde s∈S , um conjunto de todos os estados possíveis. (A utilidade é basicamente o negativo da perda, e o que se segue pode ser reformulado de forma equivalente em termos de utilidade ou perda.) O usuário tem como objetivo maximizar a utilidade esperada (ou equivalente, minimizar a perda esperada) na ação,
A escolha da ação é baseada na previsão do estado da natureza a ser realizado. Dada uma previsão de densidade , um usuário pode calcular a utilidade esperada de uma ação específica, integrando o utilitário dessa ação sobre a distribuição prevista dos estados da natureza, Em seguida, ele escolhe a ação (entre todas as possíveis) que maximiza esse utilitário esperado, . O valor esperado da utilidade nesta ação, para esta previsão de densidade, é .f^S(⋅)
Se a função de utilitário tiver um máximo exclusivo (a função de perda tiver um mínimo exclusivo), a ação ideal será única. Se o estado da natureza é uma variável aleatória contínua , existe um ponto na distribuição (um estado da natureza) que produz exatamente . Esse ponto define o alvo da previsão de pontos "relevante". Portanto, o usuário obterá exatamente o mesmo utilitário esperado maximizado (sobre todas as ações possíveis), independentemente de a previsão que ele recebe seja uma previsão de densidade ou a previsão de ponto "relevante" (uma massa de probabilidade unitária em um determinado estado da natureza), desde a qualidade das duas previsões é "igualmente boa"u^∗
Parte principal (veja o plano de fundo para mais detalhes)
Eu acho que é razoável supor que a utilidade de uma previsão seja totalmente refletida pela perda que incorre a um determinado usuário. Então, o objetivo de um usuário é escolher uma previsão que minimize a perda esperada. Portanto, dada uma distribuição prevista, o usuário assumirá uma função concreta (por exemplo, média prevista) que minimiza a perda esperada. O restante da densidade prevista não terá nenhum valor agregado para o usuário.
Se a função de perda tiver um mínimo único, a função terá um valor único e esse valor será o ponto previsto para o usuário. Por exemplo, se a função de perda do usuário for quadrática (que tem um mínimo exclusivo na média da distribuição verdadeira), ele só se preocupará com a previsão da média. Se outro usuário estiver enfrentando perda absoluta (que tem um mínimo único na mediana da distribuição verdadeira), ele só se preocupará com a previsão da mediana. Fornecer uma previsão de densidade para qualquer um desses usuários, além de previsões de média e mediana, respectivamente, terá zero valor agregado para eles.
Elliott e Timmermann (2016a) escrevem na p. 423-424 (referente à avaliação das previsões de densidade):
Além disso, dada uma função de perda conhecida, uma previsão de densidade pode até ser inferior a uma previsão pontual relevante, pelos dois motivos a seguir. Primeiro, as previsões de densidade são normalmente mais difíceis de produzir do que as pontuais. Segundo, eles podem trocar precisão / exatidão em um ponto específico (digamos, média ou mediana) por precisão / exatidão em toda a distribuição que está sendo prevista. Ou seja, se alguém está prevendo toda a densidade, pode ser necessário sacrificar alguma precisão / exatidão para a previsão da média, a fim de obter maior precisão / exatidão em outro lugar. Como Elliott e Timmermann (2016b) escrevem,
Uma citação semelhante pode ser encontrada em Elliott e Timmermann (2016a) , p. 277-278:
Portanto, quando uma função de perda é fornecida, pode fazer sentido concentrar-se na previsão de um ponto específico, adaptado à função de perda, em vez de tentar prever toda a distribuição. Isso pode ser mais fácil de fazer e / ou mais preciso.
Uma pergunta crítica para mim mesmo: será que a previsão pontual "relevante" não pode ser expressa em função da densidade desconhecida, mas sim diferente (em função, não apenas do seu valor) para diferentes densidades? Em seguida, seria necessária uma previsão de densidade para descobrir em qual previsão de ponto está interessada, tornando a previsão de densidade um passo inevitável no processo de previsão de pontos.
Referências:
fonte