Estou tendo um grande problema com um problema conceitual que eu criei.
Digamos que uma empresa tenha uma distribuição altamente distorcida. Algo semelhante a um exponencial ou lognormal apenas mais extremo. Agora, finja que a distribuição está tão distorcida que a média da distribuição é superior ao percentil 99% da distribuição. (Aka 1-2 valores extremos mais altos fizeram com que a média fosse extremamente alta em comparação com o restante da distribuição).
Por definição, se essa distribuição fosse usada para prever um valor futuro (também conhecido como amostra aleatória da distribuição), seria verdade que a média não estaria no intervalo de previsão de 95%?
No meu cérebro, um intervalo de predição de 95% é um intervalo entre o qual 95% de todos os valores futuros se situam. Para qualquer distribuição, isso deve ser exatamente igual ao percentil 0,025 no limite inferior e o percentil 0,975 no limite superior ... Se a média for maior que o percentil 0,975, a média não estaria dentro dos 95% intervalo de previsão '.
Estou pensando nisso incorretamente? Parece estranho relatar uma previsão como
- Valor médio previsto: 6.000,0000
- Intervalo de previsão de 95%: [400,5000].
fonte
Respostas:
Não, um intervalo de previsão não precisa conter a média. Acho que algumas das suas confusões podem estar misturando intervalos de previsão e intervalos de confiança. Embora o objetivo de um intervalo de previsão seja conter com alguma certeza os valores futuros da variável aleatória, o objetivo de um intervalo de confiança é conter a verdadeira média da distribuição.
Como você mencionou em distribuições altamente distorcidas, essas idéias parecem estar em desacordo. O importante é reconhecer o valor em cada uma das estatísticas fornecidas.
O valor preditivo da média é:
1) Cumulativo: À medida que mais amostras chegam, sua média tenderá à média verdadeira. Portanto, se o valor cumulativo for de interesse (por exemplo, se você estiver jogando e lidando com ganhos ou perdas, está interessado em efeitos cumulativos), a média é muito útil.
2) Minimiza os resíduos quadráticos: embora os resíduos quadráticos sejam uma quantidade de interesse um tanto arbitrária, vale a pena saber o que sua previsão está minimizando.
Se, no entanto, seu objetivo é minimizar o erro absoluto em suas previsões, o valor médio previsto de 6.000.000 não é o que eu usaria.
fonte
Considere a distribuição de possíveis retornos no paradoxo de São Petersburgo:
Problema (1) = 1/2
Prob (2) = 1/4
Problema (4) = 1/8 ... Problema (2 ^ n) = 1/2 ^ (n + 1)
A média diverge e está fora de qualquer intervalo de previsão razoável. (A mediana é 1 neste caso, mas não sei o que usaria para minha previsão de pontos. Talvez Stephan Kolassa, veja acima, tenha uma sugestão.)
Há outra complicação: digamos que você queira um intervalo de previsão de 95% para alguma distribuição (além da que acabei de mencionar). Você passa do ladrilho de 2,5% para o ladrilho de 97,5% ou do 0 ao 95º ou do 5º ao 100º ou ....? A resposta provavelmente depende do motivo pelo qual você está fazendo a pergunta.
fonte