Tento prever uma pontuação de equilíbrio e tentei vários métodos de regressão diferentes. Uma coisa que notei é que os valores previstos parecem ter algum tipo de limite superior. Ou seja, o saldo real está em , mas minhas previsões atingem cerca de . O gráfico a seguir mostra o saldo real versus o previsto (previsto com regressão linear):0,8
E aqui estão dois gráficos de distribuição dos mesmos dados:
Como meus preditores são muito distorcidos (dados do usuário com distribuição da lei de energia), apliquei uma transformação Box-Cox, que altera os resultados para o seguinte:
Embora mude a distribuição das previsões, ainda existe esse limite superior. Então, minhas perguntas são:
- Quais são as possíveis razões para esses limites superiores nos resultados de previsão?
- Como posso corrigir as previsões para corresponder à distribuição dos valores reais?
Bônus: Como a distribuição após a transformação Box-Cox parece seguir as distribuições dos preditores transformados, é possível que isso esteja diretamente vinculado? Se sim, existe uma transformação que eu possa aplicar, para ajustar a distribuição aos valores reais?
Edit: Eu usei uma regressão linear simples com 5 preditores.
Respostas:
Seu dep var é limitado entre 0 e 1 e, portanto, o OLS não é totalmente apropriado, sugiro regressão beta, por exemplo, e pode haver outros métodos. Mas, em segundo lugar, após a transformação box-cox, você diz que suas previsões são limitadas, mas seu gráfico não mostra isso.
fonte
Embora haja muito foco no uso de regressões que obedeçam aos limites de 0/1, e isso seja razoável (e importante!), A questão específica de por que seu LPM não prevê resultados maiores que 0,8 me parece uma pergunta um pouco diferente .
Em ambos os casos, há um padrão notável em seus resíduos, a saber, seu modelo linear se encaixa mal na cauda superior de sua distribuição. Isso significa que há algo não linear no modelo correto.
Soluções que também consideram o limite 0/1 de seus dados: probit, logit e regressão beta. Esse limite é crítico e deve ser tratado para que seu trabalho seja rigoroso, dada a sua distribuição relativamente próxima a 1 e, portanto, o grande número de respostas sobre esse tópico.
Geralmente, porém, o problema é que um LPM excede o limite 0/1. Este não é o caso aqui! Se você não está preocupado com o limite 0/1 e deseja ativamente uma solução que possa ser ajustada com (x'x) ^ - 1 (x'y), considere que talvez o modelo não seja visivelmente linear. Ajustar o modelo em função de x ^ 2, produtos cruzados de variáveis independentes ou logs de variáveis independentes pode ajudar a melhorar seu ajuste e, possivelmente, melhorar o poder explicativo do seu modelo, para que ele estima valores maiores que 0,8.
fonte