Os resultados da regressão têm um limite superior inesperado

9

Tento prever uma pontuação de equilíbrio e tentei vários métodos de regressão diferentes. Uma coisa que notei é que os valores previstos parecem ter algum tipo de limite superior. Ou seja, o saldo real está em , mas minhas previsões atingem cerca de . O gráfico a seguir mostra o saldo real versus o previsto (previsto com regressão linear):0,8[0.0,1.0)0.8

real vs previsto

E aqui estão dois gráficos de distribuição dos mesmos dados:

distribuição inicial

Como meus preditores são muito distorcidos (dados do usuário com distribuição da lei de energia), apliquei uma transformação Box-Cox, que altera os resultados para o seguinte:

real vs previsto após a transformação Box-Cox

distribuição após transformação Box-Cox

Embora mude a distribuição das previsões, ainda existe esse limite superior. Então, minhas perguntas são:

  • Quais são as possíveis razões para esses limites superiores nos resultados de previsão?
  • Como posso corrigir as previsões para corresponder à distribuição dos valores reais?

Bônus: Como a distribuição após a transformação Box-Cox parece seguir as distribuições dos preditores transformados, é possível que isso esteja diretamente vinculado? Se sim, existe uma transformação que eu possa aplicar, para ajustar a distribuição aos valores reais?

Edit: Eu usei uma regressão linear simples com 5 preditores.

Mennny
fonte
11
Estou realmente interessado em ver para onde isso vai. Este é apenas um modelo de regressão linear? Quantos preditores?
shadowtalker
11
Como uma observação lateral: como sua variável de resultado é delimitada por 0 e 1, um modelo de regressão linear simples provavelmente preverá valores fora desses limites, o que é obviamente inválido. Existem outras opções a serem consideradas neste caso.
COOLSerdash
11
Entrada limitada implica saída limitada para um modelo linear. Quais são os limites dos preditores (transformados)? Você pode nos mostrar uma tabela de resumo do ajuste do modelo?
cardeal
2
Mennny: Tudo o que você realmente precisa (para começar) são os valores do coeficiente e os limites dos preditores. Ao combinar os sinais um por um, você pode determinar rapidamente a previsão mínima e máxima (supondo que os preditores sempre satisfaçam os limites, implícita ou explicitamente).
cardeal
11
@ cardinal: verifiquei os limites dos preditores e fui capaz de confirmar sua suposição. Com os preditores fornecidos (não transformados), a previsão máxima é de ~ 0,79. Você pode "copiar / colar" seu comentário como resposta para que eu possa aceitá-lo? Como posso proceder? Eu acho que isso mostra que não há relação linear entre meus preditores e o resultado?
Mennny 24/03

Respostas:

1

Seu dep var é limitado entre 0 e 1 e, portanto, o OLS não é totalmente apropriado, sugiro regressão beta, por exemplo, e pode haver outros métodos. Mas, em segundo lugar, após a transformação box-cox, você diz que suas previsões são limitadas, mas seu gráfico não mostra isso.

Leonardo Auslender
fonte
0

Embora haja muito foco no uso de regressões que obedeçam aos limites de 0/1, e isso seja razoável (e importante!), A questão específica de por que seu LPM não prevê resultados maiores que 0,8 me parece uma pergunta um pouco diferente .

Em ambos os casos, há um padrão notável em seus resíduos, a saber, seu modelo linear se encaixa mal na cauda superior de sua distribuição. Isso significa que há algo não linear no modelo correto.

Soluções que também consideram o limite 0/1 de seus dados: probit, logit e regressão beta. Esse limite é crítico e deve ser tratado para que seu trabalho seja rigoroso, dada a sua distribuição relativamente próxima a 1 e, portanto, o grande número de respostas sobre esse tópico.

Geralmente, porém, o problema é que um LPM excede o limite 0/1. Este não é o caso aqui! Se você não está preocupado com o limite 0/1 e deseja ativamente uma solução que possa ser ajustada com (x'x) ^ - 1 (x'y), considere que talvez o modelo não seja visivelmente linear. Ajustar o modelo em função de x ^ 2, produtos cruzados de variáveis ​​independentes ou logs de variáveis ​​independentes pode ajudar a melhorar seu ajuste e, possivelmente, melhorar o poder explicativo do seu modelo, para que ele estima valores maiores que 0,8.

RegressForward
fonte