Estou tentando modelar uma variável de resposta que é teoricamente limitada entre -225 e +225. A variável é a pontuação total obtida pelos sujeitos ao jogar um jogo. Embora teoricamente seja possível para os sujeitos pontuar +225. Apesar disso, porque a pontuação dependia não apenas das ações dos sujeitos, mas também das ações de outras ações, o máximo que alguém marcou foi 125 (este é o maior número de jogadores que podem se marcar), isso aconteceu com uma frequência muito alta. A pontuação mais baixa foi +35.
Esse limite de 125 está causando dificuldades com uma regressão linear. A única coisa que consigo pensar é redimensionar a resposta para estar entre 0 e 1 e usar uma regressão beta. Se fizer isso, não tenho certeza se realmente posso justificar dizer que 125 é o limite superior (ou 1 após a transformação), pois é possível marcar +225. Além disso, se eu fizesse isso, qual seria meu limite inferior, 35?
Obrigado,
Jonathan
fonte
Respostas:
Embora eu não tenha muita certeza de qual é o seu problema com a regressão linear, agora estou terminando um artigo sobre como analisar resultados limitados. Como não estou familiarizado com a regressão beta, talvez alguém responda a essa opção.
Pela sua pergunta, entendo que você obtém previsões fora dos limites. Nesse caso, eu usaria regressão logística quantílica . A regressão quantílica é uma alternativa muito elegante à regressão linear regular. Você pode observar diferentes quantis e obter uma imagem muito melhor dos seus dados do que é possível com a regressão linear regular. Também não há suposições sobre a distribuição 1 .
A transformação de uma variável geralmente pode causar efeitos engraçados na regressão linear, por exemplo, você tem um significado na transformação logística, mas isso não se traduz no valor regular. Esse não é o caso dos quantis, a mediana é sempre a mediana, independentemente da função de transformação. Isso permite que você se transforme sem distorcer nada. O professor Bottai sugeriu essa abordagem para resultados limitados 2 , é um método excelente se você deseja fazer previsões individuais, mas há alguns problemas quando você não deseja olhar para os beta e interpretá-los de maneira não logística. A fórmula é simples:
Aqui está um exemplo que eu fiz há um tempo atrás, quando eu queria experimentar com ele em R:
Isso fornece a seguinte dispersão de dados, como você pode ver, é claramente limitada e inconveniente :
Isso resulta na figura a seguir, onde as fêmeas estão claramente acima do limite superior:
Isso fornece o seguinte gráfico com problemas semelhantes:
A regressão logística quantílica que tem uma previsão limitada muito boa:
Aqui você pode ver o problema das versões beta que, de maneira retransformada, diferem em diferentes regiões (conforme o esperado):
Referências
Para os curiosos, as parcelas foram criadas usando este código:
fonte
Smithson, M. and Verkuilen, J. (2006). A better lemon squeezer? maximum-likelihood regression with beta-distributed dependent variables. Psychological Methods, 11(1):54-71.
, DOI , em linha PDF . Tem uma motivação semelhante para modelar distribuições com efeitos de piso / teto.