Eu tenho um problema de regressão múltipla, que tentei resolver usando a regressão múltipla simples:
model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data)
Isso parece explicar os 85% de variação (de acordo com o quadrado do R) que parece muito bom.
No entanto, o que me preocupa é o enredo de aparência estranha vs Residuais, veja abaixo:
Suspeito que a razão pela qual temos essas linhas paralelas seja porque o valor Y tem apenas 10 valores únicos correspondentes a cerca de 160 valores X.
Talvez eu deva usar um tipo diferente de regressão neste caso?
Edit : Eu vi no artigo a seguir um comportamento semelhante. Observe que é um papel de apenas uma página; portanto, quando você o visualiza, pode ler tudo. Eu acho que explica muito bem por que eu observo esse comportamento, mas ainda não tenho certeza se alguma outra regressão funcionaria melhor aqui?
Edit2: O exemplo mais próximo do nosso caso em que posso pensar é a mudança nas taxas de juros. O FED anuncia novas taxas de juros a cada poucos meses (não sabemos quando e com que frequência). Enquanto isso, reunimos nossas variáveis independentes diariamente (como taxa de inflação diária, dados do mercado de ações, etc.). Como resultado, teremos uma situação em que podemos ter muitas medidas para uma taxa de juros.
fonte
R
pacote que faz isso éordinal
, mas também existem outrosRespostas:
Um modelo possível é uma variável "arredondada" ou "censurada": seja sendo seus 10 valores observados. Pode-se supor que exista uma variável latente representando o preço "real", que você não conhece completamente. No entanto, você pode escrever (com , se você perdoar esse abuso de notação). Se você estiver disposto a arriscar uma declaração sobre a distribuição de Z em cada um desses intervalos, uma regressão bayesiana se torna trivial; uma estimativa de probabilidade máxima requer um pouco mais de trabalho (mas não muito, até onde eu sei). Análogos deste problema são tratados por Gelman & Hill (2007).y1, …y10 Z Yi=yj⇒yj−1≤Zi≤yj+1 y0=−∞,y11=+∞
fonte