Eu tenho 5 variáveis e estou tentando prever minha variável de destino, que deve estar dentro do intervalo de 0 a 70.
Como uso essas informações para modelar melhor meu destino?
fonte
Eu tenho 5 variáveis e estou tentando prever minha variável de destino, que deve estar dentro do intervalo de 0 a 70.
Como uso essas informações para modelar melhor meu destino?
y
No entanto, o intervalo restrito aumenta a possibilidade de um relacionamento não linear entre a variável dependente ( ) e as variáveis independentes ( ). Alguns indicadores adicionais incluem:
Maior variação nos valores residuais quando está no meio do intervalo, em comparação com a variação nos resíduos nos dois extremos do intervalo.
Razões teóricas para relações não lineares específicas.
Evidência de especificação incorreta do modelo (obtida da maneira usual).
Significado de termos quadráticos ou de ordem superior no .
Considere uma re-expressão não linear de , caso alguma dessas condições se mantenha.
Existem muitas maneiras de re-expressar para criar relacionamentos mais lineares com o . Por exemplo, qualquer função crescente definida no intervalo pode ser "dobrada" para criar uma função crescente simétrica via . Se torna-se arbitrariamente grande e negativa como seu argumento se aproxima de , a versão dobrada de irá mapear em todos os números reais. Exemplos de tais funções incluem o logaritmo e qualquer poder negativo. O uso do logaritmo é equivalente ao "link de logit" recomendado por @ user603. Outra maneira é deixar seja o CDF inverso de qualquer distribuição de probabilidade e defina . O uso de uma distribuição Normal fornece a transformação "probit".
Uma maneira de explorar famílias de transformações é experimentar: tente uma provável transformação, faça uma regressão rápida do transformado em relação ao e teste os resíduos: eles devem parecer independentes dos valores previstos de (homoscedástico e não correlacionado) . Estes são sinais de uma relação linear com as variáveis independentes. Também ajuda se os resíduos dos valores previstos transformados de volta tendem a ser pequenos. Isso indica que a transformação melhorou o ajuste. Para resistir aos efeitos de valores discrepantes, use métodos de regressão robustos, como mínimos quadrados com ponderação iterativa .x i y
É importante considerar por que seus valores são limitados no intervalo de 0 a 70. Por exemplo, se eles são o número de respostas corretas em um teste de 70 perguntas, considere modelos para variáveis "número de sucessos", como regressão binomial superdispersa. Outros motivos podem levar você a outras soluções.
fonte
Transformação de dados: redimensione seus dados para e modele-os usando um modelo glm com um link de logit.[0,1]
Editar: quando você redimensiona um vetor (ou seja, divide todos os elementos pela maior entrada), como regra geral, antes de fazer isso, faça uma triagem (globos oculares) para discrepâncias.
ATUALIZAR
Supondo que você tenha acesso ao R, eu levaria a parte de modelagem com uma rotina glm robusta , consulte no pacote .glmrob() robustbase
fonte