Estou usando o PROC GLM no SAS para ajustar uma equação de regressão da seguinte forma
O gráfico QQ dos vermelhos resultantes indica desvio da normalidade. Qualquer transformação de não é útil para normalizar os resíduos.
Neste ponto, posso alternar com segurança para métodos não paramétricos, como PROC LOESS.
Eu já usei o PROC LOESS e o ajuste parece melhor que o PROC GLM. Mas eu não tenho muito conhecimento em regressão não paramétrica. Não sei quando escolher a regressão não paramétrica em vez da regressão paramétrica.
alguém poderia me ajudar com isso?
Vou seguir em frente e adicionar outra pergunta. A seguir, é apresentada a descrição das minhas variáveis no modelo. Às vezes, recebo um custo previsto negativo. Isto não faz sentido. Como posso resolver esse problema?
Respostas:
Antes de analisar os gráficos QQ de resíduos, você deve avaliar a qualidade do ajuste, plotando os resíduos contra os preditores do modelo (e possivelmente também com outras variáveis que você não utilizou). A não linearidade deve aparecer nesses gráficos. Se o efeito da variável for realmente linear, você espera que o gráfico de resíduos contra x seja "horizontal", sem estrutura visível:x x
Ou seja, um "blob" horizontal aleatório de pontos, centralizado em torno da linha resid = 0.
Se o efeito for não linear, você espera ver alguma curvatura neste gráfico. (e, por favor, ignore os QQplots até obter as não linearidades resolvidas, usando os gráficos acima!)
Você também deve pensar em possíveis interações (modeladas geralmente pelos termos do produto), ou seja, o efeito de uma variável depende dos níveis de outra (se todas as suas três variáveis tiverem altos valores ao mesmo tempo, talvez isso mostre algumas dificuldades particularmente difíceis). paciente? Em caso afirmativo, podem ser necessárias interações).
Se você optar por algum modelo não linear, depois de tentar interações e transformações (você tentou
log(Cost)
?) Você tentou algumas transformações em caixa-cox? Como você tem regressão múltipla, acho que nãoloess
é isso que você precisa, você deve procurargam
(modelos aditivos generalizados, o SAS deve ter isso, em R está no pacotemgcv
).fonte
Um LOESS sempre dará um ajuste melhor que a regressão, a menos que os dados realmente estejam ao longo de uma linha reta. LOESS é uma aproximação linear local projetada para passar perto dos dados. Esses métodos são basicamente exploratórios. E embora seja perigoso extrapolar um modelo linear além dos limites do ajuste, a extrapolação seria imprudente no caso do LOESS.
Se o seu modelo fornecer custos negativos, é um bom sinal de que uma regressão linear não é apropriada para as variáveis que você possui. Você diz que tentou transformações. Você anotou o log de custo com seus preditores?
Na natureza das coisas, é improvável que exista uma relação simples entre custo e as variáveis mencionadas. Às vezes, o objetivo de uma regressão linear é simplesmente demonstrar que existe algum tipo de correlação e, talvez, selecionar um conjunto sensível de preditores.
fonte
Bravo por fazer análises residuais. Coloca você à frente do analista típico. (Sua descrição do modelo é deficiente em não descrever a estrutura do erro.) Você deve considerar as transformações dos Xs e também as transformações dos Ys. Percebo que o SAS está por trás do R na modelagem com ajustes de spline, mas entendo que as versões recentes ofereceram essa capacidade. Considere adicionar ajustes de spline cúbicos restritos para os termos X. Como referência, o texto de Frank Harrell "Estratégias de modelagem de regressão" é difícil de superar. Possui argumentos estatísticos sólidos para essa abordagem. É uma abordagem paramétrica que permite a descoberta de estrutura nos dados que, de outra forma, seriam perdidos.
fonte
Acho que o kjetil deu algumas boas sugestões. Eu acrescentaria que os resíduos não normais não significam que você precise pular da regressão linear ou não linear para a regressão não paramétrica. Indo para a regressão não paramétrica, você desiste da estrutura de uma forma funcional. Há uma alternativa de regressão robusta à regressão OLS à qual você poderia ir primeiro. Modelos lineares generalizados e modelos aditivos generalizados, se forem necessários os próximos passos. LOESS deve, a meu ver, ser seu último recurso. Eu acho que concordo com a kjetil nisso.
fonte