Uma maneira de encontrar a precisão do modelo de regressão logística usando 'glm' é encontrar o gráfico da AUC. Como verificar o mesmo para o modelo de regressão encontrado com a variável de resposta contínua (família = 'gaussiana')?
Quais métodos são usados para verificar quão bem meu modelo de regressão se ajusta aos dados?
r
regression
generalized-linear-model
user1140126
fonte
fonte
r-squared
tag eogoodness-of-fit
tag ..Respostas:
Eu sugeriria uma breve pesquisa sobre " diagnóstico de modelo de regressão linear " como começo. Mas aqui estão algumas que eu sugiro que você verifique:
Certifique-se de que as premissas sejam atendidas satisfatoriamente
Use gráfico de dispersão ou componente mais gráfico residual para examinar a relação linear entre os preditores independentes e a variável dependente.
Componha uma plotagem com valor residual padronizado versus valor previsto e garanta que não exista um ponto extremo com um resíduo muito alto, e a dispersão do resíduo seja amplamente semelhante ao valor previsto, além de se espalhar amplamente acima e abaixo da média do resíduo, zero.
Você também pode alterar o eixo y para 2 residual . Esse gráfico ajuda a identificar variações desiguais.2
Re-examine o desenho do estudo para garantir que a suposição de independência seja razoável.
Recupere o fator de inflação de variação (VIF) ou estatísticas de tolerância para examinar a possível colinearidade.
Examine potenciais pontos influentes
Examinar a mudança de e ajustado R 2 estatísticasR2 R2
Verifique a interação necessária
Aplique seu modelo a outro conjunto de dados e verifique seu desempenho
fonte
plot.lm
poderá fornecer a maioria dos gráficos de diagnóstico mencionados pelo Penguin_Knight.Gosto de validar cruzadamente meus modelos de regressão para ver quão bem eles generalizam para novos dados. Minha métrica de escolha é erro absoluto médio nos dados validados cruzadamente, mas o erro quadrático médio raiz é mais comum e igualmente útil.
Não acho que o R2 seja uma boa métrica de quão bem seu modelo se ajusta aos dados de treinamento, pois quase qualquer métrica de erro calculada nos dados de treinamento estará sujeita a excesso de ajuste. Se você deve calcular o R2 no conjunto de treinamento, sugiro usar o R2 ajustado .
fonte
Sugiro usar o RMSE (erro médio quadrático da raiz) das suas previsões no seu conjunto de testes quando comparado ao valor real. Este é um método padrão de relatar erro de previsão de uma variável contínua.
fonte
Eu sou usado para verificar a forma funcional do meu estimador de parâmetros, plotando uma estimativa não paramétrica (por exemplo, uma regressão do kernel) ou semi-paramétrica e comparando-a com a curva ajustada paramétrica. Penso que este é o primeiro passo frequentemente mais rápido (e talvez mais esclarecedor) do que incluir termos de interação ou termos de ordem superior.
O pacote R np fornece muitas funções não-paramétricas e semi-paramétricas, e sua vinheta está bem escrita: http://cran.r-project.org/web/packages/np/vignettes/np.pdf
fonte