O valor do quadrado R é apropriado para comparar modelos?

Estou tentando identificar o melhor modelo para prever os preços dos automóveis, usando os preços e os recursos disponíveis em sites de anúncios classificados para automóveis.

Para isso, usei alguns modelos da biblioteca scikit-learn e modelos de redes neurais do pybrain e neurolab. A abordagem que usei até agora é executar uma quantidade fixa de dados através de alguns modelos (algoritmos de aprendizado de máquina) e comparar os valores de que foram calculados com o módulo de métricas do scikit-learn. $R^2$

É um método bom para comparar o desempenho de diferentes modelos? $R^2$
Embora eu tenha obtido resultados bastante aceitáveis para modelos como redes elásticas e florestas aleatórias, obtive valores muito baixos de para modelos de redes neurais, então um método apropriado para avaliar redes neurais (ou métodos não lineares)? $R^2$ $R^2$

machine-learning neural-networks random-forest r-squared elastic-net Manik
fonte

A resposta curta é não . Pode ajudar você a ler minha resposta aqui: Avaliação e comparação do modelo para selecionar o melhor modelo , que está intimamente relacionado à sua pergunta. Uma solução candidata é descrita aqui . Para um entendimento mais geral, você pode tentar ler alguns dos tópicos no site categorizados na tag de seleção de modelo .

gung - Restabelece Monica

@gung Obrigado, posso perguntar qual seria uma medida adequada de adequação para regressão usando redes neurais?

Manik

Eu acho que a parte crucial a considerar ao responder sua pergunta é

Estou tentando identificar o melhor modelo para prever os preços dos automóveis

porque essa declaração implica algo sobre o motivo pelo qual você deseja usar o modelo. A escolha e a avaliação do modelo devem ser baseadas no que você deseja alcançar com seus valores ajustados.

Primeiro, vamos recapitular o que faz $R^2$ : Ele calcula uma medida de dimensionado com base na função de perda quadrática, que estou certo que você já está ciente. Para ver isso, definir residual para o seu i-th observação eo valor equipada correspondente . Usando a notação conveniente , $e_i = y_i - \hat{y}_i$ $y_i$ $\hat{y}_i$ $SSR := \sum_{i=1}^Ne_i^2$ ,é simplesmente definido como. $SST:=\sum_{i=1}^N(y_i - \bar{y})^2$ $R^2$ $R^2 = 1 - SSR/SST$

Em segundo lugar, vamos ver o que usando para o modelo de escolha / meios de avaliação $R^2$ . Suponha que escolhamos um conjunto de previsões que foram geradas usando um modelo , em que é a coleção de modelos em consideração (no seu exemplo, essa coleção conteria redes neurais, florestas aleatórias, redes elásticas, ...) Desde permanecerá constante entre todos os modelos, se minimizando você vai escolher exatamente o modelo que minimiza . Em outras palavras, você escolherá $\bar{Y}_M$ $M:M \in \mathcal{M}$ $\mathcal{M}$ $SST$ $R^2$ $SSR$ que produz a perda mínima de erro quadrado! $M \in \mathcal{M}$

Em terceiro lugar, vamos considerar por que $R^2$ ou equivalente, pode ser interessante para a escolha do modelo . Tradicionalmente, a perda quadrada ( norma ) é usada por três razões: (1) é mais fácil de calcular do que os desvios mínimos absolutos (LAD, a norma ) porque nenhum valor absoluto aparece na computação; (2) pune valores que estão muito longe do valor real muito mais que LAD (em sentido quadrado ao invés de absoluto) e, assim, garante que temos valores extremos menos extremos, (3) é simétrico : superestimar ou subestimar o preço de um carro é considerado igualmente ruim. $SSR$ $L^2$ $L^1$

Quarto (e último), vamos ver se é isso que você precisa para suas previsões. O ponto que pode ser de maior interesse aqui é (3) do último parágrafo. Suponha que você queira adotar uma postura neutra e não seja comprador nem vendedor de um carro. Então, pode fazer sentido: Você é imparcial, e você deseja punir desvios de super ou subvalorização exatamente idêntica. O mesmo se aplica se você deseja apenas modelar a relação entre as quantidades sem desejar prever valores não observados. Agora, suponha que você esteja trabalhando para um consumidor / comprador com um orçamento apertado: nessa situação, convém punir a superestimação do preço no sentido quadrático, mas subestimada no sentido , em que $R^2$ $L^p$ . Para , você puniria em sentido de desvio absoluto. Isso pode refletir as metas e intenções do comprador, e influenciar a estimativa para baixo pode ser do seu interesse. Por outro lado, você poderia mudar de ideia se modelasse as previsões de preço para o vendedor. Escusado será dizer que, qualquer norma poderia ser escolhido para refletir as preferências do modelador / o agente que você modelo para. Você também pode punir fora do norma inteiramente, e uso constante, exponencial, ou perda de registro de um lado e uma perda diferente do outro. $1 \leqslant p <2$ $p=1$ $L^p$ $L^p$

Em resumo, a escolha / avaliação do modelo não pode ser considerada independentemente do objetivo do modelo.

Jeremias K
fonte

O valor do quadrado R é apropriado para comparar modelos?

Respostas: