O valor do quadrado R é apropriado para comparar modelos?

17

Estou tentando identificar o melhor modelo para prever os preços dos automóveis, usando os preços e os recursos disponíveis em sites de anúncios classificados para automóveis.

Para isso, usei alguns modelos da biblioteca scikit-learn e modelos de redes neurais do pybrain e neurolab. A abordagem que usei até agora é executar uma quantidade fixa de dados através de alguns modelos (algoritmos de aprendizado de máquina) e comparar os valores de que foram calculados com o módulo de métricas do scikit-learn.R2

  1. É um método bom para comparar o desempenho de diferentes modelos?R2
  2. Embora eu tenha obtido resultados bastante aceitáveis ​​para modelos como redes elásticas e florestas aleatórias, obtive valores muito baixos de para modelos de redes neurais, então um método apropriado para avaliar redes neurais (ou métodos não lineares)?R2R2
Manik
fonte
2
A resposta curta é não . Pode ajudar você a ler minha resposta aqui: Avaliação e comparação do modelo para selecionar o melhor modelo , que está intimamente relacionado à sua pergunta. Uma solução candidata é descrita aqui . Para um entendimento mais geral, você pode tentar ler alguns dos tópicos no site categorizados na tag de seleção de modelo .
gung - Restabelece Monica
@gung Obrigado, posso perguntar qual seria uma medida adequada de adequação para regressão usando redes neurais?
Manik

Respostas:

18

Eu acho que a parte crucial a considerar ao responder sua pergunta é

Estou tentando identificar o melhor modelo para prever os preços dos automóveis

porque essa declaração implica algo sobre o motivo pelo qual você deseja usar o modelo. A escolha e a avaliação do modelo devem ser baseadas no que você deseja alcançar com seus valores ajustados.

Primeiro, vamos recapitular o que fazR2 : Ele calcula uma medida de dimensionado com base na função de perda quadrática, que estou certo que você já está ciente. Para ver isso, definir residual para o seu i-th observação y i eo valor equipada correspondente y i . Usando a notação conveniente S S R : = N i = 1 e 2 i , S S T : = ei=yiy^iyiy^iSSR:=i=1Nei2,R2é simplesmente definido comoR2=1-SSR/SST.SST:=i=1N(yiy¯)2R2R2=1SSR/SST

Em segundo lugar, vamos ver o que usando para o modelo de escolha / meios de avaliaçãoR2 . Suponha que escolhamos um conjunto de previsões que foram geradas usando um modelo M : M M , em que M é a coleção de modelos em consideração (no seu exemplo, essa coleção conteria redes neurais, florestas aleatórias, redes elásticas, ...) Desde S S T permanecerá constante entre todos os modelos, se minimizando R 2 você vai escolher exatamente o modelo que minimiza S S R . Em outras palavras, você escolheráY¯MM:MMMSSTR2SSR que produz a perda mínima de erro quadrado!MM

Em terceiro lugar, vamos considerar por que R2 ou equivalente, pode ser interessante para a escolha do modelo . Tradicionalmente, a perda quadrada ( norma L 2 ) é usada por três razões: (1) é mais fácil de calcular do que os desvios mínimos absolutos (LAD, a norma L 1 ) porque nenhum valor absoluto aparece na computação; (2) pune valores que estão muito longe do valor real muito mais que LAD (em sentido quadrado ao invés de absoluto) e, assim, garante que temos valores extremos menos extremos, (3) é simétrico : superestimar ou subestimar o preço de um carro é considerado igualmente ruim.SSR L2L1

Quarto (e último), vamos ver se é isso que você precisa para suas previsões. O ponto que pode ser de maior interesse aqui é (3) do último parágrafo. Suponha que você queira adotar uma postura neutra e não seja comprador nem vendedor de um carro. Então, pode fazer sentido: Você é imparcial, e você deseja punir desvios de super ou subvalorização exatamente idêntica. O mesmo se aplica se você deseja apenas modelar a relação entre as quantidades sem desejar prever valores não observados. Agora, suponha que você esteja trabalhando para um consumidor / comprador com um orçamento apertado: nessa situação, convém punir a superestimação do preço no sentido quadrático, mas subestimada no sentido L p , em que 1 pR2Lp . Para p = 1 , você puniria em sentido de desvio absoluto. Isso pode refletir as metas e intenções do comprador, e influenciar a estimativa para baixo pode ser do seu interesse. Por outro lado, você poderia mudar de ideia se modelasse as previsões de preço para o vendedor. Escusado será dizer que, qualquer norma L p poderia ser escolhido para refletir as preferências do modelador / o agente que você modelo para. Você também pode punir fora do G p norma inteiramente, e uso constante, exponencial, ou perda de registro de um lado e uma perda diferente do outro.1p<2p=1LpLp

Em resumo, a escolha / avaliação do modelo não pode ser considerada independentemente do objetivo do modelo.

Jeremias K
fonte