É o meu modelo de qualquer bom, com base no diagnóstico métrica (

12

Eu ajustei meu modelo e estou tentando entender se é bom. Calculei as métricas recomendadas para avaliá-las ( / AUC / precisão / erro de previsão / etc), mas não sei como interpretá-las. Em resumo, como posso saber se meu modelo é bom com base na métrica? Um de 0,6 (por exemplo) é suficiente para permitir que eu faça inferências ou baseie decisões científicas / comerciais?R2R2


Esta questão é intencionalmente ampla, para abranger uma ampla variedade de situações que os membros freqüentemente encontram; tais questões poderiam ser encerradas como duplicatas desta. Edições para ampliar o escopo além das métricas mencionadas aqui são bem-vindas, assim como respostas adicionais - especialmente aquelas que oferecem informações sobre outras classes de métricas.

mkt - Restabelecer Monica
fonte
1
Relacionado: Como saber que seu problema de aprendizado de máquina é inútil? Como em "Eu tenho , isso significa que eu não posso melhorá-lo ainda mais?" R2=0.6
Stephan Kolassa
2
Base de dados da linha para ou qualquer outro métrico usado? Ir de R 2 = 0,03 a R 2 = 0,05 pode ser um incrível salto de desempenho em determinadas aplicações. É exatamente assim que todas as publicações razoáveis ​​funcionam. Temos um modelo proposto, temos uma série de métricas bem aceitas, temos conhecimento do "estado da arte" e comparamos o desempenho. E é assim que sabemos se nosso modelo é bom . R2R2=0.03R2=0.05
usεr11852 27/06/19

Respostas:

18

Esta resposta enfocará principalmente R2 , mas a maior parte desta lógica se estende a outras métricas, como AUC e assim por diante.

Essa pergunta quase certamente não pode ser respondida bem por você pelos leitores do CrossValidated. Não há nenhuma maneira livre de contexto para decidir se métricas modelo tais como R2 são bons ou não . Nos extremos, geralmente é possível obter um consenso a partir de uma ampla variedade de especialistas: um R2 de quase 1 indica geralmente um modelo bom, e de perto de 0 indica uma terrível. Entre estas, encontra-se um intervalo em que as avaliações são inerentemente subjetivas. Nesse intervalo, é preciso mais do que apenas conhecimento estatístico para responder se a métrica do seu modelo é boa. É preciso experiência adicional em sua área, que provavelmente os leitores CrossValidated não possuem.

Por que é isso? Deixe-me ilustrar com um exemplo da minha própria experiência (pequenos detalhes alterados).

Eu costumava fazer experimentos de laboratório de microbiologia. Eu instalava frascos de células em diferentes níveis de concentração de nutrientes e media o crescimento da densidade celular (ou seja, a inclinação da densidade celular contra o tempo, embora esse detalhe não seja importante). Quando, em seguida, modelado este relacionamento crescimento / nutriente, era comum para atingir R2 valores de> 0,90.

Agora sou um cientista ambiental. Trabalho com conjuntos de dados que contêm medidas da natureza. Se eu tentar encaixar o mesmo modelo exato descrito acima para esses conjuntos de dados 'campo', eu ficaria surpreso se eu a R2 foi tão elevada como 0,4.

Esses dois casos envolvem exatamente os mesmos parâmetros, com métodos de medição muito semelhantes, modelos escritos e ajustados usando os mesmos procedimentos - e até a mesma pessoa que faz o ajuste! Mas, num caso, um R2 de 0,7 seria preocupante baixo, e na outra seria forma suspeita alta.

Além disso, faríamos algumas medições químicas juntamente com as medições biológicas. Os modelos para as curvas padrão de química teria R2 em torno de 0,99, e um valor de 0,90 seria preocupante baixo .


O que leva a essas grandes diferenças de expectativas? Contexto. Esse termo vago cobre uma vasta área, então deixe-me tentar separá-lo em alguns fatores mais específicos (isso provavelmente está incompleto):

1. Qual é o pagamento / consequência / aplicação?

R2

R2de pássaros. Até algumas décadas atrás, precisões de cerca de 85% eram consideradas altas nos EUA. Atualmente, o valor de atingir a mais alta precisão, de cerca de 99%? Um salário que aparentemente pode variar de 60.000 a 180.000 dólares por ano (com base em pesquisas rápidas). Como os humanos ainda são limitados na velocidade com que trabalham, algoritmos de aprendizado de máquina que podem atingir uma precisão semelhante, mas permitem que a classificação ocorra mais rapidamente, podem valer milhões.

(Espero que tenham gostado do exemplo - a alternativa foi deprimente quanto à identificação algorítmica muito questionável de terroristas).

2. Quão forte é a influência de fatores não modelados em seu sistema?

R2

3. Quão precisas e precisas são suas medidas?

R2

4. Complexidade e generalização do modelo

R2R2

R2R2

Na IMO, o sobreajuste é surpreendentemente comum em muitos campos. A melhor forma de evitar isso é um tópico complexo, e eu recomendo a leitura sobre procedimentos de regularização e seleção de modelos neste site, se você estiver interessado.

5. Intervalo de dados e extrapolação

R2

Além disso, se você ajustar um modelo a um conjunto de dados e precisar prever um valor fora do intervalo X desse conjunto de dados (por exemplo, extrapolar ), poderá descobrir que o desempenho é menor do que o esperado. Isso ocorre porque o relacionamento que você estimou pode mudar fora do intervalo de dados que você ajustou. Na figura abaixo, se você fez medições apenas no intervalo indicado pela caixa verde, você pode imaginar que uma linha reta (em vermelho) descreveu bem os dados. Mas se você tentasse prever um valor fora desse intervalo com essa linha vermelha, estaria totalmente incorreto.

insira a descrição da imagem aqui

[A figura é uma versão editada desta , encontrada através de uma pesquisa rápida no Google por 'curva de Monod'.]

6. As métricas fornecem apenas uma parte da imagem

Isso não é realmente uma crítica às métricas - são resumos , o que significa que eles também descartam informações por design. Mas isso significa que qualquer métrica única deixa de fora informações que podem ser cruciais para sua interpretação. Uma boa análise leva em consideração mais do que uma única métrica.


Sugestões, correções e outros comentários são bem-vindos. E outras respostas também, é claro.

mkt - Restabelecer Monica
fonte
3
R2R2
@Lewian Obrigado pelo feedback. Eu pensei que tinha isso coberto nos pontos 2 e 3, mas vejo que isso pode ser melhorado. Vou pensar em como deixar esse ponto mais claro.
mkt - Restabelece Monica
1
Sim, pensei se isso já está coberto. O ponto 2 e 3 é que eles fornecem razões específicas pelas quais isso poderia acontecer, no entanto, é uma questão geral.
Lewian
@Lewian concordou, vou pensar nisso.
mkt - Restabelece Monica
2

Esse problema surge no meu campo da hidrologia ao avaliar quão bem os modelos preveem o fluxo de fluxo a partir de dados de chuva e clima. Alguns pesquisadores ( Chiew e McMahon, 1993 ) pesquisaram 93 hidrologistas (63 responderam) para descobrir quais gráficos de diagnóstico e estatísticas de ajuste de qualidade usavam, quais eram os mais importantes e como eram usados ​​para classificar a qualidade de um modelo de ajuste. . Os resultados estão agora datados, mas a abordagem ainda pode ser interessante. Eles apresentaram os resultados de ajustes de modelo de várias qualidades e solicitaram aos hidrologistas que os classificassem em 4 categorias (1) resultado perfeitamente aceitável; (2) aceitável, mas use com reserva; (3) inaceitável, use somente se não houver outra alternativa; e (4) nunca use sob nenhuma condição.

Os gráficos de diagnóstico mais importantes foram gráficos de séries temporais e gráficos de dispersão de fluxos simulados e registrados a partir dos dados usados ​​para calibração. O coeficiente de eficiência do modelo R-quadrado e Nash-Sutcliffe (E) foram as estatísticas favoráveis ​​de ajuste. Por exemplo, os resultados foram considerados aceitáveis ​​se E => 0,8

Existem outros exemplos na literatura. Ao avaliar um modelo de ecossistema no Mar do Norte, foi utilizada a seguinte categorização E> 0,65 se destacou, 0,5 a 0,65 muito bom, 0,2 a 0,5 como bom e <0,2 como ruim ( Allen et al., 2007 ).

Moriasi et al., (2015) fornece tabelas de valores aceitáveis ​​para métricas para vários tipos de modelos.

Resumi essas informações e referências em uma postagem no blog .

Allen, J., P. Somerfield e F. Gilbert (2007), Quantificando a incerteza em modelos de ecossistemas hidrodinâmicos acoplados de alta resolução, J. Mar. Syst., 64 (1–4), 3–14, doi: 10.1016 /j.jmarsys.2006.02.010.

Moriasi, D., Gitau, M. Pai, N. e Daggupati, P. (2015) Modelos Hidrológicos e de Qualidade da Água: Medidas de Desempenho e Transações com Critérios de Avaliação da ASABE (Sociedade Americana de Engenheiros Agrícolas e Biológicos) 58 (6): 1763-1785

Tony Ladson
fonte
0

Apenas para acrescentar as ótimas respostas acima - na minha experiência, as métricas de avaliação e as ferramentas de diagnóstico são tão boas e honestas quanto a pessoa que as utiliza. Ou seja, se você entender a matemática por trás deles, provavelmente poderá aumentá-los artificialmente para fazer seu modelo parecer melhor sem aumentar sua utilidade real.

R2=0.03R2=0.05

Manterei esta resposta curta, pois as opções acima fazem um ótimo trabalho fornecendo explicações / referências. Eu só queria acrescentar uma perspectiva da seção 6. As métricas fornecem apenas um pedaço da imagem pela resposta de mkt.

Espero que isto ajude.

Samir Rachid Zaim
fonte