Eu ajustei meu modelo e estou tentando entender se é bom. Calculei as métricas recomendadas para avaliá-las ( / AUC / precisão / erro de previsão / etc), mas não sei como interpretá-las. Em resumo, como posso saber se meu modelo é bom com base na métrica? Um de 0,6 (por exemplo) é suficiente para permitir que eu faça inferências ou baseie decisões científicas / comerciais?
Esta questão é intencionalmente ampla, para abranger uma ampla variedade de situações que os membros freqüentemente encontram; tais questões poderiam ser encerradas como duplicatas desta. Edições para ampliar o escopo além das métricas mencionadas aqui são bem-vindas, assim como respostas adicionais - especialmente aquelas que oferecem informações sobre outras classes de métricas.
fonte
Respostas:
Esta resposta enfocará principalmenteR2 , mas a maior parte desta lógica se estende a outras métricas, como AUC e assim por diante.
Essa pergunta quase certamente não pode ser respondida bem por você pelos leitores do CrossValidated. Não há nenhuma maneira livre de contexto para decidir se métricas modelo tais comoR2 são bons ou não . Nos extremos, geralmente é possível obter um consenso a partir de uma ampla variedade de especialistas: um R2 de quase 1 indica geralmente um modelo bom, e de perto de 0 indica uma terrível. Entre estas, encontra-se um intervalo em que as avaliações são inerentemente subjetivas. Nesse intervalo, é preciso mais do que apenas conhecimento estatístico para responder se a métrica do seu modelo é boa. É preciso experiência adicional em sua área, que provavelmente os leitores CrossValidated não possuem.
Por que é isso? Deixe-me ilustrar com um exemplo da minha própria experiência (pequenos detalhes alterados).
Eu costumava fazer experimentos de laboratório de microbiologia. Eu instalava frascos de células em diferentes níveis de concentração de nutrientes e media o crescimento da densidade celular (ou seja, a inclinação da densidade celular contra o tempo, embora esse detalhe não seja importante). Quando, em seguida, modelado este relacionamento crescimento / nutriente, era comum para atingirR2 valores de> 0,90.
Agora sou um cientista ambiental. Trabalho com conjuntos de dados que contêm medidas da natureza. Se eu tentar encaixar o mesmo modelo exato descrito acima para esses conjuntos de dados 'campo', eu ficaria surpreso se eu aR2 foi tão elevada como 0,4.
Esses dois casos envolvem exatamente os mesmos parâmetros, com métodos de medição muito semelhantes, modelos escritos e ajustados usando os mesmos procedimentos - e até a mesma pessoa que faz o ajuste! Mas, num caso, umR2 de 0,7 seria preocupante baixo, e na outra seria forma suspeita alta.
Além disso, faríamos algumas medições químicas juntamente com as medições biológicas. Os modelos para as curvas padrão de química teriaR2 em torno de 0,99, e um valor de 0,90 seria preocupante baixo .
O que leva a essas grandes diferenças de expectativas? Contexto. Esse termo vago cobre uma vasta área, então deixe-me tentar separá-lo em alguns fatores mais específicos (isso provavelmente está incompleto):
1. Qual é o pagamento / consequência / aplicação?
(Espero que tenham gostado do exemplo - a alternativa foi deprimente quanto à identificação algorítmica muito questionável de terroristas).
2. Quão forte é a influência de fatores não modelados em seu sistema?
3. Quão precisas e precisas são suas medidas?
4. Complexidade e generalização do modelo
Na IMO, o sobreajuste é surpreendentemente comum em muitos campos. A melhor forma de evitar isso é um tópico complexo, e eu recomendo a leitura sobre procedimentos de regularização e seleção de modelos neste site, se você estiver interessado.
5. Intervalo de dados e extrapolação
Além disso, se você ajustar um modelo a um conjunto de dados e precisar prever um valor fora do intervalo X desse conjunto de dados (por exemplo, extrapolar ), poderá descobrir que o desempenho é menor do que o esperado. Isso ocorre porque o relacionamento que você estimou pode mudar fora do intervalo de dados que você ajustou. Na figura abaixo, se você fez medições apenas no intervalo indicado pela caixa verde, você pode imaginar que uma linha reta (em vermelho) descreveu bem os dados. Mas se você tentasse prever um valor fora desse intervalo com essa linha vermelha, estaria totalmente incorreto.
[A figura é uma versão editada desta , encontrada através de uma pesquisa rápida no Google por 'curva de Monod'.]
6. As métricas fornecem apenas uma parte da imagem
Isso não é realmente uma crítica às métricas - são resumos , o que significa que eles também descartam informações por design. Mas isso significa que qualquer métrica única deixa de fora informações que podem ser cruciais para sua interpretação. Uma boa análise leva em consideração mais do que uma única métrica.
Sugestões, correções e outros comentários são bem-vindos. E outras respostas também, é claro.
fonte
Esse problema surge no meu campo da hidrologia ao avaliar quão bem os modelos preveem o fluxo de fluxo a partir de dados de chuva e clima. Alguns pesquisadores ( Chiew e McMahon, 1993 ) pesquisaram 93 hidrologistas (63 responderam) para descobrir quais gráficos de diagnóstico e estatísticas de ajuste de qualidade usavam, quais eram os mais importantes e como eram usados para classificar a qualidade de um modelo de ajuste. . Os resultados estão agora datados, mas a abordagem ainda pode ser interessante. Eles apresentaram os resultados de ajustes de modelo de várias qualidades e solicitaram aos hidrologistas que os classificassem em 4 categorias (1) resultado perfeitamente aceitável; (2) aceitável, mas use com reserva; (3) inaceitável, use somente se não houver outra alternativa; e (4) nunca use sob nenhuma condição.
Os gráficos de diagnóstico mais importantes foram gráficos de séries temporais e gráficos de dispersão de fluxos simulados e registrados a partir dos dados usados para calibração. O coeficiente de eficiência do modelo R-quadrado e Nash-Sutcliffe (E) foram as estatísticas favoráveis de ajuste. Por exemplo, os resultados foram considerados aceitáveis se E => 0,8
Existem outros exemplos na literatura. Ao avaliar um modelo de ecossistema no Mar do Norte, foi utilizada a seguinte categorização E> 0,65 se destacou, 0,5 a 0,65 muito bom, 0,2 a 0,5 como bom e <0,2 como ruim ( Allen et al., 2007 ).
Moriasi et al., (2015) fornece tabelas de valores aceitáveis para métricas para vários tipos de modelos.
Resumi essas informações e referências em uma postagem no blog .
Allen, J., P. Somerfield e F. Gilbert (2007), Quantificando a incerteza em modelos de ecossistemas hidrodinâmicos acoplados de alta resolução, J. Mar. Syst., 64 (1–4), 3–14, doi: 10.1016 /j.jmarsys.2006.02.010.
Moriasi, D., Gitau, M. Pai, N. e Daggupati, P. (2015) Modelos Hidrológicos e de Qualidade da Água: Medidas de Desempenho e Transações com Critérios de Avaliação da ASABE (Sociedade Americana de Engenheiros Agrícolas e Biológicos) 58 (6): 1763-1785
fonte
Apenas para acrescentar as ótimas respostas acima - na minha experiência, as métricas de avaliação e as ferramentas de diagnóstico são tão boas e honestas quanto a pessoa que as utiliza. Ou seja, se você entender a matemática por trás deles, provavelmente poderá aumentá-los artificialmente para fazer seu modelo parecer melhor sem aumentar sua utilidade real.
Manterei esta resposta curta, pois as opções acima fazem um ótimo trabalho fornecendo explicações / referências. Eu só queria acrescentar uma perspectiva da seção 6. As métricas fornecem apenas um pedaço da imagem pela resposta de mkt.
Espero que isto ajude.
fonte