Atualmente, estou usando vários classificadores diferentes em várias entidades extraídas do texto e usando precisão / recall como um resumo de quão bem cada classificador separado é executado em um determinado conjunto de dados.
Gostaria de saber se existe uma maneira significativa de comparar o desempenho desses classificadores de maneira semelhante, mas que também leva em consideração o número total de cada entidade nos dados de teste que estão sendo classificados?
Atualmente, estou usando precisão / recall como uma medida de desempenho, portanto, pode ter algo como:
Precision Recall
Person classifier 65% 40%
Company classifier 98% 90%
Cheese classifier 10% 50%
Egg classifier 100% 100%
No entanto, o conjunto de dados em que estou executando esses dados pode conter 100 mil pessoas, cinco mil empresas, 500 queijos e 1 ovo.
Existe uma estatística resumida que posso adicionar à tabela acima, que também leva em consideração o número total de cada item? Ou existe alguma maneira de medir o fato de que, por exemplo, 100% prec / rec no classificador Egg pode não ser significativo com apenas 1 item de dados?
Digamos que tivéssemos centenas desses classificadores, acho que estou procurando uma boa maneira de responder perguntas como "Quais classificadores estão com baixo desempenho? Quais classificadores não têm dados de teste suficientes para saber se estão com baixo desempenho?".
fonte
Respostas:
Você precisa observar o intervalo de confiança da estatística. Isso ajuda a medir quanta incerteza na estatística, que é amplamente uma função do tamanho da amostra.
fonte
Na minha opinião, é difícil comparar o desempenho quando há uma grande diferença de tamanho. Neste link, (confira aqui na Wikipedia http://en.wikipedia.org/wiki/Effect_size ), você pode ver estratégias diferentes.
O que eu sugiro é um relacionado à variação. Por exemplo, considere o desempenho do classificador (100%) e do classificador de pessoas (65%). O erro mínimo que você comete com o antigo classificador é 100%. No entanto, o erro mínimo que você pode confirmar com o último classificador é 10e-5.
Portanto, uma maneira de comparar o classificador é ter em mente esta Regra dos Três ( http://en.wikipedia.org/wiki/Rule_of_three_(statistics) em que você pode comparar o desempenho e sua variabilidade.
Outra possibilidade é a medida F, que é uma combinação de Precisão e Recuperação e, de alguma forma, é independente do tamanho do efeito.
fonte
O número de dados na classe às vezes é chamado
support
de classificador. Ele diz o quanto você pode confiar no seu resultado, como se um valor-p lhe permitisse confiar ou desconfiar de algum teste.Uma abordagem que você pode usar é calcular várias medidas de desempenho do classificador, não apenas precisão e recuperação, mas também taxa positiva verdadeira, taxa positiva falsa, especificidade, sensibilidade, probabilidade positiva, probabilidade negativa, etc., e verificar se são consistentes entre si. . Se uma das medidas atinge o máximo (100%) e a outra não, é frequentemente, na minha experiência, indicativo de que algo deu errado (por exemplo, suporte insuficiente, classificador trivial, classificador tendencioso etc.). Veja isso para obter uma lista de medidas de desempenho do classificador.
fonte