Teste de significância baseado em precisão / recall / F1

É possível fazer um teste de significância baseado apenas nas pontuações de precisão / recall / F1?

Por exemplo, se você se deparar com 2 sistemas em um documento para os quais apenas P / R / F1 são relatados (no mesmo conjunto de dados, etc.), é possível executar um teste de significância estatística? Se sim, como isso é feito?

statistical-significance precision-recall Vam
fonte

Respostas:

Intuitivamente, obter um P / R / F1 alto em um pequeno conjunto de dados ou em um conjunto de dados muito uniforme / previsível é provavelmente mais fácil do que obter um P / R / F1 alto em conjuntos de dados maiores ou mais caóticos. Portanto, uma melhoria no P / R / F1 em um conjunto de dados maior e mais caótico é mais significativa.

Após essa intuição, você provavelmente precisaria ter acesso à saída dos métodos da "caixa preta" para medir a diferença na distribuição dos resultados, levando em consideração o tamanho e a variedade desse conjunto. O P / R / F1 por si só é provavelmente muito pouca informação.

O teste de significância nessa configuração geralmente é feito através da formação de uma hipótese nula (os dois algoritmos produzem sempre a mesma saída) e calcula a probabilidade de observar a diferença na saída que você está observando se os algoritmos forem realmente os mesmos. Se a probabilidade for menor que 0,05, por exemplo, você rejeita a hipótese nula e conclui que a melhoria é significativa.

Este artigo possui discussões relevantes: http://www.aclweb.org/anthology/C00-2137

Pablo Mendes
fonte