Intuitivamente, obter um P / R / F1 alto em um pequeno conjunto de dados ou em um conjunto de dados muito uniforme / previsível é provavelmente mais fácil do que obter um P / R / F1 alto em conjuntos de dados maiores ou mais caóticos. Portanto, uma melhoria no P / R / F1 em um conjunto de dados maior e mais caótico é mais significativa.
Após essa intuição, você provavelmente precisaria ter acesso à saída dos métodos da "caixa preta" para medir a diferença na distribuição dos resultados, levando em consideração o tamanho e a variedade desse conjunto. O P / R / F1 por si só é provavelmente muito pouca informação.
O teste de significância nessa configuração geralmente é feito através da formação de uma hipótese nula (os dois algoritmos produzem sempre a mesma saída) e calcula a probabilidade de observar a diferença na saída que você está observando se os algoritmos forem realmente os mesmos. Se a probabilidade for menor que 0,05, por exemplo, você rejeita a hipótese nula e conclui que a melhoria é significativa.
Este artigo possui discussões relevantes:
http://www.aclweb.org/anthology/C00-2137