Quero comparar a precisão de dois classificadores quanto à significância estatística. Ambos os classificadores são executados no mesmo conjunto de dados. Isso me leva a acreditar que eu deveria estar usando um teste t de uma amostra do que tenho lido .
Por exemplo:
Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000
Esse é o teste certo para usar? Em caso afirmativo, como calculo se a diferença de precisão entre o classificador é significativa?
Ou devo usar outro teste?
Posso dizer-lhe, sem sequer executar nada, que a diferença será altamente estatisticamente significativa. Ele passa no IOTT (teste de trauma interocular - atinge você entre os olhos).
Se você quiser fazer um teste, no entanto, poderá fazê-lo como um teste de duas proporções - isso pode ser feito com um teste t de duas amostras.
Você pode querer dividir a "precisão" em seus componentes; sensibilidade e especificidade, ou falso-positivo e falso-negativo. Em muitas aplicações, o custo dos diferentes erros é bem diferente.
fonte
Como a precisão, neste caso, é a proporção de amostras corretamente classificadas, podemos aplicar o teste de hipótese referente a um sistema de duas proporções.
A estatística do teste é dada por
A região de rejeição é dada por
Referências:
fonte