Com base na precisão estimada da classificação, quero testar se um classificador é estatisticamente melhor em um conjunto básico do que outro classificador. Para cada classificador, seleciono uma amostra de treinamento e teste aleatoriamente no conjunto base, treino o modelo e testo o modelo. Faço isso dez vezes para cada classificador. Portanto, tenho dez medições de precisão da classificação estimada para cada classificador. Como testar estatisticamente se o é um classificador melhor que o no conjunto de dados base. Qual teste t é apropriado usar?
machine-learning
classification
t-test
entropia
fonte
fonte
Respostas:
Uma revisão e crítica de algumas abordagens do teste t são fornecidas em Escolhendo entre dois algoritmos de aprendizado baseados em testes calibrados , Testes estatísticos aproximados para comparar algoritmos de aprendizado de classificação supervisionada e Comparando classificadores: armadilhas a serem evitadas e uma abordagem recomendada
fonte
Eu não tenho o livro Fleiss em mãos, então tudo isso é IIRC.
Respondendo à pergunta de @ JohnMoeller nos comentários do momento: a pergunta original é IMHO irrespondível.
fazendo isso, você acaba com uma tabela de contingência 2 x 2, dando ao classificador 1 correto / errado o classificador 2 correto / errado. Qual é o ponto de partida para o teste de McNemar . Portanto, isso é para uma comparação emparelhada, que é mais poderosa do que comparar proporções "independentes" (que não são completamente independentes se vierem do sorteio aleatório da mesma amostra finita).
No momento, não consigo procurar as "letras pequenas" de McNemar, mas 30 amostras não são muito. Então você pode até ter que mudar do teste exato de McNemar para o exato de Fisher [ou outra coisa] que calcula as probabilidades binomiais.
Meios de proporções:
não importa se você teste um e o mesmo classificador 10x com 10 casos de teste ou uma vez com todos esses 100 casos (a tabela 2 x 2 apenas conta todos os casos de teste).
Se as 10 estimativas de precisão de cada classificador na pergunta original forem obtidas por espera aleatória ou validação cruzada de 10 vezes ou 10x de inicialização, a suposição é geralmente que os 10 modelos substitutos calculados para cada classificador são equivalentes (= têm a mesma precisão), para que os resultados do teste possam ser agrupados *. Para validação cruzada de 10 vezes, você assume que o tamanho da amostra de teste é igual ao número total de amostras de teste. Para os outros métodos, não tenho tanta certeza: você pode testar o mesmo caso mais de uma vez. Dependendo dos dados / problema / aplicativo, isso não equivale a tanta informação quanto testar um novo caso.
fonte