Como avaliar a significância estatística da precisão de um classificador?

8

Eu tenho a saída de precisão do classificador em porcentagem e o número de amostras de entrada. Existe algum teste que possa dizer quão estatisticamente significativo é o resultado com base nessas informações.

obrigado

Shan
fonte
Você pode dar um exemplo?
Max Gordon
3
Não está claro para mim o que você tem e o que está pedindo. Existem testes para determinar se uma proporção é 0, mas esse não é um teste significativo para a precisão - a precisão de 0 seria perfeita de certa forma - sempre errada!
Peter Flom

Respostas:

10

Você deseja definir a distribuição da precisão de apenas adivinhar. Talvez seja como X/n onde binômio X ( n , p ) para alguns p conhecidos p(digamos 50%).

Em seguida, calcule a chance de observar os resultados que você fez, se esse modelo nulo for verdadeiro. Em R, você pode usar binom.testou calcular diretamente com pbinom.

Geralmente, você deseja comparar a precisão não com "adivinhação", mas com algum método alternativo; nesse caso, você pode usar o teste de McNemar ; em R mcnemar.test,.

Karl
fonte
6

Não vejo onde é útil testar contra a aleatoriedade completa. Um classificador que só pode superar suposições aleatórias puras não é muito útil. Um problema maior é o uso da proporção classificada corretamente como sua pontuação de precisão. Esta é uma regra de pontuação imprópria descontínua que pode ser facilmente manipulada porque é arbitrária e insensível. Uma (de muitas) maneiras de ver suas deficiências é calcular a proporção classificada corretamente se você tiver um modelo com apenas uma interceptação. Será alto se os resultados não chegarem perto de 0,5 na prevalência.

Depois de escolher uma regra mais adequada, seria valioso calcular um intervalo de confiança para o índice. A significância estatística é de pouco valor.

Frank Harrell
fonte
Sobre a proporção de classificados corretamente, você quer dizer a precisão da classificação padrão? obrigado
Simone
1
Sim; uma medida altamente problemática.
precisa
Sim, é uma medida altamente problemática. Eu concordo com você.
Simone
2
Classificadores que mal superam a adivinhação aleatória podem ser extremamente úteis em algumas situações. Portanto, ter algum teste que quantifique a confiança em um classificador sendo melhor que o acaso também é útil.
Ely
3

Com certeza você pode computar um intervalo de confiança . Se é sua precisão estimada em um conjunto de testes de elementos, isso significa que Assim, Então você pode dizer que: Por exemplo, você pode calcular o intervalo de Wilson . accN

umacc-pp(1-p)/NN(0 0,1)
P(umacc-pp(1-p)/N[-zα/2,+zα/2])1-α
P(p[eu,você])1-α
eu=2 N acc+zα/22-zα/2zα/22+4 N acc-4 N acc22(N+zα/22)
você=2 N acc+zα/22+zα/2zα/22+4 N acc-4 N acc22(N+zα/22)

Eu acho que você pode calcular quanto seu desempenho difere de um aleatório calculando o ganho . A precisão de um classificador aleatório é: que é a frequência empírica da classe estimada no conjunto de testes e é o número de diferentes classes. Em média, um classificador aleatória, que classifica aleatório adivinhar a classe baseando-se na probabilidade de antecedentes do conjunto de teste, classifica exemplos de classe correctamente. Onde é o número de registros da classe

accr=Eu=1cpEu2
pEuEucEupEunEu=nEuNnEuEunEuEuno conjunto de teste. Assim Você pode dar uma olhada em uma pergunta minha.
accr=p1n1++pcncn1++nc=p1n1N++pcncN=EucpEu2

O ganho é:

ganho=accaccr

Na verdade, acho que um teste estatístico pode ser esboçado. O numerador pode ser visto como uma variável aleatória Normal, , mas você deve descobrir que tipo de variável aleatória o denominador poderia ser.N(acc,p(1-p)/N)accr

Simone
fonte
3
Mais uma vez, não estou convencido de que um teste estatístico contra absolutamente nenhum valor preditivo seja de valor.
precisa
2
Classificadores que mal superam a adivinhação aleatória podem ser extremamente úteis em algumas situações. Portanto, ter algum teste que quantifique a confiança em um classificador sendo melhor que o acaso também é útil.
Ely
1
Na grande maioria das situações, queremos saber quão bem uma previsão discrimina, não apenas se discrimina melhor que o acaso.
precisa
Não se você estiver aumentando um monte de classificadores fracos, o que é uma atividade muito comum. Você pode se importar com a discriminação assim que alcançar o classificador final totalmente otimizado, mas há muito trabalho entre o início e o final, e é importante demonstrar que um classificador complicado empiricamente tem um desempenho melhor do que o acaso.
Ely
1
E alguns domínios de aplicativos, como os mercados financeiros, nos quais você pode usar o classificador em muitos casos independentes, apenas sendo um pouco melhor que o acaso (R-quadrado de 11% ou 12% são considerados ótimos) pode significar muito. Nesses casos, se mesmo o classificador ampliado tiver R-quadrado de 15%, isso pode ser considerado muito bom - nesse caso, realmente importa se você puder resolver estatisticamente se os classificadores fracos são definitivamente melhores do que adivinhar.
Ely
1

Você pode estar interessado nos seguintes documentos:

  • Eric W. Noreen, Métodos intensivos em computador para testar hipóteses: uma introdução, John Wiley & Sons, Nova York, NY, EUA, 1989.
  • Alexander Yeh, Testes mais precisos para a significância estatística das diferenças de resultados, em: Anais da 18ª Conferência Internacional sobre Linguística Computacional, Volume 2, páginas 947-953, 2000.

Eu acho que eles cobrem o que Dimitrios Athanasakis fala.

Eu implementei uma opção de Yeh da maneira que eu a entendo:

http://www.clips.uantwerpen.be/~vincent/software#art

vvasch
fonte
0

Eu acho que uma coisa que você poderia experimentar seria um teste de permutação. Simplesmente, permita apenas aleatoriamente permutar os pares de saída desejados que você alimenta para o seu classificador várias vezes. Se ele não conseguir reproduzir nada no mesmo nível acima de 100 permutações diferentes, é significativo no intervalo de 99% e assim por diante. Este é basicamente o mesmo processo usado para obter valores de p (que correspondem à probabilidade de obter uma correlação linear da mesma mangnitude após permutar aleatoriamente os dados) e assim por diante.

Dimitrios Athanasakis
fonte
Você poderia elaborar mais o que significava para os pares de entrada / saída desejada?
Simone