Suponha que eu tenha um algoritmo que classifique as coisas em duas categorias. Eu posso medir a precisão do algoritmo em, digamos, 1000 itens de teste - suponha que 80% deles sejam classificados corretamente.
Vamos supor que eu modifique o algoritmo de alguma forma para que 81% das coisas sejam classificadas corretamente.
As estatísticas podem me dizer alguma coisa sobre se minha melhoria no algoritmo é estatisticamente significativa? O conceito de significância estatística é relevante nessa situação? Por favor, aponte-me na direção de alguns recursos que possam ser relevantes.
Muito Obrigado.
Como Erik disse, sim , você pode verificar isso quanto à significância estatística. No entanto, pense por um momento exatamente o que você deseja verificar. Penso que uma pergunta mais interessante seria perguntar qual a probabilidade de o algoritmo supostamente "aprimorado" ser melhor (ou significativamente melhor) que o original, dados os dados de uma diferença observada de 1%. Fazer perguntas em termos de "significância estatística" tende a levar ao tipo oposto de pergunta: Como os dois algoritmos são iguais, há menos de 5% de chance de observar uma melhora de pelo menos isso?
Para mim, a última pergunta é inversa, mas de alguma forma se tornou o padrão. Você pode conferir a Wikipedia sobre a controvérsia no teste de hipóteses estatísticas . Posteriormente, você poderá se interessar pela inferência bayesiana . Se você realmente deseja entrar na análise de dados bayesiana, pode verificar a "Análise de dados bayesiana" de Gelman et al. Ou verificar esta pergunta .
fonte
Aplicando a resposta de Erik à de Michael :
Você pode fazer o mesmo tipo de pensamento ao qual Erik se refere ao escolher a medida de desempenho.
Acho útil consultar diferentes medidas desse tipo pelas perguntas que elas respondem (aqui na linguagem de diagnóstico médico com a qual eu estou mais familiarizado - mas talvez você possa simplesmente substituir paciente por texto e doença por spam ;-)):
Sensibilidade: dado que o paciente realmente tem a doença, qual a probabilidade do classificador perceber isso?
Especificidade: dado que o paciente realmente não tem a doença, qual a probabilidade do classificador perceber isso?
Valor preditivo positivo: dado que o classificador afirma que o paciente está doente, qual a probabilidade do paciente realmente ter a doença?
Valor preditivo negativo: dado que o classificador alega que o paciente não está doente, qual a probabilidade do paciente realmente não ter a doença?
Como você vê, os valores preditivos são o que realmente interessa a médicos e pacientes. No entanto, quase todo mundo caracteriza seu classificador por sensibilidade e especificidade. A razão é que os valores preditivos precisam levar em consideração a prevalência da doença, e isso pode variar enormemente (ordens de magnitude!) Para diferentes tipos de pacientes.
Mais sobre o tópico para sua pergunta:
Aposto que você está certo em se preocupar.
Tomando os dois cenários de Erik em um exemplo:
Aqui estão as amostras de teste independentes:
(observe que esse teste foi bilateral, assumindo que os dois classificadores tivessem sido publicados mesmo que os resultados tivessem sido inversos ...)
Aqui está a melhor situação possível: teste emparelhado, e o novo classificador é adequado para todas as amostras, o antigo também e mais 10:
(o valor p permanece abaixo do 0,05 mágico, desde que não mais que 10 amostras das 1000 tenham sido previstas de forma diferente pelos dois classificadores).
Mesmo que os valores-p sejam a resposta certa para a pergunta errada, há indicação de que é um local apertado.
No entanto, levando em consideração a prática científica usual, ou seja, um número desconhecido (não publicado) de novos recursos foi testado e apenas o que funcionou um pouco melhor foi publicado, o local fica ainda mais restrito. E então, o classificador de 80% pode ser o sucessor de 79% do classificador ...
Se você gosta de ler alemão, existem alguns livros muito bons de Beck-Bornhold e Dubben. Se bem me lembro, Mit an Wahrscheinlichkeit grenzender Sicherheit tem uma discussão muito boa desses problemas. (Não sei se existe uma edição em inglês, uma tradução literal do título é "Com uma certeza beirando a probabilidade")
fonte
Eu desencorajaria altamente o uso de qualquer regra descontínua de pontuação inadequada (uma pontuação de precisão como sensibilidade, especificidade, proporção classificada correta que, quando otimizada resulta em um modelo falso) e, em vez disso, usaria testes de razão de verossimilhança ou testes F parciais para agregar valor ao novo variáveis.
Uma das várias maneiras de ver corretamente os problemas com a proporção classificada é que, se a proporção geral em uma categoria for 0,9, você estará correto em 0,9 do tempo ignorando os dados e classificando cada observação como estando nessa categoria.
fonte