Estou trabalhando em um problema de classificação que calcula uma métrica de similaridade entre duas imagens de raios-x de entrada. Se as imagens forem da mesma pessoa (rótulo de 'right'), uma métrica maior será calculada; imagens de entrada de duas pessoas diferentes (rótulo de 'errado') resultarão em uma métrica mais baixa.
Usei uma validação cruzada estratificada de 10 vezes para calcular a probabilidade de classificação incorreta. Meu tamanho atual da amostra é de cerca de 40 correspondências corretas e 80 correspondências incorretas, em que cada ponto de dados é a métrica calculada. Estou recebendo uma probabilidade de classificação incorreta de 0,00, mas preciso de algum tipo de análise de intervalo / erro de confiança sobre isso.
Eu estava pensando em usar um intervalo de confiança de proporção binomial (em que usaria os resultados da validação cruzada como uma etiqueta correta ou uma etiqueta incorreta para o meu número de sucessos). No entanto, uma das suposições por trás da análise binomial é a mesma probabilidade de sucesso para cada tentativa, e não tenho certeza se o método por trás da classificação de 'certo' ou 'errado' na validação cruzada pode ser considerado a mesma probabilidade de sucesso.
A única outra análise em que posso pensar é repetir a validação cruzada X vezes e calcular a média / desvio padrão do erro de classificação, mas não tenho certeza se isso é apropriado, pois eu estaria reutilizando os dados do meu tamanho da amostra relativamente pequeno várias vezes.
Alguma ideia? Estou usando o MATLAB para todas as minhas análises e tenho a caixa de ferramentas Estatísticas. Gostaria de receber toda e qualquer assistência!
Respostas:
Influência da instabilidade nas previsões de diferentes modelos substitutos
Bem, geralmente essa equvalência é uma suposição também necessária para permitir que você agrupe os resultados dos diferentes modelos substitutos.
Na prática, sua intuição de que essa suposição pode ser violada costuma ser verdadeira. Mas você pode avaliar se esse é o caso. É aqui que acho útil a validação cruzada iterada: A estabilidade das previsões para o mesmo caso por diferentes modelos substitutos permite que você julgue se os modelos são equivalentes (previsões estáveis) ou não.
Você também pode calcular o desempenho para cada iteração (bloco de 3 linhas no desenho). Qualquer variação entre eles significa que a suposição de que modelos substitutos são equivalentes (entre si e além do "grande modelo" construído em todos os casos) não é atendida. Mas isso também mostra quanta instabilidade você tem. Para a proporção binomial, acho que desde que o desempenho real seja o mesmo (ou seja, independente se sempre os mesmos casos são previstos incorretamente ou se o mesmo número, mas casos diferentes são previstos incorretamente). Não sei se seria sensato assumir uma distribuição específica para o desempenho dos modelos substitutos. Mas acho que, de qualquer forma, é uma vantagem sobre o relatório atualmente comum de erros de classificação, se você relatar essa instabilidade.k k
O desenho é uma versão mais recente da fig. 5 neste artigo: Beleites, C. & Salzer, R .: Avaliando e melhorando a estabilidade de modelos quimiométricos em situações de pequeno tamanho de amostra, Anal Bioanal Chem, 390, 1261-1271 (2008). DOI: 10.1007 / s00216-007-1818-6
Observe que, quando escrevemos o artigo, eu ainda não havia percebido completamente as diferentes fontes de variação que expliquei aqui - lembre-se disso. Penso, portanto, que a argumentaçãopara uma estimativa efetiva do tamanho da amostra, dado que não é correta, embora a conclusão da aplicação de que tipos diferentes de tecido em cada paciente contribuam com tanta informação geral quanto um novo paciente com um determinado tipo de tecido provavelmente ainda seja válido (eu tenho um tipo totalmente diferente de evidências que também apontam esse caminho). No entanto, ainda não estou completamente certo disso (nem como fazê-lo melhor e, portanto, poder verificar), e esse problema não está relacionado à sua pergunta.
Qual desempenho usar para o intervalo de confiança binomial?
Até agora, tenho usado o desempenho médio observado. Você também pode usar o pior desempenho observado: quanto mais próximo o desempenho observado estiver de 0,5, maior a variação e, portanto, o intervalo de confiança. Assim, os intervalos de confiança do desempenho observado mais próximo de 0,5 fornecem uma "margem de segurança" conservadora.
Observe que alguns métodos para calcular intervalos de confiança binomial funcionam também se o número observado de sucessos não for um número inteiro. Utilizo a "integração da probabilidade posterior bayesiana", como descrito em
Ross, TD: Intervalos de confiança precisos para proporção binomial e estimativa da taxa de Poisson, Comput Biol Med, 33, 509-531 (2003). DOI: 10.1016 / S0010-4825 (03) 00019-2
(Eu não conheço o Matlab, mas no R você pode usar
binom::binom.bayes
com os dois parâmetros de forma definidos como 1).Veja também: Bengio, Y. e Grandvalet, Y .: Nenhum estimador imparcial da variância da validação cruzada K-Fold, Journal of Machine Learning Research, 2004, 5, 1089-1105 .
(Pensar mais sobre essas coisas está na minha lista de tarefas ..., mas como eu venho da ciência experimental, gosto de complementar as conclusões teóricas e de simulação com dados experimentais - o que é difícil aqui, pois preciso de uma grande conjunto de casos independentes para testes de referência)
Atualização: justifica-se assumir uma distribuição biomial?
fonte
Penso que a sua ideia de repetir a validação cruzada muitas vezes está certa.
Repita o seu currículo, digamos 1000 vezes, cada vez que os dados forem divididos em 10 partes (para CV de 10 vezes) de uma maneira diferente ( não embaralhe os rótulos). Você obterá 1000 estimativas da precisão da classificação. É claro que você reutilizará os mesmos dados, portanto, essas 1000 estimativas não serão independentes. Mas isso é semelhante ao procedimento de autoinicialização: você pode tomar o desvio padrão sobre essas precisões como o erro padrão da média do seu estimador de precisão geral. Ou um intervalo de percentil 95% como o intervalo de confiança de 95%.
Como alternativa, você pode combinar o loop de validação cruzada e o loop de autoinicialização e simplesmente selecionar 10% aleatórios (talvez aleatórios estratificados) de 10% dos seus dados como um conjunto de testes e fazer isso 1000 vezes. O mesmo raciocínio acima se aplica aqui também. No entanto, isso resultará em maior variação em relação às repetições, então acho que o procedimento acima é melhor.
Se sua taxa de classificação incorreta for 0,00, seu classificador não cometerá erros e, se isso ocorrer em cada iteração de autoinicialização, você obterá um intervalo de confiança zero. Mas isso simplesmente significa que seu classificador é praticamente perfeito, muito bom para você.
fonte
O erro de classificação é descontínuo e uma regra de pontuação inadequada. Tem baixa precisão e, otimizando, seleciona os recursos errados e fornece os pesos errados.
fonte