Qual é o melhor classificador de 2 classes pronto para uso? Sim, acho que essa é a pergunta de um milhão de dólares, e sim, estou ciente do teorema do almoço sem graça e também li as perguntas anteriores:
- Qual é o melhor classificador de 2 classes pronto para uso para o seu aplicativo?
- e pior classificador
Ainda assim, estou interessado em ler mais sobre o assunto.
Qual é uma boa fonte de informações que inclui uma comparação geral das características, vantagens e características dos diferentes classificadores?
Respostas:
A ESL , como já mencionado por Peter Flom, é uma excelente sugestão (observe que meu link é para a página inicial do autor, onde o livro pode ser obtido como um arquivo PDF gratuitamente). Deixe-me adicionar algumas coisas mais específicas para procurar no livro:
Acrescente ao livro a Visualização de tarefas de aprendizado de máquina para R, que dá uma impressão do que os muitos pacotes de aprendizado de máquina podem realmente fazer, embora não haja comparação real. Para usuários de Python, imagino que o scikit.learn seja um bom lugar para procurar. A quantidade de método "pronto para uso" ou "pronto para uso" é muito determinada pela forma como a implementação lida com a adaptação automática à situação dos dados, em vez de deixar o ajuste detalhado para o usuário. Na minha opinião, mgcv for R é um bom exemplo que facilita muito o ajuste de um modelo de aditivo generalizado razoavelmente bom e basicamente sem a necessidade de o usuário "ajustar manualmente" qualquer coisa.
fonte
Os recursos listados por outras pessoas são certamente úteis, mas adicionarei o seguinte: o classificador "melhor" provavelmente será específico ao contexto e aos dados. Em uma recente incursão na avaliação de diferentes classificadores binários, encontrei uma Árvore de regressão impulsionada para funcionar consistentemente melhor do que outros métodos aos quais tive acesso. O principal para mim foi aprender a usar as ferramentas de mineração de dados da Orange . Eles têm uma ótima documentação para começar a explorar esses métodos com seus dados. Por exemplo, aqui está um pequeno script Python que escrevi para avaliar a qualidade de vários classificadores em várias medidas de precisão usando a validação cruzada k-fold.
Quando executo esse código nos meus dados, recebo uma saída como
Você pode fazer muito mais com os objetos Orange para examinar o desempenho e fazer comparações. Eu achei esse pacote extremamente útil ao escrever uma pequena quantidade de código para realmente aplicar métodos aos meus dados com uma API consistente e abstração de problemas (ou seja, eu não precisei usar seis pacotes diferentes de seis autores diferentes, cada um com seu próprio abordagem ao design e documentação da API, etc).
fonte
O livro Os elementos do aprendizado estatístico tem muita informação sobre isso.
fonte
Outros recursos que encontrei sobre isso (PDF gratuito disponível):
fonte
De acordo com este exaustivo estudo recente (avaliação de 179 classificadores em 121 conjuntos de dados), os melhores classificadores são florestas aleatórias seguidas por máquinas de vetores de suporte.
fonte