Além das características óbvias do classificador, como
- custo computacional,
- tipos de dados esperados de recursos / etiquetas e
- adequação a determinados tamanhos e dimensões de conjuntos de dados,
Quais são os cinco principais classificadores (ou 10, 20?) para experimentar primeiro um novo conjunto de dados sobre o qual ainda não se sabe muito (por exemplo, semântica e correlação de recursos individuais)? Normalmente, eu tento Naive Bayes, Vizinho Mais Próximo, Árvore de Decisão e SVM - embora não tenha bons motivos para essa seleção além de conhecê-los e principalmente entender como eles funcionam.
Acho que se deve escolher classificadores que cubram as abordagens gerais de classificação mais importantes . Qual seleção você recomendaria, de acordo com esse critério ou por qualquer outro motivo?
ATUALIZAÇÃO: Uma formulação alternativa para essa pergunta poderia ser: "Quais abordagens gerais de classificação existem e quais métodos específicos cobrem os mais importantes / populares / promissores?"
fonte
Respostas:
Random Forest
Rápida, robusta, boa precisão, na maioria dos casos, nada para sintonizar, não requer normalização, imune à colinearidade, gera uma aproximação de erro bastante boa e classificação de importância útil como um efeito colateral do treinamento, trivialmente paralelo, prediz em um piscar de olhos.
Desvantagens: métodos mais lentos que triviais, como kNN ou NB, funcionam melhor com classes iguais, pior precisão que o SVM para problemas que exigem desesperadamente truques do kernel, é uma caixa preta dura, não faz café.
fonte
Classificador de processo Gaussiano (não usando a aproximação de Laplace), preferencialmente com marginalização ao invés de otimização dos hiperparâmetros. Por quê?
Desvantagens
A primeira escolha, porém, seria regressão logística regularizada ou regressão de crista [sem seleção de recurso] - para a maioria dos problemas, algoritmos muito simples funcionam muito bem e são mais difíceis de errar (na prática, as diferenças de desempenho entre algoritmos são menores que as diferenças de desempenho entre o operador que os conduz).
fonte
Sozinho, quando você está se aproximando de um novo conjunto de dados, deve começar a observar todo o problema. Primeiro, obtenha uma distribuição para recursos categóricos e desvios médios e padrão para cada recurso contínuo. Então:
Normalmente, divido as técnicas de classificação em 2 conjuntos: técnica de caixa branca e caixa preta. Se você precisar saber 'como o classificador funciona', deverá escolher no primeiro conjunto, por exemplo, árvores de decisão ou classificadores baseados em regras.
Se você precisar classificar novos registros sem criar um modelo, deve dar uma olhada no aluno ansioso, por exemplo, KNN.
Depois disso, acho melhor ter um limite entre precisão e velocidade: a Rede Neural é um pouco mais lenta que o SVM.
Esta é a minha cinco principais técnicas de classificação:
fonte