Qual é o melhor classificador de 2 classes pronto para uso para o seu aplicativo? [fechadas]

15

Regras:

  • um classificador por resposta
  • vote se você concorda
  • voto negativo / remover duplicatas.
  • coloque seu aplicativo no comentário
Lewukasz Lew
fonte

Respostas:

14

Floresta aleatória

  • captura facilmente estrutura complicada / relacionamento não linear
  • invariável à escala das variáveis
  • não há necessidade de criar variáveis ​​fictícias para preditores categóricos
  • a seleção de variáveis ​​não é muito necessária
  • relativamente difícil de desajustar
Lewukasz Lew
fonte
Aptamer selecção motivo ativa, previsão floresta chão umidade, dígitos OCR, análise de imagens de satélite multiespectral, recuperação de informação musical, quimiometria ...
13

Regressão logística :

  • rápido e com bom desempenho na maioria dos conjuntos de dados
  • quase nenhum parâmetro para ajustar
  • lida com recursos discretos / contínuos
  • modelo é facilmente interpretável
  • (realmente não restrito a classificações binárias)
Amro
fonte
Talvez não haja parâmetros para ajustar, mas é preciso realmente trabalhar com variáveis ​​contínuas (transformações, splines, etc.) para induzir a não linearidade.
B_Miner 17/11
12

Máquina de vetor de suporte

Łukasz Lew
fonte
Não há nada realmente especial no SVM, além de forçar o usuário a pensar em regularização. Para os problemas mais práticos, a regressão de cume [kernel] também funciona bem.
Dikran Marsupial
2
@dikran, acho que o SVM é um ótimo classificador, porque é escasso e robusto para discrepantes - isso não é verdade para a regressão logística! e é por isso que o SVM é um classificador de última geração. O único problema que pode ser um problema é - complexidade do tempo - mas acho que está ok.
suncoolsu
@suncoolsu Se você deseja escarsidade, obtém mais esparsidade da regressão logística regularizada com o LASSO do que com o SVM. A escarsidade do SVM é um subproduto da função de perda, para que você não obtenha tanto quanto obtém um algoritmo em que a escarsidade é uma meta de design. Também frequentemente com o valor ideal do hiperparâmetro (por exemplo, escolhido por meio de validação cruzada), a maior parte da esparsidade do SVM desaparece. O SVM não é mais robusto para os outliers do que a regressão logística regularizada - é principalmente a regularização que importa, não a perda de dobradiça.
Dikran Marsupial
@Dikran - meu ponto de vista exatamente - algum tipo de penalização é importante. Você pode conseguir isso usando Priors, adicionando penalidade etc.
suncoolsu 30/03
1
@suncoolsu Nesse caso, o SVM não é um ótimo classificador, é apenas um dentre muitos classificadores regularizados, como regressão de crista, regressão logística regularizada, Processos Gaussianos. O principal benefício do SVM é o apelo da teoria da aprendizagem computacional. Na prática, outras considerações são mais importantes, como se você precisa de classificador probabilístico, onde outras funções de perda provavelmente serão superiores. IMHO, há muita atenção dada ao SVM, e não à família mais ampla de métodos do kernel.
Dikran Marsupial
7

Discriminante regularizado para problemas supervisionados com dados ruidosos

  1. Computacionalmente eficiente
  2. Robusto ao ruído e outliers nos dados
  3. Os classificadores discriminante linear (LD) e discriminante quadrático (QD) podem ser obtidos na mesma implementação, definindo os parâmetros de regularização '[lambda, r]' a '[1 0]' para o classificador LD e '[0 0]' para Classificador QD - muito útil para fins de referência.
  4. O modelo é fácil de interpretar e exportar
  5. Funciona bem para conjuntos de dados esparsos e 'amplos', onde matrizes de covariância de classe podem não estar bem definidas.
  6. Uma estimativa da probabilidade da classe posterior pode ser estimada para cada amostra aplicando a função softmax aos valores discriminantes de cada classe.

Link para o artigo original de 1989 de Friedman et al . Aqui . Além disso, há uma explicação muito boa de Kuncheva em seu livro " Combinando classificadores de padrões ".

BGreene
fonte
5

Árvores aumentadas gradiente.

  • Pelo menos tão preciso quanto o RF em muitas aplicações
  • Incorpora valores ausentes perfeitamente
  • Importância da variável (como a RF provavelmente tendenciosa em favor da nominal contínua e de muitos níveis)
  • Gráficos de dependência parcial
  • GBM versus randomForest no R: manipula conjuntos de dados MUITO maiores
B_Miner
fonte
4

Classificador de Processo Gaussiano - fornece previsões probabilísticas (que são úteis quando as frequências de classe relativa operacional diferem daquelas em seu conjunto de treinamento ou equivalem a cinquenta seus custos de falso positivo / falso negativo são desconhecidos ou variáveis). Ele também fornece uma incidência da incerteza nas previsões do modelo devido à incerteza na "estimativa do modelo" a partir de um conjunto de dados finito. A função de covariância é equivalente à função de kernel em um SVM, portanto, ela também pode operar diretamente em dados não vetoriais (por exemplo, strings ou gráficos etc.). A estrutura matemática também é legal (mas não use a aproximação de Laplace). Seleção automatizada de modelos via maximização da probabilidade marginal.

Combina essencialmente boas características de regressão logística e SVM.

Dikran Marsupial
fonte
Há um pacote R que você recomenda que implemente isso? Qual é a sua implementação preferida para este método? Obrigado!
julieth 26/09/12
Receio ser um usuário do MATLAB (eu uso o pacote GPML gaussianprocess.org/gpml/code/matlab/doc ), por isso não posso aconselhar sobre implementações de R, mas você pode encontrar algo adequado aqui gaussianprocess.org/# código . Se o R não tiver um pacote decente para os GPs, alguém precisará escrever um!
Dikran Marsupial
Ok obrigado. Será que este methodolgy permitem selecionar "variáveis importantes, como na importância variável das florestas aleatórias ou eliminação característica recursiva com SVMs?
julieth
Sim, você pode usar uma função de covariância "Determinação de Relevância Automática" e escolher os hiperparâmetros maximizando a evidência bayesiana do modelo (embora isso possa ocorrer com o mesmo tipo de problemas de ajuste excessivo que você obtém com o SVMS, com freqüência o modelo tem melhor desempenho sem seleção de recurso).
Dikran Marsupial 26/09/12
4

Regressão logística regularizada por L1.

  • É computacionalmente rápido.
  • Tem uma interpretação intuitiva.
  • Ele possui apenas um hiperparâmetro de fácil compreensão que pode ser ajustado automaticamente pela validação cruzada, o que geralmente é um bom caminho a percorrer.
  • Seus coeficientes são lineares por partes e sua relação com o hiperparâmetro é instantânea e facilmente visível em um gráfico simples.
  • É um dos métodos menos duvidosos para seleção de variáveis.
  • Também tem um nome muito legal.
miura
fonte
+1 O hiperparâmetro também pode ser integrado analiticamente, portanto, não há necessidade real de validação cruzada para muitas aplicações, consulte, por exemplo, theoval.cmp.uea.ac.uk/publications/pdf/nips2006a.pdf e bioinformática .oxfordjournals.org / content / 22/19 / 2348.full.pdf .
Dikran Marsupial 26/09/12
3

kNN

user88
fonte
3

Bayes ingênuos e baías ingênuas aleatórias

user88
fonte
2
Você pode descrever um problema em que a RNB deu bons resultados?
Łukasz Lew 21/07
Não ;-) Isso foi apenas para reviver a piscina.
1

K-significa agrupamento para aprendizado não supervisionado.

Berkay
fonte
A pergunta pede especificamente um classificador.
Prometheus