Quais são os “algoritmos quentes” para aprendizado de máquina?

14

Esta é uma pergunta ingênua de alguém que começa a aprender aprendizado de máquina. Atualmente, estou lendo o livro "Aprendizado de máquina: uma perspectiva algorítmica" de Marsland. Considero útil como um livro introdutório, mas agora gostaria de entrar em algoritmos avançados, aqueles que atualmente estão apresentando os melhores resultados. Estou mais interessado em bioinformática: agrupamento de redes biológicas e descoberta de padrões em sequências biológicas, particularmente aplicadas à análise de polimorfismo de nucleotídeo único (SNP). Você poderia me recomendar algumas resenhas ou livros para ler?

xAx
fonte

Respostas:

15

O Deep Learning tem muito foco desde 2006. É basicamente uma abordagem para treinar redes neurais profundas e está levando a resultados realmente impressionantes em conjuntos de dados muito difíceis (como agrupamento de documentos ou reconhecimento de objetos). Algumas pessoas estão falando sobre o segundo renascimento da rede neural (por exemplo, no Google talk por Schmidhuber).

Se quiser ficar impressionado, consulte este artigo científico Reduzindo a dimensionalidade dos dados com redes neurais, Hinton e Salakhutdinov.

(Há tanto trabalho em andamento nessa área que há apenas dois livros futuros que o tratarão: aprendizado de máquina em larga escala , Langford et al e Aprendizado de máquina: uma perspectiva probabilística de Kevin Murphy.)

Se você quiser saber mais, confira o que os principais grupos de aprendizado profundo estão fazendo: Stanford , Montreal e, mais importante, Toronto # 1 e Toronto # 2 .

bayerj
fonte
8

A maioria das respostas dadas até agora se refere a "Aprendizado supervisionado" (ou seja, onde você tem rótulos para uma parte do seu conjunto de dados, que você pode usar para treinar algoritmos). A pergunta mencionou especificamente clustering, que é uma abordagem "Não supervisionada" (ou seja, nenhum rótulo é conhecido anteriormente). Nesse cenário, sugiro olhar para:

  • k-means e kernel do kernel
  • Clustering Aglomerativo
  • Fatoração matricial não negativa
  • Alocação de Dirichlet Latente
  • Processos de Dirichlet e processos hierárquicos de Dirichlet

Mas, na verdade, você provavelmente descobrirá que sua medida de similaridade / distância é mais importante que o algoritmo específico que você usa.

Se você tiver alguns dados rotulados, as abordagens de "Aprendizagem Semi-Supervisionada" estão ganhando popularidade e podem ser muito poderosas. Um bom ponto de partida para SSL é o LapSVM (Laplacian Support Vector Machine).

tdc
fonte
7

Estes são livros que podem ser úteis:

  • Introdução à Mineração de Dados por Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Este foi o livro sugerido durante minhas aulas de mineração de dados na universidade. Gosto do layout e da abordagem teórica;
  • Data Mining: Ferramentas e Técnicas Práticas de Aprendizado de Máquina por Ian H. Witten, Eibe Frank, Mark A. Hall. Um livro muito interessante. Este livro aborda também muitas técnicas implementadas com o Data Mining Framework WEKA ;
  • Aprendizado de máquina por Thomas Mitchell. É um livro um pouco antigo, mas pode ser útil.

Lembre-se de que você pode assistir gratuitamente às aulas gratuitas de aprendizado de máquina em Stanford: www.ml-class.com .

E para o seu problema específico, que é a análise do SNP, sugiro dar uma olhada no grupo de Di Camillo na Universidade de Pádua.

Simone
fonte
5

Aqui está um ótimo artigo e livro que explica a lógica, a teoria e a aplicação da maioria dos métodos mais populares:

Os 10 principais algoritmos da mineração de dados

É especialmente interessante porque é um "top 10" escolhido por especialistas em pesquisa de campo.

Além disso, para dados genéticos em geral, a seleção de características é extremamente importante por causa das muitas características. Por exemplo, a eliminação de recursos recursivos SVM (SVM-RFE) e métodos relacionados são muito populares e estão sendo desenvolvidos e aplicados ativamente no contexto de dados genéticos.

John Colby
fonte
4

Árvores reforçadas e alguma forma de svm vencem muitas competições, mas sempre se resume ao contexto. A regularização dos coletores também está na vanguarda.

Patrick McCann
fonte
4

Eu recomendo "The Elements of Statistical Learning", de Hastie, Tibshirani e Friedman. Não basta ler, brincar com alguns algoritmos descritos por eles (a maioria deles é implementada em R ou você mesmo pode implementar alguns) e aprender seus pontos fracos e fortes.

user31264
fonte
3

Os processos gaussianos para aprendizado de máquina de Rasmussen e Williams (MIT Press) são obrigatórios. Os processos gaussianos são um dos algoritmos mais populares para aprendizado de máquina, agora que os algoritmos de Propagação de Expectativas e Inferência Variacional estão disponíveis. O livro está muito bem escrito, possui uma caixa de ferramentas gratuita do MATLAB (boa parte do kit) e o livro pode ser baixado gratuitamente.

Dikran Marsupial
fonte