Como Jimmy Lin e Chris Dyer apontam no primeiro capítulo de seu livro sobre mineração de texto intensiva em dados com o MapReduce , em grandes escalas de dados, o desempenho de diferentes algoritmos converge para que as diferenças de desempenho praticamente desapareçam. Isso significa que, dado um conjunto de dados grande o suficiente, o algoritmo que você deseja usar é o que é computacionalmente mais barato. É apenas em escalas de dados menores que as diferenças de desempenho entre algoritmos são importantes.
Dito isto, o livro ( link acima) e o Mining of Massive Datasets de Anand Rajaraman, Jure Leskovec e Jeffrey D. Ullman provavelmente são dois livros que você também precisará conferir, especialmente porque estão diretamente relacionados ao MapReduce para fins de mineração de dados.
Se você tiver acesso a um cluster Hadoop, eu daria uma olhada no Spark. https://spark.apache.org/
fonte
Ninguém mencionou o seguinte artigo - http://papers.nips.cc/paper/3150-map-reduce-for-machine-learning-on-multicore.pdf (Andrew Ng é um dos autores)
O documento em si é para máquinas com vários núcleos, mas trata-se essencialmente de reformular problemas de aprendizado de máquina para que eles se ajustem ao padrão de redução de mapa e possam ser usados para um cluster de computadores. (para entender por que essa não é uma boa ideia em geral, você pode ler este documento - http://arxiv.org/pdf/1006.4990v1.pdf . Ele tem uma boa visão geral).
fonte
Ampliando o aprendizado de máquina : abordagens paralelas e distribuídas é um ótimo livro de John Langford et. al. que discute implementações paralelas de algoritmos supervisionados e não supervisionados. Ele fala sobre o MapReduce, conjuntos de árvores de decisão, meios K paralelos, SVM paralelo, propagação de crenças e AD-LDA.
https://www.amazon.com/Scaling-Machine-Learning-Distributed-Approaches/dp/0521192242
fonte