Estou tentando entender como todos os componentes de "big data" funcionam juntos em um caso de uso do mundo real, por exemplo, hadoop, monogodb / nosql, storm, kafka, ... Eu sei que essa é uma ampla variedade de ferramentas usadas para tipos diferentes, mas gostaria de saber mais sobre a interação deles em aplicativos, por exemplo, pensando em aprendizado de máquina para um aplicativo, aplicativo da web, loja on-line.
Tenho vistors / sessão, dados de transação, etc, e guardo isso; mas se eu quiser fazer recomendações rapidamente, não consigo executar tarefas de mapa / redução lentas para isso em um grande banco de dados de logs que tenho. Onde posso aprender mais sobre os aspectos de infraestrutura? Eu acho que posso usar a maioria das ferramentas por conta própria, mas conectá-las uma à outra parece ser uma arte própria.
Existem exemplos / casos de uso públicos etc disponíveis? Entendo que os pipelines individuais dependem fortemente do caso de uso e do usuário, mas apenas alguns exemplos provavelmente serão muito úteis para mim.
fonte
Respostas:
Para entender a variedade de maneiras pelas quais o aprendizado de máquina pode ser integrado aos aplicativos de produção, acho útil examinar projetos de código aberto e publicações de artigos / blogs de empresas que descrevem sua infraestrutura.
O tema comum desses sistemas é a separação do treinamento do modelo do aplicativo do modelo. Em sistemas de produção, a aplicação do modelo precisa ser rápida, da ordem de 100s de ms, mas há mais liberdade na frequência com que os parâmetros do modelo ajustados (ou equivalente) precisam ser atualizados.
As pessoas usam uma ampla variedade de soluções para treinamento e implantação de modelos:
Crie um modelo, exporte e implante-o com PMML
Construa um modelo no MapReduce e acesse valores em um sistema customizado
Use um sistema online que permita a atualização contínua dos parâmetros do modelo.
fonte
Uma das explicações mais detalhadas e claras da configuração de um pipeline de análise complexo é do pessoal da Twitch .
Eles fornecem motivações detalhadas de cada uma das opções de arquitetura para coleta, transporte, coordenação, processamento, armazenamento e consulta de dados.
Leitura convincente! Encontre aqui e aqui .
fonte
O Airbnb e o Etsy publicaram recentemente informações detalhadas sobre seus fluxos de trabalho.
fonte
O capítulo 1 de Practical Data Science with R ( http://www.manning.com/zumel/ ) apresenta uma grande análise do processo de ciência de dados, incluindo funções da equipe e como elas se relacionam com tarefas específicas. O livro segue os modelos estabelecidos no capítulo, referenciando quais etapas / pessoal esta ou aquela tarefa em particular seria executada.
fonte