Procurando por exemplo pilhas de infraestrutura / fluxos de trabalho / tubulações

14

Estou tentando entender como todos os componentes de "big data" funcionam juntos em um caso de uso do mundo real, por exemplo, hadoop, monogodb / nosql, storm, kafka, ... Eu sei que essa é uma ampla variedade de ferramentas usadas para tipos diferentes, mas gostaria de saber mais sobre a interação deles em aplicativos, por exemplo, pensando em aprendizado de máquina para um aplicativo, aplicativo da web, loja on-line.

Tenho vistors / sessão, dados de transação, etc, e guardo isso; mas se eu quiser fazer recomendações rapidamente, não consigo executar tarefas de mapa / redução lentas para isso em um grande banco de dados de logs que tenho. Onde posso aprender mais sobre os aspectos de infraestrutura? Eu acho que posso usar a maioria das ferramentas por conta própria, mas conectá-las uma à outra parece ser uma arte própria.

Existem exemplos / casos de uso públicos etc disponíveis? Entendo que os pipelines individuais dependem fortemente do caso de uso e do usuário, mas apenas alguns exemplos provavelmente serão muito úteis para mim.

chrshmmmr
fonte
Você fez alguma pesquisa sobre isso? Há muitos vídeos do YouTube e apresentações SlideShare que descrevem diferentes arquiteturas
Stanpol
1
Olá Stanpol, obrigado pela sua resposta - fiz algumas pesquisas iniciais e realmente não encontrei nada além do material da AWS e cloudera - talvez se você puder me dar alguns termos de pesquisa promissores, ficarei feliz em levá-lo a partir daí.
chrshmmmr

Respostas:

14

Para entender a variedade de maneiras pelas quais o aprendizado de máquina pode ser integrado aos aplicativos de produção, acho útil examinar projetos de código aberto e publicações de artigos / blogs de empresas que descrevem sua infraestrutura.

O tema comum desses sistemas é a separação do treinamento do modelo do aplicativo do modelo. Em sistemas de produção, a aplicação do modelo precisa ser rápida, da ordem de 100s de ms, mas há mais liberdade na frequência com que os parâmetros do modelo ajustados (ou equivalente) precisam ser atualizados.

As pessoas usam uma ampla variedade de soluções para treinamento e implantação de modelos:

j_houg
fonte
7

Uma das explicações mais detalhadas e claras da configuração de um pipeline de análise complexo é do pessoal da Twitch .
Eles fornecem motivações detalhadas de cada uma das opções de arquitetura para coleta, transporte, coordenação, processamento, armazenamento e consulta de dados.
Leitura convincente! Encontre aqui e aqui .

tchakravarty
fonte
Isso é incrível, exatamente o que eu estava procurando! Muito obrigado :)
chrshmmmr
@chrshmmmr De nada. Não se esqueça de votar / marcar como aceito se isso ajudou!
tchakravarty
3
Esses links parecem realmente muito úteis, mas, novamente, são links, e acho que devemos nos esforçar para manter as respostas independentes da estabilidade das fontes externas. Portanto, seria bom se você levasse dois ou três minutos para adicionar, por exemplo, o diagrama desse link , publicando-o juntamente com uma descrição rápida. Algo nas linhas de: "Por exemplo, este é o fluxo de trabalho de um sistema .... <img>. Mais informações podem ser encontradas em <link>."
Rubens
1
@ Rubens Vou propor uma edição daqui a pouco. fgnu: vai fazê-lo, só precisa de um pouco mais a reputação de respostas realmente upvote, mas eu certamente irá honrar a sua contribuição :)
chrshmmmr
@ Rubens Isso não seria mais do que reproduzir as informações no link. Eu faria se houvesse algo que eu sentisse que acrescentaria à explicação já dada lá.
tchakravarty
3

O Airbnb e o Etsy publicaram recentemente informações detalhadas sobre seus fluxos de trabalho.

Trey
fonte
1

O capítulo 1 de Practical Data Science with R ( http://www.manning.com/zumel/ ) apresenta uma grande análise do processo de ciência de dados, incluindo funções da equipe e como elas se relacionam com tarefas específicas. O livro segue os modelos estabelecidos no capítulo, referenciando quais etapas / pessoal esta ou aquela tarefa em particular seria executada.

d8aninja
fonte