Estudo de caso de big data ou exemplo de caso de uso
13
Eu li muitos artigos de blogs sobre como diferentes tipos de indústrias estão usando o Big Data Analytic. Mas a maioria desses artigos não menciona
Que tipo de dados essas empresas usaram. Qual foi o tamanho dos dados
Que tipo de tecnologias de ferramentas eles usaram para processar os dados
Qual era o problema que eles estavam enfrentando e como as informações obtidas com os dados os ajudaram a resolver o problema.
Como eles selecionaram a ferramenta \ tecnologia para atender às suas necessidades.
Que tipo de padrão eles identificaram a partir dos dados e que tipo de padrões eles estavam procurando a partir dos dados.
Gostaria de saber se alguém pode me responder a todas essas perguntas ou um link que, pelo menos, responda algumas delas. Eu estou procurando um exemplo do mundo real.
Seria ótimo se alguém compartilhasse como o setor financeiro está usando o Big Data Analytic.
Os meios de comunicação tendem a usar o "Big Data" de maneira bastante vaga. Os fornecedores geralmente fornecem estudos de caso sobre seus produtos específicos. Não há muito por aí para implementações de código aberto, mas elas são mencionadas. Por exemplo, o Apache não vai gastar muito tempo desenvolvendo um estudo de caso no hadoop, mas fornecedores como Cloudera e Hortonworks provavelmente o farão.
Um grande conglomerado de serviços financeiros globais usa a Cloudera e a Datameer para ajudar a identificar atividades de negociação não autorizadas. As equipes do grupo de gerenciamento de ativos da empresa estão realizando análises ad hoc sobre feeds diários de informações de preço, posição e pedido. A análise ad hoc de todos os dados detalhados permite que o grupo detecte anomalias em determinadas classes de ativos e identifique comportamentos suspeitos. Os usuários anteriormente confiavam apenas nas ferramentas de planilha de desktop. Agora, com o Datameer e o Cloudera, os usuários têm uma plataforma poderosa que permite peneirar mais dados mais rapidamente e evitar possíveis perdas antes de começar.
.
Um banco de varejo líder está usando o Cloudera e o Datameer para validar a precisão e a qualidade dos dados, conforme exigido pela Lei Dodd-Frank e outros regulamentos. Integrando dados de empréstimos e agências, bem como dados de gerenciamento de patrimônio, a iniciativa de qualidade de dados do banco é responsável por garantir que todos os registros sejam precisos. O processo inclui submeter os dados a mais de 50 verificações de sanidade e qualidade dos dados. Os resultados dessas verificações são tendentes ao longo do tempo para garantir que as tolerâncias para corrupção de dados e domínios de dados não sejam alteradas negativamente e que os perfis de risco relatados aos investidores e agências reguladoras sejam prudentes e estejam em conformidade com os requisitos regulamentares. Os resultados são relatados por meio de um painel de qualidade de dados ao Diretor de Risco e Diretor Financeiro,
Não vi nenhum outro estudo relacionado a finanças na Cloudera, mas não procurei muito. Você pode dar uma olhada na biblioteca deles aqui.
Além disso, a Hortonworks tem um estudo de caso sobre Estratégias de Negociação, no qual eles viram uma queda de 20% no tempo necessário para desenvolver uma estratégia, alavancando K-means, Hadoop e R.
Estas não respondem a todas as suas perguntas. Tenho certeza de que ambos os estudos cobriram a maioria deles. Não vejo nada sobre a seleção de ferramentas especificamente. Imagino que os representantes de vendas tenham muito a ver com a entrada do produto em geral, mas os próprios cientistas de dados aproveitaram as ferramentas com as quais estavam mais confortáveis. Não tenho muitas informações sobre essa área no espaço de big data.
Obrigado. Isso é muito útil. Eu sei que é um espaço inseto e não há uma resposta certa. Estou muito interessado em saber como selecionar ferramentas e tecnologia de big data para atender às suas necessidades. Não estou marcando isso como a resposta certa por enquanto, mas certamente merece muitos votos da UP. Cheers :)
Brown_Dynamite
6
O Financial Services é um grande usuário do Big Data e também inovador. Um exemplo é a negociação de títulos hipotecários. Para responder às suas perguntas:
Que tipo de dados essas empresas usaram. Qual era o tamanho dos dados?
Histórias longas de cada hipoteca emitida nos últimos anos e pagamentos mensais contra eles. (Bilhões de linhas)
Longos históricos de históricos de crédito. (Bilhões de linhas)
Índices de preços domésticos. (Não é tão grande)
Que tipo de tecnologias de ferramentas eles usaram para processar os dados?
Varia. Alguns usam soluções internas criadas em bancos de dados como Netezza ou Teradata. Outros acessam os dados por meio de sistemas fornecidos pelos provedores de dados. (Corelogic, Experian, etc.) Alguns bancos usam tecnologias de banco de dados em colunas, como KDB ou 1010data.
Qual era o problema que eles estavam enfrentando e como as informações obtidas com os dados os ajudaram a resolver o problema.
A questão principal é determinar quando os títulos hipotecários (títulos garantidos por hipotecas) serão pagos antecipadamente ou não. Isso é especialmente importante para títulos que não possuem garantia do governo. Ao pesquisar históricos de pagamento, arquivos de crédito e entender o valor atual da casa, é possível prever a probabilidade de um padrão. A adição de um modelo de taxa de juros e de pré-pagamento também ajuda a prever a probabilidade de um pré-pagamento.
Como eles selecionaram a ferramenta \ tecnologia para atender às suas necessidades.
Se o projeto é conduzido por TI interna, geralmente é baseado em um grande fornecedor de banco de dados como Oracle, Teradata ou Netezza. Se for orientado pelos quantos, é mais provável que eles sejam direcionados diretamente ao fornecedor de dados ou a um sistema "All in" de terceiros.
Que tipo de padrão eles identificaram a partir dos dados e que tipo de padrões eles estavam procurando a partir dos dados.
100 , 000 , 000 b o e i n gw o r t H t h uma t uma m o u n t , o r um s l i t t l e um s
Você já viu casos em que técnicas de aprendizado de máquina estão sendo usadas para modelagem de pré-pagamento. Ou seja, redes neurais, floresta aleatória, GBM?
Dê uma olhada em relatórios de dados gratuitos da O'Reilly . Você pode encontrar relatórios sobre Bancos e Fintech, Esportes, Moda, Música, Saúde, Petróleo e Gás e assim por diante.
Lembre-se de que o relatório da McKinsey mencionado anteriormente é um relatório clássico e uma leitura obrigatória.
O Financial Services é um grande usuário do Big Data e também inovador. Um exemplo é a negociação de títulos hipotecários. Para responder às suas perguntas:
Varia. Alguns usam soluções internas criadas em bancos de dados como Netezza ou Teradata. Outros acessam os dados por meio de sistemas fornecidos pelos provedores de dados. (Corelogic, Experian, etc.) Alguns bancos usam tecnologias de banco de dados em colunas, como KDB ou 1010data.
A questão principal é determinar quando os títulos hipotecários (títulos garantidos por hipotecas) serão pagos antecipadamente ou não. Isso é especialmente importante para títulos que não possuem garantia do governo. Ao pesquisar históricos de pagamento, arquivos de crédito e entender o valor atual da casa, é possível prever a probabilidade de um padrão. A adição de um modelo de taxa de juros e de pré-pagamento também ajuda a prever a probabilidade de um pré-pagamento.
Se o projeto é conduzido por TI interna, geralmente é baseado em um grande fornecedor de banco de dados como Oracle, Teradata ou Netezza. Se for orientado pelos quantos, é mais provável que eles sejam direcionados diretamente ao fornecedor de dados ou a um sistema "All in" de terceiros.
fonte
O Kaggle tem um breve resumo dos aplicativos:
O Revolution Analytics publicou muitos estudos de caso gerais, planilhas de dados e white papers:
Para aplicações em ciências e engenharia, você pode consultar os estudos de caso da Nutonian :
A Analyx disse a clientes em potencial sobre aplicativos no comércio:
O Financial Times publicou uma coleção de histórias sobre aplicativos de negócios de big data:
A McKinsey descreveu os aplicativos em 2011:
Outras empresas de consultoria fizeram relatórios semelhantes.
Gartner criou o Hype Cycle for Big data:
Sem mencionar os estudos de caso e white papers de outras empresas que desejam promover seus produtos.
fonte
Dê uma olhada em relatórios de dados gratuitos da O'Reilly . Você pode encontrar relatórios sobre Bancos e Fintech, Esportes, Moda, Música, Saúde, Petróleo e Gás e assim por diante.
Lembre-se de que o relatório da McKinsey mencionado anteriormente é um relatório clássico e uma leitura obrigatória.
fonte