Estou trabalhando em um projeto de ciência de dados relacionado à mineração de relacionamento social e preciso armazenar dados em alguns bancos de dados de gráficos. Inicialmente, escolhi o Neo4j como banco de dados. Mas parece que o Neo4j não escala bem. A alternativa que descobri são Titan e oriebtDB. Passei por essa comparação nesses três bancos de dados, mas gostaria de obter mais detalhes sobre esses bancos de dados. Então, alguém poderia me ajudar a escolher o melhor. Gostaria principalmente de comparar desempenho, dimensionamento, documentação on-line / tutoriais disponíveis, suporte à biblioteca Python, complexidade da linguagem de consulta e suporte ao algoritmo gráfico desses bancos de dados. Também há outras boas opções de banco de dados?
fonte
Respostas:
Acho que você deve ter em mente os pipelines de dados gerais e os de aprendizado de máquina. Para o qual você precisa de uma estrutura robusta para mover dados entre armazenamento de tabela e gráfico, além de um poderoso processamento distribuído. Pelo meu entendimento, o Spark GraphX é promissor para construir esses pipelines. Vale a pena assistir à palestra de Joseph Gonzalez (um dos criadores do GraphLab da CMU) no GraphX no youtube.
fonte