OrientDB vs Neo4j vs Titan

13

Estou trabalhando em um projeto de ciência de dados relacionado à mineração de relacionamento social e preciso armazenar dados em alguns bancos de dados de gráficos. Inicialmente, escolhi o Neo4j como banco de dados. Mas parece que o Neo4j não escala bem. A alternativa que descobri são Titan e oriebtDB. Passei por essa comparação nesses três bancos de dados, mas gostaria de obter mais detalhes sobre esses bancos de dados. Então, alguém poderia me ajudar a escolher o melhor. Gostaria principalmente de comparar desempenho, dimensionamento, documentação on-line / tutoriais disponíveis, suporte à biblioteca Python, complexidade da linguagem de consulta e suporte ao algoritmo gráfico desses bancos de dados. Também há outras boas opções de banco de dados?

Sreejithc321
fonte
1
Considere também Graphlab (python base): graphlab.com/products/create/overview.html Aqui está um post bom blog sobre isso também: bugra.github.io/work/notes/2014-04-06/... eu não posso no entanto, ajudá-lo com a discussão sobre o Titan vs oriebtDB. Esperançosamente alguém vai concordar com isso.
Nfmcclure
Também é possível usar o Spark e o GraphX
sheldonkreger
Este artigo mostra alguns detalhes sobre escalabilidade, vantagem especial para o Titan. groups.google.com/forum/#!topic/orient-database/CpPh42ukfH4
Henry H.
2
Não, não é; GraphX ​​não é um banco de dados.
Emre
Como isso foi há alguns meses, presumo que você tenha feito algum progresso. Por que não adicionar sua própria resposta (aqui ou em outro lugar?)
Jayan

Respostas:

1

Acho que você deve ter em mente os pipelines de dados gerais e os de aprendizado de máquina. Para o qual você precisa de uma estrutura robusta para mover dados entre armazenamento de tabela e gráfico, além de um poderoso processamento distribuído. Pelo meu entendimento, o Spark GraphX ​​é promissor para construir esses pipelines. Vale a pena assistir à palestra de Joseph Gonzalez (um dos criadores do GraphLab da CMU) no GraphX ​​no youtube.

Srini Vemula
fonte