Qual é a diferença entre Data Warehouse Federado e Descentralizado?

9

Não consigo encontrar definições ou explicações claras de nenhuma delas. Ambos parecem descentralizados. Parece que no DWH federado, os dados são distribuídos e não integrados em um único repositório e acessados ​​de fontes distribuídas.

Enquanto na implementação DWH descentralizada, os dados são integrados em um repositório central.

Por favor, explique a diferença entre essas duas implementações.

LifeH2O
fonte

Respostas:

6

Um data warehouse descentralizado é essencialmente uma coleção de data warehouses mantidos por regiões ou unidades de negócios individuais, mas disponibilizados centralmente. Eles podem estar no mesmo servidor físico, compartilhar ferramentas de relatório ou ser disponibilizados em toda a organização de alguma outra maneira. Também pode haver componentes centralizados, como gerenciamento de dados mestre. Isso normalmente é feito porque os data warehouses centralizados ficam difíceis de trabalhar além de um determinado tamanho da organização. Um data warehouse precisa responder às mudanças e, se não responder muito, os departamentos individuais começarão a criar suas próprias soluções.

Você pode ver isso nos bancos de investimento, onde a tendência é fazer com que os data warehouses atendam a requisitos específicos (por exemplo, uma iniciativa regulatória específica ou algum tipo de relatório financeiro), em vez de construir um armazém centralizado em toda a empresa. Uma empresa do tamanho de um grande banco é simplesmente complexa demais para atender aos requisitos de uma EDW totalmente centralizada em um período de tempo razoável.

Um data warehouse federado adiciona uma camada de consolidação principal nos data warehouses descentralizados. Normalmente, isso abrigará apenas uma fatia vertical estreita dos dados, pois seu objetivo é consolidar as principais métricas em toda a empresa para relatórios em nível de empresa ou grupo, em vez de fornecer uma plataforma generalizada de MI para todos os departamentos. Os departamentos são deixados para produzir seus próprios sistemas EDW ou MI, mas são necessários para fornecer os conjuntos de dados necessários para preencher a camada de consolidação central.

Essa arquitetura oferece o melhor dos dois mundos. O gerenciamento central pode ver suas métricas em toda a organização e os departamentos podem organizar soluções de MI para atender às suas necessidades. O gerenciamento central precisa apenas impor os requisitos de dados necessários para suas análises e MI como feeds fornecidos pelos sistemas departamentais. Se eles precisam de relatórios ou análises mais aprofundados sobre um departamento específico, isso pode ser fornecido pelos sistemas departamentais.

O artigo vinculado abaixo discute os data warehouses federados com mais profundidade.

http://www.zentut.com/data-warehouse/federated-data-warehouse-architecture/

Este artigo discute topologias de data warehouse com mais profundidade.

https://www.ibmbigdatahub.com/blog/data-warehouse-architectures-multinational-organizations-part-1

https://www.ibmbigdatahub.com/blog/data-warehouse-architectures-multinational-organizations-part-2

ConcernedOfTunbridgeWells
fonte
Então, ambos são descentralizados, mas federados integram um subconjunto (principais métricas) em um só lugar?
LifeH2O
Sim. Está correto. Lembre-se de que essas definições são bastante informais, para que as pessoas possam usá-las de maneira diferente. Nunca tive ocasião de construir nenhum dos dois tipos de sistema, apesar de ter feito uma proposta para uma arquitetura federada uma vez e já vi alguns sites que tinham sistemas que poderiam ser caracterizados como descentralizados pelas definições que estou usando.
ConcernedOfTunbridgeWells