Sou novato tentando entender o OLAP e tenho algumas perguntas.
- Pergunta 1: Um cubo OLAP pode armazenar medianas, modos e percentis?
- Pergunta 2: uma consulta MDX escrita pelo usuário pode retornar um resumo dos dados no nível da linha? (ex:% de transações> US $ 100). Ou o designer do cubo deve adicioná-lo ao cubo?
- Pergunta 3: Algum produto OLAP agora fornece mecanismos para acessar dados no nível da linha? Qual?
Nosso departamento de TI está procurando feedback sobre que tipo de problemas estamos enfrentando com um cubo ROLAP do MS Analsis Services. Não temos acesso ao banco de dados relacional por trás dele e precisamos executar cálculos que não estão disponíveis no momento como medidas no cubo.
Deixe-me ver se eu tenho esse direito.
- Um cubo pode fornecer estatísticas para contagens, médias, proporções e desvios padrão.
- Se uma estatística específica não tiver sido atendida em uma medida fornecida pelo designer do cubo, podemos escrever uma consulta MDX para obtê-la? Ou eles precisam alterar o cubo para pré-calculá-lo a partir dos dados no nível da linha?
- Um cubo não pode fornecer estatísticas como medianas, modos ou percentis, porque essas estatísticas não se agregam adequadamente.
Estou lendo The Grammar of Graphics, de Leland Wilkinson, e em seu capítulo sobre Data Mining e OLAP, ele diz
Essas [operações de cubo] funcionam bem com estatísticas como contagens, médias, proporções e desvios padrão. Agregações simples sobre subclasses podem ser calculadas operando-se em somas, somas de quadrados e outros termos que são combinados em funções lineares para produzir estatísticas resumidas básicas.
Eles não funcionam corretamente com estatísticas como mediana, modo e percentis, porque o agregado dessas estatísticas não é o estatístico de seus agregados. A mediana de medianas não é a mediana do agregado, por exemplo.
Ele continua acrescentando:
Um modelo ROLAP mais sofisticado surgiu recentemente, no entanto. É possível, através de várias tecnologias, dar aos algoritmos estatísticos acesso a dados brutos através do modelo relacional em tempo real. Essa abordagem é mais promissora do que as agregações rígidas oferecidas por estruturas como cubos de dados.
Na forma mais elegante dessa arquitetura, os aplicativos podem solicitar conexões remotas para fornecer informações sobre seus métodos de tratamento de dados e executar ações adequadas, dependendo das informações retornadas. Dessa forma, a arquitetura de componentes pode alcançar a promessa real da computação distribuída: design e execução independentes do site, sistema operacional ou idioma.
Isso foi escrito por volta de 2005. Alguém conhece os produtos que empregam essa metodologia para permitir o acesso a dados em nível de linha?
fonte
Respostas:
Para responder suas perguntas em ordem:
Se você deseja fazer cálculos que não estão diretamente disponíveis no script de cubo, muitas ferramentas OLAP, como a lamentada e tardia ProClarity, permitirão formular consultas que envolvam cálculos personalizados baseados em MDX. A menos que o cubo não possua as informações necessárias para realizar os cálculos reais, os cálculos MDX personalizados devem oferecer suporte a qualquer cálculo necessário.
Embora as consultas OLAP sejam tradicionalmente associadas às consultas estatísticas em conjunto, se você tiver uma dimensão que permita detalhar os detalhes necessários, certamente será possível formular consultas que calcularão medianas, percentis ou consultas de histograma das quais os modos podem ser inferidos ou computados.
Por exemplo, isso tem um exemplo de uma consulta de análise de pareto , que é baseada em classificações.
Muitos produtos de cubo podem operar em um modo OLAP híbrido ou relacional, onde não mantêm os dados eles mesmos, mas os consultam em um banco de dados subjacente. Além disso, ferramentas ROLAP puras, como Business Objects, Report Builder ou Discoverer, podem consultar um banco de dados subjacente e trabalhar linha por linha. No entanto, eles tendem a não ter a sofisticação de produtos OLAP dedicados e não têm muito em termos de capacidade de análise estatística pronta para uso.
fonte