Medianas, Modos, Percentis e OLAP

9

Sou novato tentando entender o OLAP e tenho algumas perguntas.

  • Pergunta 1: Um cubo OLAP pode armazenar medianas, modos e percentis?
  • Pergunta 2: uma consulta MDX escrita pelo usuário pode retornar um resumo dos dados no nível da linha? (ex:% de transações> US $ 100). Ou o designer do cubo deve adicioná-lo ao cubo?
  • Pergunta 3: Algum produto OLAP agora fornece mecanismos para acessar dados no nível da linha? Qual?

Nosso departamento de TI está procurando feedback sobre que tipo de problemas estamos enfrentando com um cubo ROLAP do MS Analsis Services. Não temos acesso ao banco de dados relacional por trás dele e precisamos executar cálculos que não estão disponíveis no momento como medidas no cubo.

Deixe-me ver se eu tenho esse direito.

  1. Um cubo pode fornecer estatísticas para contagens, médias, proporções e desvios padrão.
  2. Se uma estatística específica não tiver sido atendida em uma medida fornecida pelo designer do cubo, podemos escrever uma consulta MDX para obtê-la? Ou eles precisam alterar o cubo para pré-calculá-lo a partir dos dados no nível da linha?
  3. Um cubo não pode fornecer estatísticas como medianas, modos ou percentis, porque essas estatísticas não se agregam adequadamente.

Estou lendo The Grammar of Graphics, de Leland Wilkinson, e em seu capítulo sobre Data Mining e OLAP, ele diz

Essas [operações de cubo] funcionam bem com estatísticas como contagens, médias, proporções e desvios padrão. Agregações simples sobre subclasses podem ser calculadas operando-se em somas, somas de quadrados e outros termos que são combinados em funções lineares para produzir estatísticas resumidas básicas.

Eles não funcionam corretamente com estatísticas como mediana, modo e percentis, porque o agregado dessas estatísticas não é o estatístico de seus agregados. A mediana de medianas não é a mediana do agregado, por exemplo.

Ele continua acrescentando:

Um modelo ROLAP mais sofisticado surgiu recentemente, no entanto. É possível, através de várias tecnologias, dar aos algoritmos estatísticos acesso a dados brutos através do modelo relacional em tempo real. Essa abordagem é mais promissora do que as agregações rígidas oferecidas por estruturas como cubos de dados.

Na forma mais elegante dessa arquitetura, os aplicativos podem solicitar conexões remotas para fornecer informações sobre seus métodos de tratamento de dados e executar ações adequadas, dependendo das informações retornadas. Dessa forma, a arquitetura de componentes pode alcançar a promessa real da computação distribuída: design e execução independentes do site, sistema operacional ou idioma.

Isso foi escrito por volta de 2005. Alguém conhece os produtos que empregam essa metodologia para permitir o acesso a dados em nível de linha?

Tommy O'Dell
fonte
11
Não há compradores? Alguma sugestão sobre como melhorar a pergunta para obter uma resposta?
Tommy O'Dell

Respostas:

5

Para responder suas perguntas em ordem:

  1. O cubo não armazena medianas, modos (ou mesmo médias), mas você pode escrever consultas que os calculem e incorporá-las como medidas calculadas no cubo. A capacidade de incorporar esse tipo de computação é um dos principais pontos de venda exclusivos da tecnologia OLAP.
  2. Se você tem uma dimensão que pode identificar linhas individuais (que podem ser uma dimensão degenerada ou "de fato" derivada de um identificador na tabela de fatos), é possível fazer uma consulta com base em linhas individuais. No entanto, o OLAP funciona em termos de dimensões e agregados, portanto, você precisa ter uma dimensão capaz de identificar linhas individuais (com um agregado composto por um valor).
  3. Qualquer ferramenta OLAP pode fazer o que é descrito em (2), além de geralmente oferecer suporte a um mecanismo conhecido como 'drill-through', em que o cubo retornará uma borda dos dados transacionais subjacentes a uma determinada fatia na qual você detalha.

Se você deseja fazer cálculos que não estão diretamente disponíveis no script de cubo, muitas ferramentas OLAP, como a lamentada e tardia ProClarity, permitirão formular consultas que envolvam cálculos personalizados baseados em MDX. A menos que o cubo não possua as informações necessárias para realizar os cálculos reais, os cálculos MDX personalizados devem oferecer suporte a qualquer cálculo necessário.

Embora as consultas OLAP sejam tradicionalmente associadas às consultas estatísticas em conjunto, se você tiver uma dimensão que permita detalhar os detalhes necessários, certamente será possível formular consultas que calcularão medianas, percentis ou consultas de histograma das quais os modos podem ser inferidos ou computados.

Por exemplo, isso tem um exemplo de uma consulta de análise de pareto , que é baseada em classificações.

Muitos produtos de cubo podem operar em um modo OLAP híbrido ou relacional, onde não mantêm os dados eles mesmos, mas os consultam em um banco de dados subjacente. Além disso, ferramentas ROLAP puras, como Business Objects, Report Builder ou Discoverer, podem consultar um banco de dados subjacente e trabalhar linha por linha. No entanto, eles tendem a não ter a sofisticação de produtos OLAP dedicados e não têm muito em termos de capacidade de análise estatística pronta para uso.

ConcernedOfTunbridgeWells
fonte