Медианы, режимы, процентили и OLAP

9

Я новичок, пытающийся обернуть голову вокруг OLAP, и у меня есть несколько вопросов.

  • Вопрос 1. Может ли куб OLAP хранить медианы, моды, процентили?
  • Вопрос 2: может ли пользовательский запрос MDX вернуть сводку данных на уровне строк? (например:% транзакций> $ 100). Или конструктор кубов должен добавить это в куб?
  • Вопрос 3. Предоставляют ли какие-либо продукты OLAP механизмы для доступа к данным на уровне строк? Который?

Наш ИТ-отдел ищет отзывы о том, какие у нас проблемы с конкретным кубом MS Analsis Services ROLAP. У нас нет доступа к реляционной базе данных за ней, и нам нужно выполнять вычисления, которые в данный момент недоступны в качестве показателей в кубе.

Дай мне посмотреть, имею ли я это право.

  1. Куб может предоставить статистику для подсчетов, средних, пропорций, стандартных отклонений.
  2. Если конкретная статистика не была учтена в показателе, предоставленном конструктором куба, можем ли мы написать запрос MDX, чтобы получить его? Или им нужно изменить куб, чтобы предварительно рассчитать его по данным уровня строки?
  3. Куб не может предоставить статистику, такую ​​как медианы, моды или процентили, поскольку эти статистические данные не накапливаются должным образом.

Я читаю « Грамматику графики» Леланда Уилкинсона, и в его главе «Интеллектуальный анализ данных и OLAP» он говорит

Эти [операции с кубами] хорошо работают со статистикой, такой как подсчет, среднее, пропорции и стандартные отклонения. Простые агрегации по подклассам могут быть вычислены с помощью сумм, сумм квадратов и других терминов, которые объединяются в линейные функции для получения основной сводной статистики.

Они не работают должным образом со статистикой, такой как медиана, мода и процентили, потому что совокупность этих статистических данных не является статистикой их совокупностей. Например, медиана медиан не является медианой совокупности.

Он продолжает добавлять:

Однако в последнее время появилась более совершенная модель ROLAP. С помощью нескольких технологий можно предоставить статистическим алгоритмам доступ к необработанным данным через реляционную модель в режиме реального времени. Этот подход более перспективен, чем жесткие агрегации, предлагаемые такими структурами, как кубы данных.

В наиболее элегантной форме этой архитектуры приложения могут запрашивать удаленные соединения для предоставления информации о своих методах обработки данных и предпринимать соответствующие действия в зависимости от возвращаемой информации. В этой форме компонентная архитектура может обеспечить реальную перспективу распределенных вычислений: дизайн и исполнение, которые не зависят от сайта, операционной системы или языка.

Это было написано около 2005 года. Кто-нибудь знает о продуктах, использующих эту методологию для обеспечения доступа к данным на уровне строк?

Томми О'Делл
источник
1
Нет берущих? Любые предложения о том, как улучшить вопрос, чтобы получить ответ?
Томми О'Делл

Ответы:

5

Чтобы ответить на ваши вопросы по порядку:

  1. Куб не хранит медианы, режимы (или даже средние), но вы можете написать запросы, которые вычисляют их и встраивают как вычисленные меры в куб. Возможность внедрения такого рода вычислений является одним из главных уникальных преимуществ технологии OLAP.
  2. Если у вас есть измерение, которое может идентифицировать отдельные строки (которые могут быть вырожденным или «фактическим» измерением, полученным из идентификатора таблицы фактов), вы можете выполнить запрос на основе отдельных строк. Однако OLAP работает с точки зрения измерений и агрегатов, поэтому вам необходимо иметь измерение, способное идентифицировать отдельные строки (с агрегатом, состоящим из одного значения).
  3. Любой инструмент OLAP может делать то, что описано в (2), плюс он, как правило, поддерживает механизм, известный как «детализация», при котором куб возвращает границу транзакционных данных, лежащих в основе данного фрагмента, в который вы переходите.

Если вы хотите выполнять вычисления, которые непосредственно не доступны в скрипте куба, многие инструменты OLAP, такие как поздняя, ​​с плачевным ProClarity, позволят вам формулировать запросы, включающие пользовательские вычисления на основе MDX. Если у куба нет информации, необходимой для реальных вычислений, пользовательские вычисления MDX должны поддерживать любые необходимые вычисления.

Хотя OLAP-запросы традиционно ассоциируются со статистическими запросами в совокупности, если у вас есть измерение, которое позволяет детализировать детали, которые вам нужны, безусловно, можно сформулировать запросы, которые будут вычислять медианы, процентили или запросы гистограмм, из которых могут быть выведены или вычислены режимы.

Например, здесь приведен пример запроса анализа Парето , основанного на ранжировании.

Многие продукты куба могут работать в гибридном или реляционном режиме OLAP, где они сами не сохраняют данные, а запрашивают их из базовой базы данных. Кроме того, чистые инструменты ROLAP, такие как бизнес-объекты, построитель отчетов или Discoverer, могут выполнять запросы из базовой базы данных и выполнять работу построчно. Однако им, как правило, не хватает изощренности специализированных продуктов OLAP, и у них нет особых возможностей для статистического анализа из коробки.

ConcernedOfTunbridgeWells
источник