Я новичок, пытающийся обернуть голову вокруг OLAP, и у меня есть несколько вопросов.
- Вопрос 1. Может ли куб OLAP хранить медианы, моды, процентили?
- Вопрос 2: может ли пользовательский запрос MDX вернуть сводку данных на уровне строк? (например:% транзакций> $ 100). Или конструктор кубов должен добавить это в куб?
- Вопрос 3. Предоставляют ли какие-либо продукты OLAP механизмы для доступа к данным на уровне строк? Который?
Наш ИТ-отдел ищет отзывы о том, какие у нас проблемы с конкретным кубом MS Analsis Services ROLAP. У нас нет доступа к реляционной базе данных за ней, и нам нужно выполнять вычисления, которые в данный момент недоступны в качестве показателей в кубе.
Дай мне посмотреть, имею ли я это право.
- Куб может предоставить статистику для подсчетов, средних, пропорций, стандартных отклонений.
- Если конкретная статистика не была учтена в показателе, предоставленном конструктором куба, можем ли мы написать запрос MDX, чтобы получить его? Или им нужно изменить куб, чтобы предварительно рассчитать его по данным уровня строки?
- Куб не может предоставить статистику, такую как медианы, моды или процентили, поскольку эти статистические данные не накапливаются должным образом.
Я читаю « Грамматику графики» Леланда Уилкинсона, и в его главе «Интеллектуальный анализ данных и OLAP» он говорит
Эти [операции с кубами] хорошо работают со статистикой, такой как подсчет, среднее, пропорции и стандартные отклонения. Простые агрегации по подклассам могут быть вычислены с помощью сумм, сумм квадратов и других терминов, которые объединяются в линейные функции для получения основной сводной статистики.
Они не работают должным образом со статистикой, такой как медиана, мода и процентили, потому что совокупность этих статистических данных не является статистикой их совокупностей. Например, медиана медиан не является медианой совокупности.
Он продолжает добавлять:
Однако в последнее время появилась более совершенная модель ROLAP. С помощью нескольких технологий можно предоставить статистическим алгоритмам доступ к необработанным данным через реляционную модель в режиме реального времени. Этот подход более перспективен, чем жесткие агрегации, предлагаемые такими структурами, как кубы данных.
В наиболее элегантной форме этой архитектуры приложения могут запрашивать удаленные соединения для предоставления информации о своих методах обработки данных и предпринимать соответствующие действия в зависимости от возвращаемой информации. В этой форме компонентная архитектура может обеспечить реальную перспективу распределенных вычислений: дизайн и исполнение, которые не зависят от сайта, операционной системы или языка.
Это было написано около 2005 года. Кто-нибудь знает о продуктах, использующих эту методологию для обеспечения доступа к данным на уровне строк?
источник
Ответы:
Чтобы ответить на ваши вопросы по порядку:
Если вы хотите выполнять вычисления, которые непосредственно не доступны в скрипте куба, многие инструменты OLAP, такие как поздняя, с плачевным ProClarity, позволят вам формулировать запросы, включающие пользовательские вычисления на основе MDX. Если у куба нет информации, необходимой для реальных вычислений, пользовательские вычисления MDX должны поддерживать любые необходимые вычисления.
Хотя OLAP-запросы традиционно ассоциируются со статистическими запросами в совокупности, если у вас есть измерение, которое позволяет детализировать детали, которые вам нужны, безусловно, можно сформулировать запросы, которые будут вычислять медианы, процентили или запросы гистограмм, из которых могут быть выведены или вычислены режимы.
Например, здесь приведен пример запроса анализа Парето , основанного на ранжировании.
Многие продукты куба могут работать в гибридном или реляционном режиме OLAP, где они сами не сохраняют данные, а запрашивают их из базовой базы данных. Кроме того, чистые инструменты ROLAP, такие как бизнес-объекты, построитель отчетов или Discoverer, могут выполнять запросы из базовой базы данных и выполнять работу построчно. Однако им, как правило, не хватает изощренности специализированных продуктов OLAP, и у них нет особых возможностей для статистического анализа из коробки.
источник