Учебное пособие Разработчик: Белов В. С. Москва, 2008 icon

Учебное пособие Разработчик: Белов В. С. Москва, 2008


1 чел. помогло.

Смотрите также:
Реферат ргазу
Учебное пособие Москва 2008 удк машкин М. Н. Информационные технологии: Учебное пособие. М...
Учебное пособие Москва 2008...
Учебное пособие Москва 2008 удк 004. 738 Ббк 32. 973. 202...
Учебное пособие Москва 2008 г. Воропаев В. И. История и тенденции развития управления проектами...
Учебное пособие москва 2008 удк ббк федоров И. В., Новикова М. А...
Учебное пособие 28365942 Москва 2008 ббк 66. 0 П 50...
Учебное пособие Москва 200 8 удк 004. 738 Ббк 32. 973. 202...
Учебное пособие Москва, 2008 Авторы: В. О...
Учебное пособие Москва 2008 Орлова Е. И. Образ автора в литературном произведении...
Учебное пособие москва-2008 ббк 88. 53 Удк 316...
Учебное пособие Санкт-Петербург 2008 удк 531...



страницы: 1   2   3   4   5   6   7
вернуться в начало
скачать
^

Тема 4. Признаки OLAP-систем, технологии оперативного анализа данных.




Краткое содержание правил Кодда, которым должны соответствовать OLAP-системы, обобщёние этих правил в требованиях теста FASMI. Типы многомерных OLAP-систем. Многомерные MOLAP-системы. Реляционные ROLAP-системы. Гибридные HOLAP-системы. Задачи и содержание OLAP-анализа.


^ Подходы к выполнению анализа средствами информационных технологий (IT-анализа).


Информация, извлекаемая из информационных хранилищ и предоставляемая её конечным потребителям независимо от архитектуры ИХ, способов представления в базах данных, должна отвечать предъявляемым требованиям по форме представления, содержанию, своевременности, достоверности, воспринимаемости и т.д. Применяемые методы анализа должны обеспечивать необходимое содержание и достоверность предоставляемой пользователям информации.


^ Классификация IT-анализа по режиму и темпу.

Различают два вида информационно-аналитических систем по режиму и темпу анализа:

-статические - имеют заранее разработанный сценарий обработки данных при весьма ограниченных возможностях вариаций запросов - так называемые информационные системы руководителя (Exequtive Information system EIS);

-динамические - обеспечивают обработку нерегламентированных запросов и гибкую систему подготовки отчётов.

Статические ИАС при всей кажущейся простоте и соответственно привлекательности для ЛПР имеют ограниченные возможности по информационной поддержке принятия решений. Зачастую полученная в отчётах информация порождает вытекающие из её содержания вопросы, на которые в допустимое время ответ не может быть получен.

Динамические ИАС предназначены для обработки незапланированных заранее, неожиданных (ad hoc) запросов. Пользователи системы работают с такой ИАС в интерактивном режиме. Обрабатывается серия непредусмотренных заранее запросов, которые возникают в ходе полготовки и принятия решения. Заранее может быть подготовлена некоторая цепочка действий или сценарий, который может корректироваться.

Поддержка принятия управленческих решений осуществляется в следующих режимах или базовых сферах (23):

-сфера детализированных данных;

-сфера агрегированных показателей;

-сфера закономерностей.

^ В сфере детализированных данны подсистемы ИАС или автономные ИС нацелены на поиск данных. Эту задачу отлично выполняют реляционные СУБД. В качестве языка манипулирования данными, ставшего стандартным, используется, как правило, SQL. Для поиска детализированной информации используются информационно-поисковые системы, которые могут работать с операционными, локальными или региональными базами и хранилищами данных, так и совместно с центральным ИХ.

^ Сфера агрегированных показателей отличается агрегацией данных, оперативной аналитической обработкой, многомерным представлением в виде гиперкубов, многомерным анализом. В этой сфере используются специальные многомерные СУБД. Допустимо использование реляционных представлений данных. При правильном применении реляционных СУБД, как показано выше, показатели эффективности ИАС сопоставимы со специализированными многомерными. Агрегированные массивы при реляционном подходе представлены в виде описанных выше схем: “звезды” и других. Агрегация может производиться также "на лету" при обработке запроса.


Анализ детализированных данных и агрегированных показателей относится к оперативному или OLAP-анализу.

^ Сфера закономерностей связана или основана на интеллектуальной обработке данных. Главной задачей здесь является выявление закономерностей в исследуемых процессах, взаимосвязей и взаимовлияния различных факторов, поиск крупных "непривычных" отклонений, прогноз хода различных существенных процессов. Эта сфера относится к интеллектуальному анализу (Data mining).


^ Требования, предъявляемые к OLAP-системам

С 1993 года стал проявляться интерес к многомерному представлению данных – в этом году появилась программная статья Эдварда Кодда. В ней он сформулировал двенадцать основных требований к средствам реализации OLAP, дал критическую оценку реляционного подхода в связи с его малой пригодностью к реализации в задачах многомерного анализа данных с повышенными требованиями к времени отклика на аналитические запросы. Они состоят в следующем:

  1. Многомерное представление данных.

Средства должны поддерживать многомерный на концептуальном уровне взгляд на данные.

  1. Прозрачность.

Это требование заключается в том, что пользователь не должен знать о том, какие конкретные средства используются хранения и обработки данных, как они организованы и откуда они берутся.

  1. Доступность.

Средства должны сами выбирать источник данных и связываться с ним для формирования ответа на данный запрос.

  1. Согласованная производительность.

Производительность не должна зависеть от количества измерений в запросе.

  1. Поддержка архитектуры «клиент-сервер»

Средства должны работать в архитектуре «клиент-сервер».

  1. Равноправность всех измерений.

Ни одно из измерений не должно быть базовым, все они должны быть равноправными.

  1. Динамическая обработка разреженных матриц.

Неопределённые значения должны храниться и обрабатываться наиболее эффективными способами.

  1. Поддержка многопользовательского режима работы с данными.

Все многомерные операции должны единообразно и согласованно применяться к любому числу любых измерений.

  1. Поддержка операций на основе различных измерений.

Все многомерные операции должны единообразно и согласованно применяться к любому числу любых измерений.

  1. Простота манипулирования данными.

Средства должны иметь максимально удобный и естественный пользовательский интерфейс.

  1. Развитые средства представления данных.

Средства должны поддерживать различные способы представления данных.

  1. Неограниченное число измерений и уровней агрегации данных.

Не должно быть ограничений на число поддерживаемых измерений.

К 12 правилам впоследствии были присоединены ещё шесть.

В них содержатся некоторые противоречия, не все авторы безусловно их принимают, к тому же имеется некоторая расплывчатость определений.


В конце 90-х годов получил распространение свод требований (39) к информационно-аналитическим системам в виде "теста FASMI" - аббревиатуры английских слов, определяющих требования к OLAP-системам:

Fast Analysis Shared Multidimensional Information - русский перевод Быстрый Анализ Разделяемой Многомерной Информации.

Раскроем содержание перечисленных свойств, которыми должна обладать ИАС.


Fast Быстрый - это свойство выражается во временных требованиях к ответам системы на запросы пользователей. Ответ должен быть получен обычно за время в пределах секунды. Более сложные запросы допускается обрабатывать в течение 5-ти секунд и лишь отдельные запросы допускаются с 20-секундной реакцией. Такие требования связаны с психофизиологичекими показателями аналитиков и ЛПР, обусловлены достижением наиболее значимых результатов анализа при выполнении этих требований. Специальные исследования показали, что при времени ответа более 30-ти секунд наступает раздражение и возможна реакция в виде перезапуска системы.


Analysis Анализ - возможности системы выполнять аналитические работы различного характера в предметной области пользователя собственными средствами, не прибегая к программированию. Для описания специфических для данного пользователя аналитических процессов могут применяться встроенные средства в виде языков высокого уровня электронных таблиц со встроенными функциями, графических конструкторов, визуальных средств с применением кнопочных и рамочных технологий.


Shared Разделяемый - система должна обепечивать необходимый уровень защиты при множественном доступе для исключения взаимных помех, несанкционированного доступа. Ценность результатов анализа гораздо выше исходной информации.


Multidimensional Многомерный - определяющее требование. Средства OLAP-системы должны обеспечить работу с данными в многомерном представлении на концептуальном уровне с полной поддержкой иерархий. Требование считается выполненным независимо от того, какой тип базы данных используется, не устанавливаются рамки количества измерений.


Information Информация - должна обеспечиваться возможность получения её из любых необходимых источников. Инструментальные средства оперируют с необходимыми объёмами и структурами данных.


Более подробно рассмотрим свойство многомерности, так как оно является наиболее характерным отличительным от других систем свойством, в частности OLTP.

Как показано в п1. информационное пространство, отображающее функционирование объекта, многомерно. Естественно стремление аналитика и ЛПР к тому, чтобы иметь дело с моделью данных в наиболее естественном виде. Это обстоятельство привело к тому, что с помощью современных программно-технических средств, имеющих широкие возможности интерпретации данных, были созданы соответствующие многомерные модели. Теоретические основы были заложены в трудах крупных российских учёных Ясина, Королёва и др. ещё в 70-х годах XX века. В трудах Кодда, Инмона легко узнаются основополагающие идеи этих и других учёных, которые были реализованы в большом числе проектов в разных предметных областях.


^ Задачи и содержание оперативного (OLAP) анализа.

Оперативный анализ – это функция ИАС, обеспечивающая быстрый, в соответствии с правилами FASMI, доступ к любой необходимой информации, содержащейся в ИХ или, точнее в факт-таблице, представляемой также в виде многомерного куба (на практике трёхмерного). Извлечение информации, как правило, сопровождается обработкой её по несложным алгоритмам, как то:

производится суммаризация, определение процентов от заданных величин, получение относительных показателей, вычисление величин с заданными коэффициентами и другие действия над данными на разных уровнях детализации. Анализ производится с данными, представленными в виде электронных таблиц, над которыми предоставляется возможность оперативно производить различные более сложные вычисления.

Примерами такого рода целей OLAP-анализа могут быть. Определение суммарных издержек на производство всей совокупности изделий предприятия в течение заданного периода, начиная с большого периода времени (года). Последующими этапами анализа могут быть – получение данных по этому показателю по каждому изделию за более короткие промежутки времени (полугодие, квартал, месяц) и т.д. Затем можно выявить наиболее затратные процессы, места их возникновения. Список задач можно продолжить. В сбытовой сфере, к примеру, можно изучать объёмы продаж, их динамику, привязку их к регионам, а также получать другие интересующие аналитика или ЛПР сведения.

Извлечение необходимой информации для построения отчётов производится путём использования ряда процедур.

К ним относятся:

- сечение или срез (slice and dice) - извлечение данных из факт-таблицы по каким-либо определённым значениям одного или нескольких измерений, например из гипер-куба (факт-таблицы), содержащей сведения об издержках в отчёт (раздел отчёта) помещают данные только по какому-либо одному или группе издержек;

- поворот, под которым понимают изменение координат, их порядка или добавление измерений; эта процедура обеспечивает замену в готовом отчёте “Издержки”, к примеру, аргумента - время на регионы или центры затрат; если рассматривалась взаимозависимость “возраст - семейное положение” то можно в качестве аргумента брать любое из этих измерений и менять их местами;

- свёртка (drill up) - агрегируются данные по заданным признакам и алгоритмам; можно группировать необходимые данные, содержащиеся в ИХ в детальном виде, так при занесении сведений в операционную БД ежесуточно в ИХ их можно передавать в агрегированном виде – еженедельно или ежемесячно, соответственно в агрегированные данные можно помещать в отчёты;

- развёртка или раскрытие (roll up) – процедура, обратная свёртке, данные детализируются, например группы товаров представляются по конкретным товарам, более крупные временные периоды разбиваются на мелкие и т.д.

- создание кросс-таблиц - то-есть совмещение данных из разных таблиц по заданным признакам; например создаётся отчёт, в котором сводятся данные об издержках и выручке по одним и тем же изделиям и временным периодам;

- проекция - конструирование отчётов, являющихся подмножествами из множества единичных реквизитов или атрибутов, содержащихся в операционных базах или в ИХ;

- построение трендов – зависимость числовых или качественных значений показателя от тех или иных параметров, времени, технологии и т.д.


Инструменты OLAP-систем обеспечивают возможность сортировки и выборки данных по заданным условиям. Могут задаваться различные качественные и количественные условия.


В последнее десятилетие XX века основной моделью данных, использованной в многочисленных инструментальных средствах создания и поддержки баз данных – СУБД, была реляционная модель. Данные в ней представлены в виде множества связанных ключевыми полями двумерных таблиц – отношений. Для устранения дублирования, противоречивости, уменьшения трудозатрат на ведение баз данных применяется формальный аппарат нормализации отношений. Однако применение его связано с дополнительными затратами времени на формирование ответов на запросы к базам данных, хотя и экономятся ресурсы памяти.


Многомерная модель данных (см п. 1) представляет исследуемый объект в виде многомерного куба, чаще используют трёхмерную модель. По осям или граням куба откладываются измерения или реквизиты-признаки. Реквизиты-основания являются наполнением ячеек куба. Многомерный куб или как иногда называют пул данных может быть представлен комбинацией трёхмерных кубов с целью облегчения восприятия и квазиобъёмного представления при формировании отчётных и аналитических документов и мультимедийных презентаций по материалам аналитических работ в системе поддержки принятия решений.


^ Типы многомерных OLAP-cистем.

Общие положения

В рамках OLAP-технологий на основе того, что многомерное представление данных может быть организовано как средствами реляционных СУБД, так многомерных специализированных средств, различают три типа многомерных OLAP-систем:

- многомерный (Multidimensional) OLAP- MOLAP

- реляционный (Relation) OLAP - ROLAP

- смешанный или гибридный (Hibrid) OLAP - HOLAP


Выше по существу изложены существо и различия между многомерной и реляционной моделью OLAP-систем. Сущность смешанной OLAP-системы заключается в возможности использования многомерного и реляционного подхода в зависимости от ситуации: размерности информационных массивов, их структуры, частости обращений к тем или иным записям, вида запросов и т.д.


Рассмотрим подробнее сущность, достоинства и недостатки приведённых разновидностей OLAP-систем. При этом необходимо обратиться к рис. 5.1 "Структура информационного хранилища". На нём приведены зоны хранилища, которые соответствуют этапам продвижения данных из источников к конечным пользователям. В различных вариантах OLAP-систем эти зоны будут заполняться данными, представленными в виде различных моделей.


^ Многомерные OLAP-системы.

В многомерных СУБД данные организованы не в виде реляционных таблиц, а в виде упорядоченных многомерных массивов в виде гиперкубов, когда все хранимые данные должны иметь одинаковую размерность, что означает необходимость образовывать максимально полный базис измерений. Данные могут быть организованы в виде поликубов, в этом варианте значения каждого показателя хранятся с собственным набором измерений, обработка данных производится собственным инструментом системы. Структура хранилища в этом случае упрощается, так как отпадает необходимость в зоне хранения данных в многомерном или объектно-ориентированном виде. Снижаются огромные затраты на создание моделей и систем преобразования данных из реляционной модели в объектную (см. рис.5.1).

Достоинствами MOLAP являются:

- более быстрое, чем при ROLAP получение ответов на запросы - затрачиваемое время на один-два порядка меньше;

- из-за ограничений SQL затрудняется реализация многих встроенных функций.

К ограничениям MOLAP относятся:

- сравнительно небольшие размеры баз данных - предел десятки Гигабайт, в ;

- за счёт денормализации и предварительной агрегации многомерные массивы используют в 2,5-100 раз больше памяти, чем исходные данные (расход памяти при увеличении числа измерений растёт по экспоненциальному закону);

- отсутствуют стандарты на интерфейс и средства манипулирования данными;

-имеются ограничения при загрузке данных.


^ Реляционные OLAP-системы.

В настоящее время в массовых средствах, обеспечивающих аналитическую работу, преобладает использование инструментов на основе реляционного подхода. Структура хранилища остаётся в том виде, как представлено на рис. 5.1. Трудозатраты на создание зоны многомерных данных резко увеличиваются, так как практически отсутствуют в это й ситуации специализированные средства объективизации реляционной модели данных, содержащихся в информационном хранилище. Время отклика на запросы часто не может уложиться в рамки требований к OLAP-системам.

Достоинствами ROLAP-систем являются:

- возможность оперативного анализа непосредственно содержащихся в хранилище данных, так как большинство исходных баз данных - реляционного типа;

- при переменной размерности задачи выигрывают ROLAP, так как не требуется физическая реорганизация базы данных;

- ROLAP-системы могут использовать менее мощные клиентские станции и серверы, причём на серверы ложится основная нагрузка по обработке cложных SQL-запросов;

- уровень защиты информации и разграничения прав доступа в реляционных СУБД несравненно выше, чем в многомерных.


Недостатком ROLAP-систем является меньшая производительность, необходимость тщательной проработки схем базы данных, специальная настройка индексов, анализ статистики запросов и учёт выводов анализа при доработках схем баз данных, что приводит к значительным дополнительным трудозатратам.

Выполнение же этих условий позволяет при использовании ROLAP-систем добиться схожих с MOLAP-системами показателей в отношении времени доступа и даже превзойти в экономии памяти.


^ Гибридные OLAP-системы.

Представляют собой сочетание инструментов, реализующих реляционную и многомерную модель данных. Структура хранилища остаётся в основном такой же, как на рис. 5.1, однако зона многомерных данных создаётся специализированными средствами. Это позволяет резко снизить затраты ресурсов на создание и поддержание такой зоны, время отклика на запросы, в том числе незапланированные, выполняются требования к OLAP-системам.

При таком подходе используются достоинства первых двух подходов и компенсируются их недостатки. В наиболее развитых программных продуктах такого назначения реализован именно этот принцип.

Использование гибридной архитектуры в OLAP-системах - это наиболее приемлемый путь решения проблем, связанных с применением программных инструментальных средств в многомерном анализе.

Тем не менее встречаются обстоятельства, когда применение ROLAP- и HOLAP-cистем становится невозможным из-за чрезвычайно жёстких требований со стороны объектов управления или сответственно контролируемых процессов. Такие ситуации характерны для крупных промышленных, транспортных, энергетических комплексов, на финансовых рынках, при управлении объектами в критических ситуациях или их моделировании. Для такого класса применения ИАС становится безальтернативным применение многомерных или объектно-ориентированных инструментальных средств и методов.






Скачать 0,96 Mb.
оставить комментарий
страница5/7
Дата28.09.2011
Размер0,96 Mb.
ТипУчебное пособие, Образовательные материалы
Добавить документ в свой блог или на сайт

страницы: 1   2   3   4   5   6   7
отлично
  1
Ваша оценка:
Разместите кнопку на своём сайте или блоге:
rudocs.exdat.com

Загрузка...
База данных защищена авторским правом ©exdat 2000-2017
При копировании материала укажите ссылку
обратиться к администрации
Анализ
Справочники
Сценарии
Рефераты
Курсовые работы
Авторефераты
Программы
Методички
Документы
Понятия

опубликовать
Документы

наверх