скачать Министерство экономического развития и торговли Российской Федерации Государственный университет- Высшая школа экономики Факультет бизнес-информатики Программа дисциплины«Хранилища данных» для направления 080700.68 – «Бизнес-информатика» подготовки магистра Автор – к.т.н. Г.И. Перминов Рекомендовано секцией УМС Одобрена на заседанииСекция «Бизнес-информатика» кафедры бизнес-аналитикаПредседатель Зав. кафедрой ________________В.И. Грекул __________Т.К. Кравченко «____»_______________2006 г. «____»___________2006 г. Утверждено УС факультетаБизнес-информатикиУченый секретарь ____________А.И. Олейник «____»_____________2006 г. Москва, 2006 ^
^ Итоговая оценка по учебной дисциплине на зачете складывается из оценок за:
III. Базовый учебникКравченко Т.К., Перминов Г.И. Информационные технологии принятия экономических решений. – М.: ГУ-ВШЭ, 2006. IV. Содержание дисциплиныТема 1. Технология хранения данных при принятии решений. Проблема хранения данных при принятии решений. Причины появления Хранилищ данных. Хранилище - надстройка над существующими базами данных. Отличительная особенность Хранилищ. Основные требования к данным, вводимым в Хранилище. Задачи построения Хранилища. Основная литература
Дополнительная литература
Тема 2. Хранилище данных (Data Warehousing) в виде ненормализованных баз данных. Архитектура Хранилищ данных: оперативные источники, оперативный склад данных, основное хранилище данных, инструменты доступа пользователям, ETL- средства. Многомерное моделирование в виде ненормализованных баз данных: схема «Звезда», схема «Снежинка», ее преимущества и недостатки. Характеристика таблицы фактов и таблиц измерений. Связи в ненормализованных базах данных. Основная литература
Дополнительная литература
Тема 3. Многомерные системы управления базами данных – МСУБД.Особенности организации многомерных систем управления базами данных (МСУБД). Достоинства и недостатки МСУБД. Исторические данные. Формирование исторических данных. Статичность (неизменность) исторических данных. Свойства исторических данных. Агрегированные данные. Прогнозируемые данные. Изменяемость прогнозируемых данных. Прогнозирование и моделирование. Различие между оперативными и прогнозируемыми данными. Общезначимость оперативных данных. Сравнительные характеристики МСУБД и РСУБД. Основные понятия в многомерной модели данных: измерение (Dimension) или рубрика, ячейка (Cell) или показатель (Measure). Определение показателя. Гиперкубические и поликубические модели данных. Два основных варианта организации данных и их отличия. Операции манипулирования Измерениями. Формирование "Среза" (Slice). Операция "Вращение" (Rotate). Отношения между измерениями. Операция Агрегации (Drill Up). Операция Детализации (Drill Down). Основная литература
Дополнительная литература
Тема 4. Заполнение хранилища данными. Использование инструментального средства Data Transformation Services для заполнения хранилища данными. Выполнение этапов заполнения хранилища в DTS:
Основная литература
Дополнительная литература
Тема 5. Cоздание многомерного хранилища данных (куба). Инструментальное средство Analysis Manager; Выполнение этапов построения коллективных и локальных кубов:
Основная литература
Дополнительная литература
Тема 6. Технология аналитической обработки данных (OLAP). Назначение и особенности технологии OLAP. Признаки технологии OLAP. 12 правил оценки средств OLAP. Виды запросов к данным, содержащимся в Хранилище, выполняемые с помощью OLAP технологий. Состав OLAP-системы. Характеристики и назначение компонентов OLAP-системы. Варианты реализации OLAP. Понятия MOLAP (Multidimensional OLAP), ROLAP (Relational OLAP), HOLAR (Hybrid OLAR). Преимущества и недостатки этих способов. Оперативная аналитическая обработка (OLAP) и интеллектуальный анализ данных (ИАД) - две составные части процесса поддержки принятия решений. Перспективы объединения этих двух видов анализа. Клиентские компоненты получения OLAP срезов кубов:
Создание и редактирование локальных OLAP-кубов клиентом с помощью Microsoft Excel. Основная литература
Дополнительная литература
Тема 7. Клиент Microsoft Data Analyzer. Возможности Microsoft Data Analyzer. Область применения Microsoft Data Analyzer. Обеспечение соединения с кубом. Создание отображений куба. Средства анализа данных: навигации, фильтрации и сортировки, бизнес-центр, редактор вычисляемых измерений для построения многомерных запросов, поиск схожих значений. Средства публикации и создания отчетов: публикации по электронной почте, на слайде, в виде HTML-страниц, в виде рабочих тетрадей Excel или PivotTables. Основная литература
Дополнительная литература
Тема 8. Аналитические возможности Analysis Manager. Мастер построения модели Data Mining. Выбор критерия для анализа. Построение дерева решений. Изменение измерений. Пересчет модели. Построение модели кластеризации. Изменение измерений и критериев оценки. Основная литература
Дополнительная литература
Тема 9. Интеграция Web - технологии и технологии Хранилища. Цель интеграции Web-технологии и Хранилища. Преимущества интеграции Internet/Intranet технологии и технологии Хранилищ. Особенности информационного сервера Особенности работы Web клиента. Публикация сводной таблицы на Web, клиентские манипуляции со сводной Web – таблицей, создание Web-страниц со сводными диаграммами. Основная литература
Дополнительная литература
Тема 10. Язык MDX (Multidimensional Expressions)- непроцедурный язык для формулирования запросов к многомерным базам данных. Назначение языка MDX. Утилита MDX Sample Application. Отображение структуры куба в MDX Sample Application. Синтаксис запроса на языке MDX. Выполнение запроса. Агрегация в запросах. Фильтрация в запросах. Запросы с иерархическим измерением. Функции языка MDX. Основная литература
Дополнительная литература
Тема 11. Поддержка распределенных данных. Ключевые факторы поддержки распределенных данных: автономность; задержки; непротиворечивость данных; непротиворечивость схем. Модели публикаций. Публикующий сервер и распределительный сервер. Распределительная база данных. Подписки, публикации, статьи. Принудительная (push) и запросная (pull) подписки. Типы серверов-подписчиков: местный, глобальный и анонимный. Фильтрация данных: горизонтальное и вертикальное разбиение. Типы репликации: мгновенная; репликация слиянием; транзакционная. Преимущества и недостатки различных типов репликации. Агенты мгновенной репликации, распределительные агенты. Подписчики с немедленным обновлением. Основная литература
Дополнительная литература
Тема 12. Специализированные средства представления отчетности. Инструменты запросов или генераторы отчетов (Юниверсы) к OLAP-данным. Средства доступа и генерация отчетов Business Object. Анализ данных в Юниверсе средствами BusinessObject: получение доступа к данным, выбор переменных Юниверса для анализа, замена иерархии переменных, ввод в Юниверс расчетных переменных, создание отчетов с разрывами по Мастер-переменной, создание условий выбора, получение Кросс-таблиц (срезов), транспонирование Кросс-таблиц, установка иерархических срезов, использование фильтрации, построение диаграмм. Основная литература
Дополнительная литература
Практические работы.Тема 1. Проектирование хранилища средствами ненормализованной базы данных. Ознакомление с CASE средствами проектирования хранилища данных. Проектирование таблицы фактов и таблиц измерений. Установление связей между таблицами. Генерация хранилища. ^ Использование инструментального средства Data Transformation Services для заполнения хранилища данных. Описание источников данных. Описание потоков данных. Описание преобразования данных. Выполнение DTS. Просмотр таблиц в Query Analyzer. ^ Организация доступа к источнику данных - оперативной реляционной базе данных. Построение куба. Настройка измерения времени. Настройка измерений и фактов. Редактирование многомерного куба. ^ Настройка параметров среза. Использование кросс–таблиц. Транспонирование кросс–таблиц. Возможности перетаскивания заголовка измерения на заголовок столбца. Поиска записи в кросс–таблице. Управления отображением вычисляемых значений. Экспорт данных из кросс-таблицы в файлы форматов MS Excel, MS Word и HTML. Операции с таблицами. Открытие обычной таблицы. Экспорт данных в таблице. Вывод статистических характеристик для полей таблицы. Экспорт данных в другие аналитические модули Построение графических отчетов. Построение диаграмм. Управление окнами. ^ Получение MOLAP срезов кубов с помощью Analysis Manager. Получение сводных таблиц в Excel. Создание сводных диаграмм с данными OLAP-кубов. Создание и редактирование локальных OLAP-кубов клиентом с помощью Microsoft Excel. ^ Возможности Microsoft Data Analyzer. Область применения Microsoft Data Analyzer. Обеспечение соединения с кубом. Создание отображений куба. Средства анализа данных: навигации, фильтрации и сортировки, бизнес-центр, редактор вычисляемых измерений для построения многомерных запросов, поиск схожих значений. Средства публикации и создания отчетов: публикации по электронной почте, на слайде, в виде HTML-страниц, в виде рабочих тетрадей Excel или PivotTables. ^ Публикация сводной таблицы на Web. Манипуляции со сводной Web – таблицей. Создание Web-страниц со сводными диаграммами. ^ Назначение языка MDX. Утилита MDX Sample Application. Отображение структуры куба в MDX Sample Application. Синтаксис запроса на языке MDX. Выполнение запроса. Агрегация в запросах. Фильтрация в запросах. Запросы с иерархическим измерением. Функции языка MDX. ^ Мастер построения модели DataMining. Выбор критерия для анализа. Построение дерева решений. Изменение измерений. Пересчет модели. Построение модели кластеризации. Изменение измерений и критериев оценки. ^ Включение публикующего и распределительного серверов. Запуск Мастера настройки публикаций и распределения. Отключение распределительного сервера. Создание транзакционных и мгновенных публикаций. Выбор сервера. Выбор БД. Выбор сервера подписчика. Выбор таблиц для публикации. Включение в фильтрации столбцов и строк выбранных таблиц. Настройка расписания для агента мгновенной репликации. Назначение подписки для серверов подписчиков. Создание публикаций слиянием таблиц. Разрешения конфликтов публикации. Установка объединения обрабатываемых таблиц. Выбор возможности минимизации сетевого трафика. Принудительная подписка. Мастер принудительной подписки. Запросная подписка. Мастер запросной подписки. Управление распределением данных. Поддержка неоднородных репликаций. Публикация в Internet. Диспетчер репликации. Работа с журналом ошибок. ^ Установка связи с исходной Базой данных. Выбор фрагмента Базы данных для включения в Юниверс. Создание связей в таблицах Юниверса. Создание структуры Юниверса. Сохранение Юниверса. Обеспечение доступа к данным. Выбор переменных Юниверса для анализа. Замена иерархии переменных. Ввод в Юниверс расчетных переменных. Создание отчетов с разрывами. Создание условий выбора. Установка срезов (получение Кросс-таблиц). Транспонирование Кросс-таблиц. Установка иерархических срезов. Использование фильтрации. Редактирование переменных в Юниверсе. Расчет суммирующих показателей по выбранному столбцу. Построение графических отчетов (диаграмм). ^ Тематика курсовых работ Тематика курсовых работ связана с построением, заполнением хранилища и витрины данных, проведения OLAP анализа для различных проблемных областей. В рамках выбранной темы курсовой работы студенты должны последовательно описать выбор этапы своих действий с приведением копий окон экрана монитора. VI. Контрольные вопросы.
VII. Рекомендации по использованию информационных технологий.Для освоения курса «Хранилища данных» рекомендуется изучить следующие инструментальные программные средства:
|