Программа дисциплины Анализ и разработка данных для направления 010500. 68 Прикладная математика и информатика подготовки магистра Автор Горчинская О. Ю icon

Программа дисциплины Анализ и разработка данных для направления 010500. 68 Прикладная математика и информатика подготовки магистра Автор Горчинская О. Ю



Смотрите также:
Программа дисциплины математический анализ и обыкновенные дифференциальные уравнения...
Программа дисциплины Практикум на ЭВМ для направления 010500...
Программа дисциплины Анализ и поддержка решений для направления 010500 "Прикладная математика и...
Программа дисциплины Современная прикладная алгебра для направления 010500 Прикладная математика...
Программа дисциплины Системы разработки данных и машинного обучения для направления 010500...
Программа дисциплины Теория принятия решений для направления 010500...
Программа дисциплины Объектно-ориентированные case-технологии для направления 010500...
Программа дисциплины Системы разработки данных и машинного обучения для направления 010500...
Программа дисциплины Дифференциальные уравнения для направления 010500...
Программа дисциплины Дифференциальные уравнения для направления 010500...
Программа дисциплины Теория управления и системный анализ для направления 010500...
Программа дисциплины «Дифференциальные уравнения» для направления 010500...



скачать
Министерство экономического развития и торговли
Российской Федерации


Государственный университет –

Высшая школа экономики




Факультет БИЗНЕС-ИНФОРМАТИКИ




Программа дисциплины


Анализ и разработка данных


для направления 010500.68 – Прикладная математика и информатика подготовки магистра


Автор Горчинская О.Ю.


Рекомендовано секцией УМС Одобрено на заседании
«Бизнес-информатика» кафедры анализа данных и

искусственного интеллекта

Председатель Зав. кафедрой

______________ Г.А.Лёвочкина _______________С.О. Кузнецов

«___» _________200_ г « 30 » октября 2006 г.
^
Утверждено УС факультета

бизнес-информатики

Учёный секретарь

___________ А.И. Олейник

«___» ________200_ г.


Москва


Программа дисциплины «Анализ и разработка данных» (Современные методы и технологии анализа данных в информационных системах) для подготовки магистров по направлению 010500.68 (магистерская программа «математическое моделирование»)


I. Пояснительная записка

Автор программы: Кандидат технических наук О.Ю.Горчинская


^ Требования к студентам: Изучение курса "Анализ и разработка данных" («Современные методы и технологии анализа данных в информационных системах») требует предварительных знаний по элементарной теории множеств и отношений, математической логике, основ теории вероятности и математической статистики, общих сведений в области информационных систем и систем управления базами данных.


Аннотация. Дисциплина "Анализ и разработка данных» предназначена для подготовки магистров по направлению 010500.68 (магистерская программа «математическое моделирование»)

Курс посвящен технологиям, методам и алгоритмам анализа данных, используемым в современных информационно-аналитических системах. Основные разделы курса:

  • Хранилища данных. Особенности формирования, хранения и обработки исторических данных. Задачи повышения качества данных – выявление дубликатов, преобразования, стандартизация, интеграция и согласование. Аналитические возможности реляционных баз данных

  • Технология OLAP или многомерный анализ данных. Основа технологии – многомерная модель, специальная нереляционная модель, удобная для решения задач анализа данных. Многомерные модели данных поддерживаются специальными многомерными СУБД

  • Разработка данных или извлечение знаний (data mining). Методы автоматического выявления закономерностей и взаимосвязей в больших массивах данных. Используются методы искусственного интеллекта, распознавания образов, машинного обучения применительно к базам данных. Основные типы задач data mining – построение классификационных и регрессионных моделей, кластеризация, поиск ассоциаций. Методы извлечения знаний могут применяться не только к структурированным данным, но и использоваться при анализе текстовых неструктурированных документов (text mining). Применение алгоритмов data mining для решения практических задач основано на методологии, описывающей основные этапы процесса и последовательность задач проекта.



^ Учебные задачи курса.

Цель данного курса -- познакомить с идеями, теоретическими основами, программной реализацией и практическим применением информационно-аналитических технологий. На лекциях и практических занятиях студенты узнают о принципах построения современных аналитических систем, получат навыки использования аналитических возможностей реляционных баз данных, изучат теоретические основы технологии OLAP, основанные на многомерной модели данных, получат опыт работы с OLAP системами на примере Oracle OLAP, а также смогут освоить основные методы и алгоритмы углубленного анализа данных (data mining) и научаться использовать эти методы для решения практических задач.


II. Тематический план курса “Анализ и разработка данных”





Название темы

Всего часов по дисциплине

Аудиторные часы

Самостоятельная работа







Лекции

Сем. и практика занятия



1

^ Введение: обзор курса. Задачи информационного анализа.


6

2

2

2

2

^ Реляционные базы данных


8

2

2

4

3

^ Хранилища данных.


14

4

4

6

4

^ Интеграция данных из разнородных информационных источников

6

2

2

2

5

^ Многомерный анализ данных и OLAP технология.

18

6

6

6

6

^ Введение в Data Mining. Задачи, основные понятия и обзор методов.

6

2

2

2

7

^ Классификационные и регрессионные модели

14

4

4

6

8

^ Кластеризация данных

12

4

4

4

9

^ Ассоциативные правила

6

2

2

2

10

^ Дополнительные методы извлечения знаний

8

2

2

4

11

^ Применение методов data mining для решения практических задач.

8

2

2

4




Итого

106

32

32

42



^ Программа курса


Анализ и разработка данных

(Современные методы и технологии анализа данных в информационных системах).


Тема 1. Введение: обзор курса. Задачи информационного анализа.


Информационно-аналитические системы и системы поддержки принятия решений. Назначение, основные задачи, функциональные возможности, архитектура, основные компоненты. Общий обзор технологий и инструментальных средств анализа данных.


^ Тема 2. Реляционные базы данных.


Основные понятия теории реляционных баз данных: домены, атрибуты, многомерные отношения, схемы отношений. Реляционная алгебра, операции над конечными многомерными отношениями. Теоретико-множественные операции, выборка, проецирование и соединение. Реляционные языки, основы SQL. Непротиворечивость данных и ограничения целостности. Функциональные зависимости, правила вывода, полнота и непротиворечивость систем правил вывода, связь с исчислением предикатов. Нормализация схем баз данных, алгоритмы декомпозиции. Основы ER-моделирования. Реляционные системы управления базами данных.


^ Тема 3. Хранилища данных.


Понятие хранилища данных. Особенности хранения и обработки информации в хранилищах данных. Хранилища и витрины данных. Управление метаданными, концепция Common Warehouse Metamodel. Особенности аналитических запросов и методы их оптимизации. Расширения SQL для поддержки аналитической обработки данных – агрегирование, аналитические функции, секционирование, SQL-моделирование.


^ Тема 4. Интеграция данных из разнородных информационных источников.


Сбор данных из разнородных информационных источников. Интеграция данных и ETL-процессы. Методы и инструментальные средства согласования, очистки, агрегирования и загрузки данных в хранилище. Проблемы качества данных. Методы повышения качества информации. Концепция управления мастер-данными MDM (Master Data Management) и ее реализация в промышленных системах.


^ Тема 5. Многомерный анализ данных.


Многомерный анализ данных и OLAP технология. Многомерная модель данных, языки запросов, логическое проектирование многомерных баз данных. Особенности хранения и обработки данных в многомерных СУБД. Способы представления многомерной информации. Технологии MOLAP, ROLAP и HOLAP. Принципы работы инструментальных средств многомерного анализа данных, демонстрация возможностей на примере Oracle OLAP.


^ Тема 6. Введение в data mining.


Извлечение знаний и Data Mining. Выявление скрытых закономерностей и зависимостей в больших наборах данных. Теоретические основы data mining, типы моделей и алгоритмы. Основные типы задач data mining: классификация, регрессия, кластеризация, поиск ассоциаций, выделение существенных атрибутов.


^ Тема 7. Классификационные и регрессионные модели.


Методы построения классификационных и регрессионных моделей – правила классификации, деревья решений, нейронные сети, математические функции. Алгоритмы построения правил классификации, метод Naïve Bayes. Построение деревьев решений – ID3, алгоритмы покрытия. Методы построения математических функций – линейные и нелинейные алгоритмы, . Support Vector Machine


^ Тема 8. Кластеризация данных.


Постановка задачи кластеризации данных и способы представления кластеров. Меры близости, основанные на расстоянии. Иерархическая и неиерархическая кластеризация. Алгоритмы кластеризации – O-clusters, enhanced k-means, .адаптивные алгоритмы. Оценка качества результатов кластеризации.

^ Тема 9. Ассоциативные правила.


Алгоритмы построения ассоциативных правил. Характеристики ассоциаций – поддержка (support), достоверность (confidence), длина правила. Секвенциальные модели, способы задания отношения порядка. Алгоритмы формирования ассоциативных правил, выявление часто встречающихся наборов объектов, алгоритм Apriori. Извлечение знаний для неструктурированных данных, text mining, работа с пространственными данными.


^ Тема 10. Дополнительные методы извлечения знаний


Обучение на основе нейронных систем. Эволюционные и генетические алгоритмы.

Извлечение знаний для неструктурированных данных. Анализ текстовой информации (text mining), предварительная обработка текстов, извлечение ключевых понятий, классификация и кластеризация текстовых документов. Инструментальные средства анализа текстов. Визуальный анализ данных и извлечение знаний, средства визуализации.


^ Тема 11. Применение методов data mining для решения практических задач


Применение методов data mining для решения практических задач. Методология CRISP . Проблемы подготовки данных – отсутствующие значения, нормализация, дискретизация, преобразования. Методы оценки точности построенной модели, матрицы погрешностей, Lift-диаграммы. Применение моделей (scoring), использование моделей в прикладных системах Промышленные инструментальные средства data mining. Демонстрация принципов работы и возможностей на примере Oracle Data Miner. Примеры реальных задач и проектов в различных областях (проблема оттока клиентов и сегментации клиентской базы в телекоммуникационных компаниях, оценка кредитных рисков в банках, исследование структуры гена, анализ потребительской корзины и др.).


Литература


  1. К. Дэйт. Введение в системы баз данных. – М.: “Наука”, 19980.

  2. Мартин Грабер. Введение в SQL. Пер. с англ. В.Я. Ястребов. - М.: «ЛОРИ», 1996

  3. Том Кайт Oracle для профессионалов. – М. «Диасофт», 2003

  4. Ralph Kimball. The Data Warehouse Lifecycle Toolkit, -- John Willey & Sons, 1998

  5. Эрик Спирли. Корпоративные хранилища данных. Планирование, разработка и реализация. – Вилльямс, 2001

  6. Erik Thomsen. OLAP Solution. -- John Willey & Sons, 2002

  7. Fayyard U., Piatetsky-Shapiro G – Advances in Knowledge Discovery and Data Mining: MIT, 1996



Автор программы: _____________________________/ О.Ю. Гочинская/




Скачать 98,58 Kb.
оставить комментарий
О.Ю.Горчинская
Дата29.09.2011
Размер98,58 Kb.
ТипПрограмма дисциплины, Образовательные материалы
Добавить документ в свой блог или на сайт

Ваша оценка этого документа будет первой.
Ваша оценка:
Разместите кнопку на своём сайте или блоге:
rudocs.exdat.com

Загрузка...
База данных защищена авторским правом ©exdat 2000-2017
При копировании материала укажите ссылку
обратиться к администрации
Анализ
Справочники
Сценарии
Рефераты
Курсовые работы
Авторефераты
Программы
Методички
Документы
Понятия

опубликовать
Документы

наверх