скачать Министерство экономического развития и торговли Российской Федерации Государственный университет –Высшая школа экономикиФакультет БИЗНЕС-ИНФОРМАТИКИПрограмма дисциплины Анализ и разработка данных для направления 010500.68 – Прикладная математика и информатика подготовки магистра Автор Горчинская О.Ю. Рекомендовано секцией УМС Одобрено на заседании «Бизнес-информатика» кафедры анализа данных иискусственного интеллекта Председатель Зав. кафедрой ______________ Г.А.Лёвочкина _______________С.О. Кузнецов «___» _________200_ г « 30 » октября 2006 г. ^ бизнес-информатики Учёный секретарь ___________ А.И. Олейник «___» ________200_ г. Москва Программа дисциплины «Анализ и разработка данных» (Современные методы и технологии анализа данных в информационных системах) для подготовки магистров по направлению 010500.68 (магистерская программа «математическое моделирование») I. Пояснительная записка Автор программы: Кандидат технических наук О.Ю.Горчинская ^ Изучение курса "Анализ и разработка данных" («Современные методы и технологии анализа данных в информационных системах») требует предварительных знаний по элементарной теории множеств и отношений, математической логике, основ теории вероятности и математической статистики, общих сведений в области информационных систем и систем управления базами данных. Аннотация. Дисциплина "Анализ и разработка данных» предназначена для подготовки магистров по направлению 010500.68 (магистерская программа «математическое моделирование») Курс посвящен технологиям, методам и алгоритмам анализа данных, используемым в современных информационно-аналитических системах. Основные разделы курса:
^ Цель данного курса -- познакомить с идеями, теоретическими основами, программной реализацией и практическим применением информационно-аналитических технологий. На лекциях и практических занятиях студенты узнают о принципах построения современных аналитических систем, получат навыки использования аналитических возможностей реляционных баз данных, изучат теоретические основы технологии OLAP, основанные на многомерной модели данных, получат опыт работы с OLAP системами на примере Oracle OLAP, а также смогут освоить основные методы и алгоритмы углубленного анализа данных (data mining) и научаться использовать эти методы для решения практических задач. II. Тематический план курса “Анализ и разработка данных”
^ Анализ и разработка данных (Современные методы и технологии анализа данных в информационных системах). Тема 1. Введение: обзор курса. Задачи информационного анализа. Информационно-аналитические системы и системы поддержки принятия решений. Назначение, основные задачи, функциональные возможности, архитектура, основные компоненты. Общий обзор технологий и инструментальных средств анализа данных. ^ Основные понятия теории реляционных баз данных: домены, атрибуты, многомерные отношения, схемы отношений. Реляционная алгебра, операции над конечными многомерными отношениями. Теоретико-множественные операции, выборка, проецирование и соединение. Реляционные языки, основы SQL. Непротиворечивость данных и ограничения целостности. Функциональные зависимости, правила вывода, полнота и непротиворечивость систем правил вывода, связь с исчислением предикатов. Нормализация схем баз данных, алгоритмы декомпозиции. Основы ER-моделирования. Реляционные системы управления базами данных. ^ Понятие хранилища данных. Особенности хранения и обработки информации в хранилищах данных. Хранилища и витрины данных. Управление метаданными, концепция Common Warehouse Metamodel. Особенности аналитических запросов и методы их оптимизации. Расширения SQL для поддержки аналитической обработки данных – агрегирование, аналитические функции, секционирование, SQL-моделирование. ^ Сбор данных из разнородных информационных источников. Интеграция данных и ETL-процессы. Методы и инструментальные средства согласования, очистки, агрегирования и загрузки данных в хранилище. Проблемы качества данных. Методы повышения качества информации. Концепция управления мастер-данными MDM (Master Data Management) и ее реализация в промышленных системах. ^ Многомерный анализ данных и OLAP технология. Многомерная модель данных, языки запросов, логическое проектирование многомерных баз данных. Особенности хранения и обработки данных в многомерных СУБД. Способы представления многомерной информации. Технологии MOLAP, ROLAP и HOLAP. Принципы работы инструментальных средств многомерного анализа данных, демонстрация возможностей на примере Oracle OLAP. ^ Извлечение знаний и Data Mining. Выявление скрытых закономерностей и зависимостей в больших наборах данных. Теоретические основы data mining, типы моделей и алгоритмы. Основные типы задач data mining: классификация, регрессия, кластеризация, поиск ассоциаций, выделение существенных атрибутов. ^ Методы построения классификационных и регрессионных моделей – правила классификации, деревья решений, нейронные сети, математические функции. Алгоритмы построения правил классификации, метод Naïve Bayes. Построение деревьев решений – ID3, алгоритмы покрытия. Методы построения математических функций – линейные и нелинейные алгоритмы, . Support Vector Machine ^ Постановка задачи кластеризации данных и способы представления кластеров. Меры близости, основанные на расстоянии. Иерархическая и неиерархическая кластеризация. Алгоритмы кластеризации – O-clusters, enhanced k-means, .адаптивные алгоритмы. Оценка качества результатов кластеризации. ^ Алгоритмы построения ассоциативных правил. Характеристики ассоциаций – поддержка (support), достоверность (confidence), длина правила. Секвенциальные модели, способы задания отношения порядка. Алгоритмы формирования ассоциативных правил, выявление часто встречающихся наборов объектов, алгоритм Apriori. Извлечение знаний для неструктурированных данных, text mining, работа с пространственными данными. ^ Обучение на основе нейронных систем. Эволюционные и генетические алгоритмы. Извлечение знаний для неструктурированных данных. Анализ текстовой информации (text mining), предварительная обработка текстов, извлечение ключевых понятий, классификация и кластеризация текстовых документов. Инструментальные средства анализа текстов. Визуальный анализ данных и извлечение знаний, средства визуализации. ^ Применение методов data mining для решения практических задач. Методология CRISP . Проблемы подготовки данных – отсутствующие значения, нормализация, дискретизация, преобразования. Методы оценки точности построенной модели, матрицы погрешностей, Lift-диаграммы. Применение моделей (scoring), использование моделей в прикладных системах Промышленные инструментальные средства data mining. Демонстрация принципов работы и возможностей на примере Oracle Data Miner. Примеры реальных задач и проектов в различных областях (проблема оттока клиентов и сегментации клиентской базы в телекоммуникационных компаниях, оценка кредитных рисков в банках, исследование структуры гена, анализ потребительской корзины и др.). Литература
Автор программы: _____________________________/ О.Ю. Гочинская/
|