Программа дисциплины «Системы статистического и интеллектуального анализа данных» icon

Программа дисциплины «Системы статистического и интеллектуального анализа данных»



Смотрите также:
Методические рекомендации к написанию курсовой работы по дисциплине «Системы статистического и...
Программа дисциплины «Интеллектуальный Системы интеллектуального анализа данных» для...
Программа дисциплины «Системы статистического анализа данных» для направления 080700...
Программа дисциплины «Системы статистического анализа данных» для направления 080700...
Программа дисциплины Кафедра методов и технологий социологических исследований Программа...
Программа промежуточной аттестации дисциплины Статистика налогов Специальность: «Налоги и...
Нечеткие гибридные системы в задачах интеллектуального анализа данных...
«Системы статистического анализа данных»...
Удк 007. 5: 519. 216...
Пояснительная записка Программа разработана доцентом кафедры социологии А. В. Лисовским 1...
Пояснительная записка Программа разработана доцентом кафедры социологии А. В. Лисовским 1...
Программа дисциплины Системы разработки данных и машинного обучения для направления 010500...



страницы:   1   2   3
скачать


Государственный университет-

Высшая школа экономики


Факультет бизнес-информатики




Программа дисциплины


«Системы статистического и интеллектуального анализа данных»


для направления 080700.68 – «Бизнес-информатика»

подготовки магистра


Авторы: Т.К. Богданова, Г.И. Перминов, О.М. Уварова


Рекомендовано секцией УМС Одобрена на заседании

Секция «Бизнес-информатика» кафедры бизнес-аналитики

Председатель Зав. кафедрой _______________Г.А.Левочкина ________________Т.К.Кравченко

“___” ________________ 2008 г. “___” _________________ 2008 г.


Утверждено УС факультета
Бизнес-информатики

Ученый секретарь

_________________В.А.Фомичев

“___” _______________2008 г.


Москва – 2008

^ I. Тематический план учебной дисциплины

№ п/п

Наименования тем

Всего часов

Аудиторные часы

Внеаудиторные часы

Лекции

Практические занятия

Всего аудиторных часов

Раздел 1

^ Статистический анализ данных в среде SPSS.

196

34

32

66

130



Тема 1.1. Особенности подготовки данных для статистического анализа.

10

2

2

4

6



Тема 1.2. Описательная статистика для номинальных, порядковых и количественных шкал.

12

2

2

4

8



Тема 1.3. Поиск связей между номинальными, порядковыми и количественными переменными.

18

4

2

6

12



Тема 1.4. Аппроксимация кривыми. Нелинейная и взвешенная регрессия.

18

2

4

6

12



Тема 1.5. Метод множественной дихотомии и категориальный метод.

12

2

2

4

8



Тема 1.6. Логистическая регрессия.

24

4

4

8

16



Тема 1.7. Деревья решений.

24

4

4

8

16



Тема 1.8. Дискриминантный анализ, другие методы классификации и анализа структуры данных.

28

6

6

12

16



Тема 1.9. Программирование в SPSS.

20

2

2

4

16



Тема 1.10. Временные ряды.

30

6

4

10

20

Раздел 2

^ Интеллектуальный анализ данных.

182

28

28

56

126



Тема 2.1. Синергетические модели.

72

12

12

24

48



Тема 2.2. Генетические и эволюционные модели.

16

2

2

4

12



Тема 2.3. Нечеткие множества и нечеткая логика.

12

2

2

4

8



Тема 2.4. Нейронные сети.

24

4

4

8

16



Тема 2.5. Гибридные нечеткие нейросистемы.

12

2

2

4

8



Тема 2.6. Модели «Ближайший сосед».

10

2

2

4

6



Тема 2.7. Деревья решений. Методы кластеризации и дискриминации.

22

2

4

6

16



Тема 2.8. Методы Naive Bayes, ассоциации, построения логических правил (If- Then).

20

2

2

4

16



Тема 2.9. Модели TextMining и WebMining.

6

2

0

2

4




Итого часов

378

62

60

122

256

  1. ^ Формы рубежного контроля и структура итоговой оценки

Итоговая оценка по учебной дисциплине выставляется по первому разделу в третьем модуле, по второму разделу в пятом модуле. Итоговая оценка по первому разделу складывается из оценок за:

  • работу на практических занятиях.

  • 1 контрольную работу.

  • 2 домашних задания.

  • ответы на 2-х зачетах.

Итоговая оценка по первому разделу О1 формируется следующим образом:

О1 = 0,1  О1 + 0,1  О2 + 0,2  О3 + 0,2  О4 + 0,2  О5 + 0,2  О6,

где:

О1 – оценка за работу на практических занятиях;

О2 – оценка за контрольную работу;

О3 – оценка за 1-ое домашнее задание;

О4 – оценка за 2-ое домашнее задание;

О5 – оценка за ответ на 1-ом зачёте.

О6 – оценка за ответ на 2-ом зачёте.

Итоговая оценка по второму разделу складывается из оценок за:

  • за работу на практических занятиях.

  • за 1 домашнее задание.

  • ответ на экзамене.

Итоговая оценка по второму разделу О2 формируется следующим образом:

О2 = 0,2  О1 + 0,4  О2 + 0,4  О3,

где:

О1 – оценка за работу на практических занятиях;

О2 – оценка за домашнее задание;

О3 – оценка за ответ на экзамене;

Итоговая оценка по этой дисциплине «О» формируется следующим образом:

О = 0,5  О1 + 0,5  О2,

где:

О1 – оценка за первый раздел;

О2 – оценка за второй раздел.

  1. Базовый учебник

Ахим Бююль, Петер Цефель. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. Торгово издательский дом Dia Soft Москва, Санкт-Петербург, Киев 2002.

Кравченко Т.К., Перминов Г.И. Информационная технология процесса принятия экономических решений. - М.: ГУ-ВШЭ, 2006.


III. Содержание дисциплины


Раздел 1. Статистический анализ данных в среде SPSS.

Тема 1.1. Особенности подготовки данных для статистического анализа.

Предмет и содержание курса, связь с другими дисциплинами. Классификация основных методов статистического анализа данных, разработанных в рамках теории математической статистики.

Шкалы измерения. Переменные и наблюдения, значение переменной в конкретном наблюдении. Имя переменной, тип переменной, метка переменной и метки значений. Редактирование, удаление, добавление переменных. Ввод новых наблюдений. Пропущенные значения.

Модификация и отбор данных: условный отбор данных и случайная выборка, сортировка и группировка данных, перекодирование переменных, вычисление новых переменных.

Поиск ошибок и логических противоречий в данных

Объединение файлов, создание объединенной выборки по переменным и наблюдениям.

^ Основная литература

Ахим Бююль, Петер Цефель. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. Торгово издательский дом Dia Soft Москва, Санкт-Петербург, Киев 2002, с. 14-19, с. 26 43, с. 51 –53, с. 74 – 79, с. 116-117, с. 131-138.

Дополнительная литература

Таганов Д.Н. SPSS: Статистический анализ в маркетинговых исследованиях. – СПб.: Питер, 2005. – 192 с.: ил.

SPSS для Windows. Руководство пользователя. Кн.1-6. М.: Статистические Системы и Сервис. 1996.

Дубнов П.Ю. Обработка статистической информации с помощью SPSS. –М.: NT Press, 2004.

Тема 1.2. Описательная статистика для номинальных, порядковых и количественных шкал.

Процедура расчета частотных таблиц. Элементы частотных таблиц и их интерпретация.

Назначение таблиц сопряженности. Структура и содержание элементов таблицы, ее итоговых показателей.

Графическая интерпретация частотных таблиц и таблиц сопряженности.

Получение статистических характеристик распределения вероятностей заданных значений переменных. Проверка распределения на нормальность, однородность дисперсии в группах. Нормализующие преобразования.

Стандартизация значений.

Графический анализ данных: построение гистограмм, ящичковых диаграмм - BoxPlot, диаграмм Stem & Leaf - "ствол листья" графика Q-Q Normal Probability Plot - "нормальная вероятностная бумага", графика с удаленным трендом Detrended Normal Plot). Характеристики различных типов графика.

^ Основная литература

Ахим Бююль, Петер Цефель. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. Торгово издательский дом Dia Soft Москва, Санкт-Петербург, Киев 2002, с. 82-104, с. 117-129, с. 143, с. 164-206, с. 220-255..

Макаров А.А., Тюрин Ю.Н. Статистический анализ на компьютере. М., Наука, 1997.

Дополнительная литература

Таганов Д.Н. SPSS: Статистический анализ в маркетинговых исследованиях. – СПб.: Питер, 2005. – 192 с.: ил.

SPSS для Windows. Руководство пользователя. Кн.1-6. М.: Статистические Системы и Сервис. 1996.

Дубнов П.Ю. Обработка статистической информации с помощью SPSS. –М.: NT Press, 2004.

Тема 1.3. Поиск связей между номинальными, порядковыми и количественными переменными.

Особенности измерения связи для номинальных и порядковых шкал переменных. Проверка статистических гипотез. Статистическая значимость. Критерий Хи-квадрат и ограничения на его использование. Точные тесты (Exact-тест, метод Монте-Карло). Другие критерии проверки на независимость (коэффициент риска и т.д.)

Построение и анализ диаграмм рассеяния. Коэффициенты корреляции Пирсона. Ранговые коэффициенты корреляции. Частные корреляции. Значимость связи.

^ Основная литература

Ахим Бююль, Петер Цефель. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. Торгово издательский дом Dia Soft Москва, Санкт-Петербург, Киев 2002, с. 170 206, с. 220-255.

Макаров А.А., Тюрин Ю.Н. Статистический анализ на компьютере. М., Наука, 1997.

Дополнительная литература

Таганов Д.Н. SPSS: Статистический анализ в маркетинговых исследованиях. – СПб.: Питер, 2005. – 192 с.: ил.

SPSS для Windows. Руководство пользователя. Кн.1-6. М.: Статистические Системы и Сервис. 1996.

Дубнов П.Ю. Обработка статистической информации с помощью SPSS. –М.: NT Press, 2004.

Тема 1.4. Аппроксимация кривыми. Нелинейная и взвешенная регрессия.

Аппроксимация зависимостей с помощью кривых.

Последовательность действий для получения уравнения нелинейной регрессии. Выбор зависимой и независимой переменной и формы их зависимости. Процедура получения параметров, доверительных интервалов.

^ Основная литература

Ахим Бююль, Петер Цефель. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. Торгово издательский дом Dia Soft Москва, Санкт-Петербург, Киев 2002, с. 256 279.

Макаров А.А., Тюрин Ю.Н. Статистический анализ на компьютере. М., Наука, 1997.

Дополнительная литература

Таганов Д.Н. SPSS: Статистический анализ в маркетинговых исследованиях. – СПб.: Питер, 2005. – 192 с.: ил.

SPSS для Windows. Руководство пользователя. Кн.1-6. М.: Статистические Системы и Сервис. 1996.

Дубнов П.Ю. Обработка статистической информации с помощью SPSS. –М.: NT Press, 2004.

Тема 1.5. Метод множественной дихотомии и категориальный метод.

Метод множественной дихотомии и категориальный метод. Особенности кодирования и анализа множественных ответов.

Определение наборов, работа с наборами. Частотные таблицы для дихотомических и категориальных наборов, Custom Tables. Таблицы сопряженности с дихотомическими и категориальными наборами. Сравнение дихотомного и категориального методов.

^ Основная литература

Ахим Бююль, Петер Цефель. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. Торгово издательский дом Dia Soft Москва, Санкт-Петербург, Киев 2002, с. 256 279.

Макаров А.А., Тюрин Ю.Н. Статистический анализ на компьютере. М., Наука, 1997.

Дополнительная литература

Таганов Д.Н. SPSS: Статистический анализ в маркетинговых исследованиях. – СПб.: Питер, 2005. – 192 с.: ил.

SPSS для Windows. Руководство пользователя. Кн.1-6. М.: Статистические Системы и Сервис. 1996.

Дубнов П.Ю. Обработка статистической информации с помощью SPSS. –М.: NT Press, 2004.

Тема 1.6. Логистическая регрессия.

Методы классификации. Модель логистической регрессии. Оценка качества модели. Категориальные предикторы, отбор предикторов. Методы диагностики. Мультиномиальная логистические регрессия. Порядковая регрессия.

^ Основная литература

Ахим Бююль, Петер Цефель. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. Торгово издательский дом Dia Soft Москва, Санкт-Петербург, Киев 2002, с. 346 382.

Макаров А.А., Тюрин Ю.Н. Статистический анализ на компьютере. М., Наука, 1997.

Дополнительная литература

Таганов Д.Н. SPSS: Статистический анализ в маркетинговых исследованиях. – СПб.: Питер, 2005. – 192 с.: ил.

SPSS для Windows. Руководство пользователя. Кн.1-6. М.: Статистические Системы и Сервис. 1996.

Дубнов П.Ю. Обработка статистической информации с помощью SPSS. –М.: NT Press, 2004.

Тема 1.7. Деревья решений.

Деревья решений как метод классификации. Основные термины и понятия.

Методы построения дерева решений. Анализ с помощью дерева решений. Обычные задачи анализа с помощью дерева решений. Области приложения анализа с помощью дерева решений. Анализ с помощью CHAID. Метод Quest. Регрессионные деревья. Проверка адекватности модели.

Сравнение методов построения дерева решений.

^ Основная литература

Кравченко Т.К., Перминов Г.И. Информационные технологии принятия экономических решений. – М.: ГУ-ВШЭ. Тасис, 2006.

Дополнительная литература

SPSS для Windows. Руководство пользователя. Кн.1-6. М.: Статистические Системы и Сервис. 1996.

Тема 1.8. Дискриминантный анализ, другие методы классификации и анализа структуры данных.

Дискриминантный анализ. Формулировка задачи. Основная модель. Предположения, лежащие в основе дискриминантного анализа. Рекомендации по применению. Сравнение дискриминантного анализа и логистической регрессии.

Кластерный анализ как метод классификации. Иерархические и неиерархические методы кластерного анализа. Меры расстояния и нормировка. Профили средних значений кластеров. Кластеризация при помощи метода Варда. Метод k-средних.

Факторный анализ. Принципы факторного анализа. Метод главных компонент. График «осыпь». Методы вращения.

^ Основная литература

Ахим Бююль, Петер Цефель. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. Торгово издательский дом Dia Soft Москва, Санкт-Петербург, Киев 2002, с. 384 409.

Макаров А.А., Тюрин Ю.Н. Статистический анализ на компьютере. М., Наука, 1997.

Дополнительная литература

Таганов Д.Н. SPSS: Статистический анализ в маркетинговых исследованиях. – СПб.: Питер, 2005. – 192 с.: ил.

SPSS для Windows. Руководство пользователя. Кн.1-6. М.: Статистические Системы и Сервис. 1996.

Дубнов П.Ю. Обработка статистической информации с помощью SPSS. –М.: NT Press, 2004.

Тема 1.9. Программирование в SPSS.

Введение в синтаксис SPSS. Основные синтаксические правила. Подготовка к выполнению команд синтаксиса. Кнопка Paste. Выполнение готовой программы для SPSS. Преобразование переменных с использованием синтаксиса. Построение циклов. Работа с файлами: открытие, сохранение, отбор наблюдений. Объединение синтаксиса и диалогового режима. Программы операций над матрицами. Создание сценария и его применение.

^ Основная литература

Ахим Бююль, Петер Цефель. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. Торгово издательский дом Dia Soft Москва, Санкт-Петербург, Киев 2002, с. 368 384.

Макаров А.А., Тюрин Ю.Н. Статистический анализ на компьютере. М., Наука, 1997.

Дополнительная литература

Таганов Д.Н. SPSS: Статистический анализ в маркетинговых исследованиях. – СПб.: Питер, 2005. – 192 с.: ил.

SPSS для Windows. Руководство пользователя. Кн.1-6. М.: Статистические Системы и Сервис. 1996.

Дубнов П.Ю. Обработка статистической информации с помощью SPSS. –М.: NT Press, 2004.

Тема 1.10. Временные ряды.

Анализ и прогнозирование временных рядов. Основные понятия. Инструментальные средства работы с временными рядами: сглаживание, выделение тренда, сезонной и циклической составляющей. Определение периодичности временного ряда. Требования к данным для построения моделей временных рядов. Регрессионные модели временного ряда. Модели экспоненциального сглаживания.

^ Основная литература

Ахим Бююль, Петер Цефель. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. Торгово издательский дом Dia Soft Москва, Санкт-Петербург, Киев 2002, с. 368 384.

Макаров А.А., Тюрин Ю.Н. Статистический анализ на компьютере. М., Наука, 1997.

Дополнительная литература

Таганов Д.Н. SPSS: Статистический анализ в маркетинговых исследованиях. – СПб.: Питер, 2005. – 192 с.: ил.

SPSS для Windows. Руководство пользователя. Кн.1-6. М.: Статистические Системы и Сервис. 1996.

Дубнов П.Ю. Обработка статистической информации с помощью SPSS. –М.: NT Press, 2004.

Раздел 2. Интеллектуальный анализ данных

Тема 2.1. Синергетические модели.

Возможности применения методов нелинейной динамики к изучению временной динамики экономических рядов. Анализ одномерных временных рядов и теория детерминированного хаоса. Понятие об аттракторе.

Меры хаотичности временных рядов. Показатель трендоустойчивости временного ряда Херста. Алгоритм нормированного размаха Херста (R/S-анализ).

Оценка показателей Ляпунова по временному ряду.

Энтропия Колмогорова. Длина памяти в экономических рядах. Горизонт прогнозирования.

Корреляционная размерность. Фрактальная размерность. Определение фрактальной размерности по одноразовому измерению временного ряда. ТеоремаТакенса.

Алгоритмы расчета фазовой размерности.

Спектральный анализ. Вейвлет анализ. Дискретный вейвлет анализ. Непрерывный вейвлет анализ. Сингулярный спектральный анализ.

Возможности предсказывания финансовых крахов

^ Основная литература

Перминов Г.И. УМК - «Системы интеллектуального анализа данных» (Business Intelligence). Тема 15. ГУ-ВШЭ, 2007.

Дополнительная литература

Гринченко В.Т., Мацыпура В.Т., Снарский А.А. Ввведение в нелинейную динамику. Хаос и фракталы. Гл.2. ЛКИ, 2007

Кричевский М.Л. Интеллектуальные методы в менеджменте. Гл. 4. СПб.: Питер, 2005. Малинецкий Г.Г., Потапов А.Б., Подлазов А.В. Нелинейная динамика. Подходы, результаты, надежды. М.: КомКнига/URSS. 2006.

Петерc Э. Фрактальный анализ финансовых рынков. Применение теориии хаоса в инвестициях и экономике. М.: Интернет-трейдинг, 2004.

Ширяев В.И. Финансовые рынки и нейронные сети. Гл.6. ЛКИ, 2007

Тема 2.2. Генетические и эволюционные модели.

Сходства и различия между эволюционными стратегиями и генетическими алгоритмами. Различия между эволюционными стратегиями и генетическими алгоритмами. Основные принципы, заложенные в эволюционные программы: кроссинговер, мутация, селекция. Фундаментальная теорема генетического алгоритма.

Разновидности генетических алгоритмов: по методы селекции, по процедуре репродукции, по генетическим операторам, по методам кодирования, по масштабированию функции приспособленности.

Краткий обзор программных средств, реализующих эволюционные алгоритмы.

^ Основная литература

Перминов Г.И. УМК - «Системы интеллектуального анализа данных» (Business Intelligence). Тема 15. ГУ-ВШЭ, 2007.

Дополнительная литература

Http://www.statsoft.ru/home/textbook/modules/stdatmin.html

Http://www.codeney.ru/progr/alg/smart/#top

Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных OLAP и DataMining. - С-Пб.:БХВ-Петербург, 2004. прил. 2.

Дюк В., Самойленко А. Data Mining. Учебный курс. С-Пб.: Питер, 2001. гл. 3

Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические алгоритмы и нечеткие системы. Пер. с польского. – М: Горячая линия - Телеком, 2006, гл.4.

Андрейчиков А.В., Андрейчикова О.Н. Интеллектуальные информационные системы. – М.: ФиС, 2004, гл.6.

Корнеев В.В., Гареев А.Ф., Васютин С.В., Райх В.В. Базы данных. Интеллектуальная обработка информации. – М. Издатель – Молгачева, 2001. гл.7.

Тема 2.3. Нечеткие множества и нечеткая логика.

Основные понятия. Способы задания характеристической функции. Логические функции для нечетких множеств. Нечеткая и лингвистическая переменная.

Прямой нечеткий вывод

Этапы нечетного вывода. Модификации алгоритма нечеткого вывода.

Алгоритмы нечеткого логического вывода: Мамдани (Mamdani), Цукамото (Tsukamoto), Сугэно (Sugeno), Алгоритм Ларсена (Lаrsеn), Упрощенный алгоритм нечетного вывода.

Методы приведения к четкости.

Пример анализа риска банкротства. Постановка задачи комплексного анализа банкротства. Решение задачи с использованием нечетких множеств. Классификация значений. Построение функций принадлежности. Выводы.

^ Основная литература

Перминов Г.И. УМК - «Системы интеллектуального анализа данных» (Business Intelligence). ГУ-ВШЭ, 2007.

Дополнительная литература

Андрейчиков А.В., Андрейчикова О.Н. Интеллектуальные информационные системы. – М.: ФиС, 2004, гл.3

Корнеев В.В., Гареев А.Ф., Васютин С.В., Райх В.В. Базы данных. Интеллектуальная обработка информации. – М.: Издатель – Молгачева, 2001. гл.8.

Круглов В.В., Дли М.И. Интеллектуальные информационные системы. Компьютерная поддержка систем нечеткой логики и нечеткого вывода. – М.: Физматлит. 2002. гл.1, 2.

Леоненков А. Нечеткое моделирование в среде MatLab и fuzzyTech._С-Пб.: БХВ-Петербург. 2005. гл. 1-7

Применение нечетких множеств в бизнесе, экономике и финансах. Недосекин А.О. [http://fsscef.narod.ru]

Применение нечетких множеств для оценки риска портфельных инвестиций. Пономарев А.Ю. [http://joumal.seun.ru/j2003_lr/Economy/economy.htm]

Применение теории нечетких множеств к задачам управления финансами. Недосекин А.О. [http://cfin.ru].

Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические алгоритмы и нечеткие системы. Пер. с польского. – М.: Горячая линия - Телеком, 2006, гл.3

^ Тема 2.4. Нейронные сети

Понятия о нейронных сетях (НС). Преимущества и недостатки нейротехнологии. Области применения. Общие черты НС.

Нейроны. Классификация по типу нейронов: классификация нейронов по виду функции стимуляции, классификация нейронов по виду функции активации, классификация нейронов по типу сигнала, классификация нейронов по вероятностной определенности.

Классификация нейросетевых архитектур: по типу связей в сети - сеть прямого распространения, рекуррентная сеть, соревновательная сеть; по наличию скрытых элементов; по динамическим характеристикам.

Классификация методов обучения: по используемым парадигмам - «с учителем» (контролируемое обучение), «без учителя» (самообучение) и смешанная; по используемым правилам - коррекция по ошибке; машина Больцмана; правило Хебба; обучение методом соревнования; обучение методом селекции.

Многослойный персептрон (MLP). Методы нахождения глобального минимума функции ошибок.

Радиальная базисная функция (RBF). Преимущества сети RBF перед сетями MLP. Принципы обучения RBF-сети.

Вероятностная нейронная сеть (PNN). Преимущества и недостатки PNN–сетей.

Сеть Кохонена. Основной итерационный алгоритм Кохонена. Область применения сети Кохонена.

^ Основная литература

Перминов Г.И. УМК - «Системы интеллектуального анализа данных» (Business Intelligence). ГУ-ВШЭ, 2007.

Дополнительная литература

Андрейчиков А.В., Андрейчикова О.Н. Интеллектуальные информационные системы. – М.: ФиС, 2004, гл.5.

Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические алгоритмы и нечеткие системы. Пер. с польского. – М.: Горячая линия - Телеком, 2006, гл.5.

Дюк В., Самойленко А. Data Mining. Учебный курс. С-Пб.: Питер, 2001. гл. 3.

Галушкин А.И. Теория нейронных сетей. Кн. 1/Под ред. А.И.Галушкина - М.: ИПРРЖР, 2000.

Нейронные сети. STATISTICA Neural Networks. M.: Телеком. 2001.

Корнеев В.В., Гареев А.Ф., Васютин С.В., Райх В.В. Базы данных. Интеллектуальная обработка информации. – М.: Издатель – Молгачева, 2001. гл.6.

Маслобоев Ю.П. Введение в Neural Network Toolbox. http://matlab.exponenta.ru/neuralnetwork/book1/index.php

Короткий С. Нейронные сети: основные положения. http://lii.newmail.ru /NN/ Korotky/N1/kor_nn1.htm

Тема 2.5. Гибридные и нечеткие нейросистемы.

Необходимость построения гибридной сети. Эффективность гибридизации. Принцип работы гибридной сети. Отличие ГС от обычной нейросети. Принцип обучения ГС. База знаний гибридной сети. Алгоритм вывода для ГС.

Адаптивная нечеткая нейросистема (ANFIS). Архитектура нейронной сети ANFIS. Примеры использования системы Anfis: построение регрессионно-авторегрессионной модели сильно зашумленного ряда; прогноз сильно зашумленного ряда.

^ Основная литература

Перминов Г.И. УМК - «Системы интеллектуального анализа данных» (Business Intelligence). ГУ-ВШЭ, 2007.

Дополнительная литература

Дьяконов В.П., Круглов В.В. MatLab 6,5. Инструменты искусственного интеллекта и биоинформатика. –М.: СОЛОН-ПРЕСС, 2006. Раздел 3,5.

Леоненков А. Нечеткое моделирование в средем MatLab и fuzzyTECH. –С.Пб.: БХВ-Петербург, 2005. Гл.15.

Тема 2.6. Модели «Ближайший сосед».

Характеристика методов извлечения и адаптации прецедентов. Метод ближайшего соседа. Преимущества и недостатки метода.

Модификации методов ближайшего соседа. Метод k-ближайших соседей и взвешенный метод (к-БС). Адаптивные методы ближайшего соседа. Метод ускоренного поиска ближайшего соседа (Fast Nearest Neighbor Searching). Модифицированный метод ближайшего соседа (ММБС). Выбор опорных точек. Алгоритм выбора опорных точек. Вычислительная сложность ММБС. Редуцированные методы ближайшего соседа (РМБС). Процедуры фильтрации шумовых документов в выборке. Алгоритм РМБС. Обобщенный метод ближайшего соседа (ОМБС). Алгоритм ОМБС.

^ Основная литература

Перминов Г.И. УМК - «Системы интеллектуального анализа данных» (Business Intelligence). ГУ-ВШЭ, 2007.

Дополнительная литература

Некрасов И. В., Толчеев В. О. Модифицированный метод ближайшего соседа с использованием опорных точек для классификации текстовых документов // Вестник МЭИ. 2004. № 1. С. 76-81.

Толчеев В.О. Разработка и исследование новых модификаций метода ближайшего соседа. – М.: Информационные технологии, №3, 2005.

Salzberg S., Delcher A., Heath D., Kasif S. Best-Case Results for Nearest Neighbor Learning // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1995. N 17. P. 599-609.

http://www.statsoft.ru

http://www. Graficon.ru/catalog/26

Тема 2.7. Деревья решений. Методы кластеризации и дискриминации.

Понятие об алгоритмах построения деревьев решений. Преимущества использования деревьев решений. Правила построения деревьев решений: разбиений; остановки; отсечения.

Разновидности DT – алгоритмов: альтернативные методы расщепления данных в узлах дерева. Альтернативные методы отсечения незначимых ветвей (pruning), оптимизация построенного дерева, использование нечетких критериев расщепления, построение вместо дерева ациклического графа (решетки) более общего вида, тернарное разбиение данных в узлах для учета случаев, когда значение критерия разбиения не может быть вычислено для части записей.

Понятия о кластеризации. Особенности кластеризации в Data Mining.

Методы кластеризации с числовыми атрибутами. Классификация методов кластеризации.

Иерархические методы. Иерархические агломеративные методы. Меры расстояния между объектами. Методы объединения: метод одиночной связи (ближайшего соседа); метод полных связей (наиболее удаленного соседа); метод средней связи; метод Уорда (Ward’s method).

Иерархические дивизимные методы. Алгоритм Макнаотона. Пример дивизимного метода.

Итеративный метод кластеризации - k средних.

Метод нечеткой кластеризации Fuzzy C-Means. Алгоритм Fuzzy C-Means.

Кластеризация категорийных данных. Масштабируемый алгоритм CLOPE. Формальное описание алгоритма. Реализация алгоритма. Области применения алгоритма кластеризации.

Назначение, цели, предпосылки, особенности дискриминационного анализа.

Дискриминантные функции и их геометрическая интерпретация. Количество дискриминантных функций.

Алгоритм дискриминационного анализа 2-х классов. Пример дискриминации двух групп. Проверка решения и классификация новых объектов

Дискриминационный анализ при числе групп более двух. Алгоритм решения задачи для общего случая k классов. Пример классификации при числе групп более двух.

Влияние числа выбранных переменных на результат анализа. Методы отбора переменных. Критерии отбора переменных для двух и более групп: Wilks' lambda {Лямбда Уилкса), Mahalonobis distance (Расстояние Махалонобиса), Smallest F ratio (Наименьшее F-отношение), Rao's V (V Pao), Sum of unexplained variance (Сумма необъясненной дисперсии).

Классификация без интерпретации.

Взаимосвязь между дискриминантными переменными и дискриминантными функциями Вклад отдельной переменной в значение дискриминантной функции. Степень корреляционной зависимости между переменными и дискриминантными функциями.

^ Основная литература

Перминов Г.И. УМК - «Системы интеллектуального анализа данных» (Business Intelligence). ГУ-ВШЭ, 2007.

Дополнительная литература

Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных OLAP и DataMining. - С-Пб.:БХВ-Петербург, 2004. гл. 5.

http://www.wikipedia.org

И. Андреев. Деревья решений - CART математический аппарат. //http://www.basegroup.ru

Деревья решений. // http://cdo.bseu.bv/stat 1 /lab_7.htm

А. Шахиди. Деревья решений - общие принципы работы.// http://www.basegroup.ru

С. Ларин, И. Ходжаева. Использование деревьев решений для оценки кредитоспособности физических лиц - BaseGroup Labs //http://www.basegroup.ru/practice/solvency.htm

Poly Analyst & Data mining //http://www.megaputer.ru/doc.php7production/pa/polvanalyst info.html#3

Проект Data Mining// http://decision-trees.fromru.com/

Деревья решений http://www.olap.rU/ basic/dm2.asp#4.5. %20%C4%E5%F0%E5% E2%FC%FF%20%F0%E5 %F8%E5%ED%E8%E9%20 (decision%20trees)

www.ics.uci.edu/~mlearn/MLRepository.html

Барсегян А.А. и др. Методы и модели анализа данных: OLAP и Data Mining. –С.Пб.: БХВ-Петербург, 2004, гл.7.

Воеводин Ю., Тихонова Н. Исследование методов кластеризации в динамических интеллектуальных системах. http://molod.mephi.ru/reports.asp7ricN572

Елманова Н. Введение в Data Mining. КомпьютерПресс, 2003, № 8.

Кластерный анализ в сегментировании рынка, www.segmentation-market.ru

Паклин Н. Алгоритмы кластеризации на службе Data Mining, www.basegroup.ru

Паклин Н. Кластеризация категорийных данных: масштабируемый алгоритм CLOPE. www.basegroup.ru

Сапегин Л.Н. Метод кластеризации многомерных статистических данных. Труды научно-технической конференции «Безопасность информационных технологий» под редакцией Волчихина В.И., Зефирова С.Л., Иванова А.И. Пенза: Издательство Пензенского научно-исследовательского электротехнического института, 2004.

http://www.intuit.ru

Сошникова Л.А., Тамашевич В.Н., Уебе Г., Шеффер М. Многомерный статистический анализ в экономике. –М.: ЮНИТИ. 1999. гл. 9

Айвазян С.А., Бухшбер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. – М.: Финансы и статистика. 1989. гл. 2-4.

Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. – М.: ЮНИТИ. 1998. гл.12.

Афифи А., Эйзен С. Статистический анализ: подход с использованием ЭВМ. – М.: Мир, 1992.

Ким Дж., Мюллер Ч.У. и др. Факторный, дискриминационный и кластерный анализ. Пер. с англ. – М.: Финансы и статистика. 1989.

Плюта В. Сравнительный многомерный анализ в экономическом моделировании. Пер. с польского. – М.: Финансы и статистика. 1989

Сошникова Л.А., Тамашевич В.Н., Уебе Г., Шеффер М. Многомерный статистический анализ в экономике. – М.: ЮНИТИ. 1999. гл. 10

Тема 2.8. Методы Naive Bayes, ассоциации, построения логических правил (If- Then).

Понятие о методе Naive Bayes. Пример применения метода Navie Bayes.

Проблемы использования метода Navie Bayes. Область применения метода Naive Bayes.

Понятие об ассоциации. Метод Basket Analysis. Оценка полезности ассоциативных правил: поддержка (support), достоверность (confidence), улучшение (improvement).

Методы нахождения последовательностей (сиквенциальный анализ).

Разновидности ассоциативных правил.

Алгоритмы. Алгоритм Apriori. Пример применения алгоритма Apriori. Разновидности алгоритма Apriori.

Понятие о методе If-Then. Поиск логических правил в данных (на примере системы WizWhy). Основные черты метода. Загрузка и управление данными. Задание параметров процедуры поиска правил. Настройки выдачи отчетов.

Дополнительные возможности построения логических правил. Работа с окном диалога Ошибки/Примеры (Errors/Examples). Работа с окнами форматирования. Окно работы с внешними данными. Отчеты системы (Отчет о правилах, список правил, визуализация полученных правил, содержание записи в деталях, индекс признака, окно распечатки, окно экспорта правил, отчет о трендах, отчет о неожиданных правилах).

Предсказание на основе полученных правил.

Построение множества правил и деревьев решений на примере системы See5. Подготовка данных для See5 (Файл имен переменных, файл данных, файлы тестовых данных, файл стоимости). Интерфейс пользователя.

Построение дерева решений. Детальное изучение результатов. Преобразование дерева решений в набор правил. Усиление решения (Boosting).

Использование правил для принятия решений. Смягчение порогов. Дополнительные настройки алгоритма. Перекрестная проверка полученных результатов. Выборка из больших наборов данных. Учет стоимости различных ошибок классификации. Использование классификаторов. Детальная проверка и сохранение результатов.

^ Основная литература

Перминов Г.И. УМК - «Системы интеллектуального анализа данных» (Business Intelligence). ГУ-ВШЭ, 2007.

Дополнительная

Перминов Г.И. УМК. Reader. Nabie Bayea algoritm

Перминов Г.И. УМК. Reader. Nabie Bayea.pdf

Перминов Г.И. УМК. Reader. The learnability of Nabie.pdf

Иерархическая модель Navie Bayes




Скачать 477,74 Kb.
оставить комментарий
страница1/3
Т.К. Богданова
Дата29.09.2011
Размер477,74 Kb.
ТипПрограмма дисциплины, Образовательные материалы
Добавить документ в свой блог или на сайт

страницы:   1   2   3
Ваша оценка этого документа будет первой.
Ваша оценка:
Разместите кнопку на своём сайте или блоге:
rudocs.exdat.com

Загрузка...
База данных защищена авторским правом ©exdat 2000-2017
При копировании материала укажите ссылку
обратиться к администрации
Анализ
Справочники
Сценарии
Рефераты
Курсовые работы
Авторефераты
Программы
Методички
Документы
Понятия

опубликовать
Документы

наверх