Лекция Кластерный анализ icon

Лекция Кластерный анализ


Смотрите также:
Контрольная работа по дисциплине «Анализ данных и прогнозирование» Тема 15: Кластерный анализ...
Задачи классификации объектов: кластерный анализ. Дискриминантный анализ...
Анализ понятие о кластерном анализе...
Реферат Дипломный проект 127  л., 16  рисунков, 27  таблиц, 36  источников, 2 приложения...
Лекция 20. 03. 12. Модели для исследования и оценки в pr лекция 27. 03. 12...
Лекция Регрессионный анализ 5- лекция Регрессионный анализ...
Кластерный анализ объектов с противоречивыми свойствами *...
Система дистанционного обучения в рамках концепции развития современной организации: кластерный...
Кластерный анализ режимов систем тягового электроснабжения для целей ситуационного управления...
Кластерный генетический алгоритм синтеза оптимальных решений задачи инвестиционного планирования...
Экономический анализ Анализ объема производства и реализации продукции лекция анализ объема...
Вводный семинар, вводная лекция, занятия по целе-полаганию, лекция-беседа...



Загрузка...
скачать

Лекция 7. Кластерный анализ 7-



Лекция 7. Кластерный анализ



Содержание

7.1. Назначение кластерного анализа 2

7.2. Краткие теоретические сведения 2

7.2.1. Особенности метода 2

7.2.2. Особенности исходных данных 2

7.2.3. Шаги кластерного анализа 2

7.2.4. Расстояния между объектами 2

7.2.5. Расстояние между классами 2

7.2.6. Качество разбиения на классы 3

Существует достаточно большое количество различных процедур кластерного анализа. Для сравнения качества разбиения на классы используется ряд функционалов качества. Наиболее употребляемые из них: 3

7.2.7. Меры расстояния между объектами 4

7.2.7.1. Евклидово расстояние 4

7.2.7.2. Нормализованное Евклидово 4

4

7.2.7.3. Сумма квадратов 4

7.2.7.4. Взвешенная сумма квадратов 4

7.2.7.5. Манхеттеновская метрика 5

7.2.7.6. Расстояние Брея-Картиса 5

7.2.7.7. Расстояния Канберра 5

7.2.7.8. Расстояние Махаланобиса 5

7.3. Методы кластерного анализа 5

7.3.1. Разновидности агломеративных (объединяющих) методов 6

7.3.2. Дивизивные (разделяющие) методы 6

7.5. Реализация методов в SPSS 6

7.6. Различия в результатах методов 7

7.7. Итеративный метод кластеризации наблюдений - К средних 7

7.7.1. Цель метода 7

7.7.2. Требования к исходным данным 7

7.7.3. Запуск процедуры 7

7.7.4. Установка параметров 7

также в диалоговом окне K-Means Claster расположены 3 важные радио-кнопка, с помощью которых задаются параметры процедуры: 9

7.7.5. Результаты процедуры: 11

7.8. Кластеризация наблюдений. Иерархический метод 13

6.8.1. Цель метода 13

7.8.2. Требования к исходным данным: 13

7.8.3. Запуск процедуры 13

Для запуска процедуры нужно нажать на команду Hierarchical Cluster Analisis из меню Analyze и подменю Classify (рис.7-11). 13

13

7.8.4. Установка параметров 13

В появившемся диалоговом окне (рис.7-12) содержаться 2 списка переменных: данных в исходном файле (слева) и список с заголовком Variables, куда с помощью стрелки надо перенести названия переменных, по которым будет вестись кластеризация. 13

Столбец кнопок справа стандартен: 13

7.8.5. Результаты кластеризации 17

7.9. Кластеризация переменных. Иерархический метод 19

7.9.1. Назначение метода 19

7.9.2. Установка параметров 20

7.9.3. Обзор результатов кластеризации 21

7.9.4. Сравнение факторного и кластерного анализа переменных 23

Литература 23
^

7.1. Назначение кластерного анализа



«Кластерный анализ» — это общее название множества вычислительных процедур, используемых при создании классификации. В результате работы с процедурами образуются «кластеры» или группы очень «похожих» объектов. Более точно, кластерный метод — это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы.

^

7.2. Краткие теоретические сведения




7.2.1. Особенности метода



Кластерный анализ не содержит вычислительного механизма проверки гипотезы об адекватности получаемых классификаций. Результаты кластеризации в этом плане можно обосновать с использованием метода дискриминантного или других видов анализа.

^

7.2.2. Особенности исходных данных



Исходные данные могут быть представлены в виде матрицы размером т*п, содержащую информацию одного из следующих трех типов:

  • измерения Хij значений m переменных для п объектов;

  • квадратная (т=п) матрица расстояний между парами объектов;

  • квадратная (т=п) матрица близостей для всех пар п объектов.

В матрице близостей или расстояний может быть заполнена лишь нижняя левая половина (т.е. поддиагональные элементы), а верхняя половина заполнена нулями.

^

7.2.3. Шаги кластерного анализа





  • Получение выборки

  • Определение признаков оценки объектов

  • Вычисление меры сходства между объектами

  • Применение метода кластеризации

  • Проверка достоверности полученных результатов



^

7.2.4. Расстояния между объектами



Для определения сходства между объектами используется понятие расстояния dij (Oi, Oj). Чем меньше расстояние, тем более похожими считаются объекты. Наиболее употребительные меры приведены ниже.

^

7.2.5. Расстояние между классами



Обычно для измерения расстояния между кластерами используют следующие меры близости:

  • Расстояние, вычисляемое по принципу «ближайшего соседа», представляет собой минимальное расстояние между парой объектов, каждый из которых состоит в другом кластере.

Вычисляют по формуле:




  • Расстояние, вычисляемое по принципу «дальнего соседа», является максимальным между парой объектов, каждый из которых состоит в другом кластере.

Вычисляют по формуле:




  • Расстояние, вычисляемое по «центрам тяжести» кластеров.

Вычисляют по формуле:



где X-(l) — среднее арифметическое векторных наблюдений, которые входят в кластер Sl To есть это расстояние между «центрами тяжести» соответствующих кластеров.


  • Расстояние, вычисляемое по принципу «средней связи», является арифметическим средним всех возможных пар комбинаций между объектами, входящими в различные кластеры.

Вычисляют по формуле:


^

7.2.6. Качество разбиения на классы

Существует достаточно большое количество различных процедур кластерного анализа. Для сравнения качества разбиения на классы используется ряд функционалов качества. Наиболее употребляемые из них:





  • Сумма внутриклассовых дисперсий расстояний определяется по формуле:



где р — количество кластеров.




  • Сумма попарных внутриклассовых расстояний

определяется по формуле:




где р — количество кластеров.

^

7.2.7. Меры расстояния между объектами

7.2.7.1. Евклидово расстояние


Евклидовы расстояния применимы для переменных, измеренных в одних единицах.


^

7.2.7.2. Нормализованное Евклидово



Нормализованные Евклидовы расстояния более подходят для переменных, измеренных в различных единицах или сильно различающихся по величине.
^




7.2.7.3. Сумма квадратов



Расстояния суммы квадратов можно использовать, чтобы стратегии объединения были аддитивны по отношению к переменным (расстояние между кластерами равно сумме расстояний между их компонентами).



^

7.2.7.4. Взвешенная сумма квадратов



Если переменные обладают существенно различным порядком, то целесообразно взвешенное суммирование квадратов, но при этом последняя строка матрицы данных должна содержать веса переменных.


^

7.2.7.5. Манхеттеновская метрика



Манхеттеновская метрика, как правило, применяется для номинальных или качественных переменных.


^

7.2.7.6. Расстояние Брея-Картиса



Расстояния Брея—Картиса имеют значения между 0 и 1, однако переменные с большими значениями оказывают большее влияние на результат.


^

7.2.7.7. Расстояния Канберра



Канберровы расстояния также лежат между 0 и 1, но обладают нечувствительностью к сильно асимметричным данным. Однако применение этого метода при наличии нулевых и отрицательных значений нежелательно, поэтому рекомендуется предварительное преобразование данных.


^

7.2.7.8. Расстояние Махаланобиса



Эта метрика с помощью матрицы дисперсий-ковариаций связана с корреляциями переменных. Когда корреляция между переменными равна нулю, расстояние Махаланобиса эквивалентно квадратичному евклидову расстоянию дисперсий-ковариаций связана с корреляциями переменных. Когда корреляция между переменными равна нулю, расстояние Махаланобиса эквивалентно квадратичному евклидову расстоянию



^

7.3. Методы кластерного анализа



В настоящее время развиты:

1) иерархические агломеративные методы;

2) иерархические дивизивные методы;

3) итеративные методы группировки;

4) методы поиска модальных значений плотности;

5) факторные методы;

6) методы сгущений;

7) методы, использующие теорию графов.

^

7.3.1. Разновидности агломеративных (объединяющих) методов



Агломеративные методы позволяют строить классификацию в ходе иерархического процесса объединения кластеров. Расстояние между кластером i+j и всеми другими кластерами k вычисляется по различным правилам:

— стратегия ближайшего соседа (очень сильно сжимает пространство исходных переменных и рекомендуется для получения минимального дерева взамен групповой классификации);

— стратегия дальнего соседа (сильно растягивает пространство);

— стратегия группового соседа (сохраняет метрику пространства);

гибкая стратегия (универсальна и зависит от значения коэффициента бета, ввод которого запрашивается при выборе этой стратегии (бета должно быть меньше I): при бета=0 метрика не меняется, при бета>0 пространство сжимается, а при бета<0 — растягивается);

— метод Уорда (минимизирует внутрикластерный разброс объектов и дендрограмма получается с глубоко, гипертрофировано разделенными кластерами).

^

7.3.2. Дивизивные (разделяющие) методы



В случае дивизивной стратегии необходимо указать число кластеров, на которое желательно разбить множество объектов, причем окончательное количество кластеров может получиться меньше этого числа, если затребованное разбиение для имеющихся данных невозможно. Если агломеративные методы идут от объектов при первоначальном отсутствии классов, то в дивизивных в начале процедуры (при k==1) все объекты принадлежат одному кластеру, а затем этот всеобъемлющий кластер разрезается на последовательно уменьшающиеся «части».

^
7.4. Понятие о дендрограмме


Дендрограмма — дерево объединения кластеров с порядковыми номерами объектов по горизонтальной оси и со шкалой расстояний по вертикальной оси (рис.7-1).


Рис.7-1. Общий вид Дендрограммы


^

7.5. Реализация методов в SPSS



В пакете SPSS реализовано 7 методов из группы иерархических агломеративных методов и один итеративный (K-средних).

7.6. Различия в результатах методов



Иерархические методы могут кластеризовать, как переменные, так и наблюдения, а итерактивный - только наблюдения.

^

7.7. Итеративный метод кластеризации наблюдений - К средних




7.7.1. Цель метода



Цель метода: разбить наблюдения на сравнительно однородные непересекающиеся группы, опираясь на выбранные характеристики. Для формализации этой проблемы удобно интерпретировать анализируемые объекты в качестве точек в соответствующем факторном пространстве Кластер представляет собой набор наблюдений, которые расположены ближе друг к другу, чем к другим. Для измерения этого расстояния в методе К средних SPSS используется евклидова квадратичная метрика.

^

7.7.2. Требования к исходным данным



При использовании данного метода необходимо, чтобы переменные в исходных данных были числовыми и измерялись только в интервальной шкале или шкале отношений. Также не следует забывать о том, чтобы переменные имели одинаковые единицы измерения. В противном случае интерпретация результатов будет крайне затруднена. В ситуации, когда потребуется предварительная нормировка данных, необходимо обратиться к процедуре Descriptives в меню Analyze`, строке Summarize.




Рис.7-2. команды для нормиировки исходных данных

^

7.7.3. Запуск процедуры



Для запуска процедуры кластеризации методом К-средних нужно в меню Analyze/Classify выбрать строку K-Means Claster (рис.7-3).

^

7.7.4. Установка параметров



При вызове процедуры появляется стандартное диалоговое окно SPSS (рис.7-4):

  • в окне, в списке слева указаны названия переменных в файле исходных данных;

  • в список под заглавием Variables при помощи стрелки следует переносить выделенные переменные, по данным которых будет проводиться кластеризация;





^ Рис.7-3. Вызов метода кластеризации K-means Cluster




Рис.7-4. Вид диалогового окна K-Means Cluster Analysis


  • в поле Label Classes by так же при помощи кнопки-стрелки заносится название переменной, значения которой будут служить в качестве меток (заголовков) кластеров;

  • в поле с надписью Number of Clasters, необходимо ввести число кластеров, которое предполагается сформировать. Число должно быть положительной целой величиной больее 2.

  • в поле Method, можно выбрать одну из двух альтернатив:

-Iterate and classify (что означает поиск центров кластеров и их уточнение на множестве исходных данных путем итеративной процедуры, а потом использование далее для классификации)

-или Classify only (это означает классификацию наблюдений относительно начальных центров кластеров без их уточнения);

  • в нижнем левом углу диалогового окна расположена кнопка Сentres >>. Если на нее нажать, как это сделано в данном случае, площадь окна увеличивается и появляется область Claster Centers. В ней флажками можно отметить опции:

- Read initial from, при выделении которой нужно нажать на соответствующую кнопку File и указать имя файла, где указаны данные с начальными координатами кластерных центров;

- Write final as, при использовании которой, требуется указать имя файла в формате SPSS, где будут сохранены результаты определения центров кластеров;

  • в правой части диалогового окна расположены радиокнопки:

  • OK – для выполнения процедуры после завершении всех настроек;

  • Paste – при ее нажатии из установок текущего диалогового окна формируется процедура, которая помещается в так называемое окно синтаксиса процессора SPSS в виде последовательности строк кодового языка;

  • Reset – при нажатии все установки приводятся в начальное состояние;

  • Cancel – отмена выполнения команды;

  • Help – вызов контекстно-зависимой справки;
  • ^

    также в диалоговом окне K-Means Claster расположены 3 важные радио-кнопка, с помощью которых задаются параметры процедуры:


  • Iterate. При нажатии этой радиокнопки раскрывается дополнительное диалоговое окно (рис.7-5). При реализации алгоритма кластеризации К-средних, по умолчанию, итерации прекращаются (останавливаются пошаговые процедуры), когда число шагов превышает заранее установленное значение или когда наибольшее отклонения величины в наблюдении от центра кластера составляет менее 2% от наименьшего расстояние между изначально заданными значениями центров кластеров. В окне Iterate можно изменить эти параметры. Кнопка Iterate становится активной только в случае, когда в поле Method активизировано Iterate and classify.




Рис.7-5. Вид диалогового окна Iterate



  • В диалоговом окне Iterate можно задать:

  • Maximum Iterations – ограничение на число шагов в процедуре, после которых алгоритм остановится, даже если не выполнен критерий сходимости. Это значение находится в промежутке от 1 до 999;

  • Convergence Criterium – задает долю минимального расстояния между центрами кластеров, при которой итерации прекращаются. Это значение изменяется от 0 до 1;

  • Use running means – при установке этого флажка значение кластерного центра будет автоматически пересчитываться каждый раз при включении в состав кластера нового наблюдения. По умолчанию, когда эта опция не выбрана, значение кластерного центра рассчитывается после распределения всех используемых наблюдений.




  • В диалоговом окне, появляющемся при нажатии кнопки Save, задается создание новых переменных (рис.7-6). Они добавляются к исходной таблице и содержат результаты классификации.



Рис.7-6. Вид окна Save New Variables


  • При активизации Cluster Membership формируется новая переменная, отражающая итоговый номер кластера для каждого наблюдения. Границы изменения значений переменной от 1 и до общего числа кластеров/

  • При активизации Distance from custer center, тоже создается новая переменная, каждое значение которой показывает евклидово расстояние наблюдения от центра соответствующего кластера.

  • Кнопка Options открывает еще одно диалоговое окно, где можно задать, какую статистику выводить в окне просмотра результатов, как обрабатывать наблюдения с пропущенными значениями (рис.7-7).

  • В области Statistics при активизации строки Initial cluster centers, в окне просмотра результатов будет напечатана таблица с начальными значениями центров кластеров.

Аналогично, при активизации ANOVA table – будет выведена таблица дисперсионного анализа и F-статистики.

При выделении Cluster information for each case выводится информация по кластеризации для каждого наблюдения.



^ Рис.7-7. Вид диалогового окна Options


  • В области Missing values следует выбрать одну из двух альтернатив: или Exclude cases listwise, что значит исключение из обработки всего наблюдения, если в нем отсутствуют данные по какой-либо переменной; или Exclude cases paiwise – исключение только тех пар наблюдений, значение одного из которых отсутствует.



^

7.7.5. Результаты процедуры:



В окне просмотра вывода можно найти:

  • Начальные значения центров кластеров (рис.7-8);



Рис.7-8. Таблица начальных значений центров кластеров


  • Конечные их значения и изменения в процессе итерации (рис.7-9);



Рис.7-9. Таблица конечных значений центров кластеров


  • Таблицу дисперсионного анализа;

  • Число наблюдений в каждом кластере (рис.7-10).



Рис.7-10. Таблица числа наблюдений в каждом кластере


Также в окне начальных данных к таблице добавляются 2 столбца, показывающие принадлежность каждого наблюдения к своему кластеру и расстояние от этого наблюдения до центра кластера.

Более детально окно вывода рассматривается в практике.

^

7.8. Кластеризация наблюдений. Иерархический метод




6.8.1. Цель метода



Цель метода: аналогична процедуре К - средних. Но преимущество Hierarchical Cluster Analisis заключается в том, что количество кластеров знать заранее не обязательно. Эта процедура основана на алгоритме, который рассматривает каждое наблюдение как отдельный класс, а затем их последовательно объединяет пока не получится один.

^

7.8.2. Требования к исходным данным:



Также как и в процедуре К - средних должны быть счетные переменные в одинаковых единицах измерения. Кроме этого, переменные могут быть непрерывными, бинарными (номинальными) или подсчетами (ординарными). При различиях в единицах измерения процедурой предусмотрена нормировка переменных

^

7.8.3. Запуск процедуры

Для запуска процедуры нужно нажать на команду Hierarchical Cluster Analisis из меню Analyze и подменю Classify (рис.7-11).


Рис.7-11. Вызов процедуры Hierarchical Cluster

^

7.8.4. Установка параметров

В появившемся диалоговом окне (рис.7-12) содержаться 2 списка переменных: данных в исходном файле (слева) и список с заголовком Variables, куда с помощью стрелки надо перенести названия переменных, по которым будет вестись кластеризация.

^

Столбец кнопок справа стандартен:


OK – по завершении всех настроек на нее надо нажать для выполнения команды;

Paste – при ее нажатии из установок текущего диалогового окна формируется процедура, которая помещается в так называемое окно синтаксиса процессора SPSS в виде последовательности строк кодового языка;

^ Reset – при нажатии все установки приводятся в начальное состояние;

Cancel – отмена выполнения команды;

Help – вызов контекстно-завасимой справки.




^ Рис.7-12. Вид диалогового окна иерархических методов кластеризации


В поле Label Cases by следует переместить название переменной, значения которой будут служить заголовками кластеров.

В области Cluster нужно выбрать одну из двух альтернатив: Cases (означает кластеризацию наблюдений) или Variables (означает кластеризацию переменных целиком). По умолчанию выделяется режим Cases.

В области Display можно активизировать Statistics и Plots для выведения соответствующей информации в окне просмотра результатов.

Внизу окна расположены 4 кнопки, при нажатии которых открываются соответствующие диалоговые окна:

  • Statistics (рис.7-13).



^ Рис.7-13 Вид диалогового окна Statistics


В этом окне задаются результирующие статистики иерархической кластеризации. При выделение Agglomeration schedule выводятся результаты каждого шага итерации: объединения наблюдений в кластеры, расстояния между ними или между объединяемыми кластерами и кластером последнего уровня. При выделении Proximity matrix выводится матрица, содержащая расстояния между объектами.

В области Cluster Mambership возможны 3 альтернативы: None, Single solution, Range of solutions – они определяют отображения кластера, в который вошло наблюдение на одном или нескольких этапах процедуры.


  • Plots (рис.7-14) это окно, обеспечивающее параметры графического и наглядного представления результатов кластеризации. При активизации кнопки Dendogram будет выводиться дендограмма – условная схема распределения наблюдений по кластерам.

В области Icicle выбираются параметры вывода «сосульчатой» диаграммы, которую можно выводить для всех кластеров – All clusters; для выбранного диапазона – Specified range of solutions; или не выводить – None.

Альтернативы в области Operations: Vertical или Horizontal –определяют опции ориентации изображения диаграммы.




Рис.7-14. Вид диалогового окна Plots


  • Method – диалоговое окно (рис.7-15), в котором определяются параметры кластеризации переменных. Также здесь можно задать способ стандартизации данных в области Transform Variables позиции By cases. В верхнем поле Cluster Method в ниспадающем списке можно выделить способ осуществления кластеризации. Также в области Measure для выбранного типа данных Interval, Counts, Binary задается мера сходства, которая будет использоваться при кластеризации.

В области Transform Measures можно задать преобразование расстояния между кластерами. Эта операция будет совершена сразу после окончания разбиения на кластеры.




Рис.7-15. Вид диалогового окна Method


Cluster Method (Метод кластеризации). Из раскрывающегося списка имеется возможность выбрать один из следующих семи методов кластеризации:

  • Between-groups linkage (метод усредненных межгрупповых связей, UPGMA);

  • Within-groups linkage (метод усредненных внутригрупповых связей);

  • Nearest neighbor (метод ближнего соседа);

  • Furthest neighbor (метод дальнего соседа);

  • Centroid clustering (центроидный метод);

  • Median clustering (медианный метод);

  • Ward's method (метод Уорда).

Measure (Мера). Это поле позволяет задать меру сходства, которая будет использована при кластеризации. Выберите тип данных и соответствующее расстояние или меру сходства:

Interval (Расстояния для интервальных данных). Имеющиеся варианты: Euclidian distance (евклидово расстояние). Squared Euclidian distance (квадрат евклидова расстояния). Cosine (косинус), Pearson correlation (коэффициент корреляции Пирсона), Chebychev (расстояние Чебышева), Block (расстояние типа "блок-сити"), Minkovski (метрика Минковского), Customized (задаваемое пользователем).

Counts (Меры сходства для подсчетов). Имеющиеся варианты: Chi-square measure (мера хи-квадрат) и Phi-square measure (мера фи-квадрат).

Binary (Меры сходства для бинарных данных). Имеющиеся варианты: Euclidian distance (евклидово рассеяние), squared Euclidian distance (квадрат евклидова расстояния), size difference (различие размера), pattern difference (различие структуры), variance (дисперсия), dispersion (разброс), shape (форма), simple matching (простое совпадение), phi 4-point correlation (четырехточечная фи-корреляция), lambda (лямбда), Anderberg's D (D Андерберга), dice (мера игральной кости), Натапп (мера Хаманна), Jaccard (мера Джаккарда), Kulczynski 1 (Кульчинский 1), Kulczynski 2 (Кульчинский 2), Lance and Williams (мера Ланса и Уильямса), Ochiai (мера Очиаи), Rogers and Tanimoto (мера Роджерса и Танимото), Russet and Rao (мера Рассела и Рао), Sokal and Sneath I (Сокал и Снит 1), Sokal and Sneath 2 (Сокал и Снит 2), Sokal and Sneath 3 (Coкал и Снит 3), Sokal and Sneath 4 (Сокал и Снит 4), Sokal and Sneath 5 (Сокал и Снит 5), Yule's Y(Y Юла) и Yule's Q(Q Юла).

Поле Transform Values (Преобразовать значения). Позволяет нормировать значения данных либо для наблюдений (By cases), либо для переменных (By variables, установлено по умолчанию) до вычисления показателей сходства. Трансформация недоступна для бинарных данных. Возможные методы нормировки: Z Scores (z-вклады). Range -1 to 1 (диапазон от-1 до 1), Range 0 to 1 (диапазон от 0 до 1), Maximum magnitude of 1 (максимальное значение 1), Mean of 1 (среднее значение 1) и Standard deviation of 1 (стандартное отклонение 1).

Transform Measures (Преобразовать меры). Данное поле позволяет преобразовать (нормировать) значения расстояний между объектами кластеризации. Преобразования выполняются после того, как вычислена мера расстояния. Возможные варианты преобразований: Absolute values (взятие модуля). Change sign (изменение знака). Rescale to 0 - 1 range (приведение к диапазону 0-1).


  • Кнопка Save открывает диалоговое окно Save New Variables (рис.7-16), задающего параметры создания новых переменных, в которых будет сохраняться информация о составе одного или нескольких кластеров.



Рис.7-16. Вид диалогового окна Save New Variables

^

7.8.5. Результаты кластеризации



При решении задачи иерархического кластерного анализа определяются и отображаются в окне Просмотра вывода (Output Viewer) следующие результаты:

  • спецификация накопления (схема агломерации) (рис.7-17);



Рис.7-17. Схема агломерации


  • матрица расстояний (или сходств);

  • состав кластеров для одного решения или диапазона решений;

  • дендрограмма (рис.7-18);



Рис.7-18. Дендрограмма наблюдений


  • сосульчатая диаграмма (рис.7-19).

Рис.7-19. Сосульчатая диаграмма наблюдений

^

7.9. Кластеризация переменных. Иерархический метод




7.9.1. Назначение метода




В предыдущих пунктах были разобраны методы кластеризации наблюдений, в этой же части лекции речь пойдет о кластеризации переменных. Т.е здесь мы будем объединять столбцы (переменные) вместо строк (наблюдений).

Следует отметить, что если при кластеризации наблюдений в качестве меры расстояния и метода кластеризации использовался квадрат расстояния Евклида и метод усредненных межгрупповых связей, то при кластеризации переменных в качестве меры сходства применяется корреляция Пирсона. Обычно необходимо просто соизмерить меру взаимосвязи между переменными, поэтому по умолчанию сравнение происходит по абсолютной величине. Однако если вы хотите, чтобы кластеры отражали только положительную корреляцию, сохраните знак.

Кластерный анализ переменных напоминает факторный анализ – обе процедуры выделяют группы близких переменных. Однако факторный анализ основывается на теоретической модели, в то время как кластерный является эмпирическим методом. Сходства и различия в методах рассмотрим детальнее в п.6.10.

Процедура кластеризации переменных может быть применена, например, когда существует слишком много переменных, описывающих одно и то же явление, что в свою очередь затрудняет анализ происходящих событий. Поэтому иногда разумно разбить все имеющиеся переменные по группам и из каждой группы выбрать по одному – два представителя. Таким образом, анализ будет упрощен.

^

7.9.2. Установка параметров



Действия при кластеризации переменных мало отличаются от операций при кластеризации наблюдений. Поэтому основные отличия предлагается проследить на рисунках.




Рис.7-20. Установка кнопки кластеризации переменных




Рис.7-21. Установка схемы агломерации




Рис.7-22. Выбор метода кластеризации

^

7.9.3. Обзор результатов кластеризации




Рис.7-23. Схема агломерации



Рис.7-24. Сосульчатая диаграмма




Рис.7-25. Дендограмма переменных




Рис.7-26. Значения переменных в кластерах


Общий вывод из результатов кластеризации переменных:


Из дендограммы хорошо видно, что переменные IMQ, EPNG, IPCDE, WAG_R_M, MEEP, DEP, IB_M, GKO и RDEXRO составляют один кластер, а переменные RTRD, RTS и EMPLDEC – другой.

^

7.9.4. Сравнение факторного и кластерного анализа переменных


Главное сходство между кластерным и факторным анализами заключается в том, что тот и другой предназначены для перехода от исходной совокупности множества переменных (или объектов) к существенно меньшему числу факторов (кластеров). Тем не менее, реализация статистических процедур и интерпретация результатов для двух типов анализа различаются; есть пять основных отличий:

► Целью факторного анализа является замена большого числа исходных переменных меньшим числом факторов. Кластерный анализ, как правило, применяется для того, чтобы уменьшить число объектов путем их группировки. Другими словами, в процедуре кластерного анализа обычно переменные не группируются, а выступают в качестве критериев для группировки объектов.

Кластерный анализ применяется обычно для выделения групп объектов, исходя из их сходства по измеренным признакам.

► Заявленные в предыдущем пункте различия между кластерным и факторным вариантами анализа со всей полнотой категоричности могут быть отнесены лишь к ранним версиям SPSS. Начиная с версии SPSS 10.0, программа позволяет с равным успехом проводить кластерный анализ не только объектов, но и переменных. В последнем случае кластерный анализ может выступать как более простой и нередко более эффективный аналог факторного анализа. В разделе 6.9 мы продемонстрировали этот вариант кластерного анализа.

► Действия, выполняемые в ходе статистических операций в каждом из вариантов анализа, принципиально различаются. В факторном анализе на каждом этапе извлечения фактора для каждой переменной подсчитывается доля дисперсии, которая обусловлена влиянием данного фактора. При кластерном анализе вычисляется расстояние между текущим объектом и всеми остальными объектами, и кластер образует та пара, для которой расстояние оказалось наименьшим. Подобным образом каждый объект либо группируется с другим объектом, либо включается в состав существующего кластера. Процесс кластеризации конечен и продолжается до тех пор, пока все объекты не будут объединены в один кластер. Разумеется, подобный результат в общем случае не имеет смысла, и исследователь должен самостоятельно определить, в какой момент кластеризация должна быть прекращена.

► В контексте кластерного анализа особое место занимает область применения одного из его видов, называемого иерархическим кластерным анализом. В SPSS он реализуется с помощью команды Hierarchical Cluster (Иерархическая кластеризация). Этот вид кластерного анализа чаще используется в экономике, социологии, политологии, нежели в психологии. Психологи обычно анализируют переменные с целью найти статистические связи между ними; эти связи, как правило, указывают на сходство между теми или иными исследуемыми факторами. Деление выборки на группы в психологических анализах редко представляет интерес; в случаях, когда это оказывается необходимым, психологи отдают предпочтение дискриминантному, а не кластерному анализу.

► Как и в случае факторного анализа, выполнение кластерного анализа и его результаты зависят от ряда параметров: способа вычисления расстояния между объектами, кластеризации индивидуальных объектов и т. д,

Литература


  1. Айвазян С.А., Бежаева З.И., Староверов О.В. Классификация многомерных наблюдений. – М.:Статистика, 1974.

  2. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Исследование зависимостей. -М.: Финансы и статистика, 1985

  3. Айвазян С.А., Бухштабер В.М., Енюков И.С., и др. Прикладная статистика. Классификация и снижение размерности. -М.: Финансы и статистика, 1989

  4. Андерсон Т. Введение в многомерный статистический анализ ./Пер. с англ.-М.: ГИФМЛ, 1963

  5. Браверман Э.М., Мучник И.Б. Структурные методы обработки эмпирических данных . – М.: Наука, 1963

  6. Болч Б., Хуань К. Многомерные статистические методы экономики /Пер. с англ. –М.: Статистика, 1979

  7. Глинский В.В., Ионин В.Г. Статистический анализ . – М.: Филинь, 1998

  8. Дидэ Э и др. Методы анализа данных. – М.: Финансы и статистика, 1985.

  9. Дюран Б., Оделл П. Кластерный анализ. – М.: Статистика, 1977

  10. Елисеева И.И., Рукавишников О.В. Группировка, корреляция, распознавание образов. –М.: Статистика, 1977

  11. Енюков И.С. Методы – алгоритмы – программы многомерного статистического анализа. -М.: Финансы и статистика, 1986

  12. Жамбю М. Иерархический кластер-анализ и соответствия. -М.: Финансы и статистика, 1988

  13. Классификация и кластер. /Пер. с англ. –М.: Мир, 1980

  14. Мандель И.Д. Кластерный анализ. -М.: Финансы и статистика, 1988

  15. Миркин В.Г. Анализ качественных признаков и структур. -М.: Статистика, 1980

  16. Плюта В. Сравнительный многомерный анализ в экономическом моделировании. – М.: Финансы и статистика, 1989

  17. Факторный, дискриминантный и кластерный анализ /Пер. с англ. –М.:Финансы и статистика, 1989

  18. SPSS* Base for Windows* Applications Guide, 2000






Скачать 249,47 Kb.
оставить комментарий
Дата02.10.2011
Размер249,47 Kb.
ТипЛекция, Образовательные материалы
Добавить документ в свой блог или на сайт

отлично
  2
Ваша оценка:
Разместите кнопку на своём сайте или блоге:
rudocs.exdat.com

Загрузка...
База данных защищена авторским правом ©exdat 2000-2017
При копировании материала укажите ссылку
обратиться к администрации
Анализ
Справочники
Сценарии
Рефераты
Курсовые работы
Авторефераты
Программы
Методички
Документы
Понятия

опубликовать
Загрузка...
Документы

Рейтинг@Mail.ru
наверх