4 Первичная обработка данных icon

4 Первичная обработка данных


Смотрите также:
Тема доклада
Программа-минимум кандидатского экзамена по специальности 05. 19...
Первичная обработка геолого-геофизических данных при оценке алмазоносности территории...
Практикум по статистике с пакетами statgraphics, statistica, spss м.: Изд-во мэи, 1997...
Развитие технологии баз данных...
Первичная обработка информации в асу тп...
Учебная программа дисциплины обработка речевых данных в информационно-телекоммуникационных...
Методические укания по сбору и обработки информации о наблюдении...
«Технология и первичная обработка текстильных материалов и сырья»...
Первичная обработка георадарных сигналов...
Лекция 1 (Этапы работы с документами. Первичная обработка...
Влияние гумусовых кислот торфа на кинетику восстановления антрахиноновых красителей 05. 19...



Загрузка...
скачать



4. ОБРАБОТКА ЭМПИРИЧЕСКИХ ДАННЫХ


4.1. Первичная обработка данных 1

4.1.1. Составление таблиц 1

4.1.2. Преобразование формы информации 5

4.1.3. Проверка данных 7

4.2. Математико-статистическая обработка 10

4.2.1. Анализ первичных статистик 10

4.2.2. Оценка достоверности отличий 14

4.2.3 Нормирование данных 18

4.2.4 Корреляционный анализ 23

4.2.5. Факторный анализ 28



4.1. Первичная обработка данных


В ходе математико-статистической обработки данных (на специальном жаргоне) термины «признак», «показатель», «параметр» и «переменная» нередко употребляются как синонимы. Важно отличать от них понятие «значение». Каждое значение — это эмпирически выявленная, вполне определенная числовая величина того или иного показателя у конкретного испытуемого. Например, время реакции на раздражитель в третьей (первой, второй, десятой…) пробе, время решения пятой задачи в третьей серии, выбранный испытуемым вариант ответа из семи предложенных и т.п.
^

4.1.1. Составление таблиц


В большинстве случаев обработку целесообразно начать с составления таблиц (сводных таблиц) полученных данных. В таблицу можно свести не только числовые данные. К данным качественного характера также могут быть применены простейшие способы количественной обработки. Для всей выборки и отдельных подвыборок могут быть подсчитаны частоты встречаемости (количество случаев появления события), а затем и частости (относительные частоты, т.е. частоты, деленные на количество испытаний) интересующих вас индикаторов, проявлений некоторого вида.

Так, например, при использовании рисуночного теста "Дерево" можно в качестве параметра рассматривать наличие/отсутствие листьев на ветках в рисунке. Если этот параметр будет определен у всех испытуемых, это позволит подсчитать частость его появления по всей выборке и для отдельных групп внутри ее. В таблицу могут быть сведены данные и по другим параметрам теста "Дерево", а затем подсчитаны частости. Далее можно составить таблицу, в которой будут представлены данные не по отдельным испытуемым, а для всей вашей выборки и отдельных групп. Это позволит сделать шаг к более целостному представлению информации.

Основной для сводной таблицы исходных данных является следующая форма. Каждая строка содержит значения всех показателей одного испытуемого. В каждом столбце (поле) записаны значения одного показателя по всем испытуемых. Таким образом, в каждой ячейке (клетке) таблицы записано только одно значение одного показателя одного испытуемого.

В самой верхней строке дана нумерация всех столбцов. Во второй строке названы измеренные вами показатели, шкальные оценки и т.п. Вторая строка облегчает вам ориентировку в таблице. Оператору, который будет вводить ваши данные через клавиатуру компьютера, эта строка не нужна. В каждой последующей строке записана фамилия испытуемого и значения всех, измеренных у него параметров; разумеется, для всех испытуемых в одном и том же порядке показателей. Все строки и все столбцы должны быть пронумерованы. Последовательность признаков может быть упорядочена по разным основаниям. В первых столбцах лучше разместить демографические или социально-демографические показатели: пол, возраст, уровень образования (если важен) и т.д. Затем, по убывающей значимости (предполагаемой информативности), приведены измеренные в эксперименте параметры. Параметры, полученные с помощью одной методики, удобнее располагать компактно — в одной группе (рядом друг с другом) Например, все шкалы одной методики, шкалы следующей и т.д.

Испытуемых можно перечислить в алфавитном порядке, но лучше использовать этот принцип на самом нижнем уровне деления. Сначала лучше разделить испытуемых по их принадлежности к каким-либо подгруппам, которые будут сравниваться между собой. Внутри этих подгрупп полезно упорядочить испытуемых по полу, возрасту или другому, важному для вас, параметру. (см. табл. 8)


Таблица 8. Форма сводной таблицы данных




1

2

3

4

5

6

7

8

9





п/п

Фамилия, имя, отчество

Пол

Ио

Ид

Ин

А

В

С

Е



1

Глухарь П.И.

1

38

9

9

12

9

17

16



2

Орел С.С.

1

37

10

9

12

10

17

18



3

Петух И.И.

1

35

7

9

14

10

17

8















































33

Кура Н.Н.

2

39

10

8

10

9

15

15



34

Сова Т.О.

2

37

10

9

10

9

12

11



35

Утка Л.А.

2

31

9

8

9

7

5

7



Таблицам необходимо давать заголовки, достаточно полно отражающие их содержание и специфику. При большом количестве таблиц без заголовков по ходу ознакомления с текстом трудно понять их назначение.

И для ручной, и для компьютерной обработки в исходную сводную таблицу чаще всего заносят начальные данные. Сейчас преимущественной формой математико-статистической обработки стала — компьютерная. Если форма распределения эмпирических данных незначительно отличается от нормального распределения, то предварительное центрирование, нормирование или перевод в шкальные (стандартизированные) оценки по имеющимся в данной методике таблицам не требуется. В начальный период обработки данных можно предположить, что собранный вами материал подходит для обработки средствами параметрической статистики. Получив на первом шаге компьютерных вычислений первичные статистики признаков, можно сделать дальнейшие, более точные, предположения о форме распределения каждого признака.

В ходе обработки данных весьма вероятно, что потребуются несколько пользовательских программ. Современные программы предоставляют довольно широкие возможности перевода данных из одной — в другую. Однако не будет лишним соблюсти некоторые правила, чтобы облегчить преобразование формата данных.

Старайтесь, без особой необходимости, не заносить в таблицу различные текстовые символы (точки, запятые, тире…). Всю информацию, которую можно закодировать числами, лучше перевести в числовую форму. Это даст больше возможностей для разных видов обработки данных. Исключением является строка, в которой записаны названия (чаще, краткие названия — аббревиатуры) измеренных показателей.

До начала набора данных в электронную таблицу узнайте в каком виде должны записываться десятичные дроби — какой знак (точка или запятая) должен разделять целую дробную части.

Не объединяйте, без необходимости, ячейки рабочей таблицы. Эстетическому чувству полезно дать проявиться при оформлении таблицы в тексте рукописи, — когда все подсчитано, но не ранее. Особо внимательно отнеситесь к первым ячейкам — в левом верхнем углу таблицы. Лучше заполнить их произвольными числами, чем оставлять пустыми. Без этого при экспорте в другой формат может быть не считана вся первая строка или может измениться структура всей таблицы.
^

4.1.2. Преобразование формы информации


В таблицу целесообразно внести все интересующие вас признаки в форме десятичного числа, т.е. предварительно пересчитать минуты в десятичные доли часа, секунды — в десятичные доли минуты, количество месяцев — в десятичную долю года и т.д. Это необходимо, поскольку формат данных для большинства используемых сейчас компьютерных программ накладывает свои ограничения.

В виде чисел в таблицу можно вписать информацию и о тех параметрах выборки, которые предположительно могут оказаться значимыми факторами, но имеются у вас в качественных показателях. Наиболее простыми операциями могут быть: числовое кодирование (мужчины — 1, женщины — 2; прошедшие обучение — 1, не прошедшие — 2 и т.п.) и перевод качественных показателей в ранги. Число 0 для кодирования лучше не использовать, поскольку некоторые статистические компьютерные программы не смогут обработать такие данные. Это не значит, что в таблицу вообще не могут быть записаны нулевые значения. Имеются в виду те случаи, когда в сформированной рабочей подвыборке какой-либо признак имеет только нулевые значения.

Уровень образования, ранжируя, можно следующим образом перевести в числа (см. табл. 9).


Таблица 9. Ранжирование уровней образования

Ранг


^ Уровень образования

1

Менее 5 классов школы

2

5-8 классов или училище с дипломом о неполном среднем образовании

3

9-11 классов или училище с дипломом о полном среднем образовании

4

Техникум или колледж, или 1-2 курса вуза

5

3-6 курсов вуза без диплома о высшем образовании

6

Вуз с дипломом

7

Аспирантура, ординатура, или другие формы постдипломного образования со сроком обучения 2 года и более


Для перевода в числа должностного уровня можно принять градации, приведенные в таблице 10.

Разумеется, включая в обработку полученные таким образом числовые величины, мы не всегда обнаруживаем ясно, выраженную зависимость этих параметров от остальных. Тем не менее, мы получаем возможность хотя бы приблизительной оценки взаимосвязей. Эту оценку можно сделать и другими способами. Например, при компьютерной обработке и использовании системы управления базой данных можно формировать подвыборки по разным основаниям деления, в том числе и по уровню образования или должностному статусу, и проверять различия между отдельными категориями выборки.


Таблица 10. Ранжирование должностного статуса

Ранг


^ Должностной статус, категория

1

Подсобные рабочие, технические исполнители

2

Квалифицированные рабочие, вспомогательный персонал среднего уровня квалификации

3

Инженерно-технические работники, специалисты со средним специальным и высшим образованием

4

Работники нижнего руководящего звена (бригадиры, начальники участков и т.п.), руководители подразделений, имеющие в подчинении исполнителей, специалисты высокой квалификации, преподаватели, имеющие ученую степень

5

Работники среднего руководящего звена (начальники цехов, отделов и т.д.), руководители основных структурных подразделений, имеющих в своем составе подразделения нижнего уровня, заместители руководителей предприятий, ведущие специалисты

6

Работники верхнего руководящего звена (руководители предприятий, учреждений и организаций, их первые заместители, главные специалисты)

Описанное числовое кодирование полезно для предварительного (разведочного) анализа — немного шансов выявить отчетливые закономерности, но проделать эту работу полезно. Включение, например, в корреляционный анализ таких числовых величин может обнаружить существование или отсутствие взаимосвязей с другими параметрами, позволит не тратить время на более сложные процедуры.
^

4.1.3. Проверка данных


После создания таблицы на бумаге или компьютере необходимо проверить качество полученных данных. Для этого часто достаточно внимательно осмотреть массив данных. Начать проверку следует с выявления ошибок (описок), которые заключаются в том, что неправильно написан порядок числа. Например, 100 написано вместо 10, 9.4 — вместо 94 и т.п. При внимательном просмотре по столбцам это легко обнаружить, поскольку сравнительно редко встречаются параметры, которые сильно варьируют. Чаще всего значения одного параметра имеют один порядок или ближайшие порядки. При наборе данных на компьютере важно соблюдать требования к формату данных в используемой статистической программе. Прежде всего, это относится к знаку, который должен отделять в десятичном числе целую часть от дробной (точка или запятая).

Затем массив данных надо проверить на наличие "выскакивающих" вариант — выделяющихся значений, которые могли быть получены в результате неточных измерений, ошибок в записях, отвлечения внимания испытуемого и т.д. Если обнаружены "подозрительные" значения, то принять обоснованное решение об их выбраковке, используя достаточно мощный параметрический критерий t. Он рассчитывается по следующей формуле:

V - M

t = ------- t ,



где t - критерий выпада; V — выпадающее значение признака; M — средняя величина признака для всей группы, включающей артефакт; t — стандартные значения критерия выпадов, определяемые для трех уровней доверительной вероятности по таблице приложения 1. Смысл критерия в том, чтобы определить, находится ли данная варианта в интервале, характерном для большинства членов выборки, или же вне его.

Допустим, нами принят уровень значимости 0.05 (доверительная вероятность 0.95), а значение критерия составило 1.5. Поскольку 95% вариант лежат в пределах M  1.96 (1.5 меньше 1.96), то, следовательно, и данная варианта лежит в указанном интервале. Если же значение критерия больше, например, 2.4, то это означает, что данное значение не относится к анализируемой совокупности (выборке), включающей 95% вариант, а есть проявление иных закономерностей, ошибок и пр. и поэтому должно быть исключено из рассмотрения.

Например, в эксперименте вы предлагаете решать мыслительные задачи и регистрируете в числе других параметров время решения. При просмотре данных обнаруживаете, что у одного из испытуемых время решения заметно больше, чем у остальных. Это бывает связано с тем, что вместо решения очередной задачи испытуемый начинает "искать закономерность более широкого плана", "выводить общий принцип" или нечто подобное. Об этом он может сообщить, но может и не сообщить экспериментатору. Понятно, что время решения конкретной задачи при этом может сильно отличаться от средней величины. Если у вас есть предположение, что результаты какого-либо опыта, пробы обусловлены влиянием, которое вы не можете оценить или его оценка не входит в ваши планы, то вы окажетесь перед необходимостью принять обоснованное решение — включать полученное численное значение в дальнейшую обработку или нет.

Предположим, в эксперименте были получены следующие значения некоторого параметра: 10, 20, 20, 30, 30, 40, 40, 50, 210. Следовательно, n=9. Вычислили: M=50, =61. Можно ли считать значение 210 выпадающим?

210 - 50

t = ----------- = 2.6; t (по табл.) =2.4 (для P=0.95)

61

Следовательно, значение 210 может считаться выпадающим и должно быть исключено из дальнейшей обработки.

После исключения выпадающих значений первичные статистические параметры вычисляются заново.
^

4.2. Математико-статистическая обработка

4.2.1. Анализ первичных статистик


Для определения способов математико-статистической обработки, прежде всего, необходимо оценить характер распределения по всем используемым параметрам. Для параметров, имеющих нормальное распределение или близкое к нормальному, можно использовать методы параметрической статистики, которые во многих случаях являются более мощными, чем методы непараметрической статистики. Достоинством последних является то, что они позволяют проверять статистические гипотезы независимо от формы распределения.

Одним из важнейших в математической статистике является понятие нормального распределения. Нормальное распределение — модель варьирования некоторой случайной величины, значения которой определяются множеством одновременно действующих независимых факторов. Число таких факторов велико, а эффект влияния каждого из них в отдельности очень мал. Такой характер взаимовлияний весьма характерен для психических явлений, поэтому исследователь в области психологии чаще всего выявляет нормальное распределение. Однако так бывает не всегда, поэтому в каждом случае форма распределения должна быть проверена.

Важнейшими первичными статистиками являются:

а) средняя арифметическая — это величина, сумма отрицательных и положительных отклонений от которой равна нулю. В статистике ее обозначают буквой M или x. Чтобы ее подсчитать, надо суммировать все значения ряда и разделить сумму на количество суммированных значений. Если в ряду есть числа со знаком “минус”, то суммирование производят с учетом знаков.

б) среднее квадратичное отклонение (обозначаемое греческой буквой  (сигма) и называемое также основным, или стандартным, отклонением) - мера разнообразия входящих в группу объектов; она показывает, на сколько в среднем отклоняется каждая варианта (конкретное значение оцениваемого параметра) от средней арифметической. Чем сильнее разбросаны варианты относительно средней, тем большим оказывается и среднее квадратичное отклонение. Разброс значений характеризует и размах — разность между наибольшим и наименьшим значением в ряду. Однако сигма полнее характеризует разброс значений относительно средней арифметической.

в) коэффициент вариации - частное от деления сигмы на среднюю арифметическую, умноженное на 100%. Обозначается CV:



CV = --- 100%

M

Сигма - величина именованная и зависит не только от степени варьирования, но и от единиц измерения. Поэтому по сигме можно сравнивать изменчивость лишь одних и тех же показателей, а сопоставлять сигмы разных признаков по абсолютной величине нельзя. Для того, чтобы сравнить по уровню изменчивости признаки любой размерности (выраженные в различных единицах измерения) и избежать влияния масштаба измерений средней арифметической на величину сигмы, применяют коэффициент вариации, который представляет собой по существу приведение к одинаковому масштабу величины .

Для нормального распределения известны точные количественные зависимости частот и значений, позволяющие прогнозировать появление новых вариант: 1) слева и справа от средней арифметической лежит 50% вариант; 2) в интервале от M-1 до M+1 — 68.7% вариант; 3) в интервале от M-1.96 до M+1.96 — 95% вариант.

Таким образом, ориентируясь на эти характеристики нормального распределения, можно оценить степень близости к нему рассматриваемого распределения.

Следующими по важности являются такие первичные статистики, как коэффициент асимметрии и эксцесс. ^ Коэффициент асимметрии - показатель скошенности распределения в левую или правую сторону по оси абсцисс. Если правая ветвь кривой длиннее левой - говорят о положительной асимметрии, в противоположном случае - об отрицательной. Эксцесс показатель островершинности. Кривые, более высокие в своей средней части - островершинные, называются эксцессивными, у них большая величина эксцесса. При уменьшении величины эксцесса кривая становится все более плоской, приобретая вид плато, а затем и седловины - с прогибом в средней части.

Эти параметры позволяют составить первое приближенное представление о характере распределения: у нормального распределения редко можно обнаружить коэффициент асимметрии, близкий к единице и более единицы (-1 и +1).

Подчеркну, что это только приблизительная оценка. Точную и строгую оценку нормальности распределения можно получить используя один из существующих методов проверки (см. например главы 2 и 5 книги Г.В.Суходольского "Основы математической статистики для психологов". Л., 1972.)

Начать с анализа первичных статистик надо еще и по той причине, что они весьма чувствительны к наличию выпадающих вариант. Большие величины эксцесса и асимметрии часто являются индикатором ошибок при подсчетах вручную или ошибок при введении данных через клавиатуру для компьютерной обработки. Грубые промахи при введении данных в обработку можно обнаружить, если сравнить величины сигм у аналогичных параметров. Выделяющаяся величиной сигма может указывать на ошибки.

Существует правило, согласно которому все расчеты вручную должны выполняться дважды (особо ответственные - трижды), причем желательно разными способами, с вариацией последовательности обращения к числовому массиву.

По части никогда не удается полностью охарактеризовать целое, всегда остается вероятность того, что оценка генеральной совокупности на основе выборочных данных недостаточно точна, имеет некоторую большую или меньшую ошибку. Такие ошибки, представляющие собой ошибки обобщения, экстраполяции, связанные с перенесением результатов, полученных при изучении выборки, на всю генеральную совокупность, называются ошибками репрезентативности. Репрезентативность - степень соответствия выборочных показателей генеральным параметрам.

Статистические ошибки репрезентативности показывают, в каких пределах могут отклоняться от параметров генеральной совокупности (от математического ожидания или истинных значений) наши частные определения, полученные на основе конкретных выборок. Очевидно, величина ошибки тем больше, чем больше варьирование признака и чем меньше выборка. Это и отражено в формулах для вычисления статистических ошибок, характеризующих варьирование выборочных показателей вокруг их генеральных параметров.

В число первичных статистик входит статистическая ошибка средней арифметической. Формула для ее вычисления такова:



m =  ------ ,

n

где m - ошибка средней, - сигма, n - число значений признака. Это основные первичные статистики, которые позволяют оценить характер распределения данных в экспериментальном массиве.
^

4.2.2. Оценка достоверности отличий


Оценка часто необходима при сравнительном анализе полярных групп. Эти группы можно выделить, учитывая различную выраженность определенного целевого признака (характеристики) изучаемого явления. Обычно анализ начинают с подсчета первичных статистик выделенных групп, затем оценивают достоверность отличий. Очень часто количественный анализ одним сравнением не ограничивается, появляется необходимость провести дополнительные сопоставления и выявить новые свидетельства. Выбор новых критериев наугад — дело неблагодарное. Лучше для этого использовать результаты корреляционного анализа.

Например, если вы исследуете личностную обусловленность желания принимать участие в экологическом движении, то признаком, по которому могут быть выделены полярные группы, могут выступить субъективные оценки испытуемых, экспертные оценки, некоторые поведенческие индикаторы, представленные в числовой форме. Если показатели интеллектуального развития имеют небольшую величину коэффициента корреляции (<0.35) с числовыми показателями названного желания, то выделение полярных групп по интеллектуальным параметрам вряд ли будет удачным. Скорее всего, значимых отличий между этими группами в выраженности желания участвовать в экологическом движении мы не обнаружим и не получим новых данных для выяснения закономерностей его личностного обусловливания.

Одной из наиболее часто встречающихся задач при обработке данных является оценка достоверности отличий между двумя, или более, рядами значений. В математической статистике существует ряд способов для этого. Для использования большинства мощных критериев требуются дополнительные вычисления, обычно весьма развернутые.

Компьютерный вариант обработки данных стал в настоящее время наиболее распространенным. Во многих прикладных статистических программах есть процедуры оценки различий между параметрами одной выборки или разных выборок. При полностью компьютеризованной обработке материала нетрудно в нужный момент использовать соответствующую процедуру и оценить интересующие различия. Однако большинство психологов не имеют свободного и неограниченного доступа к работе с компьютером — либо недостаточен парк ЭВМ, либо психолог как пользователь ЭВМ не подготовлен и может проводить обработку только с помощью квалифицированного персонала. И в том, и в другом случае типичный сеанс работы с компьютером заканчивается тем, что психолог получает принтерные распечатки, содержащие подсчитанные первичные статистики, результаты корреляционного анализа, иногда и факторного (компонентного).

Основной анализ осуществляется позже, не в диалоге с ЭВМ. Исходя из этих рассуждений, будем считать, что перед психологом часто встает задача оценки достоверности различий с использованием ранее вычисленных статистик. При сравнении средних значений признака говорят о достоверности (недостоверности) отличий средних арифметических, а при сравнении изменчивости показателей — о достоверности (недостоверности) отклонений сигм (дисперсии) и коэффициентов вариации.

Достоверность различий средних арифметических можно оценить по достаточно эффективному параметрическому критерию Стьюдента. Он вычисляется по формуле

M1 – M2

t = ----------- ,

m1 + m2

где M1 и M2 — значения сравниваемых средних арифметических, m1 и m2 — соответствующие величины статистических ошибок средних арифметических. Знак вычисленной разности средних арифметических можно не учитывать, поскольку имеет значение только абсолютная величина критерия t.

Значения критерия Стьюдента t для трех уровней значимости (p) приведены в приложении 2. Число степеней свободы определяется по формуле d = n + n - 2, где n и n - объемы сравниваемых выборок. С уменьшением объемов выборок (n < 10) критерий Стьюдента становится чувствительным к форме распределения исследуемого признака в генеральной совокупности. Поэтому в сомнительных случаях рекомендуется использовать непараметрические методы или сравнивать полученные значения с критическими (приведенными в таблице) для более высокого уровня значимости.

Решение о достоверности различий принимается в том случае, если вычисленная величина t превышает табличное значение для данного числа степеней свободы. В тексте публикации или научного отчета указывают наиболее высокий уровень значимости из трех: 0.05, 0.01, 0.001. Если превышены 0.05 и 0.01, то пишут (обычно в скобках) Р=0.01 или p<0.01. Это означает, что оцениваемые различия все же случайны только с вероятностью не более 1 из 100 шансов. Если превышены табличные значения для всех трех уровней, то указывают Р=0.001 или p<0.001, что означает случайность выявленных различий между средними не более 1 из 1000 шансов.

Пример. M1 =113.3, m1 =2.4, n =13; M2 =103.3, m2 =2.6, n =16.

113.3 - 103.3

t = ---------------- = 2.83;

2.4 + 2.6

для d=13+16-2=27 вычисленная величина превышает табличную для вероятности Р=0.01. Вычисленное значение 2.83 больше табличного 2.77 для уровня значимости Р=0.01. Следовательно, различия между средними достоверны на уровне 0.01.

Приведенная формула проста. Используя ее, можно с помощью бытового калькулятора с памятью вычислить t критерий без промежуточных записей.

Следует помнить, что при любом численном значении критерия достоверности различия между средними этот показатель оценивает не степень выявленного различия (она оценивается по самой разности между средними), а лишь статистическую достоверность его, т.е. право распространять полученный на основе сопоставления выборок вывод о наличии разницы на все явление (весь процесс) в целом. Низкий вычисленный критерий различия не может служить доказательством отсутствия различия между двумя признаками (явлениями), ибо его значимость (степень вероятности) зависит не только от величины средних, но и от численности сравниваемых выборок. Он говорит не об отсутствии различия, а о том, что при данной величине выборок оно статистически недостоверно: слишком велик шанс, что разница при данных условиях определения случайна, слишком мала вероятность ее достоверности.

Степень, т.е. величину выявленного различия, желательно оценивать, опираясь на содержательные критерии. Вместе с тем, для психологического исследования весьма характерно наличие множества показателей, которые, по существу, являются условными баллами, и валидность оценивания с помощью них следует доказывать особо. Чтобы избежать большей произвольности, в таких случаях также приходится опираться на статистические параметры.

Пожалуй, наиболее распространено для этого использование сигмы. Разницу между двумя средними арифметическими в одну сигму и более можно считать достаточно выраженной. Если сигма подсчитана для ряда значений более 35, то достаточно выраженным можно считать различие 0.5 сигмы. Однако для ответственных выводов о том, насколько велика разница между значениями, лучше использовать строгие критерии.
^

4.2.3 Нормирование данных


Проиллюстрируем значение использования норм на примере широко известной методики К.Томаса. Напомним, что в ней вывод о доминирующей стратегии поведения в конфликтной ситуации делается с опорой на числовые данные. А именно, после подсчета суммарных баллов по каждой шкале, нужно выявить шкалу имеющую наибольший балл. Соответствующая шкале стратегия интерпретируется как доминирующая в конфликтной ситуации. Подсчитанные статистики показывают, что средние величины шкальных оценок по абсолютной величине различны. Они варьируют у мужчин от 5,25 балла до 7,25 балла и у женщин от 3,71 до 7,65 баллов (см. табл. 11).


Табл. 11. Первичные статистики шкальных оценок методики Томаса

Пол

Мужчины (n=56)

Женщины (n=71)

Стратегия

Средн

-95%

+95%

Сигма

Средн

-95%

+95%

Сигма

Напористость

5,25

4,45

6,05

2,99

3,71

3,04

4,37

2,83

Сотрудничество

6,29

5,64

6,93

2,41

6,24

5,74

6,74

2,11

Компромисс

5,32

4,71

5,93

2,27

5,62

5,10

6,14

2,19

Избегание

7,25

6,71

7,79

2,02

7,65

7,18

8,11

1,96

Уступчивость

5,82

5,19

6,46

2,37

6,70

6,20

7,20

2,11

Примечание.

Средн. — средние величины;

-950% и +95.0% — доверительные интервалы средних величин;

Выделены наибольшие средние величины.


Таким образом, если не учитывать нормативные данные, полученные на российской выборке (или проверенные на российской выборке), то в интерпретации результатов можно придти к неверным выводам. В самом деле, мужчинам и женщинам свойственно предпочтение стратегии избегания. В руководстве к методике не говорится о том, что доминирование одной из пяти стратегий является транскультуральной характеристикой личности. По контексту можно понять, что автор исходит из предположения о равной вероятности предпочтения каждой из пяти стратегий. Поскольку между шкальными показателями существуют статистически значимые корреляционные связи, вряд ли можно говорить о равной вероятности следования каждой из пяти стратегий. В такой ситуации, когда отсутствуют нормативные данные и сведения о характере распределения величин, надежнее опираться на подсчитанные для своей выборки статистики. В частности — для оценки выраженности доминирования одной из стратегий использовать сигму и доверительные интервалы. Добавим, что нормы целесообразно рассчитать отдельно для мужчин и женщин. По представленным данным видно, что в двух шкалах из пяти показатели значимо различаются у разных полов. При сравнении групп или подгрупп, эта половая специфичность может оказаться переменной, влияние которой нельзя не учитывать.

Вычислять нормы целесообразно и в других случаях. Полученные при сборе данных начальные (первичные) оценки выполнения экспериментальных заданий далеко не всегда удобно использовать в дальнейшей работе. Их тем или иным способом преобразуют. Наиболее частыми преобразованиями являются центрирование и нормирование среднеквадратическими отклонениями. Под центрированием понимается линейная трансформация величин признака, при которой средняя величина распределения определенного признака становится равной нулю. Направление шкалы и ее единицы остаются при этом неизменными.

Суть нормирования состоит в переходе к другому масштабу — стандартизированным единицам измерения. При стандартизировании результатов тестовых испытаний нормирование чаще всего осуществляется с помощью среднеквадратических отклонений. Стандартизирование производится при нормальном распределении тестовых оценок или близком к нему по виду.

В психологии существует целый ряд шкал, основанных на нормальном распределении и имеющих разные значения М и . Например, в шкале отклонений интеллекта IQ: М=100,  =15; в шкале Векслера М=10, = 3. Распределения различных измеренных в эксперименте признаков имеют разные величины М и  . Переводя полученные первичные оценки разных признаков к распределению с одними и теми же М и , мы получаем больше возможностей для оценки и сопоставления их варьирования. Сделать это нам позволяет использование нормированного отклонения. Нормированное отклонение показывает, на сколько сигм отклоняется та или иная варианта от среднего уровня варьирующего признака (средней арифметической), и выражается формулой:

V - M

t = -------



где V - значение признака (в начальных баллах).

С помощью нормированного отклонения можно оценить любое полученное значение по отношению к группе в целом, взвесить его отклонение и одновременно освободиться от именованных величин. Для того чтобы избавиться от отрицательных чисел к полученной величине t можно прибавить какую-либо константу. Удобно, если все числа, с которыми вы оперируете имеют одинаковое количество знаков. С учетом этих соображений весьма удобна шкала Т-оценок. Для этой шкалы принято нормальное распределение, имеющее М=0, =10. Для пересчета берется константа равная 50. Формула преобразования начальных баллов в Т-оценки следующая:

V - M

t = 50 + 10 -------



Смысл процедуры нормирования рассмотрим на примере. Предположим, нас интересуют некоторые связи коммуникативной умелости продавцов с особенностями расположения магазина в крупном городе. Чтобы составить некоторую интегральную оценку коммуникативной умелости конкретного продавца, мы можем через наблюдение получить по каждому испытуемому ряд параметров, характеризующих его общение с покупателем. Например, мы можем измерить среднюю длительность контакта глазами, среднее количество улыбок в фиксированный интервал времени, количество грубых, неприветливых обращений и т.д. Можно охарактеризовать преимущества и недостатки расположения магазина в городе (насколько "бойкое место" и т.п.). Для этого можно подсчитать количество маршрутов городского транспорта, имеющих остановки в непосредственной близости от магазина, оценить его удаленность от станций метро, учесть число расположенных поблизости магазинов другого профиля и т.д.

Для того чтобы вывести некоторый обобщенный коммуникативный показатель невозможно складывать число улыбок с длительностью контакта глазами и вычитать из этой суммы количество выражений, свидетельствующих о низкой речевой культуре. Бессмысленно складывать число автобусных маршрутов с числом соседних магазинов и вычитать из суммы величину расстояния до ближайшего метро. Лучше собрать необходимый массив количественных данных, проводя исследование в ряде магазинов, подсчитать первичные статистики для всех этих показателей, а затем, после преобразования начальных данных, получить Т-баллы по каждому показателю.

При нормировании из каждого полученного при сборе данных значения в начальных единицах вычитают среднюю арифметическую, а разность делят на сигму. Полученную величину умножают на 10, затем прибавляют к 50 или вычитают из 50. Выбором последнего арифметического действия (сложение или вычитание) мы можем задать направление вклада, который делает этот параметр в высчитываемую интегральную оценку, т.е. можем задавать направленность преобразования, учитывая специфику данного параметра. Если конкретное значение в начальных единицах превышает среднюю арифметическую, мы можем нормированное отклонение (разность, деленную на сигму) приплюсовать к 50. Это будет соответствовать большей выраженности оцениваемого психического качества у данного испытуемого, чем в среднем по нашей выборке.

Например, большее у конкретного продавца количество улыбок на одну сигму (чем в среднем) количественно теперь будет выражено: 60 Т-баллами. Количественную оценку признаков высокой речевой культуры в нормированных отклонениях следует прибавлять к 50 Т-баллам, а низкой речевой культуры — вычитать из 50 Т-баллов. Если, например, количественная оценка некоторого признака отрицательной направленности (в начальных баллах), превышает среднюю величину на полсигмы, то в Т-баллах она будет равна 45. После такого рода преобразований, подсчитывая интегральный показатель коммуникативной умелости для конкретного испытуемого, мы можем прибавлять одни Т-баллы к другим.

Форму стандартизирования данных целесообразно выбирать с учетом размаха полученных начальных оценок и числа градаций. Если в начальных баллах число градаций 7-15, то могут оказаться вполне подходящими стенайны1. Если же число градаций достигает 30 и более при небольшой скошенности распределения (асимметрии), то переводя эти показатели в стенайны мы будем огрублять баллы, т.е. терять некоторую долю точности произведенного измерения. Если есть основания считать, что ваши измерения достаточно эффективны (например, есть данные о хорошей ретестовой надежности, обнаружены высокие корреляции полученных в измерениях показателей с ясными и надежными внешними критериями валидизации и т.д.), то оправданным будет использование стандартизированых единиц имеющее такое же или даже несколько большее число градаций.
^

4.2.4 Корреляционный анализ


Сущность корреляционного анализа

Корреляционный анализ дает возможность точной количественной оценки степени согласованности изменений (варьирования) двух и более признаков. Степень согласованности изменений характеризует теснота связи — абсолютная величина коэффициента корреляции. В случае прямо пропорциональной зависимости одного признака от другого коэффициент корреляции равен единице. Последний может принимать значения от -1 до +1. Отрицательный коэффициент корреляции свидетельствует о разной направленности варьирования признаков: при увеличении одного другой уменьшается, или наоборот: приуменьшении одного другой увеличивается. Нулевая величина коэффициента корреляции говорит об отсутствии взаимосвязи между признаками.

Например, если мы измерим на репрезентативной выборке два параметра — рост человека и вес его тела есть, а затем подсчитаем корреляцию между этими параметрами, то, вероятно, она окажется положительной. Она не может быть равна единице. Иначе это означало бы, что измерять у человека и рост, и вес излишне. Достаточно измерить что-нибудь одно. Далее с помощью простой формулы или таблицы пересчета мы всегда можем точно определить второй параметр. Мало вероятно, чтобы между этими параметрами не было бы никакой связи, то есть коэффициент корреляции был бы равен нулю. Ведь чем длиннее тело, тем больше его размеры и, следовательно, вес. Или, наоборот, зная вес человека, мы хотя и очень приблизительно, но можем назвать его рост.

Предположим, мы затруднимся назвать рост человека, зная его вес. Предположим далее, что нам облегчат задачу, и предъявят два ряда чисел — вес в килограммах и рост в сантиметрах. Попросят поставить в соответствие нескольким разным весам разные длины тела. Вряд ли мы будем долго сомневаться и, скорее всего самому тяжелому человеку припишем самый большой рост, человеку более легкому и рост поменьше и так до самого маленького веса. Этим ранжированием мы продемонстрируем, что у нас есть интуитивные представления о том, что эти две величины изменяются в той или иной мере согласованно, что между ними есть некоторая связь.

Если есть два ряда значений, то можно не только строить предположения о наличии или отсутствии связи между ними, но и подсчитать коэффициент корреляции. Он и покажет нам, насколько согласованы изменения двух параметров, как тесно они связаны, положительной или отрицательной связью.

Коэффициент корреляции ничего не сообщает о причинных связях. Человек высокий не потому, что он тяжелый и, наоборот, тяжелый не потому что высокий. Некорректно говорить о влиянии роста на вес или веса на рост. Один параметр не является причиной другого. И тот и другой, их проявленность, их величина причинно обусловлены наследственностью, индивидуальными характеристиками обменных процессов в организме, питанием, числом и спецификой перенесенных болезней, факторами среды, особенностями образа жизни и т.д.

Отображение результатов корреляционного анализа

Результаты вычисления корреляций для некоторого набора признаков записываются в виде матрицы. В каждой строке квадратной матрицы интеркорреляций представлены коэффициенты корреляции одного признака со всеми остальными в том порядке признаков, который был избран при составлении сводной таблицы данных. Прямоугольная матрица обычно содержит коэффициенты корреляции одной группы признаков с другой группой признаков из всей совокупности измеренных вами признаков. Строки и столбцы матрицы оцифрованы номерами признаков, в ячейках приведены коэффициенты корреляции одного признака с другим. Испытуемые и их порядковые номера из таблицы исходных данных (составленной вами для вычисления корреляций) в матрице интеркорреляций никак не представлены. Коэффициенты корреляции несут информацию только о тесноте связи между признаками и не дают никаких сведений ни об одном отдельном испытуемом.

Для эффективного использования вычисленных коэффициентов корреляции необходимо представить имеющуюся числовую информацию в подходящем виде. Прежде всего, надо выделить коэффициенты корреляции, величина которых превышает критические значения. В психологии чаще всего рассматривают два уровня достоверности 0.05 и 0.01. Критические значения коэффициента корреляции Пирсона приведены в приложении 3. Целесообразно выделить среди прочих коэффициенты корреляции, превышающие эти уровни достоверности. Можно подчеркнуть коэффициенты с достоверностью 0.05 одной чертой или отметить одной звездочкой, а с достоверностью 0.01 — двумя. Удобно использовать и цветовое кодирование.

Если после этого выделения обнаружилось, что значимых коэффициентов корреляции (превышающих уровень 0.05 или 0.01) довольно много, то для дальнейшего анализа более удобна полная матрица интеркорреляций. Поэтому, если в принтерной распечатке содержится только половина матрицы, отделенная от другой половины главной диагональю, то ее надо восстановить до полного вида.

Поскольку матрица интеркорреляций симметрична относительно своей главной диагонали (проходящей из левого верхнего угла в правый нижний), то ее при восстановлении надо "опрокинуть", повернуть относительно этой оси симметрии. Обычно в распечатке каждая строчка начинается с номера признака, затем идет 1.00 — это коэффициент корреляции данного признака с самим собой. Затем напечатан коэффициент корреляции данного признака со следующим по порядковому номеру и далее коэффициенты корреляции с остальными признаками.

Пример. Получена распечатка половины матрица интеркорреляций:

1

1.00

.58

.30

.41

.60

2

1.00

.43

.57

.65

.51

3

1.00

.39

.38

.40




4

1.00

.60

.36







5

1.00

.35










Примечание.Нули перед десятичной точкой опущены).

В этой матрице в первом столбце записаны номера признаков, во втором — коэффициенты корреляции признаков с собой. В остальной части поля матрицы коэффициенты корреляции признаков с другими признаками.

Используя полученные данные, заполним половину матрицы в более подходящем виде.




1

2

3

4

5

1

1.00

.58

.30

.41

.60

2




1.00

.43

.57

.65

3







1.00

.39

.38

4










1.00

.60

5













1.00

В этой матрице в первом столбце и в первой строке записаны номера признаков. Поскольку второй признак коррелирует с первым так же, как первый со вторым, а третий — с первым так же, как первый с третьим и т.д., то мы можем первую строку матрицы записать как первый ее столбец. Затем вторую строку — как второй столбец и т.д. В результате получим полную матрицу.




1

2

3

4

5

1

1.00

.58

.30

.41

.60

2

.58

1.00

.43

.57

.65

3

.30

.43

1.00

.39

.38

4

.41

.57

.39

1.00

.60

5

.60

.65

.38

.60

1.00

Если матрица большая, то даже выделение значимых коэффициентов не создает достаточной наглядности. Тогда к нижней части матрицы можно добавить еще несколько строк и записать в соответствующих клетках число значимых коэффициентов в данном столбце: значимых на уровне 0.05, значимых на уровне 0.01, суммарное число значимых коэффициентов. Это лучше позволит увидеть иерархию признаков по числу значимых корреляционных связей.

Вычисленные коэффициенты корреляции надо наглядно представить и описать в тексте: что с чем связано, какова направленность связи — положительная или отрицательная, уровень достоверности, теснота связи. Все множество корреляционных связей разделяют с опорой на содержательные критерия деления: например, в соответствии с задачами и подзадачами всего исследования или его фрагмента. Придерживаясь этих же критериев, организуют наглядное представление подмножеств корреляционных связей. Затем эти подмножества корреляционных связей последовательно описывают. Эти моменты освещены в главе «Описание и представление результатов исследования».
^

4.2.5. Факторный анализ


Назначение факторного анализа

Данные факторного анализа, как и корреляционного, помогают обнаружить взаимосвязи между переменными, но не могут дать достаточных оснований для выводов о причинно-следственных зависимостях, об иерархии причинных связей. Выделение факторов более высокого порядка и другие усложнения и модификации сути метода не меняют. Не случайно в различных факторных структурах личностных свойств устойчиво присутствуют именно стержневые психические качества, например, такие, как активность (энергия), тревожность, нейротизм.

Если психологу необходимо выяснить, что от чего зависит и в какой степени, то он вынужден использовать другие средства. Имеется в виду не поиск иных математических методов, а изменение принципа сбора эмпирических данных. Например, если мы изменим условия эксперимента так, что сохраним весь набор контролируемых переменных, но действие одной из них сделаем невозможным или исключим ее, то появятся основания считать, что произошедшие изменения вызваны отсутствием интересовавшей нас причины (некоторого знания, влиянием на субъекта со стороны другого лица и т.п.)

Какой бы понятийный аппарат психолог не использовал, в нем непременно заложен принцип причинности, он пронизывает любую концепцию. В этом — существенное расхождение понятийного описания психических явлений и факторного описания взаимосвязей между переменными. Никакая формализованная процедура не может заменить ум исследователя, его концептуальные представления и логику.

В факторном анализе предполагается, что наблюдаемые переменные являются линейной комбинацией некоторых латентных (гипотетических или ненаблюдаемых) факторов. Факторная модель основывается на том, что все наблюдаемые переменные являются функциями скрытых факторов: не предполагается включение в состав переменных таких, которые являются причинными для других. Но не обязательно, чтобы все переменные были на одном уровне причинности. При достаточном опыте и наличии дополнительной информации о структуре исследуемого явления результаты факторного анализа можно достаточно корректно интерпретировать.

Организация факторного анализа

Факторный анализ является сложной процедурой. Как правило, хорошее факторное решение (достаточно простое и содержательно интерпретируемое) удается получить, по меньшей мере, после нескольких циклов ее проведения — от отбора признаков до попытки интерпретации после вращения факторов. Для того чтобы придти к нему, надо соблюдать немало требований, назовем основные.

1) Переменные должны быть измерены, по крайней мере, на уровне шкалы интервалов (по классификации Стивенса). Многие переменные, такие, как меры отношений и мнений в социологии, различные переменные при обработке результатов тестирования, не имеют точно определенной метрической основы. Тем не менее, предполагается, что порядковым переменным можно давать числовые значения и включать в факторный анализ.

2) Не следует включать дихотомические переменные. Но если цель исследования состоит в нахождении кластерной структуры, использование факторного анализа к данным, содержащим дихотомические переменные, оправданно.

3) Отбирая переменные для факторного анализа, следует учесть, что на один искомый фактор должны приходиться не менее трех переменных.

4) Для хорошо обоснованного окончательного решения необходимо, чтобы число испытуемых было в три или более раз больше, чем число переменных, в совокупности которых определяется окончательное факторное решение. Впрочем, это требование не является общепринятым. Поскольку количество испытуемых увеличить труднее по ходу обработки, то следует отобрать столько переменных, чтобы их число не превышало одной трети от числа испытуемых.

Для разведочного компонентного или факторного анализа это требование соблюдать не обязательно, но надо помнить, что чем сильнее оно нарушено, тем менее точны результаты. Это означает, что, если вы проведете сбор данных на другой выборке, то получите новое факторное решение, которое лишь отчасти будет схоже с тем, которое получено на имеющейся выборке. Следовательно, делаемые вами выводы не носят общего характера, их нельзя распространять на другие случаи.

5) Не имеет смысла включать в факторный анализ переменные, которые имеют очень слабые связи с остальными переменными. С большой вероятностью они будут иметь малую общность и не войдут ни в один фактор. Если перед вами не стоит задача сформировать шкалу вопросника на основе факторного анализа или какая-либо аналогичная задача, то не следует также включать все переменные, имеющие друг с другом очень тесные связи. Скорее всего, они образуют один фактор. Чем больше таких переменных вы включаете в факторный анализ, тем больше вероятность того, что они образуют первый фактор и к нему присоединится большинство остальных переменных.

6) Устойчивость выявленной факторной структуры (ее неслучайность) тем меньше, чем больше составляющих ее факторов. Она также неустойчива при малом количестве испытуемых. В четвертом пункте обсуждалось достаточное количество испытуемых.

Определение количества факторов

Важнейшим моментом поиска хорошего факторного решения является определение числа факторов перед их вращением. В окончательном решении лучше всего основываться на содержательных предположениях о структуре изучаемого явления. На пути к нему можно использовать критерий Кеттела. Легче принять решение, если будет построен полигон, в котором отображены доли суммарной дисперсии факторов (они высчитываются каждой компьютерной программой факторного анализа) в порядке их убывания. Обычно на графическом изображении видно, что доля дисперсии у первых факторов при переходе от предыдущего к последующему быстро снижается, но затем линия имеет перелом; у остальных факторов доли суммарной дисперсии друг от друга отличаются мало. Согласно данному критерию, следует остановиться на том факторе, как на последнем, за которым линия становится более пологой.

При отборе переменных и сокращении их количества для следующего цикла факторного анализа быстрее можно отобрать переменные, если учитывать их факторные общности, а не нагрузки по отдельным факторам.

При интерпретации факторов можно начать работу с того, что выделить наибольшие факторные нагрузки в данном факторе. Для выделения можно использовать приемы аналогичные выделению значимых коэффициентов корреляции, т.е. оценивать факторные нагрузки, сравнивая их по величине с критическими значениями коэффициентов корреляции (см. приложение 3). Для подбора названий факторов нет формализованных приемов, здесь можно довериться интуиции. Если вы при этом испытываете затруднения, то используйте в качестве предварительного варианта имя переменной, которая вошла в фактор с наибольшей нагрузкой.


К словарю терминов


К словарю статистических терминов


К пятой части


На главную страницу

1 стенайн - шкала, в которой средняя равна пяти, а сигма - примерно двум. Название стенайн, т.е. стандартная девятка (сокращение от standard nine), связано с тем, что этот показатель принимает значения от 1 до 9. Использование однозначных чисел удобно при машинной и ручной обработке.





Скачать 393.25 Kb.
оставить комментарий
Дата03.10.2011
Размер393.25 Kb.
ТипДокументы, Образовательные материалы
Добавить документ в свой блог или на сайт

плохо
  1
Ваша оценка:
Разместите кнопку на своём сайте или блоге:
rudocs.exdat.com

Загрузка...
База данных защищена авторским правом ©exdat 2000-2017
При копировании материала укажите ссылку
обратиться к администрации
Анализ
Справочники
Сценарии
Рефераты
Курсовые работы
Авторефераты
Программы
Методички
Документы
Понятия

опубликовать
Загрузка...
Документы

Рейтинг@Mail.ru
наверх