Учебно-методический комплекс по дисциплине «современные средства оценивания результатов обучения» Cпециальность icon

Учебно-методический комплекс по дисциплине «современные средства оценивания результатов обучения» Cпециальность


2 чел. помогло.
Смотрите также:
Учебно-методический комплекс по дисциплине «современные средства оценивания результатов...
Учебно-методический комплекс опд ф. 09...
Учебно-методический комплекс опд. Ф...
Учебно-методический комплекс опд. Ф. 08...
Учебно-методический комплекс опд. Ф...
Методические рекомендации студенту по изучению дисциплины «современные средства оценивания...
Методические рекомендации студенту по изучению дисциплины «современные средства оценивания...
Рабочей программы учебной дисциплины в...
Учебно-методический комплекс дисциплины Бийск бпгу имени В. М. Шукшина...
Программа дисциплины «Современные средства оценивания результатов обучения» Специальность 050706...
Рабочая программа учебная дисциплина Современные средства оценивания результатов обучения...
Программа зачета по дисциплине «Современные средства оценивания результатов обучения»...



Загрузка...
страницы: 1   2   3   4   5   6   7   8   9   10
вернуться в начало
скачать
^

Лекция 8 СОВРЕМЕННАЯ ТЕОРИЯ КОНСТРУИРОВАНИЯ ТЕСТОВ


«Под современной теорией понимается существующая на Западе теория параметрического оценивания (полностью Теория характеристических кривых, иллюстрирующих ответы испытуемых на задания теста) - Item Response Theory (IRT), предназначенная для оценки латентных (скрытых от непосредственного наблюдения) параметров испытуемых и заданий теста посредством применения математико-статистических моделей измерения». IRT является частью более общей теории латентно-структурного анализа (LSA). Для обозначения современной теории тестов используют и другие названия - модель истинных баллов (Thrue-score models - TSM), модель скрытых качеств (Latent Trait Models - LTM).

Необходимость разработки и использования современной теории тестов определяются рядом недостатков классической теории тестов.

^ Недостатки классической теории тестов.

  1. Статичность подхода, ориентация на конечный результат без анализа природы этого результата снижает возможность прогноза.

  2. Технологические недостатки.

А) Зависимость оценок уровня подготовленности от трудности заданий теста.

Б) Зависимость оценок трудности заданий от подготовленности группы.

В) Зависимость оценок валидности заданий (дискриминативность заданий) от степени однородности группы (от выборки - однородная группа или нет по уровню подготовленности).

По классической теории тестов валидность заданий определяется только на группу определенной подготовки.

Г) Невозможность выравнивания вариантов по сложности.

Д) Классическая теория тестов не оценивает процесса взаимодействия множества заданий и множества испытуемых, что приводит к невозможности проанализировать качество полученных результатов (например, какая ошибка измерения - грубая (закономерная) или негрубая (случайная)), а также причину возникновения ошибок и меру их правдоподобности.

Е) Дисперсия ошибок измерения одинакова для всех испытуемых.

Если смотреть на график нормального распределения, то достоверные результаты характерны для средней части графика, по краям, где зафиксированы слабые и сильные результаты, ошибка измерения возрастает. В классической теории тестов это не учитывается.

Ж) Отсутствие интервальной шкалы.

В классической теории тестов используется только порядковая шкала и невозможна шкала интервальная. Поэтому разность баллов испытуемых не интерпретируется (не знаем насколько лучше или хуже).

Современной теории тестов удалось решить эти проблемы. Среди основных преимуществ IRT следующие:

  1. Устойчивость и объективность оценок параметра, характеризующего уровень подготовки испытуемых. Источником его является относительная инвариантность (т.е. неизменность, независимость) оценок параметра испытуемых от трудности заданий теста.

  2. Устойчивость и объективность оценок параметра трудности заданий, их независимость от свойств выборки испытуемых, выполняющих тест.

  3. Возможность измерения значений параметров испытуемых и заданий теста в одной и той же шкале, имеющей свойства интервальной. Это очень важное преимущество, которое позволяет соотнести уровень знаний испытуемого с мерой трудности каждого задания в одних единицах измерения.

Единая шкала приобретает особую важность в связи с развитием адаптивного тестирования, где единая шкала положена в основу организации современного адаптивного автоматизированного контроля знаний.

В тестологии существует два подхода к выбору и использованию статистических методов при обработке эмпирических результатов.

  1. Результаты, полученные в процессе тестирования, определяют выбор модели обработки эмпирических данных. (Идея Торндайка). Именно эта логика присутствует в классической теории тестов.

  2. Математическая модель для обработки требует результатов определенного качества, соответственно эмпирические результаты требуют обработки, чистки. (Идея Тернстоуна). Данная логика лежит в основе IRT.

В основе IRT лежит ряд предположений.

Основное предположение – существование некоторой взаимосвязи между наблюдаемыми результатами тестирования и латентными качествами испытуемых. Обычно эти латентные качества трактуются как способности или как уровни достижений по предмету.

Существует также предположение о характере измеряемых параметров испытуемых и заданий теста. В отличие от классической теории, где индивидуальный балл тестируемого рассматривается как постоянное число, в IRT латентный параметр рассматривается как некоторая переменная. Начальное значение параметра получается непосредственно из эмпирических данных тестирования. Переменный характер измеряемой величины указывает на возможность последовательного приближения к объективным оценкам параметра с помощью итерационных методов (т.е. многократного повторения набора действий, в которых в качестве исходного значения берется значение искомой переменной, полученное на предыдущем этапе).

Таким образом, основная суть IRT – переход от наблюдаемых характеристик к скрытым (латентным) путем ряда преобразований. Если воспользоваться терминами классической теории тестов, то это переход от наблюдаемых баллов к истинным.

Современная теория тестов имеет ряд ограничений в применении. Прежде всего, она не работает на маленьких выборках (для IRT выборка должна быть не менее 1000 человек). IRT не будет работать на результатах «сырых» тестов, так как в основе ее применения лежат абсолютные математические модели. Современная теория применима для работы на репрезентативных (представительных) выборках и на калиброванных (имеющих выверенные характеристики) заданиях. Одно из важных условий – распределение результатов по нормальному закону.

Можно сделать вывод, что современная теория тестов не отрицает классическую, а развивает ее. Один из продуктивных подходов в тестологии основан на взаимодействии этих теорий. Такое взаимодействие означает, что разработку теста следует разбить на два этапа. На первом этапе создания теста из набора предтестовых заданий эмпирические данные лучше обрабатывать с помощью математико-статистического аппарата классической теории тестов. На втором этапе, в процессе углубленного анализа качества заданий, для объективной оценки их параметров необходимо привлекать аппарат IRT.

Возникает два вопроса (проблемы). Во-первых, как ввести взаимодействие (соотношение) двух параметров: уровень подготовленности испытуемых и трудность задания, и, во-вторых, как выбрать математические модели для описания рассматриваемой связи между латентными переменными и наблюдаемыми результатами выполнения теста.

1. Соотношение двух параметров (-уровень подготовленности и -трудность задания) датский математик Г.Раш предложил ввести в виде разности, исходя из предположения, что эти параметры оцениваются в одной и той же шкале, единицей измерения которой является логит. Абсолютная величина разности - это расстояние, на котором находится испытуемый с уровнем подготовки, от задания с трудностью.

При




П



ри




П

ри




Если отрицательная разность велика по модулю, то это значит, что уровень подготовки намного ниже трудности задания (такое задание не имеет смысла использовать для измерения уровня подготовленности такого испытуемого, так как с очень большой вероятностью он сделает его неверно). Большие положительные значения разности также говорят о несоответствии уровня подготовленности и трудности задания, но в другую сторону, и соответственно такое задание тоже нельзя использовать для процесса контроля или обучения.

  1. Исходя из основного предположения IRT, можно утверждать, что есть некоторая математическая модель взаимосвязи между эмпирическими результатами тестирования и значениями латентных переменных и .

IRT позволяет определить вероятность правильного ответа на задание теста, которая выражается как функция одной переменной.

Можно рассматривать условную вероятность правильного выполнения i-тым испытуемым с уровнем подготовки различных по трудности заданий теста, считая параметром i-того ученика, а - независимой переменной.



Аналогично вводится условная вероятность правильного выполнения j-того задания трудностью различными испытуемыми группы. Теперь независимой переменной является , а - параметр, определяющий трудность j-того задания.



где xij=1, если ответ i-ого испытуемого на j-е задание верный;

xij=0, если ответ i-ого испытуемого на j-е задание неверный.

Каждую функцию можно проиллюстрировать с помощью графика.

График функции Pj - это характеристическая кривая j-того задания







По графику можно определить свойства функции:

  1. Функция положительная, возрастающая.

Это свойство функции легко интерпретируется и согласуется с педагогической практикой. Естественно ожидать, что чем больше уровень подготовки испытуемого, тем больше вероятность правильного выполнения им задания теста.

  1. В точке перегиба, а Pj в этой точке равно 0,5.

Таким образом, испытуемый с уровнем подготовки, равным трудности задания теста, ответит на него правильно с вероятностью 0,5. Для испытуемых с уровнем знаний намного большими , вероятность правильного ответа стремится к 1. Если же расположено достаточно далеко от значения и слева от точки перегиба кривой, то вероятность правильного выполнения задания теста стремится к нулю.

По-другому функцию вероятности правильного ответа на j-тое задание можно записать

, е = 2,8


График функции Pi - индивидуальная кривая i-того испытуемого


Функция Pi является убывающей функцией переменной . Это означает, что с ростом трудности заданий значения вероятности правильного выполнения задания будут уменьшаться. В процессе обучения по мере накопления знаний индивидуальная кривая испытуемого смещается вправо.

Другая запись функции



Эти кривые имеют прогностические возможности. Предложив выполнить экспресс-тест испытуемому, можно прогнозировать результат выполнения полного теста.


^ Математические модели современной теории тестов.

Однопараметрическая модель Г.Раша.

Однопараметрическая модель, которая часто называется простой логистической моделью, является одной из семейства логистических кривых, описанных Г.Рашем. Аналитическое задание однопараметрической модели представлено формулами






В качестве параметра выбирается уровень подготовленности или трудность задания . Графики кривых и их свойства рассматривались выше.

Двухпараметрическая модель А.Бирнбаума.

В функцию вероятности А.Бирнбаум предложил ввести второй параметр (ai и aj ) - дискриминативность, т.е. дифференцирующую способность.

Формулы двухпараметрических функций:

- вероятность правильного выполнения j-того задания;

- вероятность правильного выполнения i-тым испытуемым.

При графической интерпретации первый параметр рассматривается как характеристика положения кривой j-того задания относительно оси . Второй параметр аj связан с крутизной кривой задания в точке перегиба. Чем выше дифференцирующая способность задания, тем круче кривая.




На графике характеристические кривые трех заданий одинаковой трудности, но разной крутизны. Если сравнить 1 и 3 графики, то можно сделать вывод, что задание 1 (1 график) обладает высокой дифференцирующей способностью, т.е. сильные испытуемые выполняют задание правильно с высокой вероятность, а слабые - с малой. Задание 3 (график 3) плохо различает слабых и сильных учащихся, т.е. это задание выполняется примерно с одинаковой вероятностью и слабыми, и сильными.

Такие задания как 3 оказываются бесполезными при дифференциации группы испытуемых по оцениваемому параметру, так как они не несут информации об индивидуальных различиях тестируемых. Еще более бесполезны задания с отрицательным значением (аj), так как на них отвечают правильно с большой вероятностью испытуемые с низким уровнем подготовки, а для знающих учеников с большими значениями вероятность правильного ответа стремится к нулю. Число заданий в тесте должно сокращаться в первую очередь за счет устранения таких неудачных заданий. Как правило, такое сокращение приводит к повышению надежности и валидности. Отбор заданий с большими значениями а является одним из важных принципов при конструировании нормативно-ориентированного теста. Минимализация длины теста за счет удаления части лишних заданий одинаковой трудности строится на сравнительном анализе крутизны характеристических кривых с одинаковой точкой перегиба.

Формула оценки параметра дифференцирующей способности:



На практике рекомендуется оставлять задания со значениями (аj) в интервале от 0,5 до 2,5. Значение аj=1 соответствует однопараметрической модели Г.Раша.


Параметр аi в функции вероятности правильного выполнения i-тым испытуемым говорит о структуре знаний испытуемых.


Параметр аi можно трактовать только по отношению к содержательно однородным совокупностям заданий, выстроенных по нарастанию трудности и обеспечивающих эффект воспроизводимости правильных ответов на более легкие задания по результатам ответов на более трудные. (если выполнено 5 задание, то по этой логике должно быть выполнено 1, 2, 3, 4 ).

Трехпараметрическая модель А.Бирнбаума.

При анализе результатов выполнения теста с закрытыми заданиями исследователями было отмечено существенное отклонение эмпирических данных от характеристических кривых заданий теста. Эффект отклонения оказался наиболее характерным для ответов испытуемых с низкими значениями на самые трудные задания теста. Попытки выяснить причины такого отклонения привели Ф.Лорда, А.Бирнбаума и других создателей теории IRT к выводу о влиянии эффекта угадывания правильного ответа на достоверность эмпирических результатов выполнения теста. Для того чтобы учесть фактор угадывания, А.Бирнбаум предложил трехпараматрическую логистическую модель.



В формулу вводится третий параметр - сj (вероятность правильного ответа испытуемым на j-тое задание теста при полном отсутствии знаний у тестируемых ().

Если вероятность угадывания стремится к 0, то модель двухпараметрическая.

Величина параметра (с) определяется количеством ответов к закрытым заданиям теста. Например, для задания с пятью ответами по классическому определению вероятности с = 0,2, при четырех предложенных ответах с=0,25.

Характеристическая кривая задания теста в случае трехпараметрической модели:


Наличие третьего параметра превращает характеристическую кривую в более пологую, т.е. введение в формулу функции величины эффекта угадывания снижает величину дифференцирующей способности задания.

Применение трехпараметрической модели значительно осложняет анализ и обработку статистических данных в процессе конструирования теста.

^ Расчет оценок параметра испытуемых и трудности заданий теста.

Для построения характеристических кривых заданий и индивидуальных кривых испытуемых необходимо знать значения параметров тета и бета. Оценка параметров проводится в предположении нормальности распределений эмпирических данных тестирования по множеству как испытуемых, так и заданий теста. Нормально распределенными считаются и значения латентных переменных.

Алгоритм расчета параметров бета и тета для однопараметрической модели.

  1. Подсчет долей правильных и неправильных ответов каждого испытуемого на все задания теста.

Доля правильных ответов pi = Xi / n, где n -число заданий теста.

Доля неправильных ответов qi = 1 - pi

  1. Производится предварительная оценка значений параметра, характеризующего уровень подготовки учеников.

Начальное значение параметра измеряется в логитах (логит - это единица измерения шкалы, на которой находятся и ) и находится по формуле:



^ Начальные значения логитов уровня подготовки испытуемых


i

x

Доля правильных ответов i-го испытуемого pi

Доля неправильных ответов i-го испытуемого qi

Начальные оценки уровня подготовки в логитах

1

6

0,6

0,4

0,4055

2

2

0,2

0,8

-1,3863

3

1

0,1

0,9

-2,1972

4

9

0,9

0,1

2,1972

5

4

0,4

0,6

-0,4055

6

4

0,4

0,6

-0,4055

7

5

0,5

0,5

0,0000

8

4

0,4

0,6

-0,4055

9

9

0,9

0,1

2,1972

10

6

0,6

0,4

0,4055



3. Доля правильных (pj) и неправильных (qj) ответов на каждое задание теста.

Pj = Rj/N, qj = 1 - pj, где Rj - количество правильных ответов на j-е задание теста, N - число испытуемых.

  1. Начальная оценка параметра трудности задания находится по формуле



^ Начальные значения логитов трудности заданий


i

Rj

Доля правильных ответов на j-ое задание

Доля неправильных ответов на j-ое задание

Начальные оценки трудности заданий в логитах

1

9

0,9

0,1

-2,1072

2

8

0,8

0,2

-1,3863

3

7

0,7

0,3

-0,8473

4

6

0,6

0,4

-0,4055

5

5

0,5

0,5

0,0000

6

5

0,5

0,5

0,0000

8

4

0,4

0,6

0,4055

7

3

0,3

0,7

0,8473

9

2

0,2

0,8

1,3863

10

1

0,1

0,9

2,1972


Теоретически начальные значения параметров и могут меняться в интервале от минус бесконечности до плюс бесконечности. Но практически при <-5 значения вероятности (Р) близки к 0. Когда >5, тогда вероятность очень близка к 1. Практически на шкале логитов используется интервал от -3 до 3 (-4 до 4).

5.Подсчитываются средние значения логитов уровня подготовленности и логитов трудности заданий теста.




  1. После завершения пятого этапа оценки каждого из параметров тета и бета выражены в интервальной шкале, но с разными значениями средних и разными стандартными отклонениями. Далее начальные значения логитов уровней подготовленности трудности заданий теста переводятся в единую шкалу интервальных оценок. Стандартизация достигается с помощью ряда специальных преобразований, для осуществления которых вычисляются:

  • дисперсия по множеству значений



  • дисперсия по множеству



  • поправочные коэффициенты



Оценки параметров и в единой интервальной шкале находятся по



Две последние формулы очень важны, так как позволяют преодолеть ряд существенных недостатков классической теории тестов, с их помощью можно получить объективные оценки параметров испытуемых и заданий, не зависящие друг от друга и выраженные в единой интервальной шкале.

  1. Оценивается стандартная ошибка измерения Se от , которая вычисляется для каждого значения .



  1. Стандартная ошибка измерения Se от , которая вычисляется для каждого значения .



После подсчета значений параметров и в шкале логитов приступают к построению характеристических кривых заданий теста. Анализ их взаимного расположения позволяет наметить пути дальнейшего совершенствования теста и сформировать систему заданий, наиболее эффективных для уровня подготовки каждого испытуемого выборки.

Процесс совершенствования теста начинается с удаления лишних заданий, нарушающих нормальный характер распределения значений бета. Далее разработчику необходимо обратить внимание на случаи наложения характеристических кривых и избавиться от лишних заданий, которые ничего не дают для теста как совокупности работающих заданий возрастающей трудности.

Следующий важный шаг при коррекции теста связан с выделением «пустых» интервалов оси , где нет характеристических кривых. В тест необходимо добавить задания, соответствующие по трудности выделенным интервалам на оси латентной переменной . В идеале характеристические кривые должны заполнять более менее равномерно практически весь интервал (- 5; 5 ) шкалы логитов. Причем заданий средней трудности должно быть намного больше, чем на краях распределения.

Для более обоснованного решения включения или удаления предтестовых заданий необходим дополнительный анализ тестируемого контингента. Если группа гомогенна (однородна) по уровню подготовки и большинство значений расположено на небольшом интервале оси латентной переменной, то основную часть заданий следует сгруппировать на этом интервале, расположив характеристические кривые достаточно плотно. В случае гетерогенной (разнородной) по подготовке выборки испытуемых значения параметра трудности должны охватывать больший интервал на оси , а характеристические кривые заданий могут быть расположены довольно далеко друг от друга.

Пример шкалы логитов:

В данном примере для испытуемого с уровнем подготовленности в пределах –4 логитов мало заданий с подходящей трудностью, аналогичная ситуация для испытуемого с уровнем подготовленности в пределах 4 логитов. По такой шкале делают выводы о пригодности данного теста для данной выборки испытуемых.





Лекция 9

^ СТАНДАРТИЗАЦИЯ ТЕСТА И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ ТЕСТИРОВАНИЯ. ЕГЭ И КАЧЕСТВО ОБРАЗОВАНИЯ


Идея педагогической оценки эффективности и качества образования возникла давно, но в нашей стране не всеми педагогами оценивается положительно. Многие преподаватели, особенно гуманитарных дисциплин, оценку знаний считают невозможным. Но потребность в точных оценках уровня подготовленности учащихся возникает все больше. Поэтому внедрение педагогических тестов в практику контроля знаний рассматривается как перспективное направление.

В основе перехода к идее тестовой оценки лежит условное, но необходимое предположение о непрерывном характере распределения баллов, полученных в результате тестирования репрезентативной выборки испытуемых.

^ Педагогическая оценка - это процесс установления соответствия между характеристиками обучаемых и точками эмпирической шкалы, в которой отношения между различными оценками характеристик выражены свойствами числового ряда.

При педагогической оценке в качестве характеристик обучаемых обычно выступают знания и умения, освоенные учениками на момент выполнения теста. Роль единицы оценки играют тестовые задания, объектом оценки являются сами ученики, а результатом - шкала баллов тестируемых учеников. Количество правильно выполненных заданий основания для присвоения испытуемому определенного места на шкале.

^ Сдантартизация теста.

Эффективность теста как инструмента зависит не только от качества самого теста, но от того, выполняются ли одно из принципиальных требований в тестологии - требования стандартизации.

^ Стандартизация - комплекс процедур, позволяющий создать для всех испытуемых равные условия.

Стандартизация включает ряд требований по организации тестирования:

  • ни одному испытуемому не дается никаких преимуществ перед другими;

  • группа тестируемых выравнена по мотивации;

  • тестирование различных групп испытуемых занимает одинаковое время и проводится в равных условиях;

  • содержание теста должно соответствовать требованиям стандартов образования;

  • все испытуемые выполняют одни и те же задания (подобные, параллельные формы заданий);

  • в тест включены задания одной формы либо разных форм с соответствующими весовыми коэффициентами, значения которых получены статистическим путем;

  • заранее разработанная система подсчета баллов применяется ко всем ответам испытуемых без исключения.

Чтобы соблюдались условия стандартизации, тест сопровождается руководством, в котором заключена следующая информация для пользователя:

  1. назначение и содержание;

  2. показания для применения и ограничения;

  3. состав теста;

  4. информация об апробации теста (цели апробации, объем и состав выборки, основные статистические характеристики);

  5. инструкция по процедуре проведения тестирования;

  6. ключи;

  7. данные о трудности и дискриминативности заданий;

  8. данные о надежности и валидности теста;

  9. другие статистические материалы;

  10. правила (инструкция) для обработки данных;

  11. устройство шкалы;

  12. правила и особенности интерпретации результатов.

При обеспечении равных условий тестирования большую роль играют те части руководства, которые содержат инструкции, регламентирующие поведение тех, кто проводит тестирование, самих испытуемых и тех, кто проверяет тестовые работы.

Инструкция для проводящего (ведущего) тестирование включает: условия проведение теста (где, в каком помещении, требования к помещению др.), время выполнения теста, материалы для проведения теста (бланки, ручки или карандаши, черновики и др.), поведение ведущего во время тестирования (что он обязан, что он может и что ему запрещено делать), необходимая квалификация лиц, которые проводят тестирование и др.


Инструкция для ведущего и испытуемого входят в состав всех стандартизированных тестов и определяют его объективный характер. Инструкция для ведущего приводится, как правило, в руководстве к тесту, а инструкция для испытуемого - прилагается к пакету тестовых материалов.

Инструкция для испытуемого включает: правила заполнения бланков ответов; образцы исправления неверно выполненного задания. Кроме того инструкция может содержать правила поведения учащегося и санкции за нарушение этих правил.

Проверка тестовых работ также регламентирована. Проверяющим даются эталоны правильных ответов и сдандартизированные критерии оценок.

Важным моментом в стандартизации теста является определение нормы, так как адекватность результатов выполнения теста достигается путем сопоставления первичного индивидуального балла с определенными нормами выполнения теста.

Нормы - это множество показателей, которые устанавливаются эмпирически, сообразно тому, как выполняет задания теста некоторая четко определенная выборка испытуемых. Наиболее распространенными нормами являются среднее арифметическое и стандартное отклонение по множеству индивидуальных баллов выборки стандартизации. Соотнесение первичного результата испытуемого с нормами выполнения позволяет установить место испытуемого в выборке, использованной для стандартизации теста. При таком сопоставлении можно установить, соответствует ли данный результат среднему или насколько он выше или ниже среднего результата выполнения теста. Разработка и процедуры получения этих показателей составляют процесс стандартизации теста.

Нормы должны отвечать ряду требований. Норма должна быть:

  • дифференцированной - ученики, работающие по разным программам, должны сравниваться исходя их разных норм. Например, нельзя установить одинаковые нормы выполнения теста по математике для учеников обычной школы и школы с углубленным изучением математики, так как норма должна отражать специфику программы подготовки учеников;

  • соответственной, т.е. отражающей реальный контингент и реальные требования, вытекающие из современной ситуации в образовании;

  • репрезентативной - полученной по результатам тестирования репрезентативной выборки, обеспечивающей несмещенные нормативные оценки.

Норма - относительное понятие, тесно связанное с качеством выборки, использованной для стандартизации. Поэтому при стандартизации теста особое внимание обращают на формирование выборки. Выборка должна точно отражать категорию (или несколько категорий лиц), для которых предназначен тест, а также быть большой и достаточно сбалансированной для обеспечения столь малой погрешности измерений, чтобы ею можно было пренебречь в процессе стандартизации теста.


^ ЕГЭ И КАЧЕСТВО ОБРАЗОВАНИЯ

С 2001 года в нашей стране идет эксперимент по введению единого государственного экзамена (ЕГЭ) для выпускников школ и поступающих в высшие учебные заведения. Почему возникла необходимость использования ЕГЭ как итоговой аттестации учащихся? В результате реформ конца 80-90-х годов российское образование перестало носить унифицированный характер и перешло к использованию вариативных программ, учебников и пособий, что, с одной стороны, увеличило возможности системы образования: реализация идей развивающего обучения, профессиональной ориентации, возможности индивидуального подхода, но, с другой стороны, усложнило контроль за качеством получаемого образования. «В условиях резко возросшего разнообразия средств, методов и содержания обучения школьников со всей остротой встала задача обеспечения единого уровня и содержания базового ядра общего и среднего образования для всех выпускников школ». ЕГЭ может стать эффективным надежным и объективным средством контроля за качеством знаний и умений учащихся, в случае успешного завершения эксперимента. Таким образом, в данный момент ЕГЭ рассматривается как одно из средств модернизации современного образования в России.

^ Задачи единого экзамена.

  • расширение доступности высшего образования благодаря введению однотипных экзаменов для всех выпускников общеобразовательных школ и их параллельного участия в заочном конкурсном отборе сразу в несколько вузов;

  • совершенствование системы и практики финансирования высших учебных заведений на основе рыночной состязательности между ними за прием лучших студентов;

  • снижение психологической нагрузки на выпускников общеобразовательных учреждений за счет упразднения приемных экзаменов в вузы;

  • объективизация и унификация требований к общеобразовательной подготовке поступающих в вузы;

  • стимулирование деятельности педагогических коллективов общеобразовательных учреждений по улучшению качества учебного процесса за счет объективной и независимой сравнительной оценки результатов общеобразовательной подготовки выпускников школ.

^ Преимущества ЕГЭ перед другими формами контроля.

  1. Объективность.

Использование ЕГЭ в качестве выпускного экзамена в средней школе и его результатов для поступления в высшие учебные заведения имеет ряд преимуществ перед традиционными устными и письменными экзаменами. Прежде всего это объективность оценивания. В системе ЕГЭ отсутствует преподаватель, который проверяет знания выпускника, т.е. исключается субъективный момент (неприязнь к учащемуся, заинтересованность в хороших показателях, плохое настроение, самочувствие преподавателя и др.) при выставлении оценки. Благодаря стандартизации - единой форме предъявления КИМов и единого метода обработки полученных результатов - достигается высокий уровень объективности оценивания учебных достижений выпускников.

  1. Надежность.

Разработка тестов и анализ результатов тестирования в соответствии с принципами классической или современной теориями тестов позволяют обеспечить точность и надежность оценивания уровня учебных достижений. Чтобы это преимущество ЕГЭ могло быть реализовано, КИМы должны включать тестовые задания, которые прошли экспертную оценку и были апробированы на репрезентативной выборке испытуемых.

3. Достоверность.

Тестовые технологии могут обеспечить достоверные результаты, свободные от фальсификации и искажения. Нельзя не согласиться, что «без обеспечения высокой достоверности единого экзамена, без гарантий его информационной безопасности невозможно завоевать доверие к результатам ЕГЭ, что, безусловно, резко снизит эффективность этого нововведения»

Выделяют ряд возможностей, которые могут способствовать снижению достоверности. Это рассекречивание, подставка, подсказка, подтасовка.

Чтобы не произошло рассекречивания КИМов, существует система информационной безопасности, которая защищает тестовые материалы от преждевременного доступа.

Один из возможных способов защиты - это создание большого банка калиброванных тестовых заданий и обеспечение свободного доступа к этому банку (например, через интернет или печатные издания). Знакомство учащихся с множеством заданий банка позволит им лучше подготовиться к сдаче теста. Для самого экзамена формируются многочисленные варианты теста в компьютерном режиме из существующего банка заданий (калиброванных) индивидуально для каждого испытуемого.

^ Структура КИМов ЕГЭ.

«КИМы - это стандартизированная экзаменационная работа, создаваемая в соответствии с требованиями теории педагогических измерений, позволяющая с достаточной объективностью и надежностью провести независимую государственную аттестацию выпускников общеобразовательных учреждений и отбор абитуриентов вузов».

При составлении КИМов определялось эффективное соотношение использования различных форм заданий в тесте для итоговой аттестации выпускников. При этом учитывался многолетний опыт зарубежных коллег. В США сформировалась традиция применения тестов, состоящих из заданий закрытого типа, т.е. заданий с выбором правильного ответа (так устроен, например, самый популярный тест академических способностей SAT). Но задания этого типа не могут оценивать способности учащегося рассуждать и анализировать, делать самостоятельные выводы, создавать письменный текст, высказывать собственное мнение и т.д. Включение в КИМы заданий только закрытого типа было бы недостаточным, так как снижало бы возможности контроля знаний выпускников. Для тестологической практики Великобритании характерно использование как закрытых, так и открытых заданий. Так, в тестах на получение общего сертификата о среднем образовании (general certificate of secondary education - GCSE), которые разрабатываются Кембриджским экзаменационным синдикатом, доля открытых заданий выше, чем доля заданий с выбором правильного ответа.

Чтобы обеспечить эффективный контроль знаний и умений выпускников отечественной школы, было решено включить в КИМы различные формы заданий: задания с выбором правильного ответа, задания на дополнение и задания со свободным развернутым ответом (ответ в виде эссе, рецензии, анализа текста).

КИМы по различным предметам включают три части - А, В, С. Каждая часть состоит из заданий, сгруппированных по форме. Общее количество заданий колеблется от 25 до 70.

Часть А предлагает задания с выбором ответа (задания закрытого типа). Эти задания достаточно легкие и направлены на проверку знаний фактического материала, правил, формул, определений и др. Доля таких заданий в зависимости от предмета колеблется. Они могут преобладать в количественном отношении над другими видами заданий, но весовой коэффициент таких заданий меньше, т.е. в суммарном взвешенном балле за решение одного задания типа А дается меньше очков, чем за решение заданий другого типа.

Часть В состоит из заданий открытого типа - из заданий на дополнение в виде числа или одного слова. В этих заданиях испытуемый сам конструирует правильный ответ, в отличие от заданий закрытого типа, где ответ уже дан и надо только определить правильный. Как правило эти задания сложнее, чем задания части А, поэтому их весовой коэффициент выше.

Задания частей А и В сконструированы таким образом, чтобы проверка проходила в компьютерном режиме.

В части С дается задание, которое предполагает свободный развернутый ответ. Это может быть полное решение математической задачи или написание текста. Задания части С проверяют умения выпускников размышлять, рассуждать на заданную тему, формулировать и грамотно выражать свои мысли письменно. Это часть теста проверяется независимыми экспертами. Это требует дополнительных материальных расходов и, в какой-то степени, дает возможность повлиять на выставление баллов по части С, но, тем не менее, включение этой части в КИМ увеличивает возможность проверки широкого спектра знаний и умений выпускников.


Приложения


Приложение 1

^ Единый государственный экзамен по АНГЛИЙСКОМУ ЯЗЫКУ

Кодификатор элементов содержания по английскому языку

для составления контрольных измерительных материалов

единого государственного экзамена 2008 г.

подготовлен Федеральным государственным научным учреждением

^ «ФЕДЕРАЛЬНЫЙ ИНСТИТУТ ПЕДАГОГИЧЕСКИХ ИЗМЕРЕНИЙ»


Кодификатор элементов содержания по английскому языку

для составления контрольных измерительных материалов единого государственного экзамена 2008 г.

Кодификатор составлен на базе обязательного минимума содержания основного общего и среднего (полного) образования по иностранным языкам (приложения к Приказам Минобразования России № 1236 от 19.05.1998 г., № 56 от 30.06.1999 г.).

Во втором столбце указывается код элемента содержания, для которого создаются проверочные задания. Жирным курсивом указаны крупные блоки содержания, которые ниже разбиты на более мелкие элементы.

^ АНГЛИЙСКИЙ ЯЗЫК

Код

блока

Код

контроли-руемого элемента

Элементы содержания, проверяемые заданиями КИМ

1

^ Говорение на темы А-У (См. Примечание)

1.1

Диалогическая речь

1.1.1

Диалог этикетного характера (участвовать в беседе в известных ситуациях официального общения).

1.1.2

Диалог – расспрос (осуществлять запрос информации, обращаться за разъяснениями).

1.1.3

Диалог – побуждение к действию (выражать конкретные предложения в соответствии с ситуацией и темой общения, а также побуждать собеседника к высказыванию своих предложений по обсуждаемой теме / проблеме).

1.1.4

Диалог – обмен мнениями, сообщениями (выражать свое отношение к высказываниям партнера, свое мнение по обсуждаемой теме, обращаться за разъяснениями в случае необходимости).

1.1.5

Комбинированный диалог (сочетание разных типов диалогов) на основе тематики учебного общения, в ситуациях официального и неофициального повседневного общения.

1.2

Монологическая речь

1.2.1

Продуцирование связанных высказываний с использованием основных коммуникативных типов речи (описание, повествование, рассуждение, характеристика).

1.2.2

Передача основного содержания прочитанного / увиден-ного с выражением своего отношения, оценки, аргументации.




1.2.3

Самостоятельное высказывание в связи с прочитанным текстом, полученными результатами проектной работы.

1.2.4

Рассуждение о фактах / событиях, особенностях культуры своей страны и стран изучаемого языка.

2

Чтение

2.1

С пониманием основного содержания информационных и несложных научно-познавательных текстов, отрывков художественной прозы.

2.2

С полным и точным пониманием информации информационных, публицистических, художественных текстов.

2.3

С целью выборочного понимания необходимой / запра-шиваемой информации информационных, прагматических, публицистических, научно-познавательных, текстов.

2.4

Понимание структурно-смысловых связей текста.

3

Аудирование (длительность звучания одного текста до 3-4 минут)

3.1

Понимание на слух основного содержания несложных звучащих текстов монологического и диалогического характера в рамках изучаемых тем (прогноз погоды, объявления, программы теле-, радиопередач, интервью, репортажи, фрагменты радиопередач).

3.2

Выборочное понимание на слух необходимой информации в объявлениях, информационной рекламе, значимой / запрашиваемой информации из несложных аудио- и видеотекстов.

3.3

Относительно полное понимание текстов монологического и диалогического характера в наиболее типичных ситуациях повседневного и элементарного профессионального общения.

4

Письмо

4.1

Автобиография / резюме.

4.2

Заполнение анкеты, бланков, формуляра.

4.3

Написание личного письма с употреблением формул речевого этикета, принятых в стране изучаемого языка, с изложением новостей, рассказом об отдельных фактах и событиях своей жизни, с выражением своих суждений и чувств, описанием планов на будущее и расспросе об аналогичной информации партнера по письменному общению.

4.4

Написание делового письма с употреблением формул речевого этикета, принятых в стране изучаемого языка в соответствии со спецификой / с типом письменного




оставить комментарий
страница7/10
к.п.н. Н.Н
Дата09.10.2011
Размер3,1 Mb.
ТипУчебно-методический комплекс, Образовательные материалы
Добавить документ в свой блог или на сайт

страницы: 1   2   3   4   5   6   7   8   9   10
хорошо
  1
отлично
  1
Ваша оценка:
Разместите кнопку на своём сайте или блоге:
rudocs.exdat.com

Загрузка...
База данных защищена авторским правом ©exdat 2000-2017
При копировании материала укажите ссылку
обратиться к администрации
Анализ
Справочники
Сценарии
Рефераты
Курсовые работы
Авторефераты
Программы
Методички
Документы
Понятия

опубликовать
Загрузка...
Документы

наверх